大数据之HDFS

一、HDFS介绍

​ Hadoop Distributed File System ,简称HDFS,⼀个⾼可靠、⾼吞吐量的分布式⽂件系统。以数据块的形式,存储大量数据(GB级到TB级甚至PB级),提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。是Hadoop体系中数据存储管理的基础。

分而治之思想,数据切割、制作副本、分散储存

二、结构体系

2.1、 HDFS的主/从架构

HDFS有单个NameNode和多个DataNode组成。

  • NameNode:存储集群元数据,文件各个数据快的位置信息及生命信息。并且负责执行有关文件系统命名空间的操作,负责打开,关闭,重命名文件和目录等。

  • DataNode:负责提供来自文件系统客户端的读写请求,执行快的创建,删除等操作。此外,它还会通过心跳定期向NameNode发送所存储文件块列表信息。

2.2、读写过程

1.客户端发起读请求
2.客服端与NameNode得到文件的块及位置信息列表
3.客户端直接和DataNode交互读取数据
4.读取完成关闭连接

2.3、数据复制

由于Hadoop被设计运行在廉价的机器上,这意味着硬件是不可靠的,为了保证容错性,HDFS提供了数据复制机制。HDFS将每个文件存储为一系列块,每个块由多个副本保证容错,块的大小和复制因子可以自行配置(默认情况下块128M,默认复制因子是3)

2.4、数据复制的实现原理

大型的HDFS实例在通常分布在不同环境下的多台服务器上,不同服务器之间的网络宽带都不同于其他服务器的宽带(a到b快,b到c更快)。HDFS采用感知副本放置策略,当复制因子为 3 时,优先复制宽带高的两台服务器(a先复制到b,再由b复制到c)。如果复制因子大于 3,则随机第4个和之后副本的放置位置。需要注意的是不允许同一个 dataNode 上具有同一个块的多个副本。

2.5、确保稳定性

2.5.1、心跳机制和重新复制

每个 DataNode 定期向 NameNode 发送心跳消息,如果超过指定时间没有收到心跳消息,则将 DataNode 标记为死亡。标记死亡后不会使用这些DataNode上的数据,但是复制因子小于其指定值,NameNode会跟踪这些块,并在必要的时候进行重新复制

2.5.2、数据完整性

可能会存在设备原因导致DataNode上的数据块发生损坏,所以在HDFS存入文件时,就会计算每个块的校验和。当客户端检索文件内容时,就会校验DataNode接收的数据和存入文件时的校验和对比。如果证明损坏,就hi选择从其他DataNode获取该块的其他可用副本。

2.5.3、支持快照

特定时刻存储数据副本,在数据意外损坏时,可以通过回滚操作恢复到健康的数据状态。

三、HDFS的特点

3.1、能处理超大文件

HDFS可以用来存储管理PB级别的数据。

3.2、流式访问数据

它的设计更多响应一次写入,多次读取任务的基础之上,一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS 来说,请求读取整个数据集要比读取一条记录更加高效(就是存的比读的快。)

3.3、廉价

Hadoop设计对硬件需求比较低,只须运行在廉价的商用硬件集群上,而无须昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。

3.4、延时性

它不适合低延时数据访问,HDFS是为了处理大型数据集分析任务的,主要是为了达到海量数据的高吞吐量而设计的,这就以牺牲高延时为代价。比如使用HBase,通过上层数据管理项目来尽可能地弥补这个不足。

3.5、无法高效存储大量小文件

在Hadoop 中需要用 NameNode来管理文件系统的元数据,以响应客户端请求返回文件位置等,因此文件数量大小的限制要由 NameNode来决定。例如,每个文件、索引目录及块大约占 100字节,如果有100 万个文件,每个文件占一个块,那么至少要消耗 200MB内存,这似乎还可以接受。但如果有更多文件,那么 NameNode的工作压力更大,检索处理元数据的时间就不可接受了。

3.6、不支持多用户写入及任意修改文件

在HDFS 的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。目前 HDFS还不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改。

四、参考文献

#漫画说明HDFS工作原理
https://blog.csdn.net/hudiefenmu/article/details/37655491

https://blog.csdn.net/suifeng3051/article/details/48548341

你可能感兴趣的:(大数据,运维,hadoop,big,data,hdfs)