HDFS:Hadoop Distributed File System Hadoop 分布式文件系统,主要用来解决海量数据的存储问题
HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储,那是怎么做到的呢?
HDFS 数据存储单元(block)
namenode职责
namenode元数据管理
WAL(Write ahead Log): 每做一次操作之前,都会先记录到日志中,然后再做操作,日志会对这次操作做一个成功或者失败的标记,下次执行时,直接从WAL中拿出来执(WAL主要记录 增删改),这里的日志就是edits.log
namenode对元数据的管理,采用了二存储形式:内存和磁盘
namenode元数据的checkpoint
第一阶段: namenode 启动
1)第一次启动 namenode 格式化后, 创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。
2) 客户端对元数据进行增删改的请求。
3) namenode 记录操作日志,更新滚动日志。
4) namenode 在内存中对数据进行增删改查。
第二阶段: Secondary NameNode 工作
1) Secondary NameNode 询问 namenode 是否需要 checkpoint。 直接带回 namenode 是否检查结果。
2) Secondary NameNode 请求执行 checkpoint。
3) namenode 滚动正在写的 edits 日志。
4)将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。
5) Secondary NameNode 加载编辑日志和镜像文件到内存,并合并。
6) 生成新的镜像文件 fsimage.chkpoint。
7) 拷贝 fsimage.chkpoint 到 namenode。
8) namenode 将 fsimage.chkpoint 重新命名成 fsimage。
更多操作
首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器都有各自清晰的 角色定位
重要特性如下:
不适于以下操作:
HDFS 不适合存储小文件:
Namenode 感知到 Datanode 掉线死亡的时长计算:
HDFS 默认的超时时间为 10 分钟+30 秒。 这里暂且定义超时时间为 timeout
计算公式为:
timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval
而默认的heartbeat.recheck.interval 大小为 5分 钟,dfs.heartbeat.interval 默认的大小为 3 秒。
需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒, dfs.heartbeat.interval 的单位为秒
所以,举个例子,如果 heartbeat.recheck.interval 设置为 5000(毫秒),dfs.heartbeat.interval 设置为 3(秒,默认),则总的超时时间为 40 秒
<property>
<name>heartbeat.recheck.intervalname>
<value>5000value>
property>
<property>
<name>dfs.heartbeat.intervalname>
<value>3value>
property>
问题引出:集群启动后,可以查看目录,但是上传文件时报错,打开 web 页面可看到 namenode正处于 safemode 状态,怎么处理?
解释:safemode 是 namenode 的一种状态(active/standby/safemode 安全模式)
在 hdfs 集群正常冷启动时,namenode 也会在 safemode 状态下维持相当长的一段时间,此 时你不需要去理会,等待它自动退出安全模式即可
(原理:namenode 的内存元数据中,包含文件路径、副本数、blockid,及每一个 block 所在 datanode 的信息,而 fsimage 中,不包含 block 所在的 datanode 信息,那么,当 namenode 冷启动时,此时内存中的元数据只能从 fsimage 中加载而来,从而就没有 block 所在的 datanode 信息——>就会导致 namenode 认为所有的 block 都已经丢失——>进入安全模式— —>datanode 启动后,会定期向 namenode 汇报自身所持有的 blockid 信息,——>随着 datanode 陆续启动,从而陆续汇报 block 信息,namenode 就会将内存元数据中的 block 所 在 datanode 信息补全更新——>找到了所有 block 的位置,从而自动退出安全模式)
hdfs dfsadmin -safemode leave //强制 NameNode 退出安全模式
hdfs dfsadmin -safemode enter //进入安全模式
hdfs dfsadmin -safemode get //查看安全模式状态
hdfs dfsadmin -safemode wait //等待,一直到安全模式结束
如果你使用的版本是 2.X 之前的版本,那么这个 hdfs 命令可以替换成 hadoop,它们都在 bin 目录下
数据分块存储和副本的存放,是保证可靠性和高性能的关键
将每个文件的数据进行分块存储,每一个数据块又保存有多个副本,这些数据块副本分 布在不同的机器节点上
在多数情况下,HDFS 默认的副本系数是 3
Hadoop 默认对 3 个副本的存放策略如下图:其中 Block1,Block2,Block3 分别表示 Block 的三个副本:
第一种方式:修改集群文件 hdfs-site.xml
<property>
<name>dfs.replicationname>
<value>1value>
property>
第二种方式:命令设置
bin/hadoop fs -setrep -R 1 /
机器与机器之间磁盘利用率不平衡是 HDFS 集群非常容易出现的情况
尤其是在 DataNode 节点出现故障或在现有的集群上增添新的 DataNode 的时候分析数据块 分布和重新均衡 DataNode 上的数据分布的工具
命令:
sbin/start-balancer.sh
sbin/start-balancer.sh -threshold 5
自动进行均衡非常慢,一天能移动的数据量在 10G-10T 的级别,很难满足超大集群的需求 原因:HDFS 集群默认不允许 balance 操作占用很大的网络带宽,这个带宽是可以调整的
hdfs dfsadmin -setBalanacerBandwidth newbandwidth
hdfs dfsadmin -setBalanacerBandwidth 10485760
该数值的单位是字节,上面的配置是 10M/s,默认是 1M/s 另外,也可以在 hdfs-site.xml 配置文件中进行设置:
<property>
<name>dfs.balance.bandwidthPerSecname>
<value>10485760value>
<description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. description>
property>
sbin/start-balancer.sh -t 10%
机器容量最高的那个值 和 最低的那个值得差距 不能超过 10%
客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本
1)跟NN通信请求上传文件,NN检查目标文件是否存在,父目录是否存在
2)NN返回是否可以上传
3)client会先对文件进行切分,比如一个block块128M,文件300M就会被切分成3个块,两个128M,一个44M。请求第一个block该传输到哪些DN服务器上。
4)NN返回DN的服务器。
5)client请求一个台DN上传数据(RPC调用,建立pipeline),第一个DN收到请求会继续调用第二个DN,然后第二个调用第三个DN,将整个pipeline建立完成,逐级返回客户端。
6)client开始传输block(先从磁盘读取数据存储到一个本地内存缓存),以packet为单位(一个packet为64kb),写入数据的时候datanode会进行数据校验,并不是通过packet为单位校验,而是以chunk为单位校验(512byte),第一个DN收到第一个packet就会传给第二台,第二台传给第三台;第一台每传一个packet就会放入一个应答队列等待应答。
7)当一个block传输完成时,client再次请求NN上传第二个block的服务器。
转自
客户端将要读取的文件路径发送给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件
1)跟NN通信查询元数据(block所在的DN的节点),找到文件块所在的DN的服务器。
2)挑选一台DN(就近原则,然后随机)服务器,请求建立socket流。
3)DN开始发送数据(从磁盘里读取数据放入流,一packet为单位做校验)
4)客户端以packet为单位接收,现在本地缓存,然后写入目标文件中,后面的block块就相当于append到前面的block块,最后合成最终需要的文件。