一、HDFS:Hadoop Distributed File System
1.检测和快速恢复硬件故障
故障的检测和快速自动恢复是HDFS的一个核心目标
2.流式数据访问重视数据吞吐量,而不是数据访问的反应速度
3.大规模数据集一个单一的HDFS实例能支撑数以千万计的文件
4.简化一致性模型对文件实行一次性写入,多次读取的访问模式
5.移动计算代价比移动数据代价低
一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此
6.可移植性HDFS在设计时就考虑到平台的可移植性,这种特性方便了HDFS作为大规模数据应用平台的推广
7.通信协议所有的通信协议都是在TCP/IP协议之上的
数据块(Block)
数据块是HDFS上最基本的存储单位
HDFS块默认大小为128M (2.0为128M,1.0为64M)
小于一个块大小的文件不会占据整个块的空间
hadoop fsck /sogou.500w.utf8 -files -locations -blocks对块进行抽象会带来的好处
一个文件的大小可以大于网络中任意一个磁盘的容量
使用块抽象而不是文件可以简化存储子系统
块非常适合用于数据备份进而提供数据容错能力和可用性
HDFS为了做到可靠性(reliability)创建了多份数据块(计算节点中(compute data blocks)的复制(replicas),并将它们放置在服务器群的nodes),MapReduce就可以在它们所在的节点上处理这些数据了。
HDFS将每个文件存储成块(Block)序列
每个文件的Block大小和复制(Replication)因子都是可配置的 hdfs-site.xml数据副本的存放策略
数据分块存储和副本的存放,是保证可靠性和高性能的关键
将每个文件的数据进行分块存储
每一个数据块又保存有多个副本
这些数据块副本分布在不同的机器节点上
在多数情况下,HDFS默认的副本系数是3
Hadoop默认对3个副本的存放策略更能多副本:随机节点
如图所示:
设置集群Block的备份数
方法一:配置文件hdfs-site.xml
方法二:通过命令修改备份数
bin/hadoop fs -setrep -R 1 /
注意:方法二可以改变整个HDFS里面的备份数,不需要重启HDFS系统,
而方法一需要重启HDFS系统才能生效。
安全模式(SafeMode)
安全模式是Hadoop集群的一种保护模式
NameNode在启动时会自动进入安全模式,也可以手动进入。
当系统处于安全模式时,会检查数据块的完整性。
用命令来操作安全模式
hadoop dfsadmin -safemode leave //强制NameNode退出安全模式
hadoop dfsadmin -safemode enter //进入安全模式
hadoop dfsadmin -safemode get //查看安全模式状态
hadoop dfsadmin -safemode wait //等待,一直到安全模式结束
负载均衡
机器与机器之间磁盘利用率不平衡是HDFS集群非常容易出现的情况
尤其是在DataNode节点出现故障或在现有的集群上增添新的DataNode的时候
分析数据块分布和重新均衡DataNode上的数据分布的工具
$HADOOP_HOME/bin/start-balancer.sh -t 10%
负载均衡
负载均衡程序作为一个与独立的进程NameNode进程分开执行
心跳机制
机架感知
大型Hadoop集群是以机架的形式来组织的
同一个机架上不同节点间的网络状况比不同机架之间的更为理想
默认情况下,Hadoop的机架感知是没有被启用的
启用机架感知功能,在NameNode所在机器的core-site.xml中配置一个选项:
HDFS体系结构
文件切分成块(默认大小128M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)
NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等
DataNode在本地文件系统存储文件块数据,以及块数据的校验
NameNode |
DataNode |
存储元数据 |
存储文件内容 |
元数据保存在内存中 |
文件内容保存在磁盘 |
保存文件,block ,datanode之间的映射关系 |
维护了block id到datanode本地文件的映射关系 |
工作原理,如图所示
工作流程
secondarynamenode通知namenode切换edits文件
secondarynamenode从namenode获得fsimage和edits(通过http)
secondarynamenode将fsimage载入内存,然后开始合并edits
secondarynamenode将新的fsimage发回给namenode
namenode用新的fsimage替换旧的fsimage
什么时候checkpiont
fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认3600秒。
fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M
当DN读取block的时候,它会计算checksum;
如果计算后的checksum,与block创建时值不一样,说明该block已经损坏。
client读取其它DN上的block;NN标记该块已经损坏,然后复制block达到预期设置的文件备份数;
DN在其文件创建后三周验证其checksum。
与Linux文件权限类似
r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容
如果Linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS中owner是zhangsan
HDFS的权限目的:阻止好人做错事,而不是阻止坏人做坏事。HDFS相信,你告诉我你是谁,我就认为你是谁
Root 用户只能查看,不能写入
hadoop dfs -chmod 777 /