H04-HDFS特点

HDFS优点

高容错性
数据自动保存多副本
副本丢失后,自动恢复
适合批处理
移动的计算和操作
数据位置暴露给计算框架
适合大数据处理GB、TB、PB甚至更大
百万规模以上的文件数量
10K+节点
可构建在廉价的机器上,通过副本提高可靠性
提供了容错和恢复机制

HDFS缺点

低延迟数据访问
毫秒级读取
低延迟与高吞吐量
小文件存取,占用NameNode内存空间
寻址时间超过读取时间
并发写入、文件随即修改
一个文件同时只能由一个写入
仅支持append追加,在尾部
3. HDFS放款的posix的要求,可以以流的方式访问文件系统的数据

HDFS文件权限

与Linux文件权限类似:rwx
如果Linux系统用用户xxx使用hadoop命令创建一个文件,那么在hdfs中这个文件的owner就是xxx
HDFS的权限目的是将控制权交出去,本身只判断用户和权限,至于用户是不是真的,不管。

HDFS安全模式

NameNode启动的时候,首先将fsimage载入内存,然后按照fsedits中的各项操作修改内存中的fsimage。
当元数据文件在内存中创建完成之后,在NameNode上创建一个新的fsimage替换原fsimage,同时创建一个空的fsedits文件(无需SecodaryNameNode参与)这时,NameNode是运行在安全模式的。即对外(客户端)只读,所以此段时间内对hdfs的写入、删除、重命名都会失败。然后NameNode收集各个DataNode的报告,当block达到最小副本数以上时,会被认为“安全”的了,在一定比例的数据块被确定为“安全”后,再过若干事件后,安全模式结束。
当检测到副本数不足的数据块时,该块会被复制,直到达到最小副本数。
Hdfs中数据块的位置并不是由namenode维护的,而是以块列表的形式存储在datanode中的。

负载均衡

start-balancer.sh负载均衡,可以使DataNode节点上选择策略重新平衡DataNode上的数据块的分布

你可能感兴趣的:(大数据,hadoop,hdfs)