HDFS特点(优缺点)

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。到底HDFS有哪些特点呢?

优点

a)高容错性

i.保存多个副本,且提供容错机制。
ii.副本丢失或宕机自动恢复。默认存3份。

b)运行在廉价的机器上(商用机)

i.通过副本提高可靠性
ii.提供了容错和恢复机制

c)适合批处理

i.移动计算而非数据
ii.数据位置暴露给计算框架。NameNode上有位置

d)适合大数据的处理,多大?多小?

i.TB,甚至PB级数据
ii.百万规模以上的文件数量
iii.10K+节点规模
iv.HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。

e)流式数据访问

i.一次写入,多次读取,高吞吐量,所以可以同时处理大量数据

缺点

a)不擅长低延迟数据访问

    比如毫秒级

b)不擅长小文件的分区

占用NameNode大量内存
磁盘寻道时间超过读取时间

c)不擅长并发写入,文件随机修改

    一个文件只能有一个写入者
    仅支持append,也就是添加(有组件实现删等)

你可能感兴趣的:(大数据学习)