Hadoop2.x 快速上手--day2--Hdfs文件系统

本节知识

1、HDFS架构

  • HDFS特点(优缺点)
  • HDFS架构(各个组成部分及其作用)
  • HDFS可靠性(保证可靠性的多种方式)

HDFS特点

  • 知识回顾:
    • GFS:是一个可扩展的大型数据密集型应用的分布式文件系统,可在廉价的硬件上运行,具有可靠的容错能力,极高的计算性能,具备最小的硬件投资和运营成本
    • HDFS:Hadoop Distributed File System(hadoop分布式文件系统)
      • 谷歌GFS的克隆版
  • 优势
    • 适合批处理,适合大数据(pb和gb数据量)处理
    • 流式文件访问(一次写入多次读取,无法修改,只能重写入),保证数据一致性
    • 构建在廉价服务器上,提供容错和恢复机制(有备份机制,默认3份,若不超过3台以上服务器down掉,都会有备份)
  • 劣势
    • 不能满足低延迟数据访问,如毫秒级(分布式,放弃了低延迟选择高吞吐)
    • 不建议小文件存取(小文件会占用大量的块,十分消耗namenode内存),会占用NameNode大量内存
      • 解决方案:归并功能,将小文件归并成大文件来重新进行分块
    • 不支持并发写入和文件随机修改,仅支持append(流式访问,保证数据一致性)

HDFS架构

Hadoop2.x 快速上手--day2--Hdfs文件系统_第1张图片
HDFS存储数据图

你可能感兴趣的:(Hadoop2.x 快速上手--day2--Hdfs文件系统)