HDFS数据存储与通信

数据存储特点

数据读写一定依赖于元数据信息 , 元数据信息丢失,数据无法找到

  • 数据以固定的物理切块大小存储在不同的机器上 [128M 可以修改]

  • 每个物理切块多副本存储在不同的节点上 [3个]

  • 在每个DataNode节点上 ,存储数据的目录是统一的

[root@linux03 subdir0]# pwd
/opt/hdpdata/data/current/BP-1889122556-192.168.133.33-
1638070839467/current/finalized/subdir0/subdir0
[root@linux03 subdir0]# 
  • 在HDFS上存储的数据 , 实时不高 ,读取效率低

  • HDFS上数据 , 管理是以文件块为单位, 所以不能直接随机的更新数据

  • 适合一次存储, 多次读取分析的非实时性需求

  • HDFS不适合存储大量的小文件 , 每个小文件都会记录元数据 , 增加NN的压力

  • HDFS也不是可以无限扩容(内存有限)

NN和DN通信

      HDFS数据存储与通信_第1张图片


  dfs.namenode.heartbeat.recheck-interval
  300000
  
    This time decides the interval to check for expired datanodes.
    With this value and dfs.heartbeat.interval, the interval of
    deciding the datanode is stale or not is also calculated.
    The unit of this configuration is millisecond.
  



  dfs.heartbeat.interval
  3
  Determines datanode heartbeat interval in seconds.

你可能感兴趣的:(hadoop,hdfs,hadoop,big,data)