HDFS块大小

  块大小取决于dfs.blocksize,2.x默认为128M,1.x默认为64M(128M指的是块的最大大小!每个块最多存储128M的数据,如果当前块存储的数据不满128M,存了多少数据,就占用多少的磁盘空间!一个块只属于一个文件!)

  默认为128M的原因,基于最佳传输损耗理论!

  不论对磁盘的文件进行读还是写,都需要先进行寻址!

  最佳传输损耗理论:在一次传输中,寻址时间占用总传输时间的1%时,本次传输的损耗最小,为最佳性价比传输!

  目前硬件的发展条件,普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms!

    10ms / 1% = 1s
    1s * 100M/S=100M

  块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M!

  如果公司使用的是固态硬盘,写的速度是300M/S,将块大小调整到 256M

  如果公司使用的是固态硬盘,写的速度是500M/S,将块大小调整到 512M

块大小需要合适调节

  不能太大:
   当前有文件a, 还有1G内存
    假设当前只需要读取a文件0-128M部分的内容
    128M一块 1G可以存8块 , 取第一块
    1G一块 1G存可以1块 , 取第一块

  ①在一些分块读取的场景,不够灵活,会带来额外的网络消耗
  ②在上传文件时,一旦发生故障,会造成资源的浪费

  不能太小:
   比如文件a,128M
    1M一块: 128个块,生成128个块的映射信息
    128M一块, 1个块,一个块的映射信息
  ①块太小,同样大小的文件,会占用过多的NN的元数据空间
  ②块太小,在进行读写操作时,会消耗额外的寻址时间

你可能感兴趣的:(hadoop)