HDFS

按需要定制MapReduc

map和reduce可以用自己编程

目标在于多次的目标流读区,而不是读写

hdfs存储的是大量文本信息,适合做商业数据挖掘,既然是挖掘就在于要多次读,而不是一次次读写。因为写入成本高,每个文件要有三个副本
因此就导致了数据的高度容冗余

每个节点不需要raid 磁盘阵列

  1. radi -0
    2块硬盘的倍数,因为需要成对
    数据打散存储,两部分数据分别存储在2块硬盘。串行存储
  • raid -1
    2块硬盘的倍数

  • raid -5
    3块硬盘

  • raid-10(raid 1,0)
    NameNode节点就一个,raid
    DataNode:不需要raid

数据块

1版本是64M
2版本是128M。默认是存储3个副本,因此存储的总容量是*3

你可能感兴趣的:(HDFS)