HDFS 3.x 数据存储新特性-纠删码

HDFS是⼀个⾼吞吐、⾼容错的分布式⽂件系统,但是HDFS在保证⾼容错的同时也带来⾼昂的存储成本,⽐如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占⽤15T的存储空间。那么有没有⼀种能达到和副本机制相同的容错能⼒但是能⼤幅度降低存储成本的机制呢,有,就是在HDFS 3.x 版本引⼊的纠删码机制。

EC(纠删码)

EC(纠删码)是⼀种编码技术,在 HDFS 之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应⽤最⼴泛,RAID 通过条带化技术实现 EC, 条带化技术就是⼀种⾃动将 I/O 的负载均衡到多个物理磁盘上的技术 ,原理就是将⼀块连续的数据分成很多⼩部分并把他们分别存储到不同磁盘上去,这就能使多个进程同时访问数据的多个不同部分⽽不会造成磁盘冲突(当多个进程同时访问⼀个磁盘时,可能会出现磁盘冲突),⽽且在需要对这种数据进⾏顺序访问的时候可以获得最⼤程度上的 I/O 并⾏能⼒,从⽽获得⾮常好的性能。
在HDFS中,把连续的数据分成很多的⼩部分称为

你可能感兴趣的:(大数据,hdfs,hadoop,大数据)