Hadoop3.x纠删码(Erasure Coding)

一、什么是纠删码(Erasure Coding)

        HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间

        

        Hadoop 3中的HDFS(Hadoop Distributed File System)使用了纠删码来提高数据的可靠性和容错性。具体来说,Hadoop 3中引入了一种新的纠删码实现,称为Erasure Coding(EC)。

        Erasure Coding是一种利用冗余数据来纠正数据丢失或损坏的编码方式。与传统的副本机制不同,Erasure Coding将原始数据分割成多个数据块,并为这些数据块计算校验码。然后,将原始数据块和校验码块分别存储在不同的节点上,以提高数据的可靠性和容错性。

        在Hadoop 3中,Erasure Coding可以在HDFS中启用,以替代传统的副本机制。相比于传统的副本机制,Erasure Coding可以显著减少数据的存储成本,并提高数据的读取性能。此外,Erasure Coding还可以在数据传输过程中检测和纠正数据传输中的错误,从而提高数据传输的可靠性。

        总之,Erasure Coding是Hadoop 3中一种重要的数据纠删码实现,它可以提高HDFS的可靠性和容错性,并减少数据的存储成本。

Hadoop3.x纠删码(Erasure Coding)_第1张图片

 

二、使用纠删码

使用方法:

[mingyu@hadoop102 hadoop-3.1.3]$ hdfs ec
Usage: bin/hdfs ec [COMMAND]
          [-listPolicies]
          [-addPolicies -policyFile ]
          [-getPolicy -path ]
          [-removePolicy -policy ]
          [-setPolicy -path  [-policy ] [-replicate]]
          [-unsetPolicy -path ]
          [-listCodecs]
          [-enablePolicy -policy ]
          [-disablePolicy -policy ]
          [-help ]

Generic options supported are:
-conf         specify an application configuration file
-D                define a value for a given property
-fs  specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt   specify a ResourceManager
-files                 specify a comma-separated list of files to be copied to the map reduce cluster
-libjars                specify a comma-separated list of jar files to be included in the classpath
-archives           specify a comma-separated list of archives to be unarchived on the compute machines

hadoop3中一共给出了5中纠删码策略

[mingyu@hadoop102 hadoop-3.1.3]$ hdfs ec -listPolicies
Erasure Coding Policies:
ErasureCodingPolicy=[Name=RS-10-4-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=10, numParityUnits=4]], CellSize=1048576, Id=5], State=DISABLED
ErasureCodingPolicy=[Name=RS-3-2-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=3, numParityUnits=2]], CellSize=1048576, Id=2], State=ENABLED
ErasureCodingPolicy=[Name=RS-6-3-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=1], State=ENABLED
ErasureCodingPolicy=[Name=RS-LEGACY-6-3-1024k, Schema=[ECSchema=[Codec=rs-legacy, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=3], State=DISABLED
ErasureCodingPolicy=[Name=XOR-2-1-1024k, Schema=[ECSchema=[Codec=xor, numDataUnits=2, numParityUnits=1]], CellSize=1048576, Id=4], State=DISABLED

以 RS-3-2-1024k 为例,

        使用RS编码,每3个数据单元,生成2个校验单元,共5个单元,也就是说:这5个单元中,只要有任意的3个单元存在(不管是数据单元还是校验单元,只要总数=3),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。

1、启用纠删码策略

 hdfs ec -enablePolicy  -policy RS-3-2-1024k

2、设置纠删码策略生效路径

hdfs ec -setPolicy -path /input -policy RS-3-2-1024k

3、上传文件查看效果

注:上传的文件需要大于2M才能看出效果。(低于2M,只有一个数据单元和两个校验单元)

Hadoop3.x纠删码(Erasure Coding)_第2张图片

 Hadoop3.x纠删码(Erasure Coding)_第3张图片

 

你可能感兴趣的:(大数据,hadoop,大数据,hdfs)