HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。
Hadoop 3中的HDFS(Hadoop Distributed File System)使用了纠删码来提高数据的可靠性和容错性。具体来说,Hadoop 3中引入了一种新的纠删码实现,称为Erasure Coding(EC)。
Erasure Coding是一种利用冗余数据来纠正数据丢失或损坏的编码方式。与传统的副本机制不同,Erasure Coding将原始数据分割成多个数据块,并为这些数据块计算校验码。然后,将原始数据块和校验码块分别存储在不同的节点上,以提高数据的可靠性和容错性。
在Hadoop 3中,Erasure Coding可以在HDFS中启用,以替代传统的副本机制。相比于传统的副本机制,Erasure Coding可以显著减少数据的存储成本,并提高数据的读取性能。此外,Erasure Coding还可以在数据传输过程中检测和纠正数据传输中的错误,从而提高数据传输的可靠性。
总之,Erasure Coding是Hadoop 3中一种重要的数据纠删码实现,它可以提高HDFS的可靠性和容错性,并减少数据的存储成本。
使用方法:
[mingyu@hadoop102 hadoop-3.1.3]$ hdfs ec
Usage: bin/hdfs ec [COMMAND]
[-listPolicies]
[-addPolicies -policyFile ]
[-getPolicy -path ]
[-removePolicy -policy ]
[-setPolicy -path [-policy ] [-replicate]]
[-unsetPolicy -path ]
[-listCodecs]
[-enablePolicy -policy ]
[-disablePolicy -policy ]
[-help ]
Generic options supported are:
-conf specify an application configuration file
-D define a value for a given property
-fs specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt specify a ResourceManager
-files specify a comma-separated list of files to be copied to the map reduce cluster
-libjars specify a comma-separated list of jar files to be included in the classpath
-archives specify a comma-separated list of archives to be unarchived on the compute machines
hadoop3中一共给出了5中纠删码策略
[mingyu@hadoop102 hadoop-3.1.3]$ hdfs ec -listPolicies
Erasure Coding Policies:
ErasureCodingPolicy=[Name=RS-10-4-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=10, numParityUnits=4]], CellSize=1048576, Id=5], State=DISABLED
ErasureCodingPolicy=[Name=RS-3-2-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=3, numParityUnits=2]], CellSize=1048576, Id=2], State=ENABLED
ErasureCodingPolicy=[Name=RS-6-3-1024k, Schema=[ECSchema=[Codec=rs, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=1], State=ENABLED
ErasureCodingPolicy=[Name=RS-LEGACY-6-3-1024k, Schema=[ECSchema=[Codec=rs-legacy, numDataUnits=6, numParityUnits=3]], CellSize=1048576, Id=3], State=DISABLED
ErasureCodingPolicy=[Name=XOR-2-1-1024k, Schema=[ECSchema=[Codec=xor, numDataUnits=2, numParityUnits=1]], CellSize=1048576, Id=4], State=DISABLED
以 RS-3-2-1024k 为例,
使用RS编码,每3个数据单元,生成2个校验单元,共5个单元,也就是说:这5个单元中,只要有任意的3个单元存在(不管是数据单元还是校验单元,只要总数=3),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。
hdfs ec -enablePolicy -policy RS-3-2-1024k
hdfs ec -setPolicy -path /input -policy RS-3-2-1024k
注:上传的文件需要大于2M才能看出效果。(低于2M,只有一个数据单元和两个校验单元)