关于HDFS_Block损坏恢复

在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block块信息和位置信息等。

具体命令介绍:
-move: 移动损坏的文件到/lost+found目录下
-delete: 删除损坏的文件
-openforwrite: 输出检测中的正在被写的文件
-list-corruptfileblocks: 输出损坏的块及其所属的文件
-files: 输出正在被检测的文件
-blocks: 输出block的详细报告 (需要和-files参数一起使用)
-locations: 输出block的位置信息 (需要和-files参数一起使用)
-racks: 输出文件块位置所在的机架信息(需要和-files参数一起使用)

模拟块损坏

 hdfs dfs -mkdir /blockrecover
echo "helloworld" > readme.md
hdfs dfs -put readme.md /blockrecover/

hdfs fsck / 查看当前所有块状态
关于HDFS_Block损坏恢复_第1张图片
找到块存储的位置并删除block块及meta文件。
关于HDFS_Block损坏恢复_第2张图片
关于HDFS_Block损坏恢复_第3张图片

重启hdfs并检查块状态
关于HDFS_Block损坏恢复_第4张图片
发现平均副本数小于3,说明有块损坏
手动修复hdfs debug
hdfs debug recoverLease -path /blockrecover/readme.md -retries 10
在第三次重试时,块修复成功
关于HDFS_Block损坏恢复_第5张图片
执行成功后,被删除的块和meta文件又回来了。
关于HDFS_Block损坏恢复_第6张图片

自动修复:
当数据块损坏后,DN节点执行directoryscan操作之前,都不会发现损坏;
也就是directoryscan操作是间隔6h
dfs.datanode.directoryscan.interval : 21600
在DN向NN进行blockreport前,都不会恢复数据块;
也就是blockreport操作是间隔6h
dfs.blockreport.intervalMsec : 21600000
当NN收到blockreport才会进行恢复操作。

总结

生产上一般倾向于使用手动修复方式,但是前提要手动删除损坏的block块。
切记,是删除损坏block文件和meta文件,而不是删除hdfs文件。
当然还可以先把文件get下载,然后hdfs删除,再对应上传。
切记删除不要执行: hdfs fsck / -delete 这是删除损坏的文件, 那么数据不就丢了嘛;除非无所谓丢数据,或者有信心从其他地方可以补数据到hdfs!

你可能感兴趣的:(关于HDFS_Block损坏恢复)