hadoop的archive命令的使用方法


   每个文件以块方式存储,块的元数据存储在名称节点的内存里,此时存储一些小的文件,HDFS会较低效。因此,大量的小文件会耗尽名称节点的大部分内存。(注意,相较于存储文件原始内容所需要的磁盘空间,小文件所需要的空间不会更多。例如,一个1 MB的文件以大小为128 MB的块存储,使用的是1 MB的磁盘空间,而不是128 MB。)

Hadoop Archives或HAR文件,是一个更高效的将文件放入HDFS块中的文件存档设备,在减少名称节点内存使用的同时,仍然允许对文件进行透明的访问。具体说来,Hadoop Archives可以被用作MapReduce的输入。

将/user/tom/cs下的11文件夹归档到/user/tom/33文件夹下
hadoop archive -archiveName 11.har -p  /user/tom  cs/11/  33
hadoop fs -ls 33/11.har
hadoop fs -lsr har:///user/tom/33/11.har


你可能感兴趣的:(mapreduce,hadoop,存储,磁盘,archive)