Hadoop权威指南第三版-中文-ch3 (6)Hadoop存档

注:本文涉及书中3.9小结

Hadoop存档

1. 综述

Hadoop存档文件或HAR文件,是一个高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行透明地访问。具体来说,Hadoop存档文件可以用作MapReduce的输入。


个人理解:为什么需要Hadoop存档文件?

Hadoop存档文件的出现,可以解决HDFS的小文件处理问题。

某博客对Hadoop存档的详细解释:https://blog.csdn.net/helloxiaozhe/article/details/79159799


2. 创建工具

Hadoop存档是通过archive工具根据一组文件创建而来的,Hadoop存档文件可以用作MapReduce的输入。

3. 缺点

(1)新建一个存档文件会创建原始文件的一个副本,因此至少需要与要存档的文件容量相同大小的磁盘空间。

(2)存档文件在创建后不能进行修改。

你可能感兴趣的:(Hadoop权威指南第三版-中文-ch3 (6)Hadoop存档)