Hadoop权威指南-ch3 HDFS(5)

注:本文涉及书中3.7~3.8小结

使用现成的工具将数据导入HDFS中

可以使用现成的工具,如Flume和Sqoop,而非写程序来将数据导入HDFS中。

1. Apache Flume

典型应用场景:从另外一个系统中收集日志数据

2. Apache Sqoop

将数据从结构化存储设备批量导入HDFS中

多个HDFS之间的并行复制

1. 在两个运行着相同HDFS版本的集群之间复制数据

通过distcp来实现

2. 在两个运行着不同HDFS版本的集群之间复制数据

(1)使用基于只读HTTP协议的HFTP文件系统从源文件系统中读取数据,作业只能运作在目标集群上

(2)使用webhdfs协议,对源集群和目标集群都可以使用HTTP协议进行通信

(3)使用HDFS HTTP代理服务作为源distcp或者目标distcp

3. 要注意保持HDFS集群的均衡性

你可能感兴趣的:(Hadoop权威指南-ch3 HDFS(5))