hadoop的hdfs 数据流动

正常来说 通过 数据流 工具,我们从日志源 获取 日志流 通过
logstash flume fruentd kafka spark streaming 等工具 把 流 不间断的写入到hdfs ,这里尤其要注意的是不间断 ,只要你不去人为停掉,或者 数据源 消失,中间不出现网络 磁盘等资源 阻塞,这个流是可以一直流动的。
另外 hadoop 集群间我们可以通过 distcp 工具 相互分布式拷贝 ,效率非常高 ,40T 的内容 ,两天就可以拷贝完,主要是我们集群硬件 配置低,如果更好的话,当然会更快。
另外还可以使用sqoop 这个工具
这个工具可以用来将 hdfs 的文件 拷贝到 关系型数据库 比如 mysql 或者 oracle 或者 pesql,,双方可以相互copy
甚至还可以把 nosql 的数据和 hdfs 相互copy ,比如借助 spark streaming 编程实现,当然可以借助 更 常见的工具
比如aspire3 还没有使用过
https://search-tech.atlassian.net/wiki/spaces/aspire31/overview

比如 redislabs 还没有使用过
https://redislabs.com/blog/connecting-spark-and-redis-a-detailed-look/

比如 对于 MongoDB 和hdfs 数据传输工具
MongoDB Connector for Hadoop
https://docs.mongodb.com/ecosystem/tools/hadoop/
https://github.com/mongodb/mongo-hadoop

比如 对于 kafka 写入到 hdfs 的工具
https://github.com/apache/incubator-gobblin

读取 hdfs 内容写到 kafka 可以借助 spark streaming 或者 flink

你可能感兴趣的:(hadoop的hdfs 数据流动)