mysql怎么迁移到hadoop_Mysql 与 hadoop 数据同步(迁移),你需要知道 Sqoop

上篇文章 Mysql 到 Hbase 数据如何实时同步,强大的 Streamsets 告诉你 我们说到了如何使用 Streamsets 来进行 mysql 到 hbase 的数据实时同步(迁移)。使用 Streamsets 的优点是部署简单,配置灵活,无需编写代码。

认真阅读上篇文章的朋友会发现,Streamsets 能够实时跟踪数据的变化,将数据同步更新到 hbase 中。但是对于历史数据(并且数据不改动的记录)的同步,文章中并没有提及到。当然,并不是因为 Streamsets 不能从事这些事情,而是笔者暂时没有使用它来进行历史数据的迁移。因此,对于历史数据的迁移,笔者今天来介绍另外一个工具 - Sqoop。相对于 Streamsets,大家应该更加熟悉 Sqoop。

如果你工作中需要将关系型数据库(Mysql、Oracle等等)中的数据同步到 hadoop(HDFS、hive、hbase) 中,或者将 hadoop 中的数据同步到关系型数据库中,那这篇文章应该能帮助到你。

注:Streamsets 以及 Sqoop 都属于数据同步、迁移方面比较流行的解决方案,类似的工具还有很多,比如 Datax、kettle 等等,从事数据方面工作的朋友可以去多多了解,找到适合自己工作场景的方案。

认识一下

Sqoop 的命名,仔细一看是不是有点像 sql 和 hadoop 两个词语的拼接产物。其实从它的命名来看也就很明显:它是用来将关系型数据库和 Hadoop 中的数据进行相互转移的工具,并且这种转换是双向的。看下图就能一目了然:

你可能感兴趣的:(mysql怎么迁移到hadoop_Mysql 与 hadoop 数据同步(迁移),你需要知道 Sqoop)