如何使用StreamSets从MySQL增量更新数据到Hive

标签(空格分隔): 大数据平台构建


一: 编写目的
二: 平台所用版本介绍
三: 配置步骤
四: 测试应用


一: 编写目的

通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。该文将介绍使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。

二: 平台所使用版本

cdh 版本:
        CDH5.14.4 
StreamSets 版本:
        StreamSets 3.5.2

在 大数据平台 CDH5.14.4 上面如何集成安装不在介绍 参考flyfish的博客
<<在CDH5.14.4 中安装StreamSets与案例运行>>

三:配置步骤

3.1 创建 Pipelines

如何使用StreamSets从MySQL增量更新数据到Hive_第1张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第2张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第3张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第4张图片

在CDH的 主节点上面 创建 目录
mkdir -p /tmp/mysql_to_hive

如何使用StreamSets从MySQL增量更新数据到Hive_第5张图片

3.2 添加 jdbc 的查询者

如何使用StreamSets从MySQL增量更新数据到Hive_第6张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第7张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第8张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第9张图片

3.3 查看检查

如何使用StreamSets从MySQL增量更新数据到Hive_第10张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第11张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第12张图片

3.4 添加Hive Metadata

如何使用StreamSets从MySQL增量更新数据到Hive_第13张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第14张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第15张图片

3.5 将Hive Metadata 输出到 HiveMetastore

如何使用StreamSets从MySQL增量更新数据到Hive_第16张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第17张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第18张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第19张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第20张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第21张图片


3.6 整个流程类预览

如何使用StreamSets从MySQL增量更新数据到Hive_第22张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第23张图片

四:测试应用

如何使用StreamSets从MySQL增量更新数据到Hive_第24张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第25张图片

如何使用StreamSets从MySQL增量更新数据到Hive_第26张图片