数据传输工具-Sqoop

一、背景

在实际开发场景中,数据需要在Hadoop和关系型数据库之间来回传输,可以使用Sqoop工具来实现。
例如,源数据存储在MySQL或者Oracle关系型数据库中,需要将源数据抽取到HDFS或者Hive中,又或者结果数据存储在HDFS或者Hive中,需要将结果数据加载到MySQL或者Oracle关系型数据库中,这些场景均可以由Sqoop工具实现。
数据抽取的时候涉及到两种方式,一种是全量抽取,另一种是增量抽取。

二、场景一:全量抽取

全量抽取理解起来比较简单,就是将数据库中的源数据直接全部抽取。
例:

源数据
数据传输工具-Sqoop_第1张图片

执行抽取脚本

import
--connect
jdbc:mysql://master/sqoop_test
--username
root
--password
root
--query
"SELECT field_1,field_2,field_3 FROM sqoop_test.table_A where $CONDITIONS"
--target-dir
/user/hive/warehouse/sqoop_test_ods.db/table_a
--fields-terminated-by
"\t"
--delete-target-dir
-m
1

数据传输工具-Sqoop_第2张图片
查询结果
数据传输工具-Sqoop_第3张图片数据传输工具-Sqoop_第4张图片

三、场景二:增量抽取

增量抽取,抽取的是自上次抽取之后的数据,这种抽取方式在实际开发中运用广泛。查阅相关资料的话,会发现增量抽取涉及到4种方式,分别是触发器方式,时间戳方式,全表对比方式,日志文件方式。每一种方式都有其适用的场景,在开发中,接触到的需求场景主要是使用时间戳的方式。
时间戳的方式是通过在表中设计一个时间字段,根据这个时间字段来进行数据抽取。
例:

源数据数据传输工具-Sqoop_第5张图片
比如抽取2019-03-03的数据,直接根据时间字段进行抽取即可,同理,抽取2019-03-04的数据。
执行抽取脚本

import
--connect
jdbc:mysql://master/sqoop_test
--username
root
--password
root
--query
"SELECT id,name,age FROM sqoop_test.t_user WHERE from_unixtime(unix_timestamp(add_time), '%Y%m%d') = '20190304' AND $CONDITIONS"
--target-dir
/user/hive/warehouse/sqoop_test_ods.db/t_user/date=20190304
--fields-terminated-by
"\t"
--delete-target-dir
-m
1

数据传输工具-Sqoop_第6张图片
查询结果
数据传输工具-Sqoop_第7张图片
数据传输工具-Sqoop_第8张图片
举例可能不太恰当,演示过程的也没有太多细节涉及,写出来的目的除了做一些总结外,希望在遇到类似的问题上,能提供些思路。

你可能感兴趣的:(Database,大数据,Sqoop)