sqoop ----------增量导入

       在随着系统的运行,每天都会产生新的数据,在进行数据导入的时候,由于之前已经导入过数据,所以在产生新的数据的时候,就可以直接在之前导过的数据的基础上继续导入数据,没有必要之前的所有数据都重新导入一遍

 

增量导入数据的使用:

 

bin/sqoop import --help

 

sqoop ----------增量导入_第1张图片

以上为增量导入的参数

check-column: 检查列,检查数据库表中的索引列,一般都是数据表中的主键列

 

Incremental: 增量导入的类型 append 追加   lastmodified  最后一次修改的时间

 

last-value: 最后值 给定上次导入索引的最后值,在导入新数据的时候从最后值的下一个记录开始导入

 

范例:使用增量导入

sqoop import \
--connect jdbc:mysql://mini3:3306/hive \
--username root \
--password Root123@ \
--table tohdfs \
--fields-terminated-by '\t' \
--target-dir /tohdfs2 \
--num-mappers 1 \
--check-column id \
--incremental append \
--last-value 2

sqoop ----------增量导入_第2张图片

在进行增量导入的时候,首先需要注意,之前的删除文件夹的参数,本身与增量导入是冲突的。所以在增量导入的时候不能加入删除指定目录的参数

 

由于在hdfs的特点,不能修改,所以在追加导入的是时候在hdfs上会新创建新的文件来保存追加的内容

 

你可能感兴趣的:(文档,大数据,sqoop)