sqoop

Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到SQL”。

导入

bin/sqoop import \

--connect jdbc:mysql://node-1:3306/userdb \

--username root \

--password hadoop \

--delete-target-dir \

--target-dir /sqoopresult \

--table emp --m 1

import : 执行导入

--connect :  连接数据库地址

--username : 用户名

--password : 密码

--delete-target-dir :  如果--target-dir指定目录存在, 则先进行删除

--target-dir : 指定导出路径(hdfs)

--table  :  指定要导出的数据库的表名

--m  :  指定要执行几个map, 如果指定为 多个, 需要配合 --split-by 使用

--split-by :  用于指定根据那个字段进行划分

--fields-terminated-by : 指定导出后字段与字段之间的分隔号, 默认为 逗号

bin/sqoop create-hive-table \

--connect jdbc:mysql://node-1:3306/sqoopdb \

--table emp_add \

--username root \

--password hadoop \

--hive-table test.emp_add_sp

create-hive-table : 指定操作 : 创建hive的表

--hive-table :  导入到hive的那个表中(注意: 建议 库名.表名, 否则会将表放置到默认的数据库中)

--hive-import : 标识为是hive的导入

--where "city ='sec-bad'" \ 指定从关系数据库导入数据时的查询条件

--query 'select id,name,deg from emp WHERE id>1203 and $CONDITIONS' \

注意:

- 使用query sql语句来进行查找不能加参数--table ;

- 并且必须要添加where条件;是里面加where,不是外面加--where

- 并且where条件后面必须带一个$CONDITIONS 这个字符串;

- 并且这个sql语句必须用单引号,不能用双引号;

--check-column (col)

用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳类似。

注意:这些被指定的列的类型不能使任意字符类型,如char、varchar等类型都是不可以的,同时-- check-column可以去指定多个列。

--incremental (mode)

append:追加,比如对大于last-value指定的值之后的记录进行追加导入。lastmodified:最后的修改时间,追加last-value指定的日期之后的记录

--last-value (value)

指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一

--merge-key id

导出

--input-fields-terminated-by '\t'

指定文件中的分隔符

--columns

选择列并控制它们的排序。当导出数据文件和目标表字段列顺序完全一致的时候可以不写。否则以逗号为间隔选择和排列各个列。没有被包含在–columns后面列名或字段要么具备默认值,要么就允许插入空值。否则数据库会拒绝接受sqoop导出的数据,导致Sqoop作业失败

--export-dir

导出目录,在执行导出的时候,必须指定这个参数,同时需要具备--table或--call参数两者之一,--table是指的导出数据库当中对应的表,

--call

是指的某个存储过程。

--input-null-string --input-null-non-string

如果没有指定第一个参数,对于字符串类型的列来说,“NULL”这个字符串就回被翻译成空值,如果没有使用第二个参数,无论是“NULL”字符串还是说空字符串也好,对于非字符串类型的字段来说,这两个类型的空串都会被翻译成空值。比如:

--input-null-string "\\N" --input-null-non-string "\\N"

--update-key,

更新标识,即根据某个字段进行更新,例如id,可以指定多个更新标识的字段,多个字段之间用逗号分隔。

--updatemod,

指定updateonly(默认模式),仅仅更新已存在的数据记录,不会插入新纪录。指定allowinsert,更新已存在的数据记录,同时插入新纪录。实质上是一个insert & update的操作。


你可能感兴趣的:(sqoop)