sqoop导入数据

1、从pgsql中导出整张表到hdfs上

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--target-dir /sqoop/cities \

-m 1

执行结果：

注意事项：

1、目标文件夹必须是不存在的

2、由于sqoop传输数据时默认采用4个map任务，-m x 表示使用x个map任务处理，有几个任务就会在HDFS的执行结果上有几个part-m文件

3、这里 -m 1 是由于传输的数据表没有设置主键，而sqoop默认采用主键字段进行拆分来达到并行任务的目的（默认采用4个map任务）。此时，既可以手动设置拆分字段，也可以将 -m 的值设为1。

4、--target-dir 该参数制定了文件输出到HDFS上的路径，同时还可以缺省该参数，该参数缺省时，问价将会输出到HDFS上当前用户的home目录当中，例如/user/root/。

5、在指定目标路径的参数中还有一个 --warehouse-dir 用来指定目标文件父目录

手动设置拆分字段例子如下：

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--target-dir /sqoop/cities \

--split-by id \

-m 4

执行结果如下：

此处只有三个文件是由于表中只有3条数据。。。

--target-dir 参数缺省的情况：

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1

执行结果：

--warehouse-dir 指定输出文件夹的父目录：

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--warehouse-dir /sqoop/ \

-m 1

执行结果：

2、从pgsql上导出数据表的部分数据到HDFS

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--where "country = 'USA'" \

-m 1

执行结果：

3、保护密码不暴露的三种方式：

使用 -P 参数，从标准输入读取密码：

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--table cities \

-m 1 \

-P

执行效果：

将密码保存到文件当中，使用参数 --passwrod-file 来读取密码文件：

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--table cities \

-m 1 \

--password-file file:///home/root/password.file

别名模式（基于HDFS和基于本地两种模式）

sqoop 1.4.5和hadoop 2.6.0以及之后的版本才支持

HDFS：

hadoop credential create pgsql.pwd.alias -provider jceks://hdfs/user/password/pgsql.pwd.jceks

sqoop import \

-Dhadoop.security.credential.provider.path=jceks://hdfs/user/password/pgsql.pwd.jceks \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password-alias pgsql.pwd.alias \

--table cities \

-m 1

本地模式：

4、两种二进制格式文件存储

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--as-sequencefile

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--as-avrodatafile

5、在传输过程中对数据进行压缩

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--compress

执行结果:

默认压缩格式为Gzip

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--compression-codec org.apache.hadoop.io.compress.BZip2Codec

sqoop可以使用hadoop支持的任何压缩格式，但hadoop不支持的压缩格式，sqoop无法使用

Not Splittable压缩格式，不能利用hadoop的并行性能

6、如何加快传输数据

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--direct

直连模式，传输速度更快，但是目前只有mysql和pgsql支持，而且据说HBase也不支持这种模式，反正限制比较多，具体情况大家可以亲身实践下

7、覆盖默认的数据映射类型

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--map-column-java id=Long

数据库字段在生成的java文件中会映射为各种属性，且默认的数据类型与数据库类型保持对应，比如数据库中某字段的类型为bigint，则在Java文件中的数据类型为long型，通过这个属性，可以改变数据库字段在java中映射的数据类型，格式如：–map-column-java DB_ID=String,id=Integer

8、导入数据中空值的处理

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--null-string '\\N' \

--null-non-string '\\N'

sqoop提供了--null-string来处理字符类型的空值，提供了--null-non-string来处理非字符类型的空值。值得注意的是，这两个参数可以让你用任意的值去替换空值。

另外，export导出数据则使用另外的参数来处理空值

9、一次性传输数据库中所有表

sqoop import-all-tables \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres

-m 1

传输除指定表之外的所有表：

sqoop import-all-tables \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--exclude-tables cities,countries \

-m 1

10、只导入新数据

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table users \

--incremental append \

--check-column id \

--last-value 1

11、pg数据表更新后同步导入hdfs

创建同步更新job（需要输入密码）：

sqoop job \

--create users \

-- \

import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table users \

--incremental append \

--check-column id \

--last-value 0

执行job进行数据更新导入：

sqoop job --exec users

查看目前创建的自动更新导入的job：

sqoop job --list

删除job：

sqoop job --delete visits

查看已存在job的详细信息：

sqoop job --show users

创建在执行时不需要输入密码的job：

sqoop job \

--create users \

-- \

import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password-file file:///home/root/password.file \

--table users \

--incremental append \

--check-column id \

--last-value 0

执行job:

无需输入密码，直接执行

另外一种不需要输入密码的方式（安全性较低，不推荐）：

12、

sqoop导入数据

1、从pgsql中导出整张表到hdfs上

执行结果：

注意事项：

手动设置拆分字段例子如下：

执行结果如下：

--target-dir 参数缺省的情况：

执行结果：

--warehouse-dir 指定输出文件夹的父目录：

执行结果：

2、从pgsql上导出数据表的部分数据到HDFS

3、保护密码不暴露的三种方式：

使用 -P 参数，从标准输入读取密码：

执行效果：

将密码保存到文件当中，使用参数 --passwrod-file 来读取密码文件：

别名模式（基于HDFS和基于本地两种模式）

HDFS：

本地模式：

4、两种二进制格式文件存储

5、在传输过程中对数据进行压缩

6、如何加快传输数据

7、覆盖默认的数据映射类型

8、导入数据中空值的处理

sqoop提供了--null-string来处理字符类型的空值，提供了--null-non-string来处理非字符类型的空值。值得注意的是，这两个参数可以让你用任意的值去替换空值。

9、一次性传输数据库中所有表

传输除指定表之外的所有表：

10、只导入新数据

11、pg数据表更新后同步导入hdfs

创建同步更新job（需要输入密码）：

执行job进行数据更新导入：

查看目前创建的自动更新导入的job：

删除job：

查看已存在job的详细信息：

创建在执行时不需要输入密码的job：

执行job:

另外一种不需要输入密码的方式（安全性较低，不推荐）：

你可能感兴趣的:(sqoop导入数据)