sqoop将db2数据导入到hive中

示例1(通过–table、 --hive-table):

sqoop import \
--connect jdbc:db2://5.19.6.xx:50000/tkdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/' \
--delete-target-dir \
--table EPLAT.contract_csc \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--target-dir '/user/hive/csv/hdfs/contract_csc' \
--fields-terminated-by '&&&' \
--hive-drop-import-delims \
--null-string '\\N' 
--null-non-string '\\N'

示例2(通过 --query)

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username dbname\
--password dbpwd \
--outdir '/tmp/test/' \
--query "select *  from EPLAT.contract_csc where \$CONDITIONS  limit 10 " \
--hive-import \
--hive-table tklaissdb.contract_csc \
--num-mappers 1 \
--map-column-java CONTENT=String \
--target-dir '/user/hive/csv/CSV_CONTRACT_CSC1' \
--delete-target-dir \
--fields-terminated-by '$' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--null-string '\\N' \
--null-non-string '\\N'

示例3(通过 --query):

sqoop import \
--connect jdbc:db2://10.129.4.xxx:50000/tklodsdb  \
--username lifeuser --password T@ikanglifeuser \
--outdir '/tmp/sqoop/' \
--query "select * from CSC.rtrnpf_table where \$CONDITIONS  and trim(glcode) = 'A212101' and trim(glsign) = '-' and trim(batctrcde) in ('T24','B54','TC2','T67') and trim(sacscode) = 'LP' and trim(sacstyp) = 'AS' and trim(batccoy) || substr(batccoy,1,8) <> '23232'"  \
--hive-import \
--hive-table rs_tklaissdb.rtrnpf_csv \
--num-mappers 1 \
--target-dir '/user/hive/csv/RTRNPF_CSV' \
--delete-target-dir \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--hive-drop-import-delims

sqoop参数解释:

  • –connect :数据库连接串 jdbc:db2://5.19.6.108:50000/tklodsdb

  • –username:数据库用户名

  • –password:数据库用户密码

  • –query:SQL语句

  • –map-column-java:数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java
    content=String,sid=Integer

  • –class-name:设定生成的Java文件指定的名称

  • -outdir:生成的java文件存放路径

  • –target-dir:指定hdfs路径

  • –delete-target-dir:如果hdfs目录存在会把目录删除

  • –fields-terminated-by:设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如’|',示例如:–fields-terminated-by ‘|’

  • –hive-drop-import-delims:在导入数据到hive中时,去掉数据中\n,\r和\01这样的字符

  • –input-null-string :可选参数,如果没有指定,则字符串null将被使用

  • –null-string:为字符串列的null指定值,例如:–null-string ‘\\N’,null表示为 ‘\\N’,否则为null

  • –null-non-string:为非字符串列的null指定值,例如:–null-string ‘\\N’,null表示为 ‘\\N’,否则为null

  • -m:表明需要使用几个map任务并发执行,默认4个,最好不要将数字设置为高于集群的节点数

  • –as-parquetfile:保存为parquet格式文件

  • -split-by : 表的列名,一般后面跟主键id

  • -columns ‘name’ #指定导入的列

使用过程中也碰到一些问题:
例如:
–query “select trim(glsign) as name,substr(batccoy,1,8) as batccoy from EPLAT.contract_csc where $CONDITIONS limit 10”
hive表字段 name string,batccoy string
本人测试了下是报错,不能导入hive的。有知道的大佬,还望告知,拜谢。

你可能感兴趣的:(sqoop,大数据,sqoop,hive,hdfs)