sqoop数据导入hive 遇到的问题

1.ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;

造成的原因:sqoop与hive使用的jackson包的版本冲突导致(表象是没有这个方法)

解决方法:将sqoop的lib目录下jackson*.jar包备份,hive的lib目录下的jackson相关jar包拷贝到sqoop的lib目录下。

2.创建job的时候报错:

Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject

造成的原因:这是因为sqoop缺少java-json.jar包(表象是没有这个类).

解决方法:

java-json.jar下载

3.

Sqoop从oracle导入数据到hive,示例:

sqoop import --connect jdbc:oracle:thin:@oracle-host:port:orcl --username name--password passwd --hive-import -table tablename  


如果不加其他参数,导入的数据默认的列分隔符是'\001',默认的行分隔符是'\n'。

这样问题就来了,如果导入的数据中有'\n',hive会认为一行已经结束,后面的数据被分割成下一行。这种情况下,导入之后hive中数据的行数就比原先数据库中的多,而且会出现数据不一致的情况。

Sqoop也指定了参数 --fields-terminated-by和 --lines-terminated-by来自定义行分隔符和列分隔符。

可是当你真的这么做时.........o(╯□╰)o就会出现如下错误:

INFO hive.HiveImport: FAILED: SemanticException 1:381 LINES TERMINATED BY only supports newline '\n' right now.  

也就是说虽然你通过--lines-terminated-by指定了其他的字符作为行分隔符,但是hive只支持'\n'作为行分隔符。

简单的解决办法就是加上参数--hive-drop-import-delims来把导入数据中包含的hive默认的分隔符去掉。

4.null字段填充符需要指定

指定之前:

[hadoop@hs11 ~]$ sqoop export –connect jdbc:mysql://10.10.20.11/test –username root  –password admin –table test –export-dir /user/hive/warehouse/actmp –input-fields-tminated-by ‘\001′

指定之后:

[hadoop@hs11 ~]$ sqoop export –connect jdbc:mysql://10.10.20.11/test –username root  –password admin –table test –export-dir /user/hive/warehouse/actmp –input-fields-terminated-by ‘\001′ –input-null-string ‘\\N’ –input-null-non-string ‘\\N’

5.使用Sqoop将Hive数据导入MySQL中遇到中文乱码

将--connect jdbc:mysql://192.168.22.132:3306/qflap \ 改为--connect "jdbc:mysql://192.168.22.132:3306/qflap?useUnicode=true&characterEncoding=utf-8"
这样导入的数据将是完美的数据,不会再有乱码。

你可能感兴趣的:(大数据)