这个问题,搞了整整三天。
都想骂娘了。
由于是尼玛oozie调用mapreduce调用sqoop然后调用hive,关系比较复杂。
所以错误定位搞了好久。
症状描述:
用oozie调用sqoop,将数据表从mysql直接导入到hive的过程中。
全部过程都能执行完毕,数据也导进去了。
但是,那个oozie的job的结果显示是killed的。当然咯,那个action节点的结果也显示是failed的。
问题定位:
最后问题找到了,应该是sqoop的一个bug。
sqoop的org.apache.sqoop.hive.HiveImport类中,
引用了一个com.cloudera.sqoop.util.ExitSecurityException这个类。
而在HiveImport.java的305行:Throwable cause = ite.getCause();
cause返回的是org.apache.sqoop.util.ExitSecurityException这个类。
所以导致306行if判断返回false,实际上应该返回true。
305 Throwable cause = ite.getCause();
306 if (cause instanceof ExitSecurityException) {
307 ExitSecurityException ese = (ExitSecurityException) cause;
308 int status = ese.getExitStatus();
309 if (status != 0) {
310 throw new IOException("Hive CliDriver exited with status=" + status);
311 }
312 } else {
313 throw new IOException("Exception thrown in Hive", ite);
314 }
解决方法:
找到HiveImport.java的import部分,
把原来的:com.cloudera.sqoop.util.ExitSecurityException
换成:import org.apache.sqoop.util.ExitSecurityException
即可。
另外,这个修改后的sqoop的jar包,是应该放在workflow执行时指定的hdfs中的lib里的。
使用的版本:
hadoop:1.0.3
oozie:3.1.3
sqoop:1.4.1
hive:0.8.1