一、背景
1、出现异常
公司准备从CDH迁回社区版Hadoop集群,直接把Hadoop升级为比较新的3.30版本,Hive升级为3.12版本。Flink编译的是1.12.0版本,启动自己的测试直接报出下面的错,甚至启动官方的demo任务也会报相同的错。
Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument (ZLjava/lang/String;Ljava/lang/Object;)V.
通过网上的查找和经验就可以知道这Guava里的方法,肯定Guava的版本冲突了。
2、找到异常产生的原因
虽然知道是Guava的版本冲突造成的原因但是那时候并不知道是Hadoop和Hive的版本冲突了,那时候就觉得是lib包下的jar包和新的Hadoop集群依赖冲突了。
目前flink/lib包下的jar包:
**-rw-r--r-- 1 hadoop hadoop 6319023 1月 26 10:20 flink-connector-hive_2.11-1.12.0.jar**
-rw-r--r-- 1 yujianbo hadoop 91776 1月 26 09:20 flink-csv-1.12.0.jar
-rw-r--r-- 1 yujianbo hadoop 114167540 1月 26 09:20 flink-dist_2.11-1.12.0.jar
-rw-r--r-- 1 yujianbo hadoop 137036 1月 26 09:20 flink-json-1.12.0.jar
**-rwxr-xr-x 1 yujianbo hadoop 993469 1月 26 09:20 flink-metrics-influxdb_2.11-1.12.0.jar**
-rw-r--r-- 1 yujianbo hadoop 7709742 1月 26 09:20 flink-shaded-zookeeper-3.4.14.jar
-rw-r--r-- 1 yujianbo hadoop 36147650 1月 26 09:20 flink-table_2.11-1.12.0.jar
-rw-r--r-- 1 yujianbo hadoop 40311328 1月 26 09:20 flink-table-blink_2.11-1.12.0.jar
-rw-r--r-- 1 hadoop hadoop 4288658 1月 26 13:39 hadoop-common-3.3.0.jar
**-rw-r--r-- 1 hadoop hadoop 805467 1月 26 13:40 hadoop-mapreduce-client-common-3.3.0.jar
-rw-r--r-- 1 hadoop hadoop 1624056 1月 26 13:40 hadoop-mapreduce-client-core-3.3.0.jar
-rw-r--r-- 1 hadoop hadoop 182043 1月 26 13:40 hadoop-mapreduce-client-hs-3.3.0.jar
-rw-r--r-- 1 hadoop hadoop 50699 1月 26 13:40 hadoop-mapreduce-client-jobclient-3.3.0.jar
-rw-r--r-- 1 yujianbo yujianbo 40757406 1月 26 18:40 hive-exec-3.1.2.jar
-rw-r--r-- 1 yujianbo yujianbo 313702 1月 26 18:41 libfb303-0.9.3.jar**
-rw-r--r-- 1 yujianbo hadoop 67114 1月 26 09:20 log4j-1.2-api-2.12.1.jar
-rw-r--r-- 1 yujianbo hadoop 276771 1月 26 09:20 log4j-api-2.12.1.jar
-rw-r--r-- 1 yujianbo hadoop 1674433 1月 26 09:20 log4j-core-2.12.1.jar
-rw-r--r-- 1 yujianbo hadoop 23518 1月 26 09:20 log4j-slf4j-impl-2.12.1.jar
上面加粗都是编译后加入的,所以首先先去掉全部的包,先跑官方的demo WordCount看看会不会有依赖冲突,发现没有,最终一个个去试,发现加入hive-exec-3.1.2.jar就会报错,我之前还多加了一个flink-sql-connector-hive-3.1.2_2.11-1.12.0.jar,这个也会异常,后面看了源码flink-sql-connector-hive-3.1.2这个包里的pom文件可以看到他也引入了hive的exec。所以参考官网https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/#dependencies,在配置连接hive时我选择方案二。选择方案一也行,首先要编译出合适Guava版本的hive-exec上传你的私服,然后再把这个pom换成你的版本的hive-exec,重新编译flink-sql-connector-hive-3.1.2_2.11-1.12.0.jar这个jar。
** org.apache.hive
hive-exec
3.1.2 **
log4j
log4j
org.slf4j
slf4j-log4j12
3、反编译hive-exec-3.1.2.jar发现Guava的版本是19.0
目录:META-INF.maven.com.google.guava.guava(推荐反编译工具JD-GUI,拖拉拽就能看)
二、重新编译hive-exec-3.1.2.jar包,替换里面的Guava版本解决异常
1、我们公司的集群的Guava版本
/usr/local/hadoop-3.3.0/share/hadoop/yarn/csi/lib/guava-20.0.jar
/usr/local/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar
/usr/local/apache-hive-3.1.2-bin/lib/guava-20.0.jar
hive-exec-3.1.2.jar >> guava-19.0.jar
2、编译hive-exec-3.1.2.jar
(1)把hive源码拉下来,切换3.1.2分支
(2)找到ql[hive-exec]项目模块
(3)可以看到ql[hive-exec]模块引入的Guava版本是父依赖的,所以要修改父依赖的版本即可。
由于如果将hive-exec的Guava版本改成27.0-jre版本,发现需要改很多的源码,所以决定先把版本降到20.0试试看看能不能解决依赖冲突,同时我们的集群的yarn和hive的lib引入的Guava的版本都是20.0的版本。
(4)经过测试,通过将hive-exec-3.1.2.jar中的Guava的27.0-jre版本改成20.0版本放到flink/lib目录里即可解决,无需再替换hive/lib目录下的hive-exec-3.1.2.jar
三、相关参考(我在jira提的issu以及在flink社区邮件提问)
https://issues.apache.org/jira/browse/FLINK-21142
http://apache-flink.147419.n8.nabble.com/Caused-by-java-lang-NoSuchMethodError-com-google-common-base-Preconditions-checkArgument-ZLjava-langV-td10474.html
引一段Rui Li大佬提供的解决方式:(我这里就是参考了Rui Li的第一种解决方式,采取的版本是改成20.0)
估计是Hadoop跟hive的guava版本冲突,Hadoop-3.3依赖的版本是27 [1],hive-3.1.2依赖的版本是19
[2]。另外请注意hive-3.1.2依赖的Hadoop版本是3.1.0 [3],一般不建议runtime的Hadoop版本高于hive依赖的版本。
解决方案一是在hive-exec里对guava做relocation,这个需要自己手动给hive-exec重新打包。
另一个办法是降低Hadoop版本,这里不一定需要降低集群的Hadoop版本,而是仅仅降低flink和hive这边用到的Hadoop版本,相当于用老的Hadoop
client去访问新的Hadoop server,这个小版本的兼容性一般来说是没问题的。
[1] https://issues.apache.org/jira/browse/HADOOP-16210
[2] https://github.com/apache/hive/blob/rel/release-3.1.2/pom.xml#L147
[3] https://github.com/apache/hive/blob/rel/release-3.1.2/pom.xml#L150