Spark加载PMML进行预测

背景:Spark由2.0.0升级至2.2.1,导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错

期望:将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1

解决:

旧版用法

spark-submit \

--class org.jpmml.spark.SparkPmmlWithHive \

--master yarn \

--queue queueName \

--deploy-mode client \

--jars /appcom/service/hive/lib/datanucleus-core-3.2.10.jar \

--files /appcom/config/hive/hive-site.xml \

${dir}/spark-pmml-1.0-SNAPSHOT.jar ${dir}/etl_lsvm-gxd-0.9.xml db.tbl_1 db.tbl_2

spark-pmml-1.0-SNAPSHOT.jar就是同事之前基于spark2.0.0开发的jar了,但是在我们Spark升级到2.2.1版本之后,就会开始报如下错误,导致调度作业报错。

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.CreateStruct.(Lscala/collection/Seq;)V at org.jpmml.spark.PMMLTransformer.transform(PMMLTransformer.java:149) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57) at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66) at scala.collection.mutable.ArrayOps$ofRef.foldLeft(ArrayOps.scala:186) at org.apache.spark.ml.PipelineModel.transform(Pipeline.scala:305) at org.jpmml.spark.SparkPmmlWithHive.main(SparkPmmlWithHive.java:25) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

这个错误的原因是因为在spark2.0.0里CreateStruct是一个class,但是在spark2.2.1(其实2.1.X就已经改了)中被定义为object

Spark加载PMML进行预测_第1张图片
Spark 2.0.0中对CreateStruct的定义


Spark加载PMML进行预测_第2张图片
Spark 2.1+中对CreateStruct的定义  

根据https://github.com/jpmml/jpmml-evaluator-spark/issues/11这篇文章,已经有大神写了相应的升级版本了,把项目拉下来改改看能不能行

git clone  https://github.com/sidfeiner/jpmml-spark.git

这拉取下来的代码是的spark版本是1.X的,因为我们改成2.2.1的,所以再根据这位大神的改改


Spark加载PMML进行预测_第3张图片
打开的链接:https://github.com/sidfeiner/jpmml-spark/commit/cf897ed6efe585aad976357ece86081b94f17f75

打开的页面里,他已经把spark的版本升级到2.1.0这个可以解决CreateStruct重新被定义的问题,但是注意我要升级的是2.2.1这里有一点小差别就是PMMLTransformer类中用到的ScalaUDF函数2.1.0版本是接收四个参数的,但是在2.2.1中接收的是5个参数

如果用的是传的是4个参数的则会报错如下,因为服务器上已经是2.2.1版本了

java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.ScalaUDF.(Ljava/lang/Object;Lorg/apache/spark/sql/types/DataType;Lscala/collection/Seq;Lscala/collection/Seq;)V

Spark加载PMML进行预测_第4张图片
第五个参数:None$.empty()  -这个参数我困了好久,不知道填什么。。。

解决了这个问题基本就差不多了

cd jpmml-spark

mvn clean install

生成

pmml-spark/target/pmml-spark-1.0-SNAPSHOT.jar - Library JAR file.

pmml-spark-example/target/example-1.0-SNAPSHOT.jar - Example application JAR file.

其中example-1.0-SNAPSHOT.jar就是我们要的jar,重命名spark-pmml-2.0.jar替换同事的旧版本jar包即可。

代码:


参考:

https://github.com/jpmml/jpmml-evaluator-spark

https://github.com/jpmml/jpmml-evaluator-spark/issues/11

https://github.com/sidfeiner/jpmml-spark

你可能感兴趣的:(Spark加载PMML进行预测)