2023-10-25 pyspark使用jar包

提交方式

使用参数jars即可

--jars "/path/to/local/xxx.jar"

pyspark代码中使用方式

sc._jvm.demo.FeatureCalculateDemo
或者
spark._jvm.demo.FeatureCalculateDemo

此处 demo.FeatureCalculateDemo 为 自己的类的引用路径

遇到的坑

在使用过程中如果需要将spark session传入jar内的方法,直接传入pyspark的sparksession会出现

AttributeError: 'SparkSession' object has no attribute '_get_object_id'

此时只需要将spark session改为java的spark session。
具体如下
原始代码假设为 spark._jvm.demo.FeatureCalculateDemo(spark, 10)
修改后为 spark._jvm.demo.FeatureCalculateDemo(spark._jsparkSession, 10)

你可能感兴趣的:(2023-10-25 pyspark使用jar包)