Spark机器学习实战-问题汇总[持续更新]

前言

主要记录在实战过程中遇到的各种问题及解决方法。

问题

问题1:mml.Lightgbm进行fit操作的过程中

  • TypeError: ‘JavaPackage’ object is not callable

  • 解决方法:这类问题一般都是在spark-submit或者spark config阶段未指定正确jar导致的,所有只要在submit或者config里面添加lightgbm对应的jar包即可:

--jars hdfs://yourpath/mmlspark_2.11-0.18.1.jar,hdfs://yourpath/com.microsoft.ml.lightgbm_lightgbmlib-2.2.350.jar

问题2:from mmlspark.lightgbm import LightGBMClassifier or LightGBMRegressor

  • Pyspark ModuleNotFoundError: No module named ‘mmlspark’ or mmlspark.lightgbm._LightGBMRegressor or _LightGBMClassifier
  • 解决方法:这个主要是没有安装好mmlspark的缘故,mmlspark是微软出的基于spark的机器学习库,这个库pip源安装的时候是老版本0.0.11111111,这种版本太老了,需要替换成新版的mmlspark:

你可能感兴趣的:(Spark机器学习实战,spark,big,data,jar)