Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster

问题描述

场景:
在小海豚里面调度Spark任务是出现这个问题。
spark 3.0.1
yarn:3.1.1
日志:

Container exited with a non-zero exit code 1. Error file: prelaunch.err.
	Last 4096 bytes of prelaunch.err :
	Last 4096 bytes of stderr :
	Error: Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster

解决方案:

1.配置 spark.yarn.jars

  • 1 上传jars到Hdfs
hadoop fs -mkdir -p  /spark-yarn/jars
 hadoop fs -put $SPARK_HOME/jars/* /spark-yarn/jars/
  • 2 修改spark-defaults.conf
spark.yarn.jars hdfs://hadoop218:8020/spark-yarn/jars/*.jar

这个是网上的大多数的解决方案,但是我配置了,还是出现上述的错误。于是我找到了下面的解决方式

2.配置 spark.yarn.archive

针对1不起作用的情况

  • 1打包jar
cd  $SPARK_HOME/jars/

zip -q -r spark_jars_.zip *

hadoop fs -mkdir /spark-yarn/zip

hadoop fs -put spark_jars.zip /spark-yarn/zip/
  • 2修改修改spark-defaults.conf
spark.yarn.archive hdfs://hadoop218:8020/spark-yarn/zip/spark_jars.zip

参数分析:

Spark官网介绍:
Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster_第1张图片

使用yarn的方式提交spark应用时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 看到输出的日志在输出Neither spark.yarn.jars nor spark.yarn.archive is set;一段指令后,会看到不停地上传本地jar到HDFS上,内容如下,这个过程会非常耗时。可以通过在spark-defaults.conf配置里添加spark.yarn.archive或spark.yarn.jars来缩小spark应用的启动时间

spark.yarn.archive有个说明是,说如果两个参数都配置,应用程序会优先使用 spark.yarn.archive会代替 spark.yarn.jars 在所有容器中使用打包文件。

同样这是一项优化手段,配置spark.yarn.archive并且上传了程序所有的依赖jar的方式能减少资源的上传。


你可能感兴趣的:(Spark,spark,apache,大数据)