spark launcher解读

本文主要承接上篇spark-submit解读后,来说说在spark-class.sh中调用org.apache.spark.launcher.Main,最后spark launcher进行了怎样的操作。
经过spark-submit脚本的处理后,在spark-class脚本中传入当前函数的参数如下:

org.apache.spark.deploy.SparkSubmit 
--verbose 
--jars /data/clife/clife-bigdata-dispense/libs/activation-1.1.jar;/data/clife/clife-bigdata-dispense/libs/activemq-core-5.7.0.jar 
--master yarn-cluster 
--num-executors 2 
--executor-cores 1 
--executor-memory 2G 
--conf spark.executor.extraClassPath=/data/clife/clife-bigdata-dispense/libs/activation-1.1.jar;/data/clife/clife-bigdata-dispense/libs/activemq-core-5.7.0.jar 
--conf spark.driver.extraClassPath=/data/clife/clife-bigdata-dispense/libs/activation-1.1.jar;/data/clife/clife-bigdata-dispense/libs/activemq-core-5.7.0.jar 
--class com.clife.data.action.KafkaDataDispense /data/clife/clife-bigdata-dispense/clife-bigdata-dispense-1.0.0.jar

接下来我们来看看Main.main()方法:

image.png
在进行了简单的检验后,会构建一个SparkSubmitCommandBuilder对象,用来构建启动SparkSubmit的cmd命令。并在SparkSubmitCommandBuilder的构造方法中对启动参数进行相应的转化
image.png

紧跟着调用
image.png
构建command。buildSparkSubmitCommand方法,算是整个构建SparkSubmit Command命令的核心代码。可以看到在这里开始构建java cmd
image.png
这里需要注意isClientMode成员变量,先来看看其构造方法:
image.png
当--master yarn-cluster时,isClientMode=false,那么extraClassPath将被取值为null,也就意味着spark.driver.extraClassPath参数的值不能被成功的加入build cmd命令中(对于这里,笔者也是存在一个疑问,为什么在yarn-cluster模式下,spark.driver.extraClassPath参数不适用?如果有人知道为啥,望赐教!)。

接着来看看buildJavaCommand方法,主要关注buildClassPath方法,在这里可以看到在构建jvm启动命令时-cp参数的值的顺序,这对于解决项目中jar与环境中jar产生冲突时有着很大的作用。这里就不贴源码,直接上cp的构成顺序:SPARK_CLASSPATH、spark.driver.extraClassPath、SPARK_HOME/conf、_SPARK_ASSEMBLY、SPARK_HOME/lib/datanucleus*.jar、HADOOP_CONF_DIR、YARN_CONF_DIR、SPARK_DIST_CLASSPATH,这也证明:如果项目driver端代码存在jar与环境变量SPARK_CLASSPATH中存在冲突,需要在启动当前进程时设置到SPARK_CLASSPATH的最前面,如下:
image.png

在加载完-cp后,再加载了几个jvm的配置项,最终生成的cmd如下图所示:
image.png
回到spark-class脚本,可以看到系统调用了用launcher生成jvm命令
image.png
下一篇文章中,我们再具体看看org.apache.spark.deploy.SparkSubmit类

你可能感兴趣的:(spark launcher解读)