所有脚本和代码以 Spark 3.0.1 为准，Scala 版本为 2.12~

（作为一个强迫症患者，为什么不选 3.0.0，因为 3.0.1 是稳定版本）

从 spark-submit 说起

Spark 应用程序通常是用 spark-submit 脚本提交的，无论是本地模式还是集群模式。

spark-submit

如果需要，会通过脚本查找环境变量 SPARK_HOME
调用 spark-class 脚本，这里传入的参数 org.apache.spark.deploy.SparkSubmit 在后面解析命令中会用到

文件：${SPARK_HOME}/bin/spark-submit

 # line20：如果没有 SPARK_HOME 环境变量，就通过 bin 目录下的 find-spark-home 脚本查找
 if [ -z "${SPARK_HOME}" ]; then
   source "$(dirname "$0")"/find-spark-home
 fi

 # line25：禁用 Python 3.3+ 版本之后对字符串的随机哈希
 export PYTHONHASHSEED=0
 # line27：调用 spark-class 脚本
 exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"

find-spark-home

如果安装了 PySpark，就用 Python 脚本查找 SPARK_HOME
否则就将 SPARK_HOME 设置为当前目录的父目录

文件：${SPARK_HOME}/bin/find-spark-home

 # line22：查找 SPARK_HOME 的 Python 脚本
 FIND_SPARK_HOME_PYTHON_SCRIPT="$(cd "$(dirname "$0")"; pwd)/find_spark_home.py"

 # line25：如果环境变量已经设置了，就退出
 if [ ! -z "${SPARK_HOME}" ]; then
    exit 0
 elif [ ! -f "$FIND_SPARK_HOME_PYTHON_SCRIPT" ]; then
   # 如果所在的目录不存在 find_spark_home.py 文件，也就是说没有通过 pip 安装 PySpark，那就把 SPARK_HOME 环境变量设置为当前目录的父目录
   export SPARK_HOME="$(cd "$(dirname "$0")"/..; pwd)"
 else
   # 如果通过 pip 安装 PySpark，就用脚本寻找 SPARK_HOME
   # 默认使用标准的 python 解释器，除非额外指定
   if [[ -z "$PYSPARK_DRIVER_PYTHON" ]]; then
      PYSPARK_DRIVER_PYTHON="${PYSPARK_PYTHON:-"python"}"
   fi
   export SPARK_HOME=$($PYSPARK_DRIVER_PYTHON "$FIND_SPARK_HOME_PYTHON_SCRIPT")
 fi

spark-class

加载环境变量
生成 classpath
通过 launcher 程序 org.apache.spark.launcher.Main 输出运行命令
如果一切正常，执行生成的命令

文件：${SPARK_HOME}/bin/spark-class

 # line20：如果没有 SPARK_HOME 环境变量，就通过 bin 目录下的 find-spark-home 脚本查找，跟上面一样，相当于二次检查
 if [ -z "${SPARK_HOME}" ]; then
   source "$(dirname "$0")"/find-spark-home
 fi
 
 # line24：配置 spark 环境
 . "${SPARK_HOME}"/bin/load-spark-env.sh

 # line27：查找 Java 环境，如果存在 JAVA_HOME 环境变量就采用，不存在就查找 java 命令，一般 Linux 系统都会有；如果还没找到那就不干了
 if [ -n "${JAVA_HOME}" ]; then
   RUNNER="${JAVA_HOME}/bin/java"
 else
   if [ "$(command -v java)" ]; then
     RUNNER="java"
   else
     echo "JAVA_HOME is not set" >&2
     exit 1
   fi
 fi

 # line39：查找 Spark 依赖，如果 ${SPARK_HOME}/jars 是个目录，就将其设置为环境变量 SPARK_JARS_DIR；否则就设置为 ${SPARK_HOME}/assembly/target/scala-$SPARK_SCALA_VERSION/jars，这个感觉像针对源码启动的方式，如果从官网下载编译好的版本是没有 assembly 目录的
 if [ -d "${SPARK_HOME}/jars" ]; then
   SPARK_JARS_DIR="${SPARK_HOME}/jars"
 else
   SPARK_JARS_DIR="${SPARK_HOME}/assembly/target/scala-$SPARK_SCALA_VERSION/jars"
 fi
 # line45：如果 SPARK_JARS_DIR 不是一个目录，同时 "$SPARK_TESTING$SPARK_SQL_TESTING" 为空，就退出；否则将 classpath 设置为 "$SPARK_JARS_DIR/*"
 if [ ! -d "$SPARK_JARS_DIR" ] && [ -z "$SPARK_TESTING$SPARK_SQL_TESTING" ]; then
   echo "Failed to find Spark jars directory ($SPARK_JARS_DIR)." 1>&2
   echo "You need to build Spark with the target \"package\" before running this program." 1>&2
   exit 1
 else
   LAUNCH_CLASSPATH="$SPARK_JARS_DIR/*"
 fi

 # line53：如果 SPARK_PREPEND_CLASSES 存在，将构建目录添加到 classpath 中，可以忽略
 if [ -n "$SPARK_PREPEND_CLASSES" ]; then
   LAUNCH_CLASSPATH="${SPARK_HOME}/launcher/target/scala-$SPARK_SCALA_VERSION/classes:$LAUNCH_CLASSPATH"
 fi

 # line70：解析启动命令参数，这里启用一个 Java 程序来解析输入的参数，该程序会把解析后的启动参数写到标准输出，然后下面 76 行再把这些参数读进来构建真正的启动命令
 build_command() {
   "$RUNNER" -Xmx128m $SPARK_LAUNCHER_OPTS -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@"
   printf "%d\0" $?
 }

 # line76：关闭 posix 模式，因为不支持进程替换；这里会把上面提到的 Java 进程的输出读进来解析，注意分隔符是 $'\0'，这是从 Java 程序里输出的，具体的看后面对 org.apache.spark.launcher.Main 代码的解释；最终的命令存放在 CMD 数组里
 set +o posix
 CMD=()
 DELIM=$'\n'
 CMD_START_FLAG="false"
 while IFS= read -d "$DELIM" -r ARG; do
   if [ "$CMD_START_FLAG" == "true" ]; then
     CMD+=("$ARG")
   else
     if [ "$ARG" == $'\0' ]; then
       # Java 程序会先输出一个 '\0\n'，用来标识开始输出命令参数
       DELIM=''
       CMD_START_FLAG="true"
     elif [ "$ARG" != "" ]; then
       echo "$ARG"
     fi
   fi
 done < <(build_command "$@")

 COUNT=${#CMD[@]}
 LAST=$((COUNT - 1))
 LAUNCHER_EXIT_CODE=${CMD[$LAST]}

 # line101：如果上面 Java 程序的返回值不是一个整数，就异常退出
 if ! [[ $LAUNCHER_EXIT_CODE =~ ^[0-9]+$ ]]; then
   echo "${CMD[@]}" | head -n-1 1>&2
   exit 1
 fi

 # line106：如果返回值不是 0，异常退出
 if [ $LAUNCHER_EXIT_CODE != 0 ]; then
   exit $LAUNCHER_EXIT_CODE
 fi
 
 # line110：真正的启动命令，注意删除了最后一个元素，因为前面的 build_command 函数中最后还加了返回值进去，这里会把 0 干掉
 CMD=("${CMD[@]:0:$LAST}")
 exec "${CMD[@]}"

例如，如果在我的机器上执行 ${SPARK_HOME}/bin/spark-shell --master local 命令，最终的 CMD 其实是 /Library/Java/JavaVirtualMachines/jdk1.8.0_261.jdk/Contents/Home/bin/java -cp ${SPARK_HOME}/conf/:/Users/fengjian/opt/spark-3.0.1-bin-hadoop3.2/jars/* -Dscala.usejavacp=true -Xmx1g org.apache.spark.deploy.SparkSubmit --master local --class org.apache.spark.repl.Main --name Spark shell spark-shell

load-spark-env

检查 SPARK_HOME
加载 SPARK_CONF_DIR 目录下的 spark-env.sh 脚本，默认使用 ${SPARK_HOME}"/conf 作为 SPARK_CONF_DIR，脚本中声明的变量会被提升为环境变量
设置 SPARK_SCALA_VERSION 环境变量

文件：${SPARK_HOME}/bin/load-spark-env.sh

 # line25：真保险，第三次检查了
 if [ -z "${SPARK_HOME}" ]; then
   source "$(dirname "$0")"/find-spark-home
 fi

 # line29：如果环境变量 SPARK_ENV_LOADED 不存在，
 SPARK_ENV_SH="spark-env.sh"
 if [ -z "$SPARK_ENV_LOADED" ]; then
   export SPARK_ENV_LOADED=1
   # 如果 SPARK_CONF_DIR 环境变量不存在，使用 ${SPARK_HOME}/conf 作为 SPARK_CONF_DIR
   export SPARK_CONF_DIR="${SPARK_CONF_DIR:-"${SPARK_HOME}"/conf}"
     # 找到 SPARK_CONF_DIR 目录下的 spark-env.sh 的脚本
   SPARK_ENV_SH="${SPARK_CONF_DIR}/${SPARK_ENV_SH}"
   if [[ -f "${SPARK_ENV_SH}" ]]; then
     # 将 spark-env.sh 脚本中声明的变量都暴露为环境变量
     set -a
     . ${SPARK_ENV_SH}
     set +a
   fi
 fi
 
 # line47：设置 SPARK_SCALA_VERSION 环境变量
 export SPARK_SCALA_VERSION=2.12

默认情况下 ${SPARK_HOME}/conf/spark-env.sh 脚本不存在，有一个 ${SPARK_HOME}/conf/spark-env.sh.template 的范例脚本，里面包含了很多可以配置的环境变量名称和相应的用法，当然都是注释掉的，在需要使用的时候拷贝一份命名为 ${SPARK_HOME}/conf/spark-env.sh，再将需要的环境变量暴露出来就可以生效了。

org.apache.spark.launcher.Main

通过 buildCommand 方法解析命令行参数，该方法的细节这里就不展开了，感兴趣的朋友可以自行探索
输出解析后的命令行参数，在 spark-class 脚本的 76 行会接收这些参数，如果一切正常，作为真正的启动脚本执行

文件：${spark-project}/launcher/src/main/java/org/apache/spark/launcher/Main.java

// line51
public static void main(String[] argsArray) throws Exception {
  checkArgument(argsArray.length > 0, "Not enough arguments: missing class name.");

  List args = new ArrayList<>(Arrays.asList(argsArray));
  String className = args.remove(0);
  
  // line57：可以看到能够通过 SPARK_PRINT_LAUNCH_COMMAND 环境变量来打印解析后的命令
  boolean printLaunchCommand = !isEmpty(System.getenv("SPARK_PRINT_LAUNCH_COMMAND"));
  Map env = new HashMap<>();
  List cmd;
  // line60：如果第一个参数时 org.apache.spark.deploy.SparkSubmit，说明是通过 spark-submit 脚本提交的，这也是最常用的
  if (className.equals("org.apache.spark.deploy.SparkSubmit")) {
    ...
  } else {
    ...
  }

  if (isWindows()) {
    // line91：如果是 Windows 操作系统，就直接打印命令
    System.out.println(prepareWindowsCommand(cmd, env));
  } else {
    // line94：打印一个 NULL 和一个换行符来告诉 spark-class 脚本接下来会输出真正的命令行运行参数
    System.out.println('\0');

    // line97：使用 NULL 作为分隔符是因为在 bash 中该付汇不可能是作为一个参数传递；打印命令项供 spark-class 脚本使用
    List bashCmd = prepareBashCommand(cmd, env);
    for (String c : bashCmd) {
      System.out.print(c);
      System.out.print('\0');
    }
  }
}

Summary

那么现在整个流程比较清晰了：

spark-submit 脚本调用了 spark-class 脚本，并传递参数 org.apache.spark.deploy.SparkSubmit
spark-class 脚本会加载需要的环境变量，生成 classpath，并通过 org.apache.spark.launcher.Main 生成真正运行的命令行脚本
启动 JVM 进程

001 从 spark-submit 说起