myllxy

Spark2.0.2源码分析——SparkSubmit提交任务

序列图：

1.客户端任务提交：

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.4.0.jar 100

其中 spark - submit 脚本语句如下：

2.执行 SparkSubmit 中的 main 方法：

def main(args: Array[String]): Unit = {
    val appArgs = new SparkSubmitArguments(args)
    if (appArgs.verbose) {
      // scalastyle:off println
      printStream.println(appArgs)
      // scalastyle:on println
    }
    appArgs.action match {
      case SparkSubmitAction.SUBMIT => submit(appArgs)
      case SparkSubmitAction.KILL => kill(appArgs)
      case SparkSubmitAction.REQUEST_STATUS => requestStatus(appArgs)
    }
  }

上面代码中，spark-submit 脚本提交的命令行参数，通过 main 函数的 args 获取，并将args参数传入 SparkSubmitArguments 中解析完成。最后通过匹配 appArgs 参数中的 action 类型，执行 submit、kill、requestStatus 操作。

进入到 SparkSubmitArguments 中，分析一下参数的解析过程。

SparkSubmitArguments 代码如下所示：

// Set parameters from command line arguments
  try {
// 调用parse方法，从命令行解析出各个参数
    parse(args.asJava)
  } catch {
  //捕获到IllegalArgumentException，打印错误并退出
    case e: IllegalArgumentException =>
      SparkSubmit.printErrorAndExit(e.getMessage())
  }
  // 合并默认的Spark配置项，使用传入的配置覆盖默认的配置
  mergeDefaultSparkProperties()
  // 从sparkProperties移除不是“spark.”为开始的配置
  ignoreNonSparkProperties()
  // 加载系统环境变量中的配置信息
  loadEnvironmentArguments()
  // 验证参数是否合法
  validateArguments()

这里调用父类的 SparkSubmitOptionParser 中的 parse 函数查找 args 中设置的--选项和值并解析为 name 和 value ，如 --master yarn-client 会被解析为值为 --master 的 name 和值为 yarn-client 的 value 。这之后调用SparkSubmitArguments#handle(MASTER, "yarn-client")进行处理。

// SparkSubmitOptionParser
if (!handle(name, value)) {
          break;
        }

handle(opt: String, value: String) 代码如下：

override protected def handle(opt: String, value: String): Boolean = {
    opt match {
      case NAME =>
        name = value

      case MASTER =>
        master = value

      case CLASS =>
        mainClass = value
      // 即，不是"client"和"cluster"，此时报错
      case DEPLOY_MODE =>
        if (value != "client" && value != "cluster") {
          SparkSubmit.printErrorAndExit("--deploy-mode must be either \"client\" or \"cluster\"")
        }
        deployMode = value

...

}

这个函数也很简单，根据参数 opt 及 value，设置各个成员的值。接上例，parse 中调用 handle("--master", "yarn-client")
后，在 handle 函数中，master 成员将被赋值为 yarn-client。

值得一提的是，如果没有 --class 参数，尝试从 JAR 中设置 main 类：

// Try to set main class from JAR if no --class argument is given
    if (mainClass == null && !isPython && !isR && primaryResource != null) {
      val uri = new URI(primaryResource)
      val uriScheme = uri.getScheme()

      uriScheme match {
        case "file" =>
          try {
            val jar = new JarFile(uri.getPath)
            // Note that this might still return null if no main-class is set; we catch that later
            mainClass = jar.getManifest.getMainAttributes.getValue("Main-Class")
          } catch {
            case e: Exception =>
              SparkSubmit.printErrorAndExit(s"Cannot load main class from JAR $primaryResource")
          }
        case _ =>
          SparkSubmit.printErrorAndExit(
            s"Cannot load main class from JAR $primaryResource with URI $uriScheme. " +
            "Please specify a class through --class.")
      }
    }

注意，case MASTER 中的 MASTER 的值在 SparkSubmitOptionParser 定义为 --master，MASTER 与其他值定义如下：

protected final String CLASS = "--class";
  protected final String CONF = "--conf";
  protected final String DEPLOY_MODE = "--deploy-mode";
  protected final String DRIVER_CLASS_PATH = "--driver-class-path";
  protected final String DRIVER_CORES = "--driver-cores";
  protected final String DRIVER_JAVA_OPTIONS =  "--driver-java-options";
  protected final String DRIVER_LIBRARY_PATH = "--driver-library-path";
  protected final String DRIVER_MEMORY = "--driver-memory";
  protected final String EXECUTOR_MEMORY = "--executor-memory";
  protected final String FILES = "--files";
  protected final String JARS = "--jars";
  protected final String KILL_SUBMISSION = "--kill";
  protected final String MASTER = "--master";
  protected final String NAME = "--name";
  protected final String PACKAGES = "--packages";
  protected final String PACKAGES_EXCLUDE = "--exclude-packages";
  protected final String PROPERTIES_FILE = "--properties-file";
  protected final String PROXY_USER = "--proxy-user";
  protected final String PY_FILES = "--py-files";
  protected final String REPOSITORIES = "--repositories";
  protected final String STATUS = "--status";
  protected final String TOTAL_EXECUTOR_CORES = "--total-executor-cores";

  // Options that do not take arguments.
  protected final String HELP = "--help";
  protected final String SUPERVISE = "--supervise";
  protected final String USAGE_ERROR = "--usage-error";
  protected final String VERBOSE = "--verbose";
  protected final String VERSION = "--version";

  // Standalone-only options.

  // YARN-only options.
  protected final String ARCHIVES = "--archives";
  protected final String EXECUTOR_CORES = "--executor-cores";
  protected final String KEYTAB = "--keytab";
  protected final String NUM_EXECUTORS = "--num-executors";
  protected final String PRINCIPAL = "--principal";
  protected final String QUEUE = "--queue";

SparkSubmit#main 函数中有 case SparkSubmitAction.SUBMIT => submit(appArgs)，这句代码判断是否是提交参数并执行程序，如果匹配到 SparkSubmitAction.SUBMIT，则调用 submit(appArgs)方法，参数 appArgs 是 SparkSubmitArguments 类型，appArgs 中包含了提交的各种参数，包括命令行传入以及默认的配置项。

submit(appArgs) 代码如下：

private def submit(args: SparkSubmitArguments): Unit = {
    // 返回一个四元组
    val (childArgs, childClasspath, sysProps, childMainClass) = prepareSubmitEnvironment(args)

    def doRunMain(): Unit = {
      if (args.proxyUser != null) {
        val proxyUser = UserGroupInformation.createProxyUser(args.proxyUser,
          UserGroupInformation.getCurrentUser())
        try {
          proxyUser.doAs(new PrivilegedExceptionAction[Unit]() {
            override def run(): Unit = {
              runMain(childArgs, childClasspath, sysProps, childMainClass, args.verbose)
            }
          })
        } catch {
          case e: Exception =>
            if (e.getStackTrace().length == 0) {
              printStream.println(s"ERROR: ${e.getClass().getName()}: ${e.getMessage()}")
              exitFn(1)
            } else {
              throw e
            }
        }
      } else {
        runMain(childArgs, childClasspath, sysProps, childMainClass, args.verbose)
      }
    }
    // 不管是不是 StandaloneCluster 模式都会调用 doRunMain 方法
    if (args.isStandaloneCluster && args.useRest) {
      try {
        printStream.println("Running Spark using the REST application submission protocol.")
        doRunMain()
      } catch {
        case e: SubmitRestConnectionException =>
          printWarning(s"Master endpoint ${args.master} was not a REST server. " +
            "Falling back to legacy submission gateway instead.")
          args.useRest = false
          submit(args)
      }
    } else {
      doRunMain()
    }
  }

这段代码中，调用 prepareSubmitEnvironment(args) 方法，完成提交环境的准备。该方法返回一个四元 Tuple ，分别表示子进程参数、子进程 classpath 列表、系统属性 map 、子进程 main 方法。完成了提交环境的准备工作之后，接下来就将启动子进程。

prepareSubmitEnvironment(args)：

（0）设置应用程序部署方式：

（case "client" | null => CLIENT）

// Set the deploy mode; default is client mode
    var deployMode: Int = args.deployMode match {
      case "client" | null => CLIENT
      case "cluster" => CLUSTER
      case _ => printErrorAndExit("Deploy mode must be either client or cluster"); -1
    }

（1）将childMainClass设置为应用程序主类名：

// In client mode, launch the application main class directly
    // In addition, add the main application jar and any added jars (if any) to the classpath
    if (deployMode == CLIENT) {
      childMainClass = args.mainClass
      if (isUserJar(args.primaryResource)) {
        childClasspath += args.primaryResource
      }
      if (args.jars != null) { childClasspath ++= args.jars.split(",") }
      if (args.childArgs != null) { childArgs ++= args.childArgs }
    }

（2）将childMainClass设置为StandaloneRestClient或Client：

// In standalone cluster mode, use the REST client to submit the application (Spark 1.3+).
    // All Spark parameters are expected to be passed to the client through system properties.
    if (args.isStandaloneCluster) {
      if (args.useRest) {
        childMainClass = "org.apache.spark.deploy.rest.StandaloneRestClient"
        childArgs += (args.primaryResource, args.mainClass)
      } else {
        // In legacy standalone cluster mode, use Client as a wrapper around the user class
        childMainClass = "org.apache.spark.deploy.Client"
        if (args.supervise) { childArgs += "--supervise" }
        Option(args.driverMemory).foreach { m => childArgs += ("--memory", m) }
        Option(args.driverCores).foreach { c => childArgs += ("--cores", c) }
        childArgs += "launch"
        childArgs += (args.master, args.primaryResource, args.mainClass)
      }
      if (args.childArgs != null) {
        childArgs ++= args.childArgs
      }
    }

（3）将childMainClass设置为org.apache.spark.deploy.yarn.Client：

// In yarn-cluster mode, use yarn.Client as a wrapper around the user class
    if (isYarnCluster) {
      childMainClass = "org.apache.spark.deploy.yarn.Client"
      if (args.isPython) {
        childArgs += ("--primary-py-file", args.primaryResource)
        childArgs += ("--class", "org.apache.spark.deploy.PythonRunner")
      } else if (args.isR) {
        val mainFile = new Path(args.primaryResource).getName
        childArgs += ("--primary-r-file", mainFile)
        childArgs += ("--class", "org.apache.spark.deploy.RRunner")
      } else {
        if (args.primaryResource != SparkLauncher.NO_RESOURCE) {
          childArgs += ("--jar", args.primaryResource)
        }
        childArgs += ("--class", args.mainClass)
      }
      if (args.childArgs != null) {
        args.childArgs.foreach { arg => childArgs += ("--arg", arg) }
      }
    }

这里注意：childMainClass不为应用程序主类名时，后面invoke调的是spark内部已经写好的其他类，那这个时候我在shell命令中的--class在哪里执行呢：

childArgs += ("--class", args.mainClass)

mainMethod.invoke(null, childArgs.toArray)

childMainClass值为：

应用程序主类名； // yarn client 和 standalone client 模式下

org.apache.spark.deploy.rest.StandaloneRestClient；// standalone cluster 模式下

org.apache.spark.deploy.Client；// standalone cluster 模式下

org.apache.spark.deploy.yarn.Client。// yarn cluster 模式下

具体执行过程在 runMain 函数中，代码如下所示：

private def runMain(
      childArgs: Seq[String],
      childClasspath: Seq[String],
      sysProps: Map[String, String],
      childMainClass: String,
      verbose: Boolean): Unit = {
    // scalastyle:off println
    if (verbose) {
      printStream.println(s"Main class:\n$childMainClass")
      printStream.println(s"Arguments:\n${childArgs.mkString("\n")}")
      printStream.println(s"System properties:\n${sysProps.mkString("\n")}")
      printStream.println(s"Classpath elements:\n${childClasspath.mkString("\n")}")
      printStream.println("\n")
    }
    // scalastyle:on println

    val loader =
      if (sysProps.getOrElse("spark.driver.userClassPathFirst", "false").toBoolean) {
        new ChildFirstURLClassLoader(new Array[URL](0),
          Thread.currentThread.getContextClassLoader)
      } else {
        new MutableURLClassLoader(new Array[URL](0),
          Thread.currentThread.getContextClassLoader)
      }
    Thread.currentThread.setContextClassLoader(loader)
    // 遍历classpath列表
    for (jar <- childClasspath) {
    // 使用loader类加载器将jar包依赖加入classpath
      addJarToClasspath(jar, loader)
    }

    for ((key, value) <- sysProps) {
    // 将sysProps中的配置全部设置到System全局变量中
      System.setProperty(key, value)
    }

    var mainClass: Class[_] = null

    try {
    // 获取启动的MainClass
      mainClass = Utils.classForName(childMainClass)
    } catch {
      case e: ClassNotFoundException =>
        e.printStackTrace(printStream)
        if (childMainClass.contains("thriftserver")) {
          // scalastyle:off println
          printStream.println(s"Failed to load main class $childMainClass.")
          printStream.println("You need to build Spark with -Phive and -Phive-thriftserver.")
          // scalastyle:on println
        }
        System.exit(CLASS_NOT_FOUND_EXIT_STATUS)
      case e: NoClassDefFoundError =>
        e.printStackTrace(printStream)
        if (e.getMessage.contains("org/apache/hadoop/hive")) {
          // scalastyle:off println
          printStream.println(s"Failed to load hive class.")
          printStream.println("You need to build Spark with -Phive and -Phive-thriftserver.")
          // scalastyle:on println
        }
        System.exit(CLASS_NOT_FOUND_EXIT_STATUS)
    }

    // SPARK-4170
    if (classOf[scala.App].isAssignableFrom(mainClass)) {
      printWarning("Subclasses of scala.App may not work correctly. Use a main() method instead.")
    }
    // 得到启动的对象的main方法
    val mainMethod = mainClass.getMethod("main", new Array[String](0).getClass)
    if (!Modifier.isStatic(mainMethod.getModifiers)) {
      throw new IllegalStateException("The main method in the given main class must be static")
    }

    @tailrec
    def findCause(t: Throwable): Throwable = t match {
      case e: UndeclaredThrowableException =>
        if (e.getCause() != null) findCause(e.getCause()) else e
      case e: InvocationTargetException =>
        if (e.getCause() != null) findCause(e.getCause()) else e
      case e: Throwable =>
        e
    }

    try {
      // 使用反射执行main方法，并将childArgs作为参数传入该main方法
      mainMethod.invoke(null, childArgs.toArray)
    } catch {
      case t: Throwable =>
        findCause(t) match {
          case SparkUserAppException(exitCode) =>
            System.exit(exitCode)

          case t: Throwable =>
            throw t
        }
    }
  }

在上面代码中，使用Utils工具提供的classForName方法，找到主类，然后在mainClass上调用getMethod方法得到main方法，最后在mainMethod上调用invoke执行main方法。需要注意的是，执行invoke方法同时传入了childArgs参数，这个参数中保留了配置信息。Utils.classForName(childMainClass)方法将会返回要执行的主类。

注意：这里的 mainClass 和 SparkSubmitArguments 中的 mainClass 是不同的变量。

程序将启动对应模式的某个类，并运行主方法，该类中做了哪些事情？先来看看这个类中怎样完成调用吧。

3.对应模式下的 mainMethod 执行：

/*
standalone cluster 模式下
*/
object Client {
  def main(args: Array[String]) {
    // scalastyle:off println
    if (!sys.props.contains("SPARK_SUBMIT")) {
      println("WARNING: This client is deprecated and will be removed in a future version of Spark")
      println("Use ./bin/spark-submit with \"--master spark://host:port\"")
    }
    // scalastyle:on println
    // 创建SparkConf对象
    val conf = new SparkConf()
    val driverArgs = new ClientArguments(args)
    // 设置RPC请求超时时间为10秒
    conf.set("spark.rpc.askTimeout", "10")
    Logger.getRootLogger.setLevel(driverArgs.logLevel
    // 使用RpcEnv的create创建Rpc环境
    val rpcEnv =
      RpcEnv.create("driverClient", Utils.localHostName(), 0, conf, new SecurityManager(conf))
    //获得和Master通信的RPCEndpointRef
    val masterEndpoints = driverArgs.masters.map(RpcAddress.fromSparkURL).
      map(rpcEnv.setupEndpointRef(_, Master.ENDPOINT_NAME))
    //注册ClientEndpoint
    rpcEnv.setupEndpoint("client", new ClientEndpoint(rpcEnv, driverArgs, masterEndpoints, conf))
    // 等待rpcEnv的终止
    rpcEnv.awaitTermination()
  }
}

/*
yarn client 和 standalone client 模式下
*/
object SparkPi {
  def main(args: Array[String]) {
    val spark = SparkSession
      .builder
      .appName("Spark Pi")
      .getOrCreate()
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
    val count = spark.sparkContext.parallelize(1 until n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y <= 1) 1 else 0
    }.reduce(_ + _)
    println(s"Pi is roughly ${4.0 * count / (n - 1)}")
    spark.stop()
  }
}



/*
SparkContext 的初始化
*/
private[this] var userSuppliedContext: Option[SparkContext] = None
private[spark] def sparkContext(sparkContext: SparkContext): Builder = synchronized {
      userSuppliedContext = Option(sparkContext)
      this
    }

SparkSubmit提交任务结束。

参考：https://blog.csdn.net/duan_zhihua/article/details/73456538

https://blog.csdn.net/vfgbv/article/details/52034016

Spark源码分析之：Shuffle 你说个der Spark spark 大数据
这一篇我们来分析Spark2.1的Shuffle流程。其实ShuffleDependency从SparkContext初始化就已经被DAGScheduler划分好了，本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。要从Task运行开始说起，就要知道Task在哪里运行的。我们普遍认为Executor是负责执行Task的，但是我们发现Executor其实就是一个类pr
【Spark源码分析】Spark的RPC通信二-初稿顧棟 spark rpc
Spark的RPC通信二-初稿SparkRPC的传输层传输层主要还是借助netty框架进行实现。TransportContext包含创建TransportServer、TransportClientFactory和使用TransportChannelHandler设置NettyChannel管道的上下文。TransportClient提供两种通信协议：control-planeRPCs和data-
【Spark源码分析】Spark的RPC通信一-初稿顧棟 Spark spark rpc
Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC消息的发送与接收实现核心类`Inbox`核心类`Dispatcher`核心类`Outbox`Spark的RPC顶层设计在RpcEnv中定义了RPC通信框架的启动、停止和关闭等抽象方法，表示
1. spark源码分析（基于yarn cluster模式）-任务提交 Leo Han 大数据 spark scala big data yarn
首先声明，这个系列研究的源码基于spark-2.4.6我们在使用spark-shell提交任务的时候，一般采用如下模式提交任务：park-submit--classxxxxx--name'test_xxxx'--masteryarn-cluster--queueyarn-test--principalad-bigdata-test--keytab'xxxx.keytab'--num-executo
spark源码：SparkContext初始化需要启动的组件 weixin_38842855 spark
spark源码分析之SparkContext1.SparkContext简介2初始化SparkContext需要启动的组件2.0SparkContext私有的可变成员变量2.1SpaekEnv2.2LiveListenerBus2.3SparkUI2.4SparkStatusTracker2.5ConsoleProgressBar2.6DAGScheduler2.7TaskScheduler2.8
【Spark源码分析】事件总线机制分析顧棟 Spark spark 大数据
Spark事件总线机制采用Spark2.11源码，以下类或方法被@DeveloperApi注解额部分，可能出现不同版本不同实现的情况。Spark中的事件总线用于接受事件并提交到对应的监听器中。事件总线在Spark应用启动时，会在SparkContext中激活spark运行的事件总线（LiveListenerBus）。LiveListenerBus相关的部分类图如下：由于Spark使用scala语言
Spark-deploy blesslyy spark deploy
Spark-deploy@(spark)[deploy|yarn]写在前面的话请参考Spark源码分析之-deploy模块，虽然是13年的文章，但是作者写的比我明白多了。so我写一半就算了。。。在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了HadoopYARN的方式：外层的资源管理器和应用内的任务调度器；并且分析了Spark应用内的任务调度模块。本文就
Spark自定义输出文件客舟听雨2 spark hadoop 大数据
一、概述本文将通过源码出发讲述spark如何调用hadoop几种OutputFormat,从而实现的文件输出，这里将讲述几种工作中常使用的算子，例如：saveAsTextFile(path)、saveAsHadoopFile(path)二、spark源码分析saveAsTextFile(path)底层调用也是saveAsHadoopFile(path)，所以这里主要是讲述后者的源码；这一步也将带你
spark源码分析Master与Worker启动流程篇那年的坏人 spark spark 源码分布式框架
spark通信流程概述spark作为一套高效的分布式运算框架，但是想要更深入的学习它，就要通过分析spark的源码，不但可以更好的帮助理解spark的工作过程，还可以提高对集群的排错能力，本文主要关注的是Spark的Master的启动流程与Worker启动流程。Master启动我们启动一个Master是通过Shell命令启动了一个脚本start-master.sh开始的，这个脚本的启动流程如下st
Spark 源码分析之ShuffleMapTask内存数据Spill和合并 thinktothings Spark Spark
Spark源码分析之ShuffleMapTask内存数据Spill和合并更多资源分享SPARK源码分析技术分享(视频汇总套装视频):https://www.bilibili.com/video/av37442139/github:https://github.com/opensourceteams/spark-scala-mavencsdn(汇总视频在线看):https://blog.csdn.n
原创-Spark源码分析六：Standalone模式下Driver注册启动流程无色的叶
作业提交流程图image.png作业执行流程描述：客户端提交作业给MasterMaster让一个Worker启动Driver，即SchedulerBackend。Worker创建一个DriverRunner线程，DriverRunner启动SchedulerBackend进程。另外Master还会让其余Worker启动Exeuctor，即ExecutorBackend。Worker创建一个Exec
spark源码分析StatCounter以及用法达微
StatCounter这是用于统计的一个类，在org.apache.spark.util包中如果是RDD[Double]可以通过隐式转化DoubleRDDFunctions来获得一些额外的功能，就比如能产生这个对象的.statsdefstats():StatCounter=self.withScope{self.mapPartitions(nums=>Iterator(StatCounter(nu
Spark源码分析（1） RDD是什么泥菩萨酱
RDD是Spark的基础，是对大数据的抽象，所以先破解Spark，首先从RDD开始。RDD是什么？有什么特点？RDD包含什么？RDD能做什么？RDD的注释org.apache.spark.rdd.RDD类源代码中有详细的注释：AResilientDistributedDataset(RDD),thebasicabstractioninSpark.翻译：弹性的分布式数据集是Spark基础的抽象。解释
Spark源码分析：TaskSetManager raincoffee
任务集管理模块TaskSetManager详解前面提到，dagscheduler负责将一组任务提交给taskscheduler以后，这组任务的调度任务对于他来说就算完成了。接下来这组任务内部的调度逻辑则是由tastsetmanager来完成的。/***SchedulesthetaskswithinasingleTaskSetintheTaskSchedulerImpl.Thisclasskeeps
Spark源码分析(一):Spark执行流程 Java技术范
Spark执行流程过程描述:1.通过Shell脚本启动Master，Master类继承Actor类，通过ActorySystem创建并启动。2.通过Shell脚本启动Worker，Worker类继承Actor类，通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等)，以后就是定时汇报，保持心跳。4.M
Spark源码分析之Master的启动流程叫我不矜持
准备本文主要对Master的启动流程源码进行分析。Spark源码版本为2.3.1。阅读源码首先从启动脚本入手，看看首先加载的是哪个类，我们看一下start-master.sh启动脚本中的具体内容。脚本代码可以看到这里加载的类是org.apache.spark.deploy.master.Master，好那我们的源码寻觅之旅就从这开始...源码分析打开源码，我们发现Master是伴生关系的一组类，我
spark源码分析-Standalone Cluster模式源码分析，driver，executor开启 LinkStars spark core 源码分析 spark
史上最全面的spark源码分析，独一无二的分析，让你彻底明白spark如何开启driver，以及什么时候会开启executor。避免培训机构讲解误导。本文使用spark3.0.1提供计算π的案例进行演示，运行调度StandaloneCluster模式。演示步骤如下：启动master，ip:169.254.150.140启动worker:传参spark://169.254.150.140:7077环
spark源码分析，master如何开启，master和worker是怎么通信 LinkStars spark core 源码分析 spark
master的开启，开启了master，会在本机开启masternetty服务端，用来接收远程或者本地客户端发送数据，再对master服务进行绑定。开启流程如worker的开启流程:https://blog.csdn.net/LinkStars/article/details/112982187spark源码学习-worker启动消息通信，inbox，outbox创建netty服务端发送消息:ma
Spark源码分析之MemoryManager happy19870612 大数据/spark/源码
它会强制管理存储(storage)和执行(execution)之间的内存使用#记录用了多少storagememory和executionmemory#申请storage、execution和unrollmemory#释放storage和executionmemoryexecutionmemory:是指shuffles，joins，sorts和aggregation的计算操作storagememor
spark源码分析之TaskMemoryManager weiqing687 spark
概述TaskMemoryManager用于管理每个task分配的内存。在off-heap内存模式中，可以用64-bit的地址来表示内存地址。在on-heap内存模式中，通过baseobject的引用和该对象中64-bit的偏移量来表示内存地址。当我们想要存储其它结构内部的数据结构的指针时，这是一个问题，例如记录hashmap或者sortingbuffer的指针。即使我们使用128-bit来表示内存
Spark源码分析之九：内存管理模型 weixin_34357436 大数据内存管理 scala
Spark是现在很流行的一个基于内存的分布式计算框架，既然是基于内存，那么自然而然的，内存的管理就是Spark存储管理的重中之重了。那么，Spark究竟采用什么样的内存管理模型呢？本文就为大家揭开Spark内存管理模型的神秘面纱。我们在《Spark源码分析之七：Task运行（一）》一文中曾经提到过，在Task被传递到Executor上去执行时，在为其分配的TaskRunner线程的run()方法内
Spark源码分析之Driver的分配启动和executor的分配启动 yzgyjyw spark spark 源码 executor driver schedule
继上一篇我们讲到创建SparkContext对象的时候，创建了TaskScheduler对象，并通过ClientEndPoint中发送RegisterApplication消息向Master注册Application，在Master接收到这个消息后，将会作出下面的动作1.构建ApplicationInfo对象2.执行registerApplication()，将applicationInfo添加到
Spark源码分析-应用程序到底是如何提交到Spark并运行的？ merrily01 Spark源码分析
网上有不少关于Spark应用程序提交流程分析的文章，有的鞭辟入里、有的浅尝辄止。但由于Spark代码版本更迭或关注点的缘故，总有一些自己想知道的细节不能系统的获取。所以打算基于spark-2.4.4（3.0-release版本还未发版），记录下自己对Spark应用程序提交和运行流程源码的一些分析和理解，同时通过打断点代码调试的方式，将完整的代码执行流程分享给大家，希望能做到真正的手把手带你读Spa
Spark源码解读之Shuffle原理剖析与源码分析不清不慎 Spark Spark源码剖析与调优
在前面几篇文章中，介绍了Spark的启动流程Spark内核架构流程深度剖析，Spark源码分析之DAGScheduler详解，Spark源码解读之Executor以及Task工作原理剖析，Spark源码解读之Executor以及Task工作原理剖析等Spark重要组件的源码剖析之后，接着之前的文章，本篇文章来剖析Shuffle的原理，shuffle阶段无论是mapreduce还是Spark都是其核
Spark源码分析（3） RDD 的转换泥菩萨酱
RDD的转换可以产生新的RDD。RDD转换图如上图，外圈是RDD的转换，内圈红色RDD是转换产生的新RDD。按颜色区分转换：绿色是单RDD窄依赖转换黑色是多RDD窄依赖转换紫色是KV洗牌型转换黄色是重分区转换蓝色是特例的转换单RDD窄依赖转换MapPartitionRDD这个RDD在第一次分析中已经分析过。简单复述一下：依赖列表：一个窄依赖，依赖上游RDD分区列表：上游RDD的分区列表计算流程：映
Spark源码分析之作业和任务调度流程叫我不矜持
一.前言Spark的作业和任务调度系统是其核心。Spark的作业调度主要是基于RDD的一系列操作构成一个作业，然后在Executor上执行，这些操作算子主要分为转换和行动算子，对于转换算子的计算是lazy级别的，也就是延迟执行，只有出现了行动算子才触发作业的提交。在Spark调度中，最重要的是DAGScheduler和TaskSechduler两个调度器，其中DAGScheduler负责任务的逻辑
Spark源码分析之七：Task运行（一） H_MZ
在Task调度相关的两篇文章《Spark源码分析之五：Task调度（一）》与《Spark源码分析之六：Task调度（二）》中，我们大致了解了Task调度相关的主要逻辑，并且在Task调度逻辑的最后，CoarseGrainedSchedulerBackend的内部类DriverEndpoint中的makeOffers()方法的最后，我们通过调用TaskSchedulerImpl的resourceOf
Spark源码分析之一：Job提交运行总流程概述 weixin_34242819
Spark是一个基于内存的分布式计算框架，运行在其上的应用程序，按照Action被划分为一个个Job，而Job提交运行的总流程，大致分为两个阶段：1、Stage划分与提交（1）Job按照RDD之间的依赖关系是否为宽依赖，由DAGScheduler划分为一个个Stage，并将每个Stage提交给TaskScheduler；（2）Stage随后被提交，并由TaskScheduler将每个stage转化
spark任务执行过程，源码分析和on Yarn调度过程 §蜗牛§ spark
一、spark源码分析执行流程当spark遇到action类算子，开始调起任务1.Action类型的算子触发job的执行。源码中调用了SparkContext的runJob()方法，根进源码发现底层调用的是DAGScheduler的runJob()方法。2.DAGScheduler会将我们的job按照宽窄依赖划分为一个个stage(每个stage根据RDD的Partition的个数决定task的个
结合Spark源码分析, combineByKey, aggregateByKey, foldByKey, reduceByKey 小帆的帆 Spark spark
转载请标明出处：小帆的帆的专栏combineByKeydefcombineByKey[C](createCombiner:V=>C,mergeValue:(C,V)=>C,mergeCombiners:(C,C)=>C):RDD[(K,C)]=self.withScope{combineByKeyWithClassTag(createCombiner,mergeValue,mergeCombine
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

Spark2.0.2源码分析——SparkSubmit提交任务

序列图：

1.客户端任务提交：

2.执行 SparkSubmit 中的 main 方法 ：

3.对应模式下的 mainMethod 执行：

你可能感兴趣的:(Spark源码分析)

2.执行 SparkSubmit 中的 main 方法：