u011263983

《Apache Spark源码剖析》学习笔记之Spark作业提交

1.作业提交

以foreach函数开始：

foreach

-------------------------------------------------------------------------------------------

/**  * Applies a function f to all elements of this RDD.  */ def foreach(f: T => Unit): Unit = withScope {
  val cleanF = sc.clean(f)
  sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
}

--------------------------------------------------------------------------------------------

在foreach函数中调用的runJob函数有多个变种，也就是实现了函数重载，这些重载的函数实现了哪些功能呢？

接下来就会解答这个问题。

步骤1：指定了Final RDD和作用于RDD上的Function

runJob(-)

--------------------------------------------------------------------------------------------

/**  * Run a job on all partitions in an RDD and return the results in an array.  */ def runJob[T, U: ClassTag](rdd: RDD[T], func: Iterator[T] => U): Array[U] = {
  runJob(rdd, func, 0 until rdd.partitions.size, false)
}

-------------------------------------------------------------------------------------------

步骤2：读取Final RDD的分区,数，并指定是否允许本地执行。

runJob(二)

----------------------------------------------------------------------------------------------

/**  * Run a job on a given set of partitions of an RDD, but take a function of type  * `Iterator[T] => U` instead of `(TaskContext, Iterator[T]) => U`.  */ def runJob[T, U: ClassTag](
    rdd: RDD[T],
    func: Iterator[T] => U,
    partitions: Seq[Int],
    allowLocal: Boolean
    ): Array[U] = {
  runJob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal)
}

------------------------------------------------------------------------------------------------

步骤3：匿名函数抓换

------------------------------------------------------------------------------------------------

/**  * Run a function on a given set of partitions in an RDD and return the results as an array. The  * allowLocal flag specifies whether the scheduler can run the computation on the driver rather  * than shipping it out to the cluster, for short actions like first().  */ def runJob[T, U: ClassTag](
    rdd: RDD[T],
    func: (TaskContext, Iterator[T]) => U,
    partitions: Seq[Int],
    allowLocal: Boolean
    ): Array[U] = {
  val results = new Array[U](partitions.size)
  runJob[T, U](rdd, func, partitions, allowLocal, (index, res) => results(index) = res)
  results
}

---------------------------------------------------------------------------------------------------

步骤4：添加对Job计算结果的处理句柄

---------------------------------------------------------------------------------------------------

/**  * Run a function on a given set of partitions in an RDD and pass the results to the given  * handler function. This is the main entry point for all actions in Spark. The allowLocal  * flag specifies whether the scheduler can run the computation on the driver rather than  * shipping it out to the cluster, for short actions like first().  */ def runJob[T, U: ClassTag](
    rdd: RDD[T],
    func: (TaskContext, Iterator[T]) => U,
    partitions: Seq[Int],
    allowLocal: Boolean,
    resultHandler: (Int, U) => Unit) {
  if (stopped) {
    throw new IllegalStateException("SparkContext has been shutdown")
  }
  val callSite = getCallSite
  val cleanedFunc = clean(func)
  logInfo("Starting job: " + callSite.shortForm)
  if (conf.getBoolean("spark.logLineage", false)) {
    logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString)
  }
  dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,
    resultHandler, localProperties.get)
  progressBar.foreach(_.finishAll())
  rdd.doCheckpoint()
}

----------------------------------------------------------------------------------------------------------

注意在此处调用clean（func)

/**  * Clean a closure to make it ready to serialized and send to tasks  * (removes unreferenced variables in $outer's, updates REPL variables)  * If <tt>checkSerializable</tt> is set, <tt>clean</tt> will also proactively  * check to see if <tt>f</tt> is serializable and throw a <tt>SparkException</tt>
 * if not.  *  * @param f the closure to clean  * @param checkSerializable whether or not to immediately check <tt>f</tt> for serializability  * @throws SparkException if <tt>checkSerializable</tt> is set but <tt>f</tt> is not  * serializable  */ private[spark] def clean[F <: AnyRef](f: F, checkSerializable: Boolean = true): F = {
  ClosureCleaner.clean(f, checkSerializable)
  f
}

-------------------------------------------------------------------------------------------------------------

ClosureCleaner的主要作用

当Scala在创建一个闭包时，需要先判断哪些变量会被闭包所使用并将这些需要使用的变量存储在闭包之内。这一特性是的闭包可以在创建闭包的作用范围之外也能得以正确的执行

但是，Scala又是会捕捉太多不必要的外部变量。在大多数情况下，这样子操作不会有什么副作用，只是这些多余的变量没有被使用罢了。但对于Spark来说，由于这些闭包可能会在其他的机器上执行，故此，多余的外部变量一方面浪费了网络宽带，另一方面可能就是由于外部变量并不支持序列化操作进而导致整个闭包的序列化操作出错。

为了解决这个潜在的问题，Spark专门写了ClosureCleaner来移除那些不必要的外部变量，经过清理的闭包函数能够得以正常地序列化，并可以在任意的机器上执行。

理解了ClosureCleaner存在的原因，也就会明白为什么在写Spark Application的时候，经常会遇到的"Task Not Serializable"是在什么地方报错的了。产生无法序列化的原因就是在RDD的操作中引用了无法序列化的变量。

2.作业执行

作业提交执行的完整流程如下图所示：

在任务提交过程中主要涉及Driver和Executor两个节点。

Driver在任务提交过程中最主要解决如下几个问题：

（1）RDD依赖性问题，以生成RAG。

（2）根据RDD DAG将Job分割成多个Stage。

（3）Stage一经确认，即生成相应的Task，将生成的Task分布到Executor执行。

Executor节点在接受到执行任务的指令后，启动新的线程，运行接收到的任务，并将任务的处理结果返回。

2.1 依赖性分析及Stage划分

Spark中将RDD之间的依赖分为窄依赖和宽依赖。

窄依赖是指父RDD的所有输出都会被指定的子RDD消费，也就是输出路径是固定的。宽依赖是指父RDD的输出会有不同的子RDD消费，即输出路径不固定。

调度器（Scheduler）会计算RDD之间的依赖关系，将拥有持有窄依赖的RDD归并到同一个Stage中，而宽依赖则作为划分不同Stage的判断准则。

函数handleJobSubmitted最主要的工作是生成finalStage，并根据finalStage来产生ActiveJob。

handleJobSubmitted

---------------------------------------------------------------------------------------------------

private[scheduler] def handleJobSubmitted(jobId: Int,
    finalRDD: RDD[_],
    func: (TaskContext, Iterator[_]) => _,
    partitions: Array[Int],
    allowLocal: Boolean,
    callSite: CallSite,
    listener: JobListener,
    properties: Properties = null)
{
  var finalStage: Stage = null  try {
    // New stage creation may throw an exception if, for example, jobs are run on a  // HadoopRDD whose underlying HDFS files have been deleted.  finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)
  } catch {
    case e: Exception =>
      logWarning("Creating new stage failed due to exception - job: " + jobId, e)
      listener.jobFailed(e)
      return  }
  if (finalStage != null) {
    val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties)
    clearCacheLocs()
    logInfo("Got job %s (%s) with %d output partitions (allowLocal=%s)".format(
      job.jobId, callSite.shortForm, partitions.length, allowLocal))
    logInfo("Final stage: " + finalStage + "(" + finalStage.name + ")")
    logInfo("Parents of final stage: " + finalStage.parents)
    logInfo("Missing parents: " + getMissingParentStages(finalStage))
    val shouldRunLocally =
      localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1
    val jobSubmissionTime = clock.getTimeMillis()
    if (shouldRunLocally) {
      // Compute very short actions like first() or take() with no parent stages locally.  listenerBus.post(
        SparkListenerJobStart(job.jobId, jobSubmissionTime, Seq.empty, properties))
      runLocally(job)
    } else {
      jobIdToActiveJob(jobId) = job
      activeJobs += job
      finalStage.resultOfJob = Some(job)
      val stageIds = jobIdToStageIds(jobId).toArray
      val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
      listenerBus.post(
        SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
      submitStage(finalStage)
    }
  }
  submitWaitingStages()
}

---------------------------------------------------------------------------------------------------------------------

finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)

用来创建一个新的Stage。

---------------------------------------------------------------------------------------------------------------------

/**  * Create a Stage -- either directly for use as a result stage, or as part of the (re)-creation  * of a shuffle map stage in newOrUsedStage. The stage will be associated with the provided  * jobId. Production of shuffle map stages should always use newOrUsedStage, not newStage  * directly.  */ private def newStage(
    rdd: RDD[_],  numTasks: Int,  shuffleDep: Option[ShuffleDependency[_, _, _]],  jobId: Int,  callSite: CallSite)
  : Stage =
{
  val parentStages = getParentStages(rdd, jobId)
  val id = nextStageId.getAndIncrement()
  val stage = new Stage(id, rdd, numTasks, shuffleDep, parentStages, jobId, callSite)
  stageIdToStage(id) = stage
  updateJobIdStageIdMaps(jobId, stage)
  stage
}
	Stage的初始化参数：在创建一个Stage之前，我们必须知道该Stage需要从多少个Partition读入数据，这个数值直接影响要创建多少个Task。

--------------------------------------------------------------------------

private[spark] class Stage(
    val id: Int,// Stage的序号，数值越大，越优先执行。如3,2,1.  val rdd: RDD[_],// 归属于本Stage的最后一个RDD  val numTasks: Int,// 创建的Task数目，等于父rdd的输出Partition数目  val shuffleDep: Option[ShuffleDependency[_, _, _]],  // Output shuffle if stage is a map stage  // 是否存在ShuffleDependency  val parents: List[Stage],//父Stage列表  val jobId: Int,// 作业Id  val callSite: CallSite)
  extends Logging {

---------------------------------------------------------------------------------------------------------------

也就是说在创建Stage的时候，其实已经清楚该Stage需要从多少不同的Partition读入数据，并写入到多少不同的Partition中，即输入和输出的个数均已明确。

ActiveJob的初始化参数如下。

---------------------------------------------------------------------------------------------------------------

/**  * Tracks information about an active job in the DAGScheduler.  */ private[spark] class ActiveJob(
    val jobId: Int,// 每个作业都分配一个唯一的Id  val finalStage: Stage,// 最终的Stage  val func: (TaskContext, Iterator[_]) => _,// 作用与最后一个Stage上的函数  val partitions: Array[Int],//分区列表，  // 注意这里表示需要从多少个分区读入数据并进行处理  val callSite: CallSite,
    val listener: JobListener,
    val properties: Properties) {

  val numPartitions = partitions.length
  val finished = Array.fill[Boolean](numPartitions)(false)
  var numFinished = 0
}

-------------------------------------------------------------------------

submitStage处理流程如下所述：

  
  
  
  
   
   
   
    所依赖的Stage是否都已经完成，如果没有则先执行所依赖的Stage。
   
   
   
    如果所有的依赖已经完成，则提交自身所处的Stage。
  
  
  
  
  
  
  
  
   
   
   
   --------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   /** Submits stage, but first recursively submits any missing parents. */ private def submitStage(stage: Stage) {
  val jobId = activeJobForStage(stage)
  if (jobId.isDefined) {
    logDebug("submitStage(" + stage + ")")
    if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
      val missing = getMissingParentStages(stage).sortBy(_.id)
      logDebug("missing: " + missing)
      if (missing == Nil) {
        logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
        submitMissingTasks(stage, jobId.get)
      } else {
        for (parent <- missing) {
          submitStage(parent)
        }
        waitingStages += stage
      }
    }
  } else {
    abortStage(stage, "No active job for stage " + stage.id)
  }
}--------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   val missing = getMissingParentStages(stage).sortBy(_.id)通过图的遍历，来找出所依赖的所有父Stage.
  
  
  
  
  
  
  
  
   
   
   
   --------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   private def getMissingParentStages(stage: Stage): List[Stage] = {
  val missing = new HashSet[Stage]
  val visited = new HashSet[RDD[_]]
  // We are manually maintaining a stack here to prevent StackOverflowError  // caused by recursively visiting  val waitingForVisit = new Stack[RDD[_]]
  def visit(rdd: RDD[_]) {
    if (!visited(rdd)) {
      visited += rdd
      if (getCacheLocs(rdd).contains(Nil)) {
        for (dep <- rdd.dependencies) {
          dep match {
            case shufDep: ShuffleDependency[_, _, _] =>
              val mapStage = getShuffleMapStage(shufDep, stage.jobId)
              if (!mapStage.isAvailable) {
                missing += mapStage
              }
            case narrowDep: NarrowDependency[_] =>
              waitingForVisit.push(narrowDep.rdd)
          }
        }
      }
    }
  }
  waitingForVisit.push(stage.rdd)
  while (!waitingForVisit.isEmpty) {
    visit(waitingForVisit.pop())
  }
  missing.toList
}-----------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   Stage的划分是如何确定的呢？其判断的重要依据就是是否存在ShuffleDependency，如果有则创建一个新的Stage。
  
  
  
  
  
  
  
  
   
   
   
   那么又是如何知道是否存在ShuffleDependency的呢？这取决于RDD的转换本身了。一下RDD会返回ShuffleDependency：
  
  
  
  
  
  
  
  
   
   
   
    
     ShuffledRDD 
     CoGroupedRDD 
     SubtractedRDD 
   
   
   
   
   
     假设今后需要新建一种RDD,就需要明确其Dependency类型，具体就是重载getDependencies函数，如ShuffledRDD中的实现 
   
  
  
  
  
  
  
  
  
   
   
   
   ----------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   override def getDependencies: Seq[Dependency[_]] = {
  List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator, mapSideCombine))
}----------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
    Stage划分完毕就已经明确了如下内容：
  
  
  
  
  
  
  
  
   
   
   
    （1）产生的Stage需要从多少个Partition中读取数据
  
  
  
  
  
  
  
  
   
   
   
    （2）产生的Stage会生成多少Partition
  
  
  
  
  
  
  
  
   
   
   
    （3）产生的Stage是否属于ShuffleMap类型。
  
  
  
  
  
  
  
  
   
   
   
    确认Partition以决定需要产生多少不同的Task，ShuffleMap类型判断来决定生成的Task类型。在Spark中共分为两种Task，分别是ShuffleMapTask和ResultTask。
  
  
  
  
2.2任务的创建和分发
  
  
  
  
   
   
   
    Spark将由Executor执行的Task分为 ShuffleMapTask和ResultTask两种，可以简单地将其对应于Hadoop中的Map和Reduce。
  
  
  
  
  
  
  
  
   
   
   
    submitMissingTasks负责创建新的Task。
  
  
  
  
  
  
  
  
   
   
   
    每个Stage生成Task的时候根据Stage中的isShuffleMap标记确定Task的类型，如果标记为真，则创建ShuffleMapTask；否则创建ResultTask。
  
  
  
  
  
  
  
  
   
   
   
    属于同一个Stage的Task是可以并发执行的。那么决定同一个Stage要生成多少个Task又是由哪些因素决定的呢？从源码中可以看出Partitions决定了
  
  
  
  
  
  
  
  
   
   
   
   每一个Stage中生成的Task个数。
  
  
  
  
  
  
  
  
   
   
   
    需要特别指出的是Task的个数不等于真正并发执行的个数，比如总共生成了8个Task，但只有2个Core，那么需要分成4个批次，每次并发执行两个Task。
  
  
  
  
  
  
  
  
   
   
   
   ------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   /** Called when stage's parents are available and we can now do its task. */ private def submitMissingTasks(stage: Stage, jobId: Int) {
  logDebug("submitMissingTasks(" + stage + ")")
  // Get our pending tasks and remember them in our pendingTasks entry  stage.pendingTasks.clear()

  // First figure out the indexes of partition ids to compute.  val partitionsToCompute: Seq[Int] = {
    if (stage.isShuffleMap) {
      (0 until stage.numPartitions).filter(id => stage.outputLocs(id) == Nil)
    } else {
      val job = stage.resultOfJob.get
      (0 until job.numPartitions).filter(id => !job.finished(id))
    }
  }

  val properties = if (jobIdToActiveJob.contains(jobId)) {
    jobIdToActiveJob(stage.jobId).properties
  } else {
    // this stage will be assigned to "default" pool  null  }

  runningStages += stage
  // SparkListenerStageSubmitted should be posted before testing whether tasks are  // serializable. If tasks are not serializable, a SparkListenerStageCompleted event  // will be posted, which should always come after a corresponding SparkListenerStageSubmitted  // event.  stage.latestInfo = StageInfo.fromStage(stage, Some(partitionsToCompute.size))
  outputCommitCoordinator.stageStart(stage.id)
  listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))

  // TODO: Maybe we can keep the taskBinary in Stage to avoid serializing it multiple times.  // Broadcasted binary for the task, used to dispatch tasks to executors. Note that we broadcast  // the serialized copy of the RDD and for each task we will deserialize it, which means each  // task gets a different copy of the RDD. This provides stronger isolation between tasks that  // might modify state of objects referenced in their closures. This is necessary in Hadoop  // where the JobConf/Configuration object is not thread-safe.  var taskBinary: Broadcast[Array[Byte]] = null  try {
    // For ShuffleMapTask, serialize and broadcast (rdd, shuffleDep).  // For ResultTask, serialize and broadcast (rdd, func).  val taskBinaryBytes: Array[Byte] =
      if (stage.isShuffleMap) {
        closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef).array()
      } else {
        closureSerializer.serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef).array()
      }
    taskBinary = sc.broadcast(taskBinaryBytes)
  } catch {
    // In the case of a failure during serialization, abort the stage.  case e: NotSerializableException =>
      abortStage(stage, "Task not serializable: " + e.toString)
      runningStages -= stage
      return  case NonFatal(e) =>
      abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}")
      runningStages -= stage
      return  }

  val tasks: Seq[Task[_]] = if (stage.isShuffleMap) {
    partitionsToCompute.map { id =>
      val locs = getPreferredLocs(stage.rdd, id)
      val part = stage.rdd.partitions(id)
      new ShuffleMapTask(stage.id, taskBinary, part, locs)
    }
  } else {
    val job = stage.resultOfJob.get
    partitionsToCompute.map { id =>
      val p: Int = job.partitions(id)
      val part = stage.rdd.partitions(p)
      val locs = getPreferredLocs(stage.rdd, p)
      new ResultTask(stage.id, taskBinary, part, locs, id)
    }
  }

  if (tasks.size > 0) {
    logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
    stage.pendingTasks ++= tasks
    logDebug("New pending tasks: " + stage.pendingTasks)
    taskScheduler.submitTasks(
      new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))
    stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
  } else {
    // Because we posted SparkListenerStageSubmitted earlier, we should post  // SparkListenerStageCompleted here in case there are no tasks to run.  outputCommitCoordinator.stageEnd(stage.id)
    listenerBus.post(SparkListenerStageCompleted(stage.latestInfo))
    logDebug("Stage " + stage + " is actually done; %b %d %d".format(
      stage.isAvailable, stage.numAvailableOutputs, stage.numPartitions))
    runningStages -= stage
  }
}------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
    一旦任务类型及任务个数确定之后，剩下的工作就是将这些任务派发到各个Executor，由Executor
  
  
  
  
  
  
  
  
   
   
   
   启动相应的线程来执行。这也是从计划到真正执行的过度阶段。
  
  
  
  
  
  
  
  
   
   
   
    TaskshcdulerImpl发送ReviveOffers消息给DriverActor（backend），DriverActor（backend）在收到ReviveOffer消息后，调用
  
  
  
  
  
  
  
  
   
   
   
   makeOffers处理函数。
  
  
  
  
  
  
  
  
   
   
   
   ------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   // Make fake resource offers on all executors def makeOffers() {
  launchTasks(scheduler.resourceOffers(executorDataMap.map { case (id, executorData) =>
    new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
  }.toSeq))
}------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
    makeOffers的处理逻辑如下所述：
  
  
  
  
  
  
  
  
   
   
   
    （1）找到空闲的Executor，分发的策略是随机分发，即尽可能将任务平摊到各个Executor。
  
  
  
  
  
  
  
  
   
   
   
    （2）如果有空闲的Executor，就将任务类表中的部分任务利用launchTasks发送给指定Executor。
  
  
  
  
  
  
  
  
   
   
   
    任务分发策略是随机分发的，即将任务随机发送到各个Executor中。资源分配的工作由resourceOffers函数处理。
  
  
  
  
  
  
  
  
   
   
   
   -----------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   /**  * Called by cluster manager to offer resources on slaves. We respond by asking our active task  * sets for tasks in order of priority. We fill each node with tasks in a round-robin manner so  * that tasks are balanced across the cluster.  */ def resourceOffers(offers: Seq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {
  // Mark each slave as alive and remember its hostname  // Also track if new executor is added  var newExecAvail = false  for (o <- offers) {
    executorIdToHost(o.executorId) = o.host
    activeExecutorIds += o.executorId
    if (!executorsByHost.contains(o.host)) {
      executorsByHost(o.host) = new HashSet[String]()
      executorAdded(o.executorId, o.host)
      newExecAvail = true  }
    for (rack <- getRackForHost(o.host)) {
      hostsByRack.getOrElseUpdate(rack, new HashSet[String]()) += o.host
    }
  }

  // Randomly shuffle offers to avoid always placing tasks on the same set of workers.  val shuffledOffers = Random.shuffle(offers)
  // Build a list of tasks to assign to each worker.  val tasks = shuffledOffers.map(o => new ArrayBuffer[TaskDescription](o.cores))
  val availableCpus = shuffledOffers.map(o => o.cores).toArray
  val sortedTaskSets = rootPool.getSortedTaskSetQueue
  for (taskSet <- sortedTaskSets) {
    logDebug("parentName: %s, name: %s, runningTasks: %s".format(
      taskSet.parent.name, taskSet.name, taskSet.runningTasks))
    if (newExecAvail) {
      taskSet.executorAdded()
    }
  }---------------------------------------------------------------------------
  
  
  
  
2.3任务执行
  
  
  
  
   
   
   
    LaunchTask消息被Executor接受，Executor会使用launchTask对消息进行处理
  
  
  
  
  
  
  
  
   
   
   
    这里需要注意的是如果Executor没有注册到Driver，即便接受到LaunchTask指令，也不会做任何处理。
  
  
  
  
  
  
  
  
   
   
   
   ---------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   def launchTask(
    context: ExecutorBackend,
    taskId: Long,
    attemptNumber: Int,
    taskName: String,
    serializedTask: ByteBuffer) {
  val tr = new TaskRunner(context, taskId = taskId, attemptNumber = attemptNumber, taskName,
    serializedTask)
  runningTasks.put(taskId, tr)
  threadPool.execute(tr)
}------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   val tr = new TaskRunner(context, taskId = taskId, attemptNumber = attemptNumber, taskName,
  serializedTask)在这个函数中进行反序列化过程。
  
  
  
  
  
  
  
  
   
   
   
   -------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   override def run() {
  val deserializeStartTime = System.currentTimeMillis()
  Thread.currentThread.setContextClassLoader(replClassLoader)
  val ser = env.closureSerializer.newInstance()
  logInfo(s"Running $taskName (TID $taskId)")
  execBackend.statusUpdate(taskId, TaskState.RUNNING, EMPTY_BYTE_BUFFER)
  var taskStart: Long = 0
  startGCTime = gcTime

  try {
    val (taskFiles, taskJars, taskBytes) = Task.deserializeWithDependencies(serializedTask)
    updateDependencies(taskFiles, taskJars)
    task = ser.deserialize[Task[Any]](taskBytes, Thread.currentThread.getContextClassLoader)-------------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   解决依赖性问题：
   
   
   
    updateDependencies(taskFiles, taskJars)
   
   
   
   -------------------------------------------------------------------------------
   
   
   
   /**  * Download any missing dependencies if we receive a new set of files and JARs from the  * SparkContext. Also adds any new JARs we fetched to the class loader.  */ private def updateDependencies(newFiles: HashMap[String, Long], newJars: HashMap[String, Long]) {
  lazy val hadoopConf = SparkHadoopUtil.get.newConfiguration(conf)
  synchronized {
    // Fetch missing dependencies  for ((name, timestamp) <- newFiles if currentFiles.getOrElse(name, -1L) < timestamp) {
      logInfo("Fetching " + name + " with timestamp " + timestamp)
      // Fetch file with useCache mode, close cache for local mode.  Utils.fetchFile(name, new File(SparkFiles.getRootDirectory), conf,
        env.securityManager, hadoopConf, timestamp, useCache = !isLocal)
      currentFiles(name) = timestamp
    }
    for ((name, timestamp) <- newJars) {
      val localName = name.split("/").last
      val currentTimeStamp = currentJars.get(name)
        .orElse(currentJars.get(localName))
        .getOrElse(-1L)
      if (currentTimeStamp < timestamp) {
        logInfo("Fetching " + name + " with timestamp " + timestamp)
        // Fetch file with useCache mode, close cache for local mode.  Utils.fetchFile(name, new File(SparkFiles.getRootDirectory), conf,
          env.securityManager, hadoopConf, timestamp, useCache = !isLocal)
        currentJars(name) = timestamp
        // Add it to our class loader  val url = new File(SparkFiles.getRootDirectory, localName).toURI.toURL
        if (!urlClassLoader.getURLs.contains(url)) {
          logInfo("Adding " + url + " to class loader")
          urlClassLoader.addURL(url)
        }
      }
    }
  }
}
------------------------------------------------------------------------
   
   
   
   Utils.fetchFile从HttpFileServer上获取所依赖的文件，依赖文件上传到HttpFileServer是发生在Submit的时候。支持的文件存储方式如下：
   
   
   
       
    
    
    
     
     
     
      HttpFileServer
     
     
     
      HDFS
     
     
     
      本地文件
    
    
    
    
  
  
  
  
  
  
  
  
   
   
   
   Utils.fetchFile在开始获取文件之前，首先要调用createTempDir来创建存储文件的临时目录。目录名通过java.io.tmpdir指定，默认实在/tmp目录下。
  
  
  
  
  
  
  
  
   
   
   
   

  
  
  
  
2.4 Shuffle Task
  
  
  
  
   
   
   
    TaskRunner会启动一个新的线程，这没有问题，问题是如何在run中去调用用户自己定义的处理函数呢？也就是说作用与RDD上的Operation是
  
  
  
  
  
  
  
  
   
   
   
   如何真正起作用呢？
  
  
  
  
  
  
  
  
   
   
   
   

  
  
  
  
  
  
  
  
   
   
   
   
   
   
   
   

  
  
  
  
  
  
  
  
   
   
   
   

  
  
  
  
  
  
  
  
   
   
   
   下面来看看ShuffleMapTask中的runTask函数实现
  
  
  
  
  
  
  
  
   
   
   
   ------------------------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   override def runTask(context: TaskContext): MapStatus = {
  // Deserialize the RDD using the broadcast variable.  val ser = SparkEnv.get.closureSerializer.newInstance()
  val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
    ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

  metrics = Some(context.taskMetrics)
  var writer: ShuffleWriter[Any, Any] = null  try {
    val manager = SparkEnv.get.shuffleManager
    writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
    writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])
    return writer.stop(success = true).get
  } catch {
    case e: Exception =>
      try {
        if (writer != null) {
          writer.stop(success = false)
        }
      } catch {
        case e: Exception =>
          log.debug("Could not stop writer", e)
      }
      throw e
  }
}----------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
    Iterator很重要，看看每一个RDD中的Iterator的定义
  
  
  
  
  
  
  
  
   
   
   
   final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
  if (storageLevel != StorageLevel.NONE) {
    SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)
  } else {
    computeOrReadCheckpoint(split, context)
  }
}-------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   private[spark] def computeOrReadCheckpoint(split: Partition, context: TaskContext): Iterator[T] =
{
  if (isCheckpointed) firstParent[T].iterator(split, context) else compute(split, context)
}------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
    compute的计算过程对于ShuffleMapTask比较复杂，绕的圈圈比较多；而对于ResultTask则就直接许多。
  
  
  
  
  
  
  
  
   
   
   
    与ShuffleMapTask不同，ResultTask的runTask没有明确返回值，在后续的handleTaskCompletion函数中可以进一步发现这样的处理的原因。
  
  
  
  
  
  
  
  
   
   
   
   ------------------------------------------------------
  
  
  
  
  
  
  
  
   
   
   
   private[spark] class ResultTask[T, U](
    stageId: Int,
    taskBinary: Broadcast[Array[Byte]],
    partition: Partition,
    @transient locs: Seq[TaskLocation],
    val outputId: Int)
  extends Task[U](stageId, partition.index) with Serializable {

  @transient private[this] val preferredLocs: Seq[TaskLocation] = {
    if (locs == null) Nil else locs.toSet.toSeq
  }

  override def runTask(context: TaskContext): U = {
    // Deserialize the RDD and the func using the broadcast variables.  val ser = SparkEnv.get.closureSerializer.newInstance()
    val (rdd, func) = ser.deserialize[(RDD[T], (TaskContext, Iterator[T]) => U)](
      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

    metrics = Some(context.taskMetrics)
    func(context, rdd.iterator(partition, context))
  }--------------------------------------------------------------
  
  
  
  
2.5 结果返回

2.6 WebUI

2.7 Metrics

2.8 存储机制

你可能感兴趣的:(《Apache Spark源码剖析》学习笔记之Spark作业提交)

扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
没想到，真没想到一棵落花的树
生活中，每一件小事都蕴藏着他的道理。有些令你意外，却能让你收到更为意外的结果。那一次，我真没想到的事，让我收获了爱。记忆的雨飘落下来，扰乱了我平静的心湖。那是一次数学考试，我破天荒地考了“99”分。我不禁沾沾自喜，这成绩我可不容易得到，妈妈一定会好好表扬我的。回到家，我想妈妈得意的报出成绩，妈妈只是淡淡的说：“嗯，等会儿试卷拿给我看看。”做完作业，我把试卷拿给了妈妈。只见妈妈捧着试卷，眯着眼睛盯着
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
学霸父母学渣娃，这孩子真是亲生的？太扎心了！东北SK皇家成长中心
现在的社会，每个家庭基本都把孩子的教育放在第一位，哪怕父母平时上班再苦再累也不敢在孩子的教育上有丝毫的马虎，平时对孩子的照顾真的是无微不至，每天早起送孩子上学，晚上回家辅导孩子写作业，有的父母的文化程度非常高，但是每每到了辅导孩子写作业这个时候，父母们内心都有这样一种想法，这个孩子真的是我亲生的吗？真想一巴掌拍死他，我上辈子是做了什么孽生出这么一个智障的孩子，家里每每就要上演全武行，看看这些孩子到
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul