lipeng_bigdata

Spark源码分析之七：Task运行（一）

在Task调度相关的两篇文章《Spark源码分析之五：Task调度（一）》与《Spark源码分析之六：Task调度（二）》中，我们大致了解了Task调度相关的主要逻辑，并且在Task调度逻辑的最后，CoarseGrainedSchedulerBackend的内部类DriverEndpoint中的makeOffers()方法的最后，我们通过调用TaskSchedulerImpl的resourceOffers()方法，得到了TaskDescription序列的序列Seq[Seq[TaskDescription]]，相关代码如下：

// 调用scheduler的resourceOffers()方法，分配资源，并在得到资源后，调用launchTasks()方法，启动tasks
      // 这个scheduler就是TaskSchedulerImpl
      launchTasks(scheduler.resourceOffers(workOffers))

/**
   * Called by cluster manager to offer resources on slaves. We respond by asking our active task
   * sets for tasks in order of priority. We fill each node with tasks in a round-robin manner so
   * that tasks are balanced across the cluster.
   *
   * 被集群manager调用以提供slaves上的资源。我们通过按照优先顺序询问活动task集中的task来回应。
   * 我们通过循环的方式将task调度到每个节点上以便tasks在集群中可以保持大致的均衡。
   */
  def resourceOffers(offers: Seq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {

这个TaskDescription很简单，是传递到executor上即将被执行的Task的描述，通常由TaskSetManager的resourceOffer()方法生成。代码如下：

/**
 * Description of a task that gets passed onto executors to be executed, usually created by
 * [[TaskSetManager.resourceOffer]].
 */
private[spark] class TaskDescription(
    val taskId: Long,
    val attemptNumber: Int,
    val executorId: String,
    val name: String,
    val index: Int,    // Index within this task's TaskSet
    _serializedTask: ByteBuffer)
  extends Serializable {

  // Because ByteBuffers are not serializable, wrap the task in a SerializableBuffer
  // 由于ByteBuffers不可以被序列化，所以将task包装在SerializableBuffer中，_serializedTask为ByteBuffer类型的Task
  private val buffer = new SerializableBuffer(_serializedTask)
  
  // 序列化后的Task， 取buffer的value
  def serializedTask: ByteBuffer = buffer.value


  override def toString: String = "TaskDescription(TID=%d, index=%d)".format(taskId, index)
}

此时，得到Seq[Seq[TaskDescription]]，即Task被调度到相应executor上后（仅是逻辑调度，实际上并未分配到executor上执行），接下来要做的，便是真正的将Task分配到指定的executor上去执行，也就是本篇我们将要讲的Task的运行。而这部分的开端，源于上述提到的CoarseGrainedSchedulerBackend的内部类DriverEndpoint中的launchTasks()方法，代码如下：

// Launch tasks returned by a set of resource offers
    private def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
    
      // 循环每个task
      for (task <- tasks.flatten) {
        
        // 序列化Task
        val serializedTask = ser.serialize(task)
        
        // 序列化后的task的大小超出规定的上限
        // 即如果序列化后task的大小大于等于框架配置的Akka消息最大大小减去除序列化task或task结果外，一个Akka消息需要保留的额外大小的值
        if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {
          
          // 根据task的taskId，在TaskSchedulerImpl的taskIdToTaskSetManager中获取对应的TaskSetManager
          scheduler.taskIdToTaskSetManager.get(task.taskId).foreach { taskSetMgr =>
            try {
              var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
                "spark.akka.frameSize (%d bytes) - reserved (%d bytes). Consider increasing " +
                "spark.akka.frameSize or using broadcast variables for large values."
              msg = msg.format(task.taskId, task.index, serializedTask.limit, akkaFrameSize,
                AkkaUtils.reservedSizeBytes)
              
              // 调用TaskSetManager的abort()方法，标记对应TaskSetManager为失败
              taskSetMgr.abort(msg)
            } catch {
              case e: Exception => logError("Exception in error callback", e)
            }
          }
        }
        else {// 序列化后task的大小在规定的大小内
          
          // 从executorDataMap中，根据task.executorId获取executor描述信息executorData
          val executorData = executorDataMap(task.executorId)
          
          // executorData中，freeCores做相应减少
          executorData.freeCores -= scheduler.CPUS_PER_TASK
          
          // 利用executorData中的executorEndpoint，发送LaunchTask事件，LaunchTask事件中包含序列化后的task
          executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
        }
      }
    }

launchTasks的执行逻辑很简单，针对传入的TaskDescription序列，循环每个Task，做以下处理：

1、首先对Task进行序列化，得到serializedTask；

2、针对序列化后的Task：serializedTask，判断其大小：

2.1、序列化后的task的大小达到或超出规定的上限，即框架配置的Akka消息最大大小，减去除序列化task或task结果外，一个Akka消息需要保留的额外大小的值，则根据task的taskId，在TaskSchedulerImpl的taskIdToTaskSetManager中获取对应的TaskSetManager，并调用其abort()方法，标记对应TaskSetManager为失败；

2.2、序列化后的task的大小未达到上限，在规定的大小范围内，则：

2.2.1、从executorDataMap中，根据task.executorId获取executor描述信息executorData；

2.2.2、在executorData中，freeCores做相应减少；

2.2.3、利用executorData中的executorEndpoint，即Driver端executor通讯端点的引用，发送LaunchTask事件，LaunchTask事件中包含序列化后的task，将Task传递到executor中去执行。

接下来，我们重点分析下上述流程。

先说下异常流程，即序列化后Task的大小超过上限时，对TaskSet标记为失败的处理。入口方法为TaskSetManager的abort()方法，代码如下：

def abort(message: String, exception: Option[Throwable] = None): Unit = sched.synchronized {
    
    // TODO: Kill running tasks if we were not terminated due to a Mesos error
    // 调用DAGScheduler的taskSetFailed()方法，标记TaskSet运行失败
    sched.dagScheduler.taskSetFailed(taskSet, message, exception)
    
    // 标志位isZombie设置为true
    isZombie = true
    
    // 满足一定条件的情况下，将TaskSet标记为Finished
    maybeFinishTaskSet()
  }

abort()方法处理逻辑共分三步：

第一，调用DAGScheduler的taskSetFailed()方法，标记TaskSet运行失败；

第二，标志位isZombie设置为true；

第三，满足一定条件的情况下，将TaskSet标记为Finished。

首先看下DAGScheduler的taskSetFailed()方法，代码如下：

/**
   * Called by the TaskSetManager to cancel an entire TaskSet due to either repeated failures or
   * cancellation of the job itself.
   */
  def taskSetFailed(taskSet: TaskSet, reason: String, exception: Option[Throwable]): Unit = {
    eventProcessLoop.post(TaskSetFailed(taskSet, reason, exception))
  }

和第二篇文章《Spark源码分析之二：Job的调度模型与运行反馈》中Job的调度模型一致，都是依靠事件队列eventProcessLoop来完成事件的调度执行的，这里，我们在事件队列eventProcessLoop中放入了一个TaskSetFailed事件。在DAGScheduler的事件处理调度函数doOnReceive()方法中，明确规定了事件的处理方法，代码如下：

// 如果是TaskSetFailed事件，调用dagScheduler.handleTaskSetFailed()方法处理
    case TaskSetFailed(taskSet, reason, exception) =>
      dagScheduler.handleTaskSetFailed(taskSet, reason, exception)

下面，我们看下handleTaskSetFailed()这个方法。

private[scheduler] def handleTaskSetFailed(
      taskSet: TaskSet,
      reason: String,
      exception: Option[Throwable]): Unit = {
    
    // 根据taskSet的stageId获取到对应的Stage，循环调用abortStage，终止该Stage
    stageIdToStage.get(taskSet.stageId).foreach { abortStage(_, reason, exception) }
    
    // 提交等待的Stages
    submitWaitingStages()
  }

很简单，首先通过taskSet的stageId获取到对应的Stage，针对Stage，循环调用abortStage()方法，终止该Stage，然后调用submitWaitingStages()方法提交等待的Stages。我们先看下abortStage()方法，代码如下：

/**
   * Aborts all jobs depending on a particular Stage. This is called in response to a task set
   * being canceled by the TaskScheduler. Use taskSetFailed() to inject this event from outside.
   * 终止给定Stage上的所有Job。
   */
  private[scheduler] def abortStage(
      failedStage: Stage,
      reason: String,
      exception: Option[Throwable]): Unit = {
    
    // 如果stageIdToStage中不存在对应的stage，说明stage已经被移除，直接返回
    if (!stageIdToStage.contains(failedStage.id)) {
      // Skip all the actions if the stage has been removed.
      return
    }
    
    // 遍历activeJobs中的ActiveJob，逐个调用stageDependsOn()方法，找出存在failedStage的祖先stage的activeJob，即dependentJobs
    val dependentJobs: Seq[ActiveJob] =
      activeJobs.filter(job => stageDependsOn(job.finalStage, failedStage)).toSeq
    
    // 标记failedStage的完成时间completionTime
    failedStage.latestInfo.completionTime = Some(clock.getTimeMillis())
    
    // 遍历dependentJobs，调用failJobAndIndependentStages()
    for (job <- dependentJobs) {
      failJobAndIndependentStages(job, s"Job aborted due to stage failure: $reason", exception)
    }
    if (dependentJobs.isEmpty) {
      logInfo("Ignoring failure of " + failedStage + " because all jobs depending on it are done")
    }
  }

这个方法的处理逻辑主要分为四步：

1、如果stageIdToStage中不存在对应的stage，说明stage已经被移除，直接返回，这是对异常情况下的一种特殊处理；

2、遍历activeJobs中的ActiveJob，逐个调用stageDependsOn()方法，找出存在failedStage的祖先stage的activeJob，即dependentJobs；

3、标记failedStage的完成时间completionTime；

4、遍历dependentJobs，调用failJobAndIndependentStages()。

其它都好说，我们主要看下stageDependsOn()和failJobAndIndependentStages()这两个方法。首先看下stageDependsOn()方法，代码如下：

/** Return true if one of stage's ancestors is target. */
  // 如果参数stage的祖先是target，返回true
  private def stageDependsOn(stage: Stage, target: Stage): Boolean = {
    
    // 如果stage即为target，返回true
    if (stage == target) {
      return true
    }
    
    // 存储处理过的RDD
    val visitedRdds = new HashSet[RDD[_]]
    
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    // 存储待处理的RDD
    val waitingForVisit = new Stack[RDD[_]]
    
    // 定义一个visit()方法
    def visit(rdd: RDD[_]) {
      // 如果该RDD未被处理过的话，继续处理
      if (!visitedRdds(rdd)) {
        // 将RDD添加到visitedRdds中
        visitedRdds += rdd
        
        // 遍历RDD的依赖
        for (dep <- rdd.dependencies) {
          dep match {
            // 如果是ShuffleDependency
            case shufDep: ShuffleDependency[_, _, _] =>
            
              // 获得mapStage，并且如果stage的isAvailable为false的话，将其压入waitingForVisit
              val mapStage = getShuffleMapStage(shufDep, stage.firstJobId)
              if (!mapStage.isAvailable) {
                waitingForVisit.push(mapStage.rdd)
              }  // Otherwise there's no need to follow the dependency back
            // 如果是NarrowDependency，直接将其压入waitingForVisit
            case narrowDep: NarrowDependency[_] =>
              waitingForVisit.push(narrowDep.rdd)
          }
        }
      }
    }
    
    // 从stage的rdd开始处理，将其入栈waitingForVisit
    waitingForVisit.push(stage.rdd)
    
    // 当waitingForVisit中存在数据，就调用visit()方法进行处理
    while (waitingForVisit.nonEmpty) {
      visit(waitingForVisit.pop())
    }
    
    // 根据visitedRdds中是否存在target的rdd判断参数stage的祖先是否为target
    visitedRdds.contains(target.rdd)
  }

这个方法主要是判断参数stage是否为参数target的祖先stage，其代码风格与stage划分和提交中的部分代码一样，这在前面的两篇文章中也提到过，在此不再赘述。而它主要是通过stage的rdd，并遍历其上层依赖的rdd链，将每个stage的rdd加入到visitedRdds中，最后根据visitedRdds中是否存在target的rdd判断参数stage的祖先是否为target。值得一提的是，如果RDD的依赖是NarrowDependency，直接将其压入waitingForVisit，如果为ShuffleDependency，则需要判断stage的isAvailable，如果为false，则将对应RDD压入waitingForVisit。关于isAvailable，我在《Spark源码分析之四：Stage提交》一文中具体阐述过，这里不再赘述。

接下来，我们再看下failJobAndIndependentStages()方法，这个方法的主要作用就是使得一个Job和仅被该Job使用的所有stages失败，并清空有关状态。代码如下：

/** Fails a job and all stages that are only used by that job, and cleans up relevant state. */
  // 使得一个Job和仅被该Job使用的所有stages失败，并清空有关状态
  private def failJobAndIndependentStages(
      job: ActiveJob,
      failureReason: String,
      exception: Option[Throwable] = None): Unit = {
    
    // 构造一个异常，内容为failureReason
    val error = new SparkException(failureReason, exception.getOrElse(null))
    
    // 标志位，是否能取消Stages
    var ableToCancelStages = true

    // 标志位，是否应该中断线程
    val shouldInterruptThread =
      if (job.properties == null) false
      else job.properties.getProperty(SparkContext.SPARK_JOB_INTERRUPT_ON_CANCEL, "false").toBoolean

    // Cancel all independent, running stages.
    // 取消所有独立的，正在运行的stages
    
    // 根据Job的jobId，获取其stages
    val stages = jobIdToStageIds(job.jobId)
    
    // 如果stages为空，记录错误日志
    if (stages.isEmpty) {
      logError("No stages registered for job " + job.jobId)
    }
    
    // 遍历stages，循环处理
    stages.foreach { stageId =>
      
      // 根据stageId，获取jobsForStage，即每个Job所包含的Stage信息
      val jobsForStage: Option[HashSet[Int]] = stageIdToStage.get(stageId).map(_.jobIds)
      
      // 首先处理异常情况，即jobsForStage为空，或者jobsForStage中不包含当前Job
      if (jobsForStage.isEmpty || !jobsForStage.get.contains(job.jobId)) {
        logError(
          "Job %d not registered for stage %d even though that stage was registered for the job"
            .format(job.jobId, stageId))
      } else if (jobsForStage.get.size == 1) {
        // 如果stageId对应的stage不存在
        if (!stageIdToStage.contains(stageId)) {
          logError(s"Missing Stage for stage with id $stageId")
        } else {
          // This is the only job that uses this stage, so fail the stage if it is running.
          // 
          val stage = stageIdToStage(stageId)
          if (runningStages.contains(stage)) {
            try { // cancelTasks will fail if a SchedulerBackend does not implement killTask
              
              // 调用taskScheduler的cancelTasks()方法，取消stage内的tasks
              taskScheduler.cancelTasks(stageId, shouldInterruptThread)
              
              // 标记Stage为完成
              markStageAsFinished(stage, Some(failureReason))
            } catch {
              case e: UnsupportedOperationException =>
                logInfo(s"Could not cancel tasks for stage $stageId", e)
              ableToCancelStages = false
            }
          }
        }
      }
    }

    if (ableToCancelStages) {// 如果能取消Stages
    
      // 调用job监听器的jobFailed()方法
      job.listener.jobFailed(error)
      
      // 为Job和独立Stages清空状态，独立Stages的意思为该stage仅为该Job使用
      cleanupStateForJobAndIndependentStages(job)
      
      // 发送一个SparkListenerJobEnd事件
      listenerBus.post(SparkListenerJobEnd(job.jobId, clock.getTimeMillis(), JobFailed(error)))
    }
  }

处理过程还是很简单的，读者可以通过上述源码和注释自行补脑，这里就先略过了。

下面，再说下正常情况下，即序列化后Task大小未超过上限时，LaunchTask事件的发送及executor端的响应。代码再跳转到CoarseGrainedSchedulerBackend的内部类DriverEndpoint中的launchTasks()方法。正常情况下处理流程主要分为三大部分：

1、从executorDataMap中，根据task.executorId获取executor描述信息executorData；

2、在executorData中，freeCores做相应减少；

3、利用executorData中的executorEndpoint，即Driver端executor通讯端点的引用，发送LaunchTask事件，LaunchTask事件中包含序列化后的task，将Task传递到executor中去执行。

我们重点看下第3步，利用Driver端持有的executor描述信息executorData中的executorEndpoint，即Driver端executor通讯端点的引用，发送LaunchTask事件给executor，将Task传递到executor中去执行。那么executor中是如何接收LaunchTask事件的呢？答案就在CoarseGrainedExecutorBackend中。

我们先说下这个CoarseGrainedExecutorBackend，类的定义如下所示：

private[spark] class CoarseGrainedExecutorBackend(
    override val rpcEnv: RpcEnv,
    driverUrl: String,
    executorId: String,
    hostPort: String,
    cores: Int,
    userClassPath: Seq[URL],
    env: SparkEnv)
  extends ThreadSafeRpcEndpoint with ExecutorBackend with Logging {

由上面的代码我们可以知道，它实现了ThreadSafeRpcEndpoint和ExecutorBackend两个trait，而ExecutorBackend的定义如下：

/**
 * A pluggable interface used by the Executor to send updates to the cluster scheduler.
 * 一个被Executor用来发送更新到集群调度器的可插拔接口。
 */
private[spark] trait ExecutorBackend {
  
  // 唯一的一个statusUpdate()方法
  // 需要Long类型的taskId、TaskState类型的state、ByteBuffer类型的data三个参数
  def statusUpdate(taskId: Long, state: TaskState, data: ByteBuffer)
}

那么它自然就有两种主要的任务，第一，作为endpoint提供driver与executor间的通讯功能；第二，提供了executor任务执行时状态汇报的功能。

CoarseGrainedExecutorBackend到底是什么呢？这里我们先不深究，留到以后分析，你只要知道它是Executor的一个后台辅助进程，和Executor是一对一的关系，向Executor提供了与Driver通讯、任务执行时状态汇报两个基本功能即可。

接下来，我们看下CoarseGrainedExecutorBackend是如何处理LaunchTask事件的。做为RpcEndpoint，在其处理各类事件或消息的receive()方法中，定义如下：

case LaunchTask(data) =>
      if (executor == null) {
        logError("Received LaunchTask command but executor was null")
        System.exit(1)
      } else {
      
        // 反序列话task，得到taskDesc
        val taskDesc = ser.deserialize[TaskDescription](data.value)
        logInfo("Got assigned task " + taskDesc.taskId)
        
        // 调用executor的launchTask()方法加载task
        executor.launchTask(this, taskId = taskDesc.taskId, attemptNumber = taskDesc.attemptNumber,
          taskDesc.name, taskDesc.serializedTask)
      }

首先，会判断对应的executor是否为空，为空的话，记录错误日志并退出，不为空的话，则按照如下流程处理：

1、反序列话task，得到taskDesc；

2、调用executor的launchTask()方法加载task。

那么，重点就落在了Executor的launchTask()方法中，代码如下：

def launchTask(
      context: ExecutorBackend,
      taskId: Long,
      attemptNumber: Int,
      taskName: String,
      serializedTask: ByteBuffer): Unit = {
      
    // 新建一个TaskRunner
    val tr = new TaskRunner(context, taskId = taskId, attemptNumber = attemptNumber, taskName,
      serializedTask)
      
    // 将taskId与TaskRunner的对应关系存入runningTasks
    runningTasks.put(taskId, tr)
    
    // 线程池执行TaskRunner
    threadPool.execute(tr)
  }

非常简单，创建一个TaskRunner对象，然后将taskId与TaskRunner的对应关系存入runningTasks，将TaskRunner扔到线程池中去执行即可。

我们先看下这个TaskRunner类。我们先看下Class及其成员变量的定义，如下：

class TaskRunner(
      execBackend: ExecutorBackend,
      val taskId: Long,
      val attemptNumber: Int,
      taskName: String,
      serializedTask: ByteBuffer)
    extends Runnable {
    
    // TaskRunner继承了Runnable

    /** Whether this task has been killed. */
    // 标志位，task是否被杀掉
    @volatile private var killed = false

    /** How much the JVM process has spent in GC when the task starts to run. */
    @volatile var startGCTime: Long = _

    /**
     * The task to run. This will be set in run() by deserializing the task binary coming
     * from the driver. Once it is set, it will never be changed.
     * 
     * 需要运行的task。它将在反序列化来自driver的task二进制数据时在run()方法被设置，一旦被设置，它将不会再发生改变。
     */
    @volatile var task: Task[Any] = _
}

由类的定义我们可以看出，TaskRunner继承了Runnable，所以它本质上是一个线程，故其可以被放到线程池中去运行。它所包含的成员变量，主要有以下几个：

1、execBackend：Executor后台辅助进程，提供了与Driver通讯、状态汇报等两大基本功能，实际上传入的是CoarseGrainedExecutorBackend实例；

2、taskId：Task的唯一标识；

3、attemptNumber：Task运行的序列号，Spark与MapReduce一样，可以为拖后腿任务启动备份任务，即推测执行原理，如此，就需要通过taskId加attemptNumber来唯一标识一个Task运行实例；

4、serializedTask：ByteBuffer类型，序列化后的Task，包含的是Task的内容，通过发序列化它来得到Task，并运行其中的run()方法来执行Task；

5、killed：Task是否被杀死的标志位；

6、task：Task[Any]类型，需要运行的Task，它将在反序列化来自driver的task二进制数据时在run()方法被设置，一旦被设置，它将不会再发生改变；

7、startGCTime：JVM在task开始运行后，进行垃圾回收的时间。

另外，既然是一个线程，TaskRunner必须得提供run()方法，该run()方法就是TaskRunner线程在线程池中被调度时，需要执行的方法，我们来看下它的定义：

override def run(): Unit = {
    
      // Step1：Task及其运行时需要的辅助对象构造
      
      // 获取任务内存管理器
      val taskMemoryManager = new TaskMemoryManager(env.memoryManager, taskId)
      
      // 反序列化开始时间
      val deserializeStartTime = System.currentTimeMillis()
      
      // 当前线程设置上下文类加载器
      Thread.currentThread.setContextClassLoader(replClassLoader)
      
      // 从SparkEnv中获取序列化器
      val ser = env.closureSerializer.newInstance()
      logInfo(s"Running $taskName (TID $taskId)")
      
      // execBackend更新状态TaskState.RUNNING
      execBackend.statusUpdate(taskId, TaskState.RUNNING, EMPTY_BYTE_BUFFER)
      var taskStart: Long = 0
      
      // 计算垃圾回收的时间
      startGCTime = computeTotalGcTime()

      try {
        // 调用Task的deserializeWithDependencies()方法，反序列化Task，得到Task运行需要的文件taskFiles、jar包taskFiles和Task二进制数据taskBytes
        val (taskFiles, taskJars, taskBytes) = Task.deserializeWithDependencies(serializedTask)
        updateDependencies(taskFiles, taskJars)
        
        // 反序列化Task二进制数据taskBytes，得到task实例
        task = ser.deserialize[Task[Any]](taskBytes, Thread.currentThread.getContextClassLoader)
        
        // 设置Task的任务内存管理器
        task.setTaskMemoryManager(taskMemoryManager)

        // If this task has been killed before we deserialized it, let's quit now. Otherwise,
        // continue executing the task.
        // 如果此时Task被kill，抛出异常，快速退出
        if (killed) {
          // Throw an exception rather than returning, because returning within a try{} block
          // causes a NonLocalReturnControl exception to be thrown. The NonLocalReturnControl
          // exception will be caught by the catch block, leading to an incorrect ExceptionFailure
          // for the task.
          throw new TaskKilledException
        }

        logDebug("Task " + taskId + "'s epoch is " + task.epoch)
        // mapOutputTracker更新Epoch
        env.mapOutputTracker.updateEpoch(task.epoch)

        // Run the actual task and measure its runtime.
        // 运行真正的task，并度量它的运行时间
        
        // Step2：Task运行
        
        // task开始时间
        taskStart = System.currentTimeMillis()
        
        // 标志位threwException设置为true，标识Task真正执行过程中是否抛出异常
        var threwException = true
        
        // 调用Task的run()方法，真正执行Task，并获得运行结果value
        val (value, accumUpdates) = try {
        
          // 调用Task的run()方法，真正执行Task
          val res = task.run(
            taskAttemptId = taskId,
            attemptNumber = attemptNumber,
            metricsSystem = env.metricsSystem)
          
          // 标志位threwException设置为false
          threwException = false
          
          // 返回res，Task的run()方法中，res的定义为(T, AccumulatorUpdates)
          // 这里，前者为任务运行结果，后者为累加器更新
          res
        } finally {
          
          // 通过任务内存管理器清理所有的分配的内存
          val freedMemory = taskMemoryManager.cleanUpAllAllocatedMemory()
          if (freedMemory > 0) {
            val errMsg = s"Managed memory leak detected; size = $freedMemory bytes, TID = $taskId"
            if (conf.getBoolean("spark.unsafe.exceptionOnMemoryLeak", false) && !threwException) {
              throw new SparkException(errMsg)
            } else {
              logError(errMsg)
            }
          }
        }
        
        // task完成时间
        val taskFinish = System.currentTimeMillis()

        // If the task has been killed, let's fail it.
        // 如果task被杀死，抛出TaskKilledException异常
        if (task.killed) {
          throw new TaskKilledException
        }

        // Step3：Task运行结果处理
        
        // 通过Spark获取Task运行结果序列化器
        val resultSer = env.serializer.newInstance()
        
        // 结果序列化前的时间点
        val beforeSerialization = System.currentTimeMillis()
        
        // 利用Task运行结果序列化器序列化Task运行结果，得到valueBytes
        val valueBytes = resultSer.serialize(value)
        
        // 结果序列化后的时间点
        val afterSerialization = System.currentTimeMillis()

        // 度量指标体系相关，暂不介绍
        for (m <- task.metrics) {
          // Deserialization happens in two parts: first, we deserialize a Task object, which
          // includes the Partition. Second, Task.run() deserializes the RDD and function to be run.
          m.setExecutorDeserializeTime(
            (taskStart - deserializeStartTime) + task.executorDeserializeTime)
          // We need to subtract Task.run()'s deserialization time to avoid double-counting
          m.setExecutorRunTime((taskFinish - taskStart) - task.executorDeserializeTime)
          m.setJvmGCTime(computeTotalGcTime() - startGCTime)
          m.setResultSerializationTime(afterSerialization - beforeSerialization)
          m.updateAccumulators()
        }

        // 构造DirectTaskResult，同时包含Task运行结果valueBytes和累加器更新值accumulator updates
        val directResult = new DirectTaskResult(valueBytes, accumUpdates, task.metrics.orNull)
        
        // 序列化DirectTaskResult，得到serializedDirectResult
        val serializedDirectResult = ser.serialize(directResult)
        
        // 获取Task运行结果大小
        val resultSize = serializedDirectResult.limit

        // directSend = sending directly back to the driver
        // directSend的意思就是直接发送结果至Driver端
        val serializedResult: ByteBuffer = {
        
          // 如果Task运行结果大小大于所有Task运行结果的最大大小，序列化IndirectTaskResult
          // IndirectTaskResult为存储在Worker上BlockManager中DirectTaskResult的一个引用
          if (maxResultSize > 0 && resultSize > maxResultSize) {
            logWarning(s"Finished $taskName (TID $taskId). Result is larger than maxResultSize " +
              s"(${Utils.bytesToString(resultSize)} > ${Utils.bytesToString(maxResultSize)}), " +
              s"dropping it.")
            ser.serialize(new IndirectTaskResult[Any](TaskResultBlockId(taskId), resultSize))
          }
          // 如果 Task运行结果大小超过Akka除去需要保留的字节外最大大小，则将结果写入BlockManager
          // 即运行结果无法通过消息传递
          else if (resultSize >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {
            
            val blockId = TaskResultBlockId(taskId)
            env.blockManager.putBytes(
              blockId, serializedDirectResult, StorageLevel.MEMORY_AND_DISK_SER)
            logInfo(
              s"Finished $taskName (TID $taskId). $resultSize bytes result sent via BlockManager)")
            ser.serialize(new IndirectTaskResult[Any](blockId, resultSize))
          } 
          // Task运行结果比较小的话，直接返回，通过消息传递
          else {
            logInfo(s"Finished $taskName (TID $taskId). $resultSize bytes result sent to driver")
            serializedDirectResult
          }
        }

        // execBackend更新状态TaskState.FINISHED
        execBackend.statusUpdate(taskId, TaskState.FINISHED, serializedResult)

      } catch {// 处理各种异常信息
        
        case ffe: FetchFailedException =>
          val reason = ffe.toTaskEndReason
          execBackend.statusUpdate(taskId, TaskState.FAILED, ser.serialize(reason))

        case _: TaskKilledException | _: InterruptedException if task.killed =>
          logInfo(s"Executor killed $taskName (TID $taskId)")
          execBackend.statusUpdate(taskId, TaskState.KILLED, ser.serialize(TaskKilled))

        case cDE: CommitDeniedException =>
          val reason = cDE.toTaskEndReason
          execBackend.statusUpdate(taskId, TaskState.FAILED, ser.serialize(reason))

        case t: Throwable =>
          // Attempt to exit cleanly by informing the driver of our failure.
          // If anything goes wrong (or this was a fatal exception), we will delegate to
          // the default uncaught exception handler, which will terminate the Executor.
          logError(s"Exception in $taskName (TID $taskId)", t)

          val metrics: Option[TaskMetrics] = Option(task).flatMap { task =>
            task.metrics.map { m =>
              m.setExecutorRunTime(System.currentTimeMillis() - taskStart)
              m.setJvmGCTime(computeTotalGcTime() - startGCTime)
              m.updateAccumulators()
              m
            }
          }
          val serializedTaskEndReason = {
            try {
              ser.serialize(new ExceptionFailure(t, metrics))
            } catch {
              case _: NotSerializableException =>
                // t is not serializable so just send the stacktrace
                ser.serialize(new ExceptionFailure(t, metrics, false))
            }
          }
          
          // execBackend更新状态TaskState.FAILED
          execBackend.statusUpdate(taskId, TaskState.FAILED, serializedTaskEndReason)

          // Don't forcibly exit unless the exception was inherently fatal, to avoid
          // stopping other tasks unnecessarily.
          if (Utils.isFatalError(t)) {
            SparkUncaughtExceptionHandler.uncaughtException(t)
          }

      } finally {
      
        // 最后，无论运行成功还是失败，将task从runningTasks中移除
        runningTasks.remove(taskId)
      }
    }

如此长的一个方法，好长好大，哈哈！不过，纵观全篇，无非三个Step就可搞定：

1、Step1：Task及其运行时需要的辅助对象构造；

2、Step2：Task运行；

3、Step3：Task运行结果处理。

对，就这么简单！鉴于时间与篇幅问题，我们这里先讲下主要流程，细节方面的东西留待下节继续。

下面，我们一个个Step来看，首先看下Step1：Task及其运行时需要的辅助对象构造，主要包括以下步骤：

1.1、构造TaskMemoryManager任务内存管理器，即taskMemoryManager；

1.2、记录反序列化开始时间；

1.3、当前线程设置上下文类加载器；

1.4、从SparkEnv中获取序列化器ser；

1.5、execBackend更新状态TaskState.RUNNING；

1.6、计算垃圾回收时间；

1.7、调用Task的deserializeWithDependencies()方法，反序列化Task，得到Task运行需要的文件taskFiles、jar包taskFiles和Task二进制数据taskBytes；

1.8、反序列化Task二进制数据taskBytes，得到task实例；

1.9、设置Task的任务内存管理器；

1.10、如果此时Task被kill，抛出异常，快速退出；

接下来，是Step2：Task运行，主要流程如下：

2.1、获取task开始时间；

2.2、标志位threwException设置为true，标识Task真正执行过程中是否抛出异常；

2.3、调用Task的run()方法，真正执行Task，并获得运行结果value，和累加器更新accumUpdates；

2.4、标志位threwException设置为false；

2.5、通过任务内存管理器taskMemoryManager清理所有的分配的内存；

2.6、获取task完成时间；

2.7、如果task被杀死，抛出TaskKilledException异常。

最后一步，Step3：Task运行结果处理，大体流程如下：

3.1、通过SparkEnv获取Task运行结果序列化器；

3.2、获取结果序列化前的时间点；

3.3、利用Task运行结果序列化器序列化Task运行结果value，得到valueBytes；

3.4、获取结果序列化后的时间点；

3.5、度量指标体系相关，暂不介绍；

3.6、构造DirectTaskResult，同时包含Task运行结果valueBytes和累加器更新值accumulator updates；

3.7、序列化DirectTaskResult，得到serializedDirectResult；

3.8、获取Task运行结果大小；

3.9、处理Task运行结果：

3.9.1、如果Task运行结果大小大于所有Task运行结果的最大大小，序列化IndirectTaskResult，IndirectTaskResult为存储在Worker上BlockManager中DirectTaskResult的一个引用；

3.9.2、如果 Task运行结果大小超过Akka除去需要保留的字节外最大大小，则将结果写入BlockManager，Task运行结果比较小的话，直接返回，通过消息传递;

3.9.3、Task运行结果比较小的话，直接返回，通过消息传递

3.10、execBackend更新状态TaskState.FINISHED；

最后，无论运行成功还是失败，将task从runningTasks中移除。

至此，Task的运行主体流程已经介绍完毕，剩余的部分细节，包括Task内run()方法的具体执行，还有任务内存管理器、序列化器、累加更新，还有部分异常情况处理，状态汇报等等其他更为详细的内容留到下篇再讲吧！

明天还要工作，洗洗睡了！

你可能感兴趣的:(Spark源码分析之七：Task运行（一）)

宇树科技纯技能要求总结极梦网络无忧杂谈科技
一、嵌入式开发与硬件设计核心技能嵌入式开发：精通C/C++，熟悉STM32、ARM开发熟悉LinuxBSP开发及驱动框架（SPI/UART/USB/FLASH/Camera/GPS/LCD）掌握主流平台（英伟达、全志、瑞芯微等）硬件设计：精通数字/模拟电路设计，熟悉PCB绘制工具（Altium等）掌握MOS驱动电路、变压器设计及EMC优化熟悉制板/贴片流程及焊接扩展技能电机控制：熟悉有感FOC算法
【图论】并查集的学习和使用猪猪成 C++学习算法图论
目录并查集是什么？举个例子组成父亲数组：find函数：union函数：代码实现：fa[]初始化code:findcode：递归实现:非递归实现:unioncode:画图模拟：路径压缩：路径压缩Code：并查集是什么？是一种树形的数据结构，一般用来处理集合的合并，查询操作。举个例子告诉你1的父节点是22的父节点是34的父节点是56没有父节点那么可以画出三个集合，或者说是树。然后我们一般用并查集判断：
施磊老师c++(八) Zhuai-行淮施磊老师cpp c++开发语言
语法是很不重要的,基本的回会了就行了cpp面经文章目录cpp面经1.程序的内存布局?--可以详看施磊老师第一节课2.堆栈区别3.函数调用参数是怎么传递的?4.为什么函数调用从右往左压栈5.函数题6.类和结构体的内存对齐----空结构体1.程序的内存布局?–可以详看施磊老师第一节课布局大概.text(代码段,放指令),.rodata(只读数据段,比如:常量字符串)—只读,不写.data(数据段:存放
基于STM32+微信小程序设计的环境监测系统（腾讯云IOT） DS小龙哥智能家居与物联网项目实战 stm32 微信小程序腾讯云
一、设计需求基于STM32设计的环境检测系统(腾讯云物联网+微信小程序实现)【1】项目背景随着人们生活水平的提高，人们对生活环境的求越来越高尤其是在家居环境有害气体污染已经引起了人们的注意，温度和湿度控制等。有关研究人员发现，天然气主要组成部分为甲烷气，而且还有少量的乙烷、丙烷、丁烷等烷烃，还含有二氧化碳、氧、氮、硫化氢、水分等。甲醛是一种破坏生物细胞蛋白质的原生质毒物，会对人的皮肤、呼吸道及内脏
ffmpeg+ubuntu16.04编译ffmpeg库小gpt& QT+FFMPEG实战 ffmpeg linux
个人使用环境：ubuntudesktop16.04+ffmpeg4.2.1以下的库进行完整编译ffmpeg介绍FFmpeg是一个开源的多媒体框架，广泛用于处理音频、视频、字幕等多媒体数据。它包含了丰富的工具和库，能够进行音视频的编解码、转码、流媒体处理、滤镜应用等操作。FFmpeg是许多多媒体应用程序和工具的核心引擎，功能强大且灵活，支持几乎所有常见的音视频格式。FFmpeg的主要组成部分ffmp
2025实战指南：基于VMware 17与Linux的Dify私有化部署——从零构建企业级AI开发平台 Tec_Bit 人工智能 centos linux 人工智能 chatgpt
一、环境准备与系统配置1.1VMware17虚拟机创建‌新建虚拟机‌：选择“典型”安装模式，指定CentOS7镜像文件（建议使用阿里云镜像源获取最新稳定版）‌1‌硬件资源配置‌：内存：≥4GB（推荐8GB）处理器：2核以上磁盘空间：≥40GB（选择“将虚拟磁盘存储为单个文件”）安装完系统使用远程工具连接centos，我这里使用的是华为的远程工具codearts,纯属个人习惯！！！其他工具也可以使用
初识金融行业 Alessio Micheli 金融职场和发展
金融行业确实是一个竞争激烈、压力巨大的领域，尤其是对于从业人员来说，考核压力、业绩目标、职场竞争等问题常常让人感到疲惫和焦虑。以下是一些建议，帮助你在这样的环境中更好地应对挑战：1.调整心态，接受现实金融行业的竞争是常态，业绩波动也是不可避免的。接受这一点，可以减少不必要的心理负担。设定合理的目标，不要过于苛求自己，避免陷入“完美主义”的陷阱。2.提升核心竞争力不断学习和提升专业技能，保持对市场的
Qt实现远程桌面控制 flower980323 qt
QT工程文件中添加axcontainer模块放一个QAxWidget到UI中，双击放入的控件，选择MicrosoftRDPClientControl-version10，完成后，控件会有绿色虚线覆盖设置属性//头文件#include#includeui.axWidget->setProperty("Server","192.168.11.184");//远程连接IPui.axWidget->set
JavaScript基础-事件基础難釋懷 javascript 开发语言
在现代Web开发中，交互性是网站用户体验的重要组成部分。通过使用JavaScript，我们可以捕获用户的操作并作出响应，实现动态网页效果。这一切都离不开事件（Events）的概念。本文将介绍JavaScript中事件的基础知识，包括事件类型、如何绑定事件处理器以及一些常见的实践技巧。一、什么是事件？在浏览器环境中，事件是由浏览器生成的通知，表明某种情况已经发生。这些情况可能是用户交互（如点击按钮）
Flutter IconButton完全指南：高效使用与性能优化秘籍帅次 Flutter flutter android ios android studio macos kotlin swift
目录一、引言二、IconButton的基本用法三、进阶技巧3.1自定义形状与背景3.2带文本的IconButton（使用Column组合）3.3自定义交互反馈3.4动态图标切换3.5组合式按钮（图标+文字）四、高级应用4.1与主题深度整合4.2手势扩展（长按/双击）4.3动画增强点击效果五、性能与最佳实践5.1避免重建5.1.1声明常量图标5.1.2带参数的常量图标5.1.3常量图标按钮5.1.4
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
【面试问题】Java 接口与抽象类的区别刘小炮吖i Java Java后端开发面试题 java 开发语言面试
引言在Java面向对象编程中，接口（Interface）和抽象类（AbstractClass）是两个重要的抽象工具。它们都能定义未实现的方法，但设计目标和使用场景截然不同。本文将通过语法、特性和实际案例，深入解析两者的核心区别。一、基础概念回顾抽象类（AbstractClass）定义：使用abstract关键字声明的类，包含抽象方法（无实现）和具体方法（有实现）。特点：不能被实例化，必须通过子类继
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
施磊老师高级c++(一) Zhuai-行淮施磊老师cpp c++开发语言
对象被优化后,才是高效的c++编程文章目录对象被优化后,才是高效的c++编程1.对象使用背后调用了哪些方法2.函数调用过程中对象背后调用方法3.总结三条对象优化的规则4.CMyString的代码问题5.添加带右值引用参数的拷贝构造和赋值函数6.String类在vector上的应用--面试题7.move移动语义和forword类型完美转发move移动语义的作用代码:**问题:**解决办法:最终代码:
TCP 通信流程图 U_p_ 计算机网络知识网络服务器 windows
下面给出一个详细的TCP通信流程图，演示客户端（Client）与服务器（Server）之间通过TCP协议进行通信时的各个步骤。这里假设：服务器IP：192.168.1.100，监听80端口客户端IP：192.168.1.200，使用随机分配的端口（示例中为50000）下面的流程图按三次握手、数据交互、四次挥手的顺序展示。为便于阅读，采用ASCII画出大致示意。┌──────────────────
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
matsim开发教程若木胡大数据信息可视化
以下是基于MATSim的二次开发教程指南，结合交通仿真框架的核心功能和开发实践，提供从环境搭建到高级开发的完整路径：一、MATSim简介MATSim（Multi-AgentTransportSimulation）是一个基于Java的开源交通仿真框架，专注于大规模多智能体（Agent）交通行为模拟，支持动态需求建模、路径规划优化、政策评估等应用场景。二、开发环境搭建1.基础依赖JavaJDK11+：
（一）linux下配置jenkins--安装 xiaoxinluhua jenkins配置与部署 jenkins
前提：maven与jdk已经安装成功1下载jenkins链接：http://jenkins-ci.org/jenkins-1.619-1.1.noarch.rpmwget-O/etc/yum.repos.d/jenkins.repohttp://pkg.jenkins-ci.org/redhat/jenkins.reporpm--importhttp://pkg.jenkins-ci.org/re
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
Spring Boot 核心知识点深度详解：自动化配置 (Auto-configuration) - 解锁 Spring Boot 的 “魔法” 无眠_ spring boot 自动化后端
SpringBoot核心知识点深度详解：自动化配置(Auto-configuration)-解锁SpringBoot的“魔法”✨自动化配置(Auto-configuration)是SpringBoot最核心的特性之一，也是它能够大幅简化Spring应用开发的关键所在。它让SpringBoot应用能够“零配置”启动，极大地提升了开发效率和便捷性。本文将深入剖析SpringBoot的自动化配置机制，让
【Leetcode】11. 盛最多水的容器 Leuanghing leetcode 算法 python
一、题目描述给定一个长度为n的整数数组height。有n条垂线，第i条线的两个端点是(i,0)和(i,height[i])。找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。示例1：输入：[1,8,6,2,5,4,8,3,7]输出：49解释：图中垂直线代表输入数组[1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示
【Leetcode】12. 整数转罗马数字 Leuanghing leetcode 算法 python
一、题目描述七个不同的符号代表罗马数字，其值如下：罗马数字是通过添加从最高到最低的小数位值的转换而形成的。将小数位值转换为罗马数字有以下规则：如果该值不是以4或9开头，请选择可以从输入中减去的最大值的符号，将该符号附加到结果，减去其值，然后将其余部分转换为罗马数字。如果该值以4或9开头，使用减法形式，表示从以下符号中减去一个符号，例如4是5(V)减1(I):IV，9是10(X)减1(I)：IX。仅
wxauto调用文档（适用微信版本v3.9.×.×） Leuanghing 微信 python wxauto WeChat
wxauto调用文档（适用微信版本v3.9.×.×）一、版本对比二、安装wxauto三、使用文档1、获取所有好友详情信息`wx.GetFriendDetails`2、获取聊天对象名和新消息条数（还未跑通）`wx.GetSessionAmont`3、是否有新消息`wx.CheckNewMessage`4、获取下一个新消息`wx.GetNextNewMessage`5、获取所有新消息`wx.GetAl
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
go面向对象编程三大特性，封装、继承和多态平谷一勺 Golang基础篇 golang 开发语言后端 go封装继承多态封装多态继承
1.简介go具有面向对象编程的封装、继承和多态的特性，只是实现的方式和其它OOP语言不一样，下面看下go的三大特性是如何实现的。2.封装2.1基本介绍封装就是把抽象出的字段和对字段的操作封装在一起，数据被保护在内部，程序的其它包只能通过被授权的操作（方法），才能对字段进行操作。优点：隐藏细节。可以对数据进行验证，保证安全合理。2.2封装的实现步骤将结构体、字段（属性）的首字母小写（不能导出了，其他
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement