Anbang713

Spark架构原理-DAGScheduler以及stage划分算法

原文地址：https://blog.csdn.net/zhanglh046/article/details/78485985

一、核心属性

TaskScheduler taskScheduler: task调度器。
AtomicInteger nextJobId：获取下一个jobId。
Int numTotalJobs：job总数。
AtomicInteger nextStageId：下一个stageId。
HashMap[Int, HashSet[Int]] jobIdToStageIds：jobId和对应的所有stageId的映射。
HashMap[Int, Stage] stageIdToStage： stageId -> Stage映射。
HashMap[Int, ShuffleMapStage] shuffleIdToMapStage：shufflleId 到MapStage之间的映射。
HashMap[Int, ActiveJob] jobIdToActiveJob：jobId-> ActiveJob之间的映射。
HashSet[Stage] waitingStages：正处于等待的Stages。
HashSet[Stage] runningStages：正处于运行阶段的Stages。
HashSet[Stage] failedStages：正处于失败阶段的stages。
HashSet[ActiveJob] activeJobs：激活的job。
HashMap[Int, IndexedSeq[Seq[TaskLocation]]]cacheLocs: 每一个被缓存的RDD分区的位置,即RDD 的id -> 所有分区id(每一个分区的位置信息集合)。
ScheduledExecutorService messageScheduler：后台单线程调度器。
DAGSchedulerEventProcessLoop eventProcessLoop：一个缓存时间的队列，可以根据入队的事件，执行对应的方法。

二、重要方法

1、提交作业的处理

DAGScheduler在初始化的时候，就会启动eventProcessLoop，DAGSchedulerEventProcessLoop继承了EventLoop，启动之后，会启动一个后台线程，从队列BlockingQueue里取各种event，然后根据取出的event，进行不同的处理。

class DAGScheduler {
    //……
    eventProcessLoop.start()
}

abstract class EventLoop[E](name: String){
 
    def start(): Unit = {
      if (stopped.get) {
        throw new IllegalStateException(name + " has already been stopped")
      }
      onStart()
      eventThread.start()
    }

    private val eventThread = new Thread(name) {
      // 设置成后台守护线程
      setDaemon(true)
      override def run(): Unit = {
        try {
          while (!stopped.get) {
            val event = eventQueue.take()
            try {
              onReceive(event)
            } catch {
              case NonFatal(e) =>
                try {
                  onError(e)
                } catch {
                  case NonFatal(e) => logError("Unexpected error in " + name, e)
                }
            }
          }
        } catch {
          case ie: InterruptedException => // exit even if eventQueue is not empty
          case NonFatal(e) => logError("Unexpected error in " + name, e)
        }
      }
    
    }
}

private[scheduler] class DAGSchedulerEventProcessLoop(dagScheduler: DAGScheduler)
  extends EventLoop[DAGSchedulerEvent]("dag-scheduler-event-loop") with Logging {

  private[this] val timer = dagScheduler.metricsSource.messageProcessingTimer

  // 重载EventLoop的方法
  override def onReceive(event: DAGSchedulerEvent): Unit = {
    val timerContext = timer.time()
    try {
      doOnReceive(event)
    } finally {
      timerContext.stop()
    }
  }

  private def doOnReceive(event: DAGSchedulerEvent): Unit = event match {
    // 如果是JobSubmitted，则调用handleJobSubmitted方法
    case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties) =>
      dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties)
    // 如果是MapStageSubmitted，则调用handleMapStageSubmitted方法
    case MapStageSubmitted(jobId, dependency, callSite, listener, properties) =>
      dagScheduler.handleMapStageSubmitted(jobId, dependency, callSite, listener, properties)
    // 如果是StageCancelled，则调用handleStageCancellation方法
    case StageCancelled(stageId) =>
      dagScheduler.handleStageCancellation(stageId)
    // 如果是JobCancelled，则调用handleJobCancellation方法
    case JobCancelled(jobId) =>
      dagScheduler.handleJobCancellation(jobId)
    // 如果是JobGroupCancelled，则调用handleJobGroupCancelled方法
    case JobGroupCancelled(groupId) =>
      dagScheduler.handleJobGroupCancelled(groupId)
    // 如果是AllJobsCancelled，则调用doCancelAllJobs方法
    case AllJobsCancelled =>
      dagScheduler.doCancelAllJobs()
    // 如果是ExecutorAdded，则调用handleExecutorAdded方法
    case ExecutorAdded(execId, host) =>
      dagScheduler.handleExecutorAdded(execId, host)
    // 如果是ExecutorLost，则调用handleExecutorLost方法
    case ExecutorLost(execId, reason) =>
      val filesLost = reason match {
        case SlaveLost(_, true) => true
        case _ => false
      }
      dagScheduler.handleExecutorLost(execId, filesLost)
    // 如果是BeginEvent，则调用handleBeginEvent方法
    case BeginEvent(task, taskInfo) =>
      dagScheduler.handleBeginEvent(task, taskInfo)
    // 如果是GettingResultEvent，则调用handleGetTaskResult方法
    case GettingResultEvent(taskInfo) =>
      dagScheduler.handleGetTaskResult(taskInfo)
    // 如果是CompletionEvent，则调用handleTaskCompletion方法
    case completion: CompletionEvent =>
      dagScheduler.handleTaskCompletion(completion)
    // 如果是TaskSetFailed，则调用handleTaskSetFailed方法
    case TaskSetFailed(taskSet, reason, exception) =>
      dagScheduler.handleTaskSetFailed(taskSet, reason, exception)
    // 如果是ResubmitFailedStages，则调用resubmitFailedStages方法
    case ResubmitFailedStages =>
      dagScheduler.resubmitFailedStages()
  }
}

private[scheduler] def handleJobSubmitted(jobId: Int,
    finalRDD: RDD[_],
    func: (TaskContext, Iterator[_]) => _,
    partitions: Array[Int],
    callSite: CallSite,
    listener: JobListener,
    properties: Properties) {
  // 声明一个final的stage,ResultStage
  var finalStage: ResultStage = null
  try {
    // 创建ResultStage这个final stage，如果是hadoopRDD,但是HDFS文件已经被删除，就会抛出异常
    finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)
  } catch {
    case e: Exception =>
      logWarning("Creating new stage failed due to exception - job: " + jobId, e)
      listener.jobFailed(e)
      return
  }
  // 然后根据jobId，finalStage等信息创建一个Active Job
  val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
  // 清除缓存的RDD对应的分区的位置信息
  clearCacheLocs()
  logInfo("Got job %s (%s) with %d output partitions".format(
    job.jobId, callSite.shortForm, partitions.length))
  logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")")
  logInfo("Parents of final stage: " + finalStage.parents)
  logInfo("Missing parents: " + getMissingParentStages(finalStage))

  val jobSubmissionTime = clock.getTimeMillis()
  //  把新创建的job放到jobId->ActiveJob映射集合中
  jobIdToActiveJob(jobId) = job
  // acitve job集合添加这个job
  activeJobs += job
  // finalStage设置这个active job
  finalStage.setActiveJob(job)
  // 根据jobId取出对应的stageId列表
  val stageIds = jobIdToStageIds(jobId).toArray
  // 取出对应的Stage信息
  val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
  listenerBus.post(
    SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
  // 提交Stage
  submitStage(finalStage)
}

2、stage的划分过程

首先对finalRDD 调用creatResultStage方法，通过getOrCreateParentStages获取所有的parent stage列表作为parent stage,然后还需要创建自己本身的ResultStage，比如先创建上游的stage1 和 stage2,然后再创建自己stage3
getOrCreateParentStages会调用 getShuffleDependencies 获得 G 所有直接宽依赖A和F,然后对A和F调用
对A调用getOrCreateShuffleMapStage， shuffleIdToMapStage 中获取判断为None，对 A 调用 getMissingAncestorShuffleDependencies，返回为空，因为它已经是最上游的RDD了,再调用createShuffleMapStage，由于A已经没有parent stage了，所以直接创建stage1 返回了
对F调用getOrCreateShuffleMapStage,shuffleIdToMapStage 中获取判断为None，对 F 调用getMissingAncestorShuffleDependencies，返回为空,因为其上游全是窄依赖，所以返回为空，然后对F调用createShuffleMapStage，直接创建stage2返回了
把 List(stage1,stage2) 作为 stage3 的 parents stages 创建 stage3

2.1 创建ResultStage

private def createResultStage(
    rdd: RDD[_],
    func: (TaskContext, Iterator[_]) => _,
    partitions: Array[Int],
    jobId: Int,
    callSite: CallSite): ResultStage = {
  // 根据jobId获取或者创建该RDD的parent stage
  val parents = getOrCreateParentStages(rdd, jobId)
  // 产生下一个stage id
  val id = nextStageId.getAndIncrement()
  // 根据final RDD往后推计算出来的所有stage作为parent stage，然后将parent stage列表创建
  // Result Stage，并且创建最后的stage
  val stage = new ResultStage(id, rdd, func, partitions, parents, jobId, callSite)
  // 把这个stage放入DAGScheduler维护的映射列表中
  stageIdToStage(id) = stage
  // 更新jobId->stageId的映射
  updateJobIdStageIdMaps(jobId, stage)
  // 返回ResultStage
  stage
}

2.2 创建或者获取ShuffleMapStage，将所有宽依赖划分出来的stage直接作为parent stages

// 将所有宽依赖划分出来的stage直接作为parent stages
private def getOrCreateParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] = {
  // 遍历final RDD中直接获取的宽依赖，然后递归创建ShuffleMapStage
  // 并且将所有上游或者祖先的stage全部返回，以供创建ResultStage
  getShuffleDependencies(rdd).map { shuffleDep =>
    getOrCreateShuffleMapStage(shuffleDep, firstJobId)
  }.toList
}

2.3 获取宽依赖的集合

private[scheduler] def getShuffleDependencies(
    rdd: RDD[_]): HashSet[ShuffleDependency[_, _, _]] = {
  // 用于存放宽依赖的集合
  val parents = new HashSet[ShuffleDependency[_, _, _]]
  // 存放已经访问过的RDD集合
  val visited = new HashSet[RDD[_]]
  // 存放处于等待访问状态的RDD，最后被放入的最先出栈
  val waitingForVisit = new Stack[RDD[_]]
  // 初始RDD的先放入等待的栈中
  waitingForVisit.push(rdd)
  // 只要等待访问的栈不为空
  while (waitingForVisit.nonEmpty) {
    // 就弹出第一个RDD
    val toVisit = waitingForVisit.pop()
    // 只要这个RDD还没有被访问过
    if (!visited(toVisit)) {
      // 添加到访问过的rdd集合中
      visited += toVisit
      // 获取这个RDD的依赖列表，然后遍历依赖
      toVisit.dependencies.foreach {
        // 如果是宽依赖，则添加该依赖到宽依赖的集合
        case shuffleDep: ShuffleDependency[_, _, _] =>
          parents += shuffleDep
        // 窄依赖的话直接放到等待队列，等待下一次被弹出，继续遍历
        case dependency =>
          waitingForVisit.push(dependency.rdd)
      }
    }
  }
  parents
}

2.4 获取或者创建ShuffleMapStage

private def getOrCreateShuffleMapStage(
    shuffleDep: ShuffleDependency[_, _, _],
    firstJobId: Int): ShuffleMapStage = {
  // 看是否存在该shuffleId
  shuffleIdToMapStage.get(shuffleDep.shuffleId) match {
    // 如果存在直接返回对应的ShuffleMapStage
    case Some(stage) =>
      stage
    // 否则创建ShuffleMapStage
    case None =>
      // 为final RDD的所有直接宽依赖查找上游或者祖先还有哪一些宽依赖，并且根据栈里的顺序
      // 创建stage
      getMissingAncestorShuffleDependencies(shuffleDep.rdd).foreach { dep =>
        // 如果不存在这个shuffleId，则创建
        if (!shuffleIdToMapStage.contains(dep.shuffleId)) {
          createShuffleMapStage(dep, firstJobId)
        }
      }
      // 如果final RDD的所有直接宽依赖都没有上游或者祖先的宽依赖，则直接创建stage
      createShuffleMapStage(shuffleDep, firstJobId)
  }
}

2.5 当finalRDD 的直接宽依赖的上游或者祖先还存在宽依赖，我们需要全部查找出来

private def getMissingAncestorShuffleDependencies(
    rdd: RDD[_]): Stack[ShuffleDependency[_, _, _]] = {
  // 声明一个ancestor的栈数据结构存放宽依赖
  val ancestors = new Stack[ShuffleDependency[_, _, _]]
  // 存放应访问过的RDD
  val visited = new HashSet[RDD[_]]
  // 处于等待访问的RDD栈
  val waitingForVisit = new Stack[RDD[_]]
  waitingForVisit.push(rdd)
  while (waitingForVisit.nonEmpty) {
    // 弹出这个RDD
    val toVisit = waitingForVisit.pop()
    // 如果还没被访问过
    if (!visited(toVisit)) {
      // 添加到访问过的RDD集合
      visited += toVisit
      // 根据RDD获取宽依赖集合
      getShuffleDependencies(toVisit).foreach { shuffleDep =>
        // 查看该shuffleId是否已经存在
        if (!shuffleIdToMapStage.contains(shuffleDep.shuffleId)) {
          // 如果不包含则放入ancestor堆栈
          ancestors.push(shuffleDep)
          // 并且该RDD放入等待访问列表,如果继续有宽依赖，则继续放入ancestor中
          waitingForVisit.push(shuffleDep.rdd)
        } // 否则依赖和他的祖先已经注册了
      }
    }
  }
  ancestors
}

3、提交Stage

生成finalStage的同时建立起所有stage依赖关系，然后通过finalStage生成一个作业实例，最后提交调度阶段

private def submitStage(stage: Stage) {
  // 获取该stage对应的jobId
  val jobId = activeJobForStage(stage)
  // 检查该jobId是否有效
  if (jobId.isDefined) {
    logDebug("submitStage(" + stage + ")")
    // 如果stage既不处于等待阶段也不处于运行节点，而且还不是失败的stage即该stage还没有开始处理
    if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
      // 获取stage还没有提交的parent stage
      val missing = getMissingParentStages(stage).sortBy(_.id)
      logDebug("missing: " + missing)
      // 如果不存在没有提交的parent stage，则直接把该stage进行提交
      if (missing.isEmpty) {
        logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
        submitMissingTasks(stage, jobId.get)
      } else {
        // 如果存在没有提交的parent stage，则把该stage加入到等待运行的stage列表中，同时递归调用submitStage方法
        // 直到找到开始的调度阶段
        for (parent <- missing) {
          submitStage(parent)
        }
        // 然后该stage放入到等待stage列表中
        waitingStages += stage
      }
    }
  } else {
    abortStage(stage, "No active job for stage " + stage.id, None)
  }
}

4、获取stage还没有提交的parent stage

private def getMissingParentStages(stage: Stage): List[Stage] = {
  // 存在parent stage的stage
  val missing = new HashSet[Stage]
  // 访问过的RDD集合
  val visited = new HashSet[RDD[_]]
  // 处于等待访问状态的RDD的栈
  val waitingForVisit = new Stack[RDD[_]]
  def visit(rdd: RDD[_]) {
    // 如果指定RDD还没有被访问过
    if (!visited(rdd)) {
      // 添加到访问过的RDD集合中
      visited += rdd
      // RDD是否有没有被缓存的分区
      val rddHasUncachedPartitions = getCacheLocs(rdd).contains(Nil)
      // 如果有为被缓存的分区
      if (rddHasUncachedPartitions) {
        // 遍历该RDD的依赖
        for (dep <- rdd.dependencies) {
          dep match {
            // 如果是宽依赖
            case shufDep: ShuffleDependency[_, _, _] =>
              // 创建ShuffleMapStage
              val mapStage = getOrCreateShuffleMapStage(shufDep, stage.firstJobId)
              // 如果该宽依赖还有未被提交的stage,则添加该stage到missing中
              if (!mapStage.isAvailable) {
                missing += mapStage
              }
            // 如果是窄依赖，则直接放入访问等待栈
            case narrowDep: NarrowDependency[_] =>
              waitingForVisit.push(narrowDep.rdd)
          }
        }
      }
    }
  }
  waitingForVisit.push(stage.rdd)
  while (waitingForVisit.nonEmpty) {
    visit(waitingForVisit.pop())
  }
  // 返回parent stage列表
  missing.toList
}

5、提交任务

private def submitMissingTasks(stage: Stage, jobId: Int) {
  logDebug("submitMissingTasks(" + stage + ")")
  // 将正在添加的分区集合里的信息清空
  stage.pendingPartitions.clear()

  // 标志出将要计算的分区的索引，即还没有被计算的分区
  val partitionsToCompute: Seq[Int] = stage.findMissingPartitions()

  val properties = jobIdToActiveJob(jobId).properties

  // 将该stage添加到正在运行的stage
  runningStages += stage

  stage match {
    case s: ShuffleMapStage =>
      outputCommitCoordinator.stageStart(stage = s.id, maxPartitionId = s.numPartitions - 1)
    case s: ResultStage =>
      outputCommitCoordinator.stageStart(
        stage = s.id, maxPartitionId = s.rdd.partitions.length - 1)
  }
  // 获取映射
  //每一个分区创建一个task,给每一个task计算最佳的位置,然后生成映射
  val taskIdToLocations: Map[Int, Seq[TaskLocation]] = try {
    stage match {
      case s: ShuffleMapStage =>
        partitionsToCompute.map { id => (id, getPreferredLocs(stage.rdd, id))}.toMap
      case s: ResultStage =>
        partitionsToCompute.map { id =>
          val p = s.partitions(id)
          (id, getPreferredLocs(stage.rdd, p))
        }.toMap
    }
  } catch {
    case NonFatal(e) =>
      stage.makeNewStageAttempt(partitionsToCompute.size)
      listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))
      abortStage(stage, s"Task creation failed: $e\n${Utils.exceptionString(e)}", Some(e))
      runningStages -= stage
      return
  }
  // 为stage创建新的尝试
  stage.makeNewStageAttempt(partitionsToCompute.size, taskIdToLocations.values.toSeq)
  listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))

  // 我们可能需要保持在stage里的task以避免序列化多次
  // 广播task的二进制，用于分发task到executors，注意我们广播序列化RDD和每一个task的副本，我们将要反序列化
  // 这既意味着task会获取不同的RDD副本
  var taskBinary: Broadcast[Array[Byte]] = null
  try {
    // 对于ShuffleMapTask，序列化和广播（rdd,shuffleDep)
    // 对于ResultTask,序列化和广播（rdd,func)
    val taskBinaryBytes: Array[Byte] = stage match {
      case stage: ShuffleMapStage =>
        JavaUtils.bufferToArray(
          closureSerializer.serialize((stage.rdd, stage.shuffleDep): AnyRef))
      case stage: ResultStage =>
        JavaUtils.bufferToArray(closureSerializer.serialize((stage.rdd, stage.func): AnyRef))
    }
    // 广播task的二进制数据
    taskBinary = sc.broadcast(taskBinaryBytes)
  } catch {
    // In the case of a failure during serialization, abort the stage.
    case e: NotSerializableException =>
      abortStage(stage, "Task not serializable: " + e.toString, Some(e))
      runningStages -= stage

      // Abort execution
      return
    case NonFatal(e) =>
      abortStage(stage, s"Task serialization failed: $e\n${Utils.exceptionString(e)}", Some(e))
      runningStages -= stage
      return
  }
  // 开始构建task
  val tasks: Seq[Task[_]] = try {
    stage match {
      case stage: ShuffleMapStage =>
        partitionsToCompute.map { id =>
          // 获取task所在的location
          val locs = taskIdToLocations(id)
          // 获取对应的partition
          val part = stage.rdd.partitions(id)
          // 创建ShuffleMapTask
          new ShuffleMapTask(stage.id, stage.latestInfo.attemptId,
            taskBinary, part, locs, stage.latestInfo.taskMetrics, properties, Option(jobId),
            Option(sc.applicationId), sc.applicationAttemptId)
        }

      case stage: ResultStage =>
        partitionsToCompute.map { id =>
          // 获取分区
          val p: Int = stage.partitions(id)
          val part = stage.rdd.partitions(p)
          // 获取task所在的location
          val locs = taskIdToLocations(id)
          // 创建ResultTask
          new ResultTask(stage.id, stage.latestInfo.attemptId,
            taskBinary, part, locs, id, properties, stage.latestInfo.taskMetrics,
            Option(jobId), Option(sc.applicationId), sc.applicationAttemptId)
        }
    }
  } catch {
    case NonFatal(e) =>
      abortStage(stage, s"Task creation failed: $e\n${Utils.exceptionString(e)}", Some(e))
      runningStages -= stage
      return
  }

  if (tasks.size > 0) {
    logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
    // 将task里对应的分区的id将入到pendingPartitions
    stage.pendingPartitions ++= tasks.map(_.partitionId)
    logDebug("New pending partitions: " + stage.pendingPartitions)
    // 将stage对应的task集合封装成TaskSet,调用TaskScheduler的submitTasks开始提交任务
    taskScheduler.submitTasks(new TaskSet(
      tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))
    stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
  } else {
    // 如果stage不存在任务标记，则表示stage已经调度完成
    markStageAsFinished(stage, None)

    val debugString = stage match {
      case stage: ShuffleMapStage =>
        s"Stage ${stage} is actually done; " +
          s"(available: ${stage.isAvailable}," +
          s"available outputs: ${stage.numAvailableOutputs}," +
          s"partitions: ${stage.numPartitions})"
      case stage : ResultStage =>
        s"Stage ${stage} is actually done; (partitions: ${stage.numPartitions})"
    }
    logDebug(debugString)
    //提交该Stage的正在等在的Child Stages
    submitWaitingChildStages(stage)
  }
}

6、handleTaskCompletion处理任务完成

private[scheduler] def handleTaskCompletion(event: CompletionEvent) {
  // 根据CompletionEvent获取task信息以及stageId
  val task = event.task
  val taskId = event.taskInfo.id
  val stageId = task.stageId
  val taskType = Utils.getFormattedClassName(task)

  outputCommitCoordinator.taskCompleted(
    stageId,
    task.partitionId,
    event.taskInfo.attemptNumber, // this is a taskattempt number
    event.reason)

  // Reconstructtask metrics. Note: this may be null if the task has failed.
  val taskMetrics: TaskMetrics =
    if (event.accumUpdates.nonEmpty) {
      try {
        TaskMetrics.fromAccumulators(event.accumUpdates)
      } catch {
        case NonFatal(e) =>
          logError(s"Error when attempting to reconstruct metrics for task $taskId", e)
          null
      }
    } else {
      null
    }
  // 向ListenerBus上广播CompletionEvent的事件
  listenerBus.post(SparkListenerTaskEnd(
     stageId, task.stageAttemptId, taskType, event.reason, event.taskInfo, taskMetrics))

  // 如果当前stage已经被取消，则直接返回
  if (!stageIdToStage.contains(task.stageId)) {
    // Skip allthe actions if the stage has been cancelled.
    return
  }

  val stage = stageIdToStage(task.stageId)
  event.reason match {
    // 如果处理task成功
    case Success =>
      // 从stage的pendingPartitions移除当前task对应的partitionId
      stage.pendingPartitions -= task.partitionId
      task match {
        // 如果是ResultTask
        case rt: ResultTask[_, _] =>
          val resultStage = stage.asInstanceOf[ResultStage]
          resultStage.activeJob match {
            // 如果ResultStage对应的job还存在
            case Some(job) =>
              // 判断该stage上如果还有分区未完成
              if (!job.finished(rt.outputId)) {
                // 更新accumulator
                updateAccumulators(event)
                // 将该stage标记为完成，因为这是最后一个stage，所以只要stage完成了，表示job已经完成
                job.finished(rt.outputId) = true
                job.numFinished += 1
                // 如果整个job已经完成
                if (job.numFinished == job.numPartitions) {
                  // 标记该stage已经完成，然后从runningStages中移除
                  markStageAsFinished(resultStage)
                  // 清理job的状态和stage
                  cleanupStateForJobAndIndependentStages(job)
                  // 向ListenerBus上广播JobSucceeded的事件
                  listenerBus.post(
                    SparkListenerJobEnd(job.jobId, clock.getTimeMillis(), JobSucceeded))
                }
                // 触发JobWaiter的taskSucceeded方法
                try {
                  job.listener.taskSucceeded(rt.outputId, event.result)
                } catch {
                  case e: Exception =>
                    // TODO: Perhaps we want to mark the resultStage asfailed?
                    job.listener.jobFailed(new SparkDriverExecutionException(e))
                }
              }
            // 如果ResultStage对应的job已经完成
            case None =>
              logInfo("Ignoring result from " + rt + " because its job has finished")
          }
        // 如果是ShuffleMapTask
        case smt: ShuffleMapTask =>
          // 获取ShuffleMapStage
          val shuffleStage = stage.asInstanceOf[ShuffleMapStage]
          // 更新累加器
          updateAccumulators(event)
          // 获取map状态和executorId
          val status = event.result.asInstanceOf[MapStatus]
          val execId = status.location.executorId
          logDebug("ShuffleMapTask finished on " + execId)
          if (failedEpoch.contains(execId) && smt.epoch <= failedEpoch(execId)) {
            logInfo(s"Ignoring possibly bogus $smt completion from executor $execId")
          } else {
            shuffleStage.addOutputLoc(smt.partitionId, status)
          }
          // 如果runningStages还包括该ShuffleMapStage,
          // 但是ShuffleMapStage所有分区已经完成计算，表示该stage已经完成
          if (runningStages.contains(shuffleStage) && shuffleStage.pendingPartitions.isEmpty) {
            // 标记shuffleStage已经完成
            markStageAsFinished(shuffleStage)
            logInfo("looking for newly runnable stages")
            logInfo("running: " + runningStages)
            logInfo("waiting: " + waitingStages)
            logInfo("failed: " + failedStages)

            mapOutputTracker.registerMapOutputs(
              shuffleStage.shuffleDep.shuffleId,
              shuffleStage.outputLocInMapOutputTrackerFormat(),
              changeEpoch= true)
            // 清理缓存的分区对应location信息
            clearCacheLocs()
            // 如果有task失败，我们重新提交shuffleStage
            if (!shuffleStage.isAvailable) {
              submitStage(shuffleStage)
            } else {
              // 标记所有job的map stage已经完成
              if (shuffleStage.mapStageJobs.nonEmpty) {
                val stats = mapOutputTracker.getStatistics(shuffleStage.shuffleDep)
                for (job <- shuffleStage.mapStageJobs) {
                  markMapStageJobAsFinished(job, stats)
                }
              }
              //提交该Stage的正在等在的Child Stages
              submitWaitingChildStages(shuffleStage)
            }
          }
      }
    // 如果是重新提交,则把task对应的分区重新添加到stage的pendingPartitions
    case Resubmitted =>
      logInfo("Resubmitted " + task + ", so marking it as still running")
      stage.pendingPartitions += task.partitionId
    // 如果获取失败
    case FetchFailed(bmAddress, shuffleId, mapId, reduceId, failureMessage) =>
      // 获取对应失败的stage
      val failedStage = stageIdToStage(task.stageId)
      // 获取shuffleId对应的MapStage
      val mapStage = shuffleIdToMapStage(shuffleId)

      if (failedStage.latestInfo.attemptId != task.stageAttemptId) {
        logInfo(s"Ignoring fetch failure from $task as it's from $failedStage attempt" +
          s" ${task.stageAttemptId} and there is a more recentattempt for that stage " +
          s"(attemptID ${failedStage.latestInfo.attemptId}) running")
      } else {
        // 若果runningStages包含failedStage
        if (runningStages.contains(failedStage)) {
          logInfo(s"Marking $failedStage (${failedStage.name}) as failed " +
            s"due toa fetch failure from $mapStage (${mapStage.name})")
          markStageAsFinished(failedStage, Some(failureMessage))
        } else {
          logDebug(s"Received fetch failure from $task, but its from $failedStage which is no " +
            s"longerrunning")
        }

        if (disallowStageRetryForTest) {
          abortStage(failedStage, "Fetch failure will notretry stage due to testing config",
            None)
        } else if (failedStage.failedOnFetchAndShouldAbort(task.stageAttemptId)) {
          abortStage(failedStage, s"$failedStage (${failedStage.name}) " +
            s"hasfailed the maximum allowable number of " +
            s"times: ${Stage.MAX_CONSECUTIVE_FETCH_FAILURES}. " +
            s"Mostrecent failure reason: ${failureMessage}", None)
        } else {
          if (failedStages.isEmpty) {
            // Don'tschedule an event to resubmit failed stages if failed isn't empty, because
            // in that case the eventwill already have been scheduled.
            // TODO: Cancel running tasks in the stage
            logInfo(s"Resubmitting $mapStage (${mapStage.name}) and " +
              s"$failedStage (${failedStage.name}) due to fetch failure")
            messageScheduler.schedule(new Runnable {
              override def run(): Unit = eventProcessLoop.post(ResubmitFailedStages)
            }, DAGScheduler.RESUBMIT_TIMEOUT, TimeUnit.MILLISECONDS)
          }
          failedStages += failedStage
          failedStages += mapStage
        }
        // Mark themap whose fetch failed as broken in the map stage
        if (mapId != -1) {
          mapStage.removeOutputLoc(mapId, bmAddress)
          mapOutputTracker.unregisterMapOutput(shuffleId, mapId, bmAddress)
        }

        // TODO: mark the executor as failed only if there were lots of fetchfailures on it
        if (bmAddress != null) {
          handleExecutorLost(bmAddress.executorId, filesLost = true, Some(task.epoch))
        }
      }

    case commitDenied: TaskCommitDenied =>
      // Do nothinghere, left up to the TaskScheduler to decide how to handle denied commits

    case exceptionFailure: ExceptionFailure=>
      // Tasks failedwith exceptions might still have accumulator updates.
      updateAccumulators(event)

    case TaskResultLost =>
      // Do nothinghere; the TaskScheduler handles these failures and resubmits the task.

    case _: ExecutorLostFailure | TaskKilled | UnknownReason =>
      //Unrecognized failure - also do nothing. If the task fails repeatedly, theTaskScheduler
      // will abort the job.
  }
}

7、handleStageCancellation 取消stage

private[scheduler] def handleStageCancellation(stageId: Int) {
  // 获取该stage，如果存在，贼取消job
  stageIdToStage.get(stageId) match {
    case Some(stage) =>
      val jobsThatUseStage: Array[Int] = stage.jobIds.toArray
      jobsThatUseStage.foreach { jobId =>
        handleJobCancellation(jobId, s"because Stage $stageId was cancelled")
      }
    case None =>
      logInfo("No active jobs to kill for Stage " + stageId)
  }
}

8、handleJobCancellation 取消job

private[scheduler] def handleJobCancellation(jobId: Int, reason: String = "") {
  // 如果没有注册的job，取消了什么都不用做
  if (!jobIdToStageIds.contains(jobId)) {
    logDebug("Trying to cancel unregistered job " + jobId)
  } else {
    failJobAndIndependentStages(
      jobIdToActiveJob(jobId), "Job %d cancelled %s".format(jobId, reason))
  }
}

 

private def failJobAndIndependentStages(
    job: ActiveJob,
    failureReason: String,
    exception: Option[Throwable] = None): Unit = {
  val error = new SparkException(failureReason, exception.getOrElse(null))
  var ableToCancelStages = true

  val shouldInterruptThread=
    if (job.properties == null) false
    else job.properties.getProperty(SparkContext.SPARK_JOB_INTERRUPT_ON_CANCEL, "false").toBoolean

  // Cancel allindependent, running stages.
  // 根据job取出所有的stage id
  val stages = jobIdToStageIds(job.jobId)
  if (stages.isEmpty) {
    logError("No stages registered for job " + job.jobId)
  }
  stages.foreach { stageId =>
    val jobsForStage: Option[HashSet[Int]] = stageIdToStage.get(stageId).map(_.jobIds)
    if (jobsForStage.isEmpty || !jobsForStage.get.contains(job.jobId)) {
      logError(
        "Job %dnot registered for stage %d even though that stage was registered for thejob"
          .format(job.jobId, stageId))
    } else if (jobsForStage.get.size == 1) {
      // 如果找不到该stage则抛出错误
      if (!stageIdToStage.contains(stageId)) {
        logError(s"Missing Stage for stage with id $stageId")
      } else {
       // 调用taskScheduler取消task,并且标记stage已经完成
        val stage = stageIdToStage(stageId)
        if (runningStages.contains(stage)) {
          try { // cancelTasks will fail if a SchedulerBackend does not implementkillTask
            taskScheduler.cancelTasks(stageId, shouldInterruptThread)
            markStageAsFinished(stage, Some(failureReason))
          } catch {
            case e: UnsupportedOperationException =>
              logInfo(s"Could not cancel tasks for stage $stageId", e)
            ableToCancelStages= false
          }
        }
      }
    }
  }

  if (ableToCancelStages) {
    // SPARK-15783important to cleanup state first, just for tests where we have some asserts
    // against the state.  Otherwise we have a *little* bit of flakinessin the tests.
    cleanupStateForJobAndIndependentStages(job)
    job.listener.jobFailed(error)
    listenerBus.post(SparkListenerJobEnd(job.jobId, clock.getTimeMillis(), JobFailed(error)))
  }
}

9、doCancelAllJobs 取消所有的job

private[scheduler] def doCancelAllJobs() {
  // Cancel allrunning jobs.
  runningStages.map(_.firstJobId).foreach(handleJobCancellation(_,
    reason = "as part of cancellation of all jobs"))
  activeJobs.clear() // These should already be empty by this point,
  jobIdToActiveJob.clear() // but just in case we lost track of some jobs...
}

10、resubmitFailedStages 重新提交失败的stage

private[scheduler] def resubmitFailedStages() {
  if (failedStages.size > 0) {
    logInfo("Resubmitting failed stages")
    clearCacheLocs()
    val failedStagesCopy = failedStages.toArray
    failedStages.clear()
    for (stage <- failedStagesCopy.sortBy(_.firstJobId)) {
      submitStage(stage)
    }
  }
}

你可能感兴趣的:(大数据/Spark/Spark,Core)

AI产品经理还不会数据挖掘❓看完这篇就够了脱泥不tony 人工智能产品经理数据挖掘 python tensorflow 开发语言 llama
前言在数字化时代的浪潮中，AI产品经理正成为推动科技与商业融合的重要力量。然而，面对海量的数据，如何从中挖掘出有价值的信息，为AI产品的开发提供有力支持？这已成为AI产品经理必须面对的挑战。今天，我们就来探讨一下数据挖掘在AI产品经理工作中的重要性，以及如何通过掌握数据挖掘方法论，打造卓越的AI产品。一、数据挖掘：AI产品经理的必备技能在AI产品的世界中，大数据是构建一切的基础。无论是算法组件、知
hvie SQL优化之where子句过滤模式三生暮雨渡瀟瀟 hive调优 hive
本篇文章来源于《Hive性能调优实现》。在HiveSQL里面经常用到的过滤方法就是使用where子句，例如：explainselect*fromstudent_tb_seqwheres_age=19ands_namelike'%红%'ands_scorein(100,50,22);where子句在执行计划中以filter操作表示，代码如下：STAGEPLANS:Stage:Stage-1MapRe
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
销售易CRM：引领数字化转型，助力企业智能增长人工智能程序员
在全球数字化浪潮下，企业对智能化、数字化转型的需求愈发迫切。销售易CRM作为中国领先的企业级智能CRM解决方案提供商，凭借其强大的产品能力、丰富的行业经验和卓越的服务品质，成为众多知名企业的首选合作伙伴。本文将深入分析销售易CRM的核心优势，以及其如何助力企业实现数字化转型与业务增长。一、销售易CRM的核心优势领先的技术实力销售易CRM基于自主研发的新一代智能商业引擎，将人工智能、大数据分析等前沿
销售易与Salesforce：CRM市场的龙争虎斗 crmsaas
在当今数字化时代，客户关系管理软件在企业运营中扮演着至关重要的角色。销售易和Salesforce作为两款备受瞩目的CRM软件，各自具有独特的特点和优势。销售易是连续8年成为唯一入选Gartner销售自动化魔力象限的中国CRM厂商，并且在多项能力指标上超越国际厂商。在中国，销售易在大中型企业市场占有率排名第一，它通过整合移动、社交、人工智能、大数据和物联网技术，提供了全面的业务管理解决方案，被多家5
大数据平台Bug Bash大扫除最佳实践京东云开发者大数据 bug bash
作者：尹伟一、背景随着越来越多的"新人"在日常工作以及大促备战中担当大任，我们发现仅了解自身系统业务已不能满足日常系统开发运维需求。为此，大数据平台部门组织了一次BugBash活动，既能提升自己对兄弟产品的理解和使用，又能促使自家产品功能日趋完善。今天来给大家分享一些实际操作过程和经验总结~二、什么是BugBash？BugBash，顾名思义就是缺陷大扫除。通常由QA主导发起，团队全员放下手中的活，
深入探索Go中的网络编程 AI天才研究院一天一门编程语言自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术深入探索Go中的网络编程1.引言1.1.背景介绍网络编程是计算机网络领域中的一个重要分支,涉及如何在程序中实现网络通信,使程序具有网络访问能力。随着云计算、大数据、物联网等技术的普及,网络编程的需求也越来越大。Go作为一个静态类型的编程语言,以其简洁、高效、安全等特点,成为了许多开发者首选的网络编程语言。本文将深入探索Go中网络编程的特点、原理和实现,帮助读者更好地利用
告别 Excel，拥抱 R 语言：开启数据分析新时代码农老关【关东升】 excel r语言数据分析
在这个数据驱动的时代，数据分析已然成为每个行业的核心竞争力。从市场营销到金融领域，从医疗健康到教育行业，数据无处不在，深刻影响着每一个决策。然而，面对日益复杂的数据集，单纯依靠Excel进行分析，已渐渐难以满足不断增长的需求。为何弃Excel选R语言？强大的数据处理能力Excel简单易用，但其处理大数据集时，效率与能力着实有限。R语言作为专业的数据分析工具，处理成千上万的数据行不在话下，还支持丰富
数据恢复常用方法（三）如何辨别固态硬盘故障类型记忆空间istore 固态硬盘SSD 数据恢复
数据恢复首先需要辨别固态硬盘故障类型，只有先确认故障类型，才能进行下一步动作如下是一种常见的场景，固态硬盘无法识别，接入电源与数据线，电脑的磁盘管理不显示任何信息。第一步：确认硬件状态，电源部分是否正常？主控core电压是否正常？一般主控core电压为（0.9V、1.1V等），其次就是nandflash电压是否正常？nandflash电压有2路，一路是NANDCore电压3.3V（也有的是2.5V
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
EasyExcel 导出，保留两位小数并显示千分位 Leslie_Lei Excel java excel
实体类属性类型为BigDecimal注解@NumberFormat("#,###.00")试过了不顶用，原因不太清楚值为0.81这种，导出后变为.81所以，换个思路，写个转换器，就是麻烦点转换器BigDecimalConvertimportcn.hutool.core.util.StrUtil;importcom.alibaba.excel.converters.Converter;importc
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
MPP数据库：大数据处理的“高手” 狮歌~资深攻城狮数据仓库数据分析数据库
MPP数据库：大数据处理的“高手”最近听到很多朋友讨论大数据处理的技术，其中就有一个词常常被提起，那就是MPP（MassivelyParallelProcessing，大规模并行处理）。那么，什么是MPP数据库呢？简单来说，它是一种专门用于大数据分析和处理的数据库技术，通过将数据和计算任务分配到多个节点上，达到高效、快速地处理海量数据的效果。1.MPP数据库是如何工作的？MPP数据库的工作方式和我
MPP 和 TiDB：大数据处理的两大“巨头” 狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
MPP和TiDB：大数据处理的两大“巨头”在大数据处理的世界里，MPP（MassivelyParallelProcessing）和TiDB都是非常强大的工具，它们都能帮助我们高效地处理海量的数据。但它们的工作原理和使用场景有所不同。今天，我们就来看看这两个技术的对比，帮助你了解它们各自的优缺点，选出最适合你项目的解决方案。MPP系统是什么？如前所述，MPP（大规模并行处理）是一种通过将数据分布到多
基于微信小程序的个人健康管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot java vue.js intellij-idea mybatis
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
从MySQL迁移到PostgreSQL的完整指南 m0_74825718 面试学习路线阿里巴巴 mysql postgresql 数据库
1.引言在现代数据库管理中，选择合适的数据库系统对业务的成功至关重要。随着企业数据量的增长和对性能要求的提高，许多公司开始考虑从MySQL迁移到PostgreSQL。这一迁移的主要原因包括以下几个方面：1.1性能和扩展性PostgreSQL以其高性能和优秀的扩展能力而闻名。它支持复杂的查询优化和并发控制，能够更高效地处理大规模数据。与MySQL相比，PostgreSQL在处理复杂查询和大数据集时表
SecureUtil.aes数据加密工具类 Java知识技术分享 java技术后端 java intellij-idea
数据加密、解密工具类包含map和vo的数据转换importcn.hutool.core.bean.BeanUtil;importcn.hutool.crypto.SecureUtil;importjava.util.HashMap;importjava.util.Map;/***数据解析**/publicclassParamUtils{/***数据解密**@paramparams参数*@param
盘点10个.NetCore实用的开源框架项目 zsw119 .netcore 开源
连续分享.Net开源项目快3个月了，今天我们一起梳理下10个，比较受到大家欢迎的.NetCore开源框架项目。1、FytSoaCms前后端分离CMS系统项目简介这是一个基于.Net3构建的简单、跨平台、模块化建站系统。系统业务简单、代码清晰、层级分明、全新架构便于二次扩展开发。支持多种数据库，可用于OA、ERP、CRM、BI、物流系统等系统。技术架构1、跨平台：这是基于.NetCore开发的系统，
自定义注解格式化处理BigDecimal 都要好好的O java 自定义注解
一、场景描述在开发过程中，如果有实体类的属性中存在BigDecimal的属性，并且需要对其进行校验，例如：限制BigDecimal的小数点位数是两位或者处理精度自动补0。但目前没有注解可以完成这个操作，因此我们可以使用下面的工具类和注解进行处理。二、实现步骤1、自定义类importcom.fasterxml.jackson.core.JsonGenerator;importcom.fasterxm
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
ASP.NET Core微服务架构：从入门到精通的Ocelot实践 LaotLisp 架构 asp.net 微服务
微服务架构的兴起使得开发人员能够构建高度可伸缩、松耦合的应用程序。在ASP.NETCore中，Ocelot是一个流行的开源库，它提供了一个简单而强大的方式来构建和管理微服务架构。在本文中，我们将深入探讨如何使用Ocelot从基础入门，逐步实现一个完整的微服务架构。步骤1：安装Ocelot首先，我们需要在ASP.NETCore应用程序中安装Ocelot。在VisualStudio中，可以通过NuGe
南京大学苏州校区学生代表团到访合合信息，开启“沉浸式”人工智能企业行人工智能图像识别程序员
为进一步深化校企合作，探索产业科技拔尖创新人才培养新模式，近期，南京大学苏州校区师生代表到访上海合合信息科技股份有限公司（以下简称“合合信息”，股票代码：SH688615）。此次活动设置了展厅讲解、技术交流、模拟面试等多个体验环节，旨在增强学生对人工智能及商业大数据技术在实际应用中的理解和认识，引导学生系统性开展职业规划，提升职业胜任力。图说：南京大学苏州校区学生代表团到访合合信息合影留念合合信息
reactor框架使用时，数据流请求流程 silver9886 java reactor
1.我们在Flux打开时，可以看到publicabstractclassFluximplementsCorePublisher{2.publicinterfaceCorePublisherextendsPublisher{voidsubscribe(CoreSubscribersubscriber);}Publisher的关键时有个subscribe方法。这个方法就是在reactor的subscr
echarts大数据量，怎么渲染，才能不卡顿 ༄༊࿆锅锅༺ 编辑器 vscode macos
对于大数据量的echarts，应该怎么渲染，才能不卡顿呢？我现在有87601个数据需要渲染，但全部属性都点上时就特别的卡，cpu的占用都已经达到50%了，有没有可以优化一下；目前的方案时：点一个遍历一次，然后渲染，当全部点上时，全部重新遍历，全部重新渲染。。求大神指点，有没有一种方案：比如点一个渲染一个，前面的一个不需要重新渲染的这种情况，对其单独控制
Linux 内核中的 InfiniBand 核心模块：drivers/infiniband/core/device.c 分析 109702008 #linux系统编程网络网络 linux 人工智能
InfiniBand是一种高性能、低延迟的网络互连技术，广泛应用于高性能计算（HPC）、数据中心和云计算等领域。Linux内核中的InfiniBand子系统提供了对InfiniBand设备的支持，而drivers/infiniband/core/device.c文件则是InfiniBand核心模块的重要组成部分。本文将对device.c文件的功能、数据结构、关键函数以及驱动核心入口进行详细分析。一
Java 大视界 -- Java 大数据数据治理：策略与工具实现（十四）青云交大数据新视界 Java 大视界大数据数据治理元数据管理 Apache Atlas Informatica 人工智能数据质量 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据云原生应用开发：容器化与无服务器计算（十三）青云交大数据新视界 Java 大视界大数据云原生容器化无服务器计算 Docker Kubernetes 微服务架构 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Spark GraphX原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络、推荐系统、生物信息学、图分析等领域对图计算的需求日益增长。传统的图处理技术如GraphLab、Neo4j等，虽然功能强大，但往往存在扩展性差、易用性低、计算效率不足等问题。为了解决这些问题，A
Linux 安装gitlab 絮落锦乡 linux gitlab 运维
1.更新系统确保系统是最新的：sudoyumupdate-y2.安装依赖项安装必需的依赖项：sudoyuminstall-ycurlpolicycoreutils-pythonopenssh-serverGitLab需要一个邮件服务来发送通知。你可以使用现有的邮件服务器，或者在本地配置Postfix：sudoyuminstall-ypostfixsudosystemctlenablepostfix
kafka和mq的区别 xsmxh-1314 笔记 kafka rabbitmq java
作为消息队列来说，企业中选择mq的还是多数，因为像Rabbit，Rocket等mq中间件都属于很成熟的产品，性能一般但可靠性较强，而kafka原本设计的初衷是日志统计分析，现在基于大数据的背景下也可以做运营数据的分析统计，而redis的主要场景是内存数据库，作为消息队列来说可靠性太差，而且速度太依赖网络IO，在服务器本机上的速度较快，且容易出现数据堆积的问题，在比较轻量的场合下能够适用。Rabbi
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep