hao707822882

spark源码研究---作业提交

注意看表红的地方，那是代码的执行流程，有些通信的地方没有标注，因为通信是在太多了

DAG：

<span style="font-size:14px;"><span style="font-size:18px;"> private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      allowLocal: Boolean,
      callSite: CallSite,
      listener: JobListener,
      properties: Properties = null)
  {
    var finalStage: Stage = null
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.
      finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)
    } catch {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }
    if (finalStage != null) {
   <span style="color:#ff0000;">   val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties)</span>
      clearCacheLocs()
      logInfo("Got job %s (%s) with %d output partitions (allowLocal=%s)".format(
        job.jobId, callSite.shortForm, partitions.length, allowLocal))
      logInfo("Final stage: " + finalStage + "(" + finalStage.name + ")")
      logInfo("Parents of final stage: " + finalStage.parents)
      logInfo("Missing parents: " + getMissingParentStages(finalStage))
      val shouldRunLocally =
        localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1
      if (shouldRunLocally) {
        // Compute very short actions like first() or take() with no parent stages locally.
        listenerBus.post(SparkListenerJobStart(job.jobId, Array[Int](), properties))
        runLocally(job)
      } else {
        jobIdToActiveJob(jobId) = job
        activeJobs += job
        finalStage.resultOfJob = Some(job)
        listenerBus.post(SparkListenerJobStart(job.jobId, jobIdToStageIds(jobId).toArray,
          properties))
   <span style="color:#ff0000;">     submitStage(finalStage)</span>
      }
    }
    submitWaitingStages()
  }</span></span>

再来：

<span style="font-size:14px;"><span style="font-size:18px;">/** Submits stage, but first recursively submits any missing parents. */
  private def submitStage(stage: Stage) {
    val jobId = activeJobForStage(stage)
    if (jobId.isDefined) {
      logDebug("submitStage(" + stage + ")")
      if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
        val missing = getMissingParentStages(stage).sortBy(_.id）<span style="color:#ff0000;">//这个方法可以和submitStage对比一下</span>
        logDebug("missing: " + missing)
        if (missing == Nil) {<span style="color:#ff0000;">//如果这个条件满足，那么就是第一个stage，这个不用解释吧</span>
          logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
     <span style="color:#ff0000;">     submitMissingTasks(stage, jobId.get)</span>
        } else {
          for (parent <- missing) {
            submitStage(parent)
          }
          waitingStages += stage
        }
      }
    } else {
      abortStage(stage, "No active job for stage " + stage.id)
    }
  }
</span></span>

再来：这个方法是将stage转化为tasks的，task是并行运行的且task是根据stage的partitions的个数来确定的

<span style="font-size:14px;"><span style="font-size:18px;">  private def submitMissingTasks(stage: Stage, jobId: Int) {
    logDebug("submitMissingTasks(" + stage + ")")
    // Get our pending tasks and remember them in our pendingTasks entry
    stage.pendingTasks.clear()//这边为什么要清楚tasks呢，因为这次submittask可能是因为有些partition运行失败，但不是所有的都失败，所以只需要运行相关的partitions就行

    // First figure out the indexes of partition ids to compute.
  <span style="color:#ff0000;">  val partitionsToCompute: Seq[Int] = {//shuffle是要写到不同文件中的
      if (stage.isShuffleMap) {
        (0 until stage.numPartitions).filter(id => stage.outputLocs(id) == Nil)//灭有没处理的partition
      } else {
        val job = stage.resultOfJob.get
        (0 until job.numPartitions).filter(id => !job.finished(id))
      }
    }</span>

    val properties = if (jobIdToActiveJob.contains(jobId)) {
      jobIdToActiveJob(stage.jobId).properties
    } else {
      // this stage will be assigned to "default" pool
      null
    }

    runningStages += stage
    // SparkListenerStageSubmitted should be posted before testing whether tasks are
    // serializable. If tasks are not serializable, a SparkListenerStageCompleted event
    // will be posted, which should always come after a corresponding SparkListenerStageSubmitted
    // event.
    stage.latestInfo = StageInfo.fromStage(stage, Some(partitionsToCompute.size))
    listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))

    // TODO: Maybe we can keep the taskBinary in Stage to avoid serializing it multiple times.
    // Broadcasted binary for the task, used to dispatch tasks to executors. Note that we broadcast
    // the serialized copy of the RDD and for each task we will deserialize it, which means each
    // task gets a different copy of the RDD. This provides stronger isolation between tasks that
    // might modify state of objects referenced in their closures. This is necessary in Hadoop
    // where the JobConf/Configuration object is not thread-safe.
  <span style="color:#ff0000;">  var taskBinary: Broadcast[Array[Byte]] = null//序列化stage
    try {
      // For ShuffleMapTask, serialize and broadcast (rdd, shuffleDep).
      // For ResultTask, serialize and broadcast (rdd, func).
      val taskBinaryBytes: Array[Byte] =
        if (stage.isShuffleMap) {
          closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef).array()//每进行一次shhuffle就会进行一次广播,但这个不是真正运行的任务
        } else {
          closureSerializer.serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef).array()
        }
      taskBinary = sc.broadcast(taskBinaryBytes)</span>
    } catch {
      // In the case of a failure during serialization, abort the stage.
      case e: NotSerializableException =>
        abortStage(stage, "Task not serializable: " + e.toString)
        runningStages -= stage
        return
      case NonFatal(e) =>
        abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}")
        runningStages -= stage
        return
    }

 <span style="color:#ff0000;">   val tasks: Seq[Task[_]] = if (stage.isShuffleMap) {
      partitionsToCompute.map { id =>
        val locs = getPreferredLocs(stage.rdd, id)
        val part = stage.rdd.partitions(id)
        new ShuffleMapTask(stage.id, taskBinary, part, locs)//因为有那么多的partitions，所以要更具不同的配置信息创建多个ShuffleMapTask，task只有来年各种，resulttask，shuffletask
      }
    } else {
      val job = stage.resultOfJob.get
      partitionsToCompute.map { id =>
        val p: Int = job.partitions(id)
        val part = stage.rdd.partitions(p)
        val locs = getPreferredLocs(stage.rdd, p)
        new ResultTask(stage.id, taskBinary, part, locs, id)
      }
    }</span>

    if (tasks.size > 0) {
      // Preemptively serialize a task to make sure it can be serialized. We are catching this
      // exception here because it would be fairly hard to catch the non-serializable exception
      // down the road, where we have several different implementations for local scheduler and
      // cluster schedulers.
      //
      // We've already serialized RDDs and closures in taskBinary, but here we check for all other
      // objects such as Partition.
      try {
        closureSerializer.serialize(tasks.head)
      } catch {
        case e: NotSerializableException =>
          abortStage(stage, "Task not serializable: " + e.toString)
          runningStages -= stage
          return
        case NonFatal(e) => // Other exceptions, such as IllegalArgumentException from Kryo.
          abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}")
          runningStages -= stage
          return
      }

      logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
<span style="color:#ff0000;">      stage.pendingTasks ++= tasks//这才是要真正要运行的，这些task是并行运行的</span>
      logDebug("New pending tasks: " + stage.pendingTasks)
    <span style="background-color: rgb(102, 102, 102);">  <span style="color:#ff0000;">taskScheduler</span>.submitTasks(
        new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))//<span style="color:#ff0000;">现在就到了TaskSchedulerImpl中</span></span>
      stage.latestInfo.submissionTime = Some(clock.getTime())
    } else {
      // Because we posted SparkListenerStageSubmitted earlier, we should post
      // SparkListenerStageCompleted here in case there are no tasks to run.
      listenerBus.post(SparkListenerStageCompleted(stage.latestInfo))
      logDebug("Stage " + stage + " is actually done; %b %d %d".format(
        stage.isAvailable, stage.numAvailableOutputs, stage.numPartitions))
      runningStages -= stage
    }
  }</span></span>

再来：

<span style="font-size:14px;"> override def submitTasks(taskSet: TaskSet) {
    val tasks = taskSet.tasks//这是一个task数组，数组中任务的执行逻辑是一样的，只是数据的location不一样
    logInfo("Adding task set " + taskSet.id + " with " + tasks.length + " tasks")
    this.synchronized {
      val manager = new TaskSetManager(this, taskSet, maxTaskFailures)
      activeTaskSets(taskSet.id) = manager
      schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)
    }
<span style="color:#ff0000;">    backend.reviveOffers()</span>
  }</span>

再来：

<span style="font-size:14px;">   // Make fake resource offers on all executors
    def makeOffers() {
      launchTasks(<span style="color:#ff0000;">scheduler</span>.resourceOffers(executorDataMap.map { case (id, executorData) =>//划红线的部分是：TaskSchedulerImpl
        new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
      }.toSeq))
    }</span>

再来：

<span style="font-size:14px;"> /**
   * <span style="color:#ff0000;">Called by cluster manager to offer resources on slaves</span>. We respond by asking our active task
   * sets for tasks in order of priority. We fill each node with tasks in a round-robin manner so
   * that tasks are balanced across the cluster.
   */
  def resourceOffers(offers: Seq[WorkerOffer]):<span style="color:#ff0000;"> Seq[Seq[TaskDescription]]</span> = synchronized {//他返回的是TaskDescription，而这个又是什么呢，看下面
    // Mark each slave as alive and remember its hostname
    // Also track if new executor is added
    var newExecAvail = false
    for (o <- offers) {
      executorIdToHost(o.executorId) = o.host
      if (!executorsByHost.contains(o.host)) {
        executorsByHost(o.host) = new HashSet[String]()
        executorAdded(o.executorId, o.host)
        newExecAvail = true
      }
      for (rack <- getRackForHost(o.host)) {
        hostsByRack.getOrElseUpdate(rack, new HashSet[String]()) += o.host
      }
    }</span>

再来:

<span style="font-size:14px;">private[spark] class TaskDescription(
    val taskId: Long,
    val executorId: String,
    val name: String,
    val index: Int,    // Index within this task's TaskSet
 <span style="color:#ff0000;">   _serializedTask: ByteBuffer</span>)//他是一个bytebuffer，也就是说他是一个序列化之后的对象
  extends Serializable {

  // Because ByteBuffers are not serializable, wrap the task in a SerializableBuffer
  private val buffer = new SerializableBuffer(_serializedTask)

  def serializedTask: ByteBuffer = buffer.value

  override def toString: String = "TaskDescription(TID=%d, index=%d)".format(taskId, index)
}</span>

再来：

<span style="font-size:14px;">// Launch tasks returned by a set of resource offers
    def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
      for (task <- tasks.flatten) {
        val ser = SparkEnv.get.closureSerializer.newInstance()
        val serializedTask = ser.serialize(task)
        if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {
          val taskSetId = scheduler.taskIdToTaskSetId(task.taskId)
          scheduler.activeTaskSets.get(taskSetId).foreach { taskSet =>
            try {
              var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
                "spark.akka.frameSize (%d bytes) - reserved (%d bytes). Consider increasing " +
                "spark.akka.frameSize or using broadcast variables for large values."
              msg = msg.format(task.taskId, task.index, serializedTask.limit, akkaFrameSize,
                AkkaUtils.reservedSizeBytes)
              taskSet.abort(msg)
            } catch {
              case e: Exception => logError("Exception in error callback", e)
            }
          }
        }
        else {
          val executorData = executorDataMap(task.executorId)
          executorData.freeCores -= scheduler.CPUS_PER_TASK
     <span style="color:#ff0000;">     executorData.executorActor ! LaunchTask(new SerializableBuffer(serializedTask))//发布任务 </span>
        }
      }
    }</span>

至于在executor中是怎么运行的，一句话就是反序列化rdd，进行计算

当一个task运行完成的时候：

Task执行是通过TaskRunner来运行，它需要通过ExecutorBackend和Driver通信，通信消息是StatusUpdate：

1、Task运行之前，告诉Driver当前Task的状态为TaskState.RUNNING。

2、Task运行之后，告诉Driver当前Task的状态为TaskState.FINISHED，并返回计算结果。

3、如果Task运行过程中发生错误，告诉Driver当前Task的状态为TaskState.FAILED，并返回错误原因。

4、如果Task在中途被Kill掉了，告诉Driver当前Task的状态为TaskState.FAILED。

下面讲的是运行成功的状态，图太大了，所以插到了最后面。

1、Task运行结束之后，调用ExecutorBackend的statusUpdate方法，把结果返回。结果超过10M，就把结果保存在blockManager处，返回blockId，需要的时候通过blockId到blockManager认领。

2、ExecutorBackend直接向Driver发送StatusUpdate返回Task的信息。

3、Driver（这里具体指的是SchedulerBackend）接收到StatusUpdate消息之后，调用TaskScheduler的statusUpdate方法，然后准备给ExecutorBackend发送下一批Task。

4、TaskScheduler通过TaskId找到管理这个Task的TaskSetManager（负责管理一批Task的类），从TaskSetManager里面删掉这个Task，并把Task插入到TaskResultGetter（负责获取Task结果的类）的成功队列里。

5、TaskResultGetter获取到结果之后，调用TaskScheduler的handleSuccessfulTask方法把结果返回。

6、TaskScheduler调用TaskSetManager的handleSuccessfulTask方法，处理成功的Task。

7、TaskSetManager调用DAGScheduler的taskEnded方法，告诉DAGScheduler这个Task运行结束了，如果这个时候Task全部成功了，就会结束TaskSetManager。

8、DAGScheduler在taskEnded方法里触发CompletionEvent事件，CompletionEvent分ResultTask和ShuffleMapTask来处理。

再来：

<span style="font-size:14px;">  private[scheduler] def handleTaskCompletion(event: CompletionEvent) {
    val task = event.task
    val stageId = task.stageId
    val taskType = Utils.getFormattedClassName(task)

    // The success case is dealt with separately below, since we need to compute accumulator
    // updates before posting.
    if (event.reason != Success) {
      val attemptId = stageIdToStage.get(task.stageId).map(_.latestInfo.attemptId).getOrElse(-1)
      listenerBus.post(SparkListenerTaskEnd(stageId, attemptId, taskType, event.reason,event.taskInfo, event.taskMetrics))
    }

    if (!stageIdToStage.contains(task.stageId)) {
      // Skip all the actions if the stage has been cancelled.
      return
    }
    val stage = stageIdToStage(task.stageId)

    def markStageAsFinished(stage: Stage, errorMessage: Option[String] = None) = {
      val serviceTime = stage.latestInfo.submissionTime match {
        case Some(t) => "%.03f".format((clock.getTime() - t) / 1000.0)
        case _ => "Unknown"
      }
      if (errorMessage.isEmpty) {
        logInfo("%s (%s) finished in %s s".format(stage, stage.name, serviceTime))
        stage.latestInfo.completionTime = Some(clock.getTime())
      } else {
        stage.latestInfo.stageFailed(errorMessage.get)
        logInfo("%s (%s) failed in %s s".format(stage, stage.name, serviceTime))
      }
      listenerBus.post(SparkListenerStageCompleted(stage.latestInfo))
      runningStages -= stage
    }


    event.reason match {
      case Success =>
        if (event.accumUpdates != null) {
          try {
            Accumulators.add(event.accumUpdates)
            event.accumUpdates.foreach { case (id, partialValue) =>
              val acc = Accumulators.originals(id).asInstanceOf[Accumulable[Any, Any]]
              // To avoid UI cruft, ignore cases where value wasn't updated
              if (acc.name.isDefined && partialValue != acc.zero) {
                val name = acc.name.get
                val stringPartialValue = Accumulators.stringifyPartialValue(partialValue)
                val stringValue = Accumulators.stringifyValue(acc.value)
                stage.latestInfo.accumulables(id) = AccumulableInfo(id, name, stringValue)
                event.taskInfo.accumulables +=
                  AccumulableInfo(id, name, Some(stringPartialValue), stringValue)
              }
            }
          } catch {
            // If we see an exception during accumulator update, just log the error and move on.
            case e: Exception =>
              logError(s"Failed to update accumulators for $task", e)
          }
        }
        listenerBus.post(SparkListenerTaskEnd(stageId, stage.latestInfo.attemptId, taskType,
          event.reason, event.taskInfo, event.taskMetrics))
        stage.pendingTasks -= task
        task match {
          case rt: ResultTask[_, _] =>
            stage.resultOfJob match {
              case Some(job) =>
                if (!job.finished(rt.outputId)) {
                  job.finished(rt.outputId) = true
                  job.numFinished += 1
                  // If the whole job has finished, remove it
                  if (job.numFinished == job.numPartitions) {
                    markStageAsFinished(stage)
                    cleanupStateForJobAndIndependentStages(job)
                    listenerBus.post(SparkListenerJobEnd(job.jobId, JobSucceeded))
                  }

                  // taskSucceeded runs some user code that might throw an exception. Make sure
                  // we are resilient against that.
                  try {
                    job.listener.taskSucceeded(rt.outputId, event.result)
                  } catch {
                    case e: Exception =>
                      // TODO: Perhaps we want to mark the stage as failed?
                      job.listener.jobFailed(new SparkDriverExecutionException(e))
                  }
                }
              case None =>
                logInfo("Ignoring result from " + rt + " because its job has finished")
            }

          case smt: ShuffleMapTask =>
            val status = event.result.asInstanceOf[MapStatus]
            val execId = status.location.executorId
            logDebug("ShuffleMapTask finished on " + execId)
            if (failedEpoch.contains(execId) && smt.epoch <= failedEpoch(execId)) {
              logInfo("Ignoring possibly bogus ShuffleMapTask completion from " + execId)
            } else {
              stage.addOutputLoc(smt.partitionId, status)
            }
            if (runningStages.contains(stage) && stage.pendingTasks.isEmpty) {
              markStageAsFinished(stage)
              logInfo("looking for newly runnable stages")
              logInfo("running: " + runningStages)
              logInfo("waiting: " + waitingStages)
              logInfo("failed: " + failedStages)
              if (stage.shuffleDep.isDefined) {
                // We supply true to increment the epoch number here in case this is a
                // recomputation of the map outputs. In that case, some nodes may have cached
                // locations with holes (from when we detected the error) and will need the
                // epoch incremented to refetch them.
                // TODO: Only increment the epoch number if this is not the first time
                //       we registered these map outputs.
                mapOutputTracker.registerMapOutputs(
                  stage.shuffleDep.get.shuffleId,
                  stage.outputLocs.map(list => if (list.isEmpty) null else list.head).toArray,
                  changeEpoch = true)
              }
              clearCacheLocs()
              if (stage.outputLocs.exists(_ == Nil)) {
                // Some tasks had failed; let's resubmit this stage
                // TODO: Lower-level scheduler should also deal with this
                logInfo("Resubmitting " + stage + " (" + stage.name +
                  ") because some of its tasks had failed: " +
                  stage.outputLocs.zipWithIndex.filter(_._1 == Nil).map(_._2).mkString(", "))
                submitStage(stage)
              } else {
                val newlyRunnable = new ArrayBuffer[Stage]
                for (stage <- waitingStages) {
                  logInfo("Missing parents for " + stage + ": " + getMissingParentStages(stage))
                }
                for (stage <- waitingStages if getMissingParentStages(stage) == Nil) {
                  newlyRunnable += stage
                }
                waitingStages --= newlyRunnable
                runningStages ++= newlyRunnable
                for {
                  stage <- newlyRunnable.sortBy(_.id)
                  jobId <- activeJobForStage(stage)
                } {
           <span style="color:#ff0000;">       logInfo("Submitting " + stage + " (" + stage.rdd + "), which is now runnable")
                  submitMissingTasks(stage, jobId)//</span>
                }
              }
            }
          }</span>

OneCode FormField 基础表单字段功能说明低代码老李低代码软件行业领域设计低代码人工智能 java spring
一、基础表单组件组件名称功能说明CustomFormComponent基础表单布局组件，负责表单数据的加载、绑定、校验和提交，支持自定义布局和事件处理CustomMFormComponent主从表单组件，支持主子表数据结构，实现主表与子表数据的联动加载、保存和校验TableFormComponent表格表单组件，基于数据库表元数据动态生成表单，支持字段权限控制和动态列显示FormLayoutMod
7.4 arm作业三十一614 arm开发
C代码led.h#ifndef__LED_H__#define__LED_H__/*LD1-LED1-PE10LD2-LED2-PF10LD3-LED3-PE8KEY1-KEY1-PF9KEY2-KEY2-PF7KEY3-KEY3-PF8蜂鸣器-TIM4_CH1-PB6风扇-TIM1_CH1-PE9震动马达-TIM16_CH1-PF6*/typedefstruct{unsignedintMODER
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
大厂数分面试题
临近假期，又是一个找实习的时候，给大家分享一下最近找实习的一些面经，祝大家都能顺利找到满意的实习~目录面经分享1-游戏公司-乐信圣文-游戏数据分析实习生一面-技术面二面-HR面2-美团销售运营（数据分析方向）3-作业帮数据分析4-美团用户运营5-脉脉数据科学实习生反问环节反问环节很重要。为什么？技术面/业务面面试经验分享工具安利面经分享1-游戏公司-乐信圣文-游戏数据分析实习生一面-技术面1.自我
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
P13013 [GESP202506 五级] 奖品兑换宇宇传奇 GESP 题目算法
P13013[GESP202506五级]奖品兑换题目背景为了保证只有时间复杂度正确的代码能够通过本题，时限下降为400毫秒。题目描述班主任给上课专心听讲、认真完成作业的同学们分别发放了若干张课堂优秀券和作业优秀券。同学们可以使用这两种券找班主任兑换奖品。具体来说，可以使用aaa张课堂优秀券和bbb张作业优秀券兑换一份奖品，或者使用bbb张课堂优秀券和aaa张作业优秀券兑换一份奖品。现在小A有nnn
7.4_面试_JAVA_ 灰太狼Coding 面试职场和发展
所谓的学习，就是学了一个高耦合，低内聚。操作系统：进程调度算法有哪些？？1先来服务算法：从队列中拿出最先入队的一个，一直运行，直到退出。才会再从队列中选择最先到的一个。适用于CPU繁忙型，不适用于IO繁忙型2、短服务优先。优先执行作业时间短的任务。提高系统吞吐量。缺点是会把长任务排到很往后。3、响应比算法：(用响应时间+等待时间)/等待时间，算出来，数字大的先执行。4、时间片轮转：设定一个固定时间
python打卡day41@浙大疏锦行风逸hhh python打卡60天行动 python 深度学习计算机视觉
知识回顾1.数据增强2.卷积神经网络定义的写法3.batch归一化：调整一个批次的分布，常用与图像数据4.特征图：只有卷积操作输出的才叫特征图5.调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层2.Flatten->Dense(withDropout，可选)->Dense(Output)作业：尝试手动修改下不同的调度器和CNN的
day40python打卡 qq_58459892 py打开学习人工智能机器学习深度学习
知识点回顾：彩色和灰度图片测试和训练的规范写法：封装在函数中展平操作：除第一个维度batchsize外全部展平dropout操作：训练阶段随机丢弃神经元，测试阶段eval模式关闭dropout作业：仔细学习下测试和训练代码的逻辑，这是基础，这个代码框架后续会一直沿用，后续的重点慢慢就是转向模型定义阶段了。昨天我们介绍了图像数据的格式以及模型定义的过程，发现和之前结构化数据的略有不同，主要差异体现在
day 58 python打卡
作业：对太阳黑子数量数据集用arima完成流程1.导入原始数据，并可视化#导入必要的库importpandasaspdimportmatplotlib.pyplotaspltfromstatsmodels.tsa.stattoolsimportadfullerfromstatsmodels.graphics.tsaplotsimportplot_acf,plot_pacffromstatsmode
基于Python+Vue开发的酒店宾馆客房预订管理系统/旅馆房间/源码+远程运行西门吹雪1998 python课程设计 python毕业设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的酒店客房预订管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的酒店客房预订管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习共同进步在线演示https://jiudian.gitapp
基于Python+Vue开发的农产品/蔬菜/水果/助农/特产商城管理系统源码+远程运行西门吹雪1998 python课程设计 python毕业设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的农产品商城管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的农产品商城管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习共同进步源码地址https://github.com/net93
基于Python/django/Vue开发的口腔牙科诊所预约管理系统西门吹雪1998 python课程设计 python毕业设计 python django vue.js
项目简介该项目是基于Python+Vue开发的口腔牙科预约管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的口腔牙科诊所预约管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。关键词：口腔/牙科/诊所/牙医在线演示演示地址：https://
基于Python+Vue开发的民宿客房预订管理系统源码+远程运行西门吹雪1998 python课程设计 python毕业设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的民宿客房预订管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的民宿客房预订管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。给师弟开发的课程作业，希望他能学习。在线演示演示地址：https:/
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
浏览器（Chrome /Edge）高效使用 - 内部命令/快捷键/启动参数 0x0007 SOFT chrome edge 前端
今天在CSDN上传文件，提交总是提示续传失败，重试了五六次才想到获取是科学上网的问题，这个时候其实只要重启浏览器即可，但如果手动关闭浏览器再次打开，浏览器不会恢复之前的多开窗口（会恢复最后一个窗口内多开的标签页，但不会恢复其他窗口）。想了想记得Chrome流行的时候，有很多内部命令，虽然现在用的是Edge，应该差不多，搜索了下，果然在地址栏输入edge://restart即可完美实现重启，并恢复所
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
Git 教程-第八篇：Git 团队协作最佳实践程序员勇哥 Java全套教程前端全套教程 Git git java 版本管理
Git教程-第八篇：Git团队协作最佳实践1.团队工作流程1.1集中式工作流程（CentralizedWorkflow）核心逻辑：以中央仓库的master分支为唯一协作分支，所有开发直接在master上进行。操作示例：拉取最新代码：gitpulloriginmaster修改并提交：gitadd.&&gi
Git常用指令记录
GIT常用指令初始化仓库gitadd.提交到本地仓库gitcommit-m"此处是提交说明"查看提交历史gitlog--oneline切换到历史分支gitcheckoutxxx设置用户名和仓库地址gitconfig--globaluser.name"xxx"gitconfig--globaluser.email"xxxxxxxxxx"查看远程地址gitremote-v取消与远程仓库的关联（不是删除
Web 项目如何自动化测试？
Web项目的自动化测试可以通过UI自动化和接口自动化结合实现，提高测试效率和覆盖率。以下是关键方法和工具：【自动化测试】从基础到实战基于Pytest自动化/python自动化的详细教程！1.UI自动化测试（前端交互）适用场景：页面功能、表单提交、按钮点击、UI兼容性测试。常用工具：Selenium（Python/Java）：支持多浏览器，结合Pytest管理用例。Cypress（JavaScrip
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
同花顺开放接口api有哪些功能？如何申请使用同花顺开放接口api？股票程序化交易接口量化交易股票API接口 Python股票量化交易同花顺开放接口api 功能申请使用股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>同花顺开放接口api的功能概况数据获取功能同花顺开放接口api能够提供丰富的股票市场数据。它可以获取股票的基本信息，像是股票代码、名称、所属行业等。对于投资者来说，这些基本信息是初步了解一只股票的基础。还能获取股票的实时价格数据。这对
oracle 命令执行job_Oracle中job的使用详解 KelpDAO oracle 命令执行job
我们在项目开发中，常常会有一些复杂的业务逻辑。使用oracle的存储过程，可以大大减少java程序代码的编写工作量，而且存储过程执行在数据库上，这样可以利用oracle的良好性能支持，极大地提高程序执行效率和稳定性。定时执行存储过程，就要用到job。以下是常用的参数说明：字段(列)类型描述JOBNUMBER任务的唯一标示号LOG_USERVARCHAR2(30)提交任务的用户PRIV_USERVA
React 强大的表单验证库formik之集成Yup、React Hook Form库伍哥的传说前端源码分享 react.js 前端前端框架
简介Formik是为React开发的开源表单库，提供状态管理、验证和提交处理功能，可简化复杂表单的开发。核心优势‌-状态管理‌：自动跟踪输入值、验证状态和提交进度，无需手动编写状态逻辑。‌‌-验证功能‌：支持声明式验证规则（如字段类型、长度限制、异步验证），实时反馈错误信息。‌‌-集成能力‌：可与Yup（验证）、ReactHookForm（表单钩子）等库组合使用，扩展功能。安装npminstall
团队git操作流程开心点啦. git
项目的开发要求项目组厉员每天代码提交不少于20次企业项目开发代码的每天的提交一般提交3-5次代码仓库的管理git的基础操作流程命令模式gitpush插件模式vscodegitgraphGUI软件管理模式sourcetreegit在项目团队化开发中的应用master(一般是不动的)dev(主要是拿来代码合并的，其实相当于的是一个桥梁，中转站)xxx1、xxx2、xxx3（主要是拿来工作的，每个人只能
团队协作git操作流程 BYY0105 git git
克隆一个全新的项目，完成新功能并且提交：gitcloneXXX//克隆代码库gitcheckout-btest//新建分支modifysomefiles//完成修改gitadd.//把修改加入stage中gitcommit-m''//提交修改到test分支review代码gitcheckoutmaster//切换到master分支gitpull//更新代码gitcheckouttest//切换到t
git团队开发流程古道长风248 git 团队开发
怎么使用github在团队里进行协同开发使用场景(1)创建项目和软件版本库，在版本库中建立“src”和“doc”两个文件夹，分别存储软件系统的源代码和报告文档(2)建立master、develop以及成员分支(a_branch)，将当前版本存入master目录下(3)实践操作参考：组长组员两个人协同开发：组长负责维护开发分支dev，组员向dev上传提交；当dev测试合适后，组长有唯一权限向mast
提交git时包含超过200M文件时git报错狗八先生~~ git
今天上传git的时候遇到一个文件过大无法上传的情况解决方案，使用GitLFS管理大文件GitLFS能够把大文件存到远程服务器，在仓库里仅保留轻量级的指针。GX@DESKTOP-U8BCJOEMINGW64/e/...gx/code/UnmannedVehiclePro(master)$gitlfsinstallUpdatedGithooks.GitLFSinitialized.GX@DESKTOP
git超过10MB的文件push失败怎么解决 m0_53365315 git
#1.确保已安装并初始化LFSgitlfsinstall#2.扫描出所有>10M的文件，并一一trackfindfilesForAndroid-typef-size+10M-print0\|xargs-0-n1gitlfstrack#3.提交更新后的.gitattributesgitadd.gitattributesgitcommit-m"chore:LFS-trackall>10Mfilesun
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

spark源码研究---作业提交

你可能感兴趣的:(spark作业提交)