不清不慎

Spark源码分析之DAGScheduler详解

在前面的几节中，主要介绍了SparkContext的启动初始化过程，包括Driver的启动，向Master的注册，Master启动 Worker，在Worker中启动Executor，以及Worker向Master的注册，在讲述完这些之后，所有的准备工作都已经做完，就开始真正执行我们的Application，首先它会提交job到DAGScheduler中执行，包括对于job的stage划分，还有task的最佳位置计算等等工作，都需要DAGScheduler来完成，那么本文会主要围绕下面两个方面来研究DAGScheduler的源码：

stage的划分算法
task对应的partition的最佳位置计算算法

转载请标明原文地址：原文链接

首先我们以wordcount程序为例展开探究：

val rdd=sc.textFile("test.txt")

在执行上面这段代码的时候，首先它先调用了textFile创建了一个HadoopRDD，接着再调用了map方法来创建一个MapPartitionRDD，而HadoopRDD，MapPartitionRDD都继承RDD，源码如下所示：

 /**
    * 首先，调用hadoopFile(),会创建hadoopRDD,其中的元素是(key,value) pair
    * key是hdfs文本文件中的每一行的offset,value就是文本行
    * 然后对hadoopRDD调用map()方法，会剔除key，保留value，然后获得一个MapPartitionRDD
    * MapPartitionRDD内部的元素，就是一行一行的文本。
    * @param path
    * @param minPartitions
    * @return
    */
  def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = {
    assertNotStopped()
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      //保留value，剔除key
      minPartitions).map(pair => pair._2.toString).setName(path)
  }
   /**
   * Return a new RDD by applying a function to all elements of this RDD.
   */
  def map[U: ClassTag](f: T => U): RDD[U] = {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
  }

在使用textFile方法生成RDD之后，接着执行下面语句：

val linesRDD=rdd.flatMap(_.split(" "))

此时在flatMap内部会创建一个MapPartitionRDD，在其内部会遍历每一个行的元素，源码如下：

  /**
   *  Return a new RDD by first applying a function to all elements of this
   *  RDD, and then flattening the results.
   */
  def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))
  }

  def flatMap[B](f: A => GenTraversableOnce[B]): Iterator[B] = new AbstractIterator[B] {
    private var cur: Iterator[B] = empty
    def hasNext: Boolean =
      cur.hasNext || self.hasNext && { cur = f(self.next).toIterator; hasNext }
    def next(): B = (if (hasNext) cur else empty).next()
  }

接着调用map执行到了下面的语句：

val words=linesRDD.map(x=>(x,1))

其内部还是创建MapPartitionRDD，源码如下：

 def map[U: ClassTag](f: T => U): RDD[U] = {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
  }

val wordCount=words.reduceByKey(_+_)

接着就是调用reduceByKey了，但是你会奇怪的发现，在RDD类中并没有这个方法，其实reduceByKey并不是RDD内部的方法，而是PairRDDFunctions中的方法，它首先在RDD内部会发生隐式转换，转换为PairRDDFunctions，然后再调用这个方法，在RDD内部隐式转换源码如下：

 //RDD中没有reduceByKey这个算子，因此调用这个方法的时候会发生隐式转换
  //将RDD转换为PairRDDFunction，然后调用PairRDDFunctions类中reduceByKey方法
  implicit def rddToPairRDDFunctions[K, V](rdd: RDD[(K, V)])
    (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null): PairRDDFunctions[K, V] = {
    new PairRDDFunctions(rdd)
  }

PairRDDFunctions类总reduceByKey源码如下：

def reduceByKey(func: (V, V) => V): RDD[(K, V)] = {
    reduceByKey(defaultPartitioner(self), func)
  }

/**
    * 要获得当前RDD的partition数目，在真正将Job提交执行之前，必须知道map中有多少Partition
    * 如果没有指定partition，那么使用默认的HashPartitioner
    * @param rdd
    * @param others
    * @return
    */
  def defaultPartitioner(rdd: RDD[_], others: RDD[_]*): Partitioner = {
    val bySize = (Seq(rdd) ++ others).sortBy(_.partitions.size).reverse
    for (r <- bySize if r.partitioner.isDefined && r.partitioner.get.numPartitions > 0) {
      return r.partitioner.get
    }
    if (rdd.context.conf.contains("spark.default.parallelism")) {
      new HashPartitioner(rdd.context.defaultParallelism)
    } else {
      new HashPartitioner(bySize.head.partitions.size)
    }
  }

在执行完reduceByKey之后，就会使用foreach操作打印结果：

wordCount.foreach(println)

在调用foreach的时候会触发action操作，也就是说真正的开始执行job了，这里它会调用runJob方法：

/**
    * 调用action操作，会调用底层的DAGScheduler来触发job
    * @param f
    */
  def foreach(f: T => Unit) {
    val cleanF = sc.clean(f)
    sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
  }

在这个runJob方法中，其实还是往下调用多个runJob的重载方法，直到调用到DAGScheduler的runJob方法：

def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      allowLocal: Boolean,
      resultHandler: (Int, U) => Unit) {
    if (stopped) {
      throw new IllegalStateException("SparkContext has been shutdown")
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    if (conf.getBoolean("spark.logLineage", false)) {
      logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString)
    }
    //调动SparkContext初始化时创建的DAGScheduler的runJob方法
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,
      resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint()
  }

在DAGScheduler的runJob方法中又会调用submitJob方法：

def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      callSite: CallSite,
      allowLocal: Boolean,
      resultHandler: (Int, U) => Unit,
      properties: Properties): Unit = {
    val start = System.nanoTime
    //调用submitJob方法
    val waiter = submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties)
    waiter.awaitResult() match {
      case JobSucceeded => {
        logInfo("Job %d finished: %s, took %f s".format
          (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9))
      }
      case JobFailed(exception: Exception) =>
        logInfo("Job %d failed: %s, took %f s".format
          (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9))
        throw exception
    }
  }

  /**
   * Submit a job to the job scheduler and get a JobWaiter object back. The JobWaiter object
   * can be used to block until the the job finishes executing or can be used to cancel the job.
   */
  def submitJob[T, U](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      callSite: CallSite,
      allowLocal: Boolean,
      resultHandler: (Int, U) => Unit,
      properties: Properties): JobWaiter[U] = {
    // Check to make sure we are not launching a task on a partition that does not exist.
    val maxPartitions = rdd.partitions.length
    partitions.find(p => p >= maxPartitions || p < 0).foreach { p =>
      throw new IllegalArgumentException(
        "Attempting to access a non-existent partition: " + p + ". " +
          "Total number of partitions: " + maxPartitions)
    }

    val jobId = nextJobId.getAndIncrement()
    if (partitions.size == 0) {
      return new JobWaiter[U](this, jobId, 0, resultHandler)
    }

    assert(partitions.size > 0)
    val func2 = func.asInstanceOf[(TaskContext, Iterator[_]) => _]
    val waiter = new JobWaiter(this, jobId, partitions.size, resultHandler)
    eventProcessLoop.post(JobSubmitted(
      jobId, rdd, func2, partitions.toArray, allowLocal, callSite, waiter, properties))
    waiter
  }

在这里有一个重要的组件eventProcessLoop，在它的内部会使用模式匹配调用JobSubmitted方法，源码如下所示：

private[scheduler] class DAGSchedulerEventProcessLoop(dagScheduler: DAGScheduler)
  extends EventLoop[DAGSchedulerEvent]("dag-scheduler-event-loop") with Logging {

  /**
   * The main event loop of the DAG scheduler.
   */
  override def onReceive(event: DAGSchedulerEvent): Unit = event match {
    case JobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite, listener, properties) =>
     //调用 dagScheduler.handleJobSubmitted
      dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite,
        listener, properties)
...

这个方法中会调用DAGScheduler的handleJobSubmitted方法，这个方法是job调度的核心入口，这也引出了我们今天的第一个重点，stage的划分算法，在深究stage的划分算法之前，先讲述一下它的核心算法：首先它会从最后一个stage开始创建一个finalStage，然后使用递归调用stage，如果stage的rdd之间是窄依赖，将其放入一个以stack为数据结构的等待队里中，如果是宽依赖，那么将会创建一个新的stage，放入一缓存中；直到递归调用到第一个stage，然后开始提交。这个方法的源码如下：

/**
    * DAGScheduler调度的核心入口方法
    */
  private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      allowLocal: Boolean,
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {
    //使用触发job的最后一个RDD，创建一个finalStage
    var finalStage: Stage = null
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.
      finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)
    } catch {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }
    if (finalStage != null) {
      //使用finalStage创建一个Job，也就是说这个Job的最后一个stage就是finalStage
      val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties)
      clearCacheLocs()
      logInfo("Got job %s (%s) with %d output partitions (allowLocal=%s)".format(
        job.jobId, callSite.shortForm, partitions.length, allowLocal))
      logInfo("Final stage: " + finalStage + "(" + finalStage.name + ")")
      logInfo("Parents of final stage: " + finalStage.parents)
      logInfo("Missing parents: " + getMissingParentStages(finalStage))
      val shouldRunLocally =
        localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1
      val jobSubmissionTime = clock.getTimeMillis()
      if (shouldRunLocally) {
        // Compute very short actions like first() or take() with no parent stages locally.
        listenerBus.post(
          SparkListenerJobStart(job.jobId, jobSubmissionTime, Seq.empty, properties))
        runLocally(job)
      } else {
        //将Job加入内存缓存中
        jobIdToActiveJob(jobId) = job
        activeJobs += job
        finalStage.resultOfJob = Some(job)
        val stageIds = jobIdToStageIds(jobId).toArray
        val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
        listenerBus.post(
          SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
        //提交Job
        submitStage(finalStage)
      }
    }
    //提交stage等待队列
    submitWaitingStages()
  }

进入submitStage方法中，这个方法就是整个算法的核心：

 /**
    * 递归提交stage，直到当前stage没有父stage
    */
  /** Submits stage, but first recursively submits any missing parents. */
  private def submitStage(stage: Stage) {
    val jobId = activeJobForStage(stage)
    if (jobId.isDefined) {
      logDebug("submitStage(" + stage + ")")
      if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
        //根据rdd的宽依赖关系创建一个新的stage
        val missing = getMissingParentStages(stage).sortBy(_.id)
        logDebug("missing: " + missing)
        //反复递归调用，直到最初的stage，它没有父stage，那么此时首先提交第一个stage，其余的stage都在waitingStages中
        if (missing == Nil) {
          logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
          //提交stage
          submitMissingTasks(stage, jobId.get)
        } else {
          for (parent <- missing) {
          //递归调用
            submitStage(parent)
          }
          waitingStages += stage
        }
      }
    } else {
      abortStage(stage, "No active job for stage " + stage.id)
    }
  }

在递归到第一个stage的时候，就会调用submitMissingTasks方法为每一个stage创建task进行提交，在提交task的时候，它会计算每一个task对应的partition的最佳位置，因此其算法是：首先从从stage的最后一个rdd开始找，哪个rdd的partition是被cache了，或者被checkPoint了，那么task的最佳位置就是cache/checkPoint的位置，因为这样的话，task的执行就不需要计算之前的RDD了，其源码如下：

 /**
    * 提交stage，为stage创建一批task，task数量与partition数量相同
    * @param stage
    * @param jobId
    */
  private def submitMissingTasks(stage: Stage, jobId: Int) {
    logDebug("submitMissingTasks(" + stage + ")")
    // Get our pending tasks and remember them in our pendingTasks entry
    stage.pendingTasks.clear()
    // First figure out the indexes of partition ids to compute.
    val partitionsToCompute: Seq[Int] = {
      if (stage.isShuffleMap) {
        (0 until stage.numPartitions).filter(id => stage.outputLocs(id) == Nil)
      } else {
        val job = stage.resultOfJob.get
        (0 until job.numPartitions).filter(id => !job.finished(id))
      }
    }
    val properties = if (jobIdToActiveJob.contains(jobId)) {
      jobIdToActiveJob(stage.jobId).properties
    } else {
      // this stage will be assigned to "default" pool
      null
    }
    runningStages += stage
    stage.latestInfo = StageInfo.fromStage(stage, Some(partitionsToCompute.size))
    outputCommitCoordinator.stageStart(stage.id)
    listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))
    var taskBinary: Broadcast[Array[Byte]] = null
    try {
      // For ShuffleMapTask, serialize and broadcast (rdd, shuffleDep).
      // For ResultTask, serialize and broadcast (rdd, func).
      val taskBinaryBytes: Array[Byte] =
        if (stage.isShuffleMap) {
          closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef).array()
        } else {
          closureSerializer.serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef).array()
        }
      taskBinary = sc.broadcast(taskBinaryBytes)
    } catch {
      // In the case of a failure during serialization, abort the stage.
      case e: NotSerializableException =>
        abortStage(stage, "Task not serializable: " + e.toString)
        runningStages -= stage
        return
      case NonFatal(e) =>
        abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}")
        runningStages -= stage
        return
    }
    //为stage创建指定数量的task
    val tasks: Seq[Task[_]] = try {
      if (stage.isShuffleMap) {
        partitionsToCompute.map { id =>
          //给每一个partition创建一个task
          //给每一个task计算最佳位置
          val locs = getPreferredLocs(stage.rdd, id)
          val part = stage.rdd.partitions(id)
          //除了finalStage之外所有的stage，它的isShuffleMap是true
          //因此会创建ShuffleMapTask
          new ShuffleMapTask(stage.id, taskBinary, part, locs)
        }
      } else {
        //如果不是isShuffleMap，那么就是finalStage
        //finalStage创建ResultTask
        val job = stage.resultOfJob.get
        partitionsToCompute.map { id =>
          val p: Int = job.partitions(id)
          val part = stage.rdd.partitions(p)
          val locs = getPreferredLocs(stage.rdd, p)
          new ResultTask(stage.id, taskBinary, part, locs, id)
        }
      }
    } catch {
      case NonFatal(e) =>
        abortStage(stage, s"Task creation failed: $e\n${e.getStackTraceString}")
        runningStages -= stage
        return
    }
    if (tasks.size > 0) {
      logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
      stage.pendingTasks ++= tasks
      logDebug("New pending tasks: " + stage.pendingTasks)
       //调用taskScheduler的submitTask创建TaskSet提交task
      taskScheduler.submitTasks(
        new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))
      stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
    } else {
      markStageAsFinished(stage, None)
      logDebug("Stage " + stage + " is actually done; %b %d %d".format(
        stage.isAvailable, stage.numAvailableOutputs, stage.numPartitions))
    }
  }

下面这个方法就是task最佳位置算法的核心方法：

/**
    * 计算每一个task对应的partition的最佳位置
    * 其实就是从stage的最后一个rdd开始找，哪个rdd的partition是被cache了，或者被checkPoint了
    * 那么task的最佳位置就是cache/checkPoint的位置
    * 因为这样的话，task的执行就不需要 计算之前的RDD了
    */
  private def getPreferredLocsInternal(
      rdd: RDD[_],
      partition: Int,
      visited: HashSet[(RDD[_],Int)])
    : Seq[TaskLocation] =
  {
    // If the partition has already been visited, no need to re-visit.
    // This avoids exponential path exploration.  SPARK-695
    if (!visited.add((rdd,partition))) {
      // Nil has already been returned for previously visited partitions.
      return Nil
    }
    // If the partition is cached, return the cache locations
    //判断rdd的partition是否被cache
    val cached = getCacheLocs(rdd)(partition)
    if (!cached.isEmpty) {
      return cached
    }
    // If the RDD has some placement preferences (as is the case for input RDDs), get those
    //判断rdd的partition是否被checkPoint
    val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList
    if (!rddPrefs.isEmpty) {
      return rddPrefs.map(TaskLocation(_))
    }
    // If the RDD has narrow dependencies, pick the first partition of the first narrow dep
    // that has any placement preferences. Ideally we would choose based on transfer sizes,
    // but this will do for now.
    rdd.dependencies.foreach {
      case n: NarrowDependency[_] =>
        //递归调用自己，遍历父rdd对应的partition是否被cache或者checkPoint
        for (inPart <- n.getParents(partition)) {
          val locs = getPreferredLocsInternal(n.rdd, inPart, visited)
          if (locs != Nil) {
            return locs
          }
        }
      case _ =>
    }
    //如果这个stage，从最后一个rdd到最开始的rdd，partition都没有被缓存或者checkPoint,那么task的最佳位置就是Nil
    Nil
  }

在选取好task的最佳位置之后，接着就开始调用TaskScheduler的submitTasks方法创建 TaskSet提交task了，在TaskScheduler中，会涉及到task的分配算法，分配到哪几个executor中执行，在后面的文章中我们会深入探究，今天，对于stage的划分算法和task的最佳位置选取算法做了深入的探究，如有任何问题，请不吝赐教，欢迎留言讨论！！！

链上赋能：智能合约重塑供应链管理 Echo_Wish 前沿技术人工智能智能合约 linux 运维
链上赋能：智能合约重塑供应链管理供应链是现代经济活动的核心，而复杂的供应链环节常常面临诸多挑战：数据孤岛、信息不透明、操作低效甚至信任危机。这些问题不仅增加了运营成本，还导致资源浪费。随着区块链技术的兴起，供应链管理迎来了新的解决方案，其中智能合约（SmartContract）作为区块链的重要组成部分，正在颠覆传统的供应链管理模式。在本文中，我将结合Python开发与智能合约，探讨智能合约在供应链
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
设计模式详解：提高代码复用性与可维护性的关键誰能久伴不乏设计模式
文章目录设计模式详解：提高代码复用性与可维护性的关键1.设计模式的分类2.创建型设计模式2.1单例模式（SingletonPattern）工作原理：代码示例：线程安全：2.2工厂方法模式（FactoryMethodPattern）工作原理：代码示例：适用场景：2.3抽象工厂模式（AbstractFactoryPattern）工作原理：代码示例：适用场景：2.4建造者模式（BuilderPatter
C++ Map 查询时的两个小细节：`map[id]` 与 `map.value(id, nullptr)` 的区别誰能久伴不乏 c++java 开发语言
文章目录C++Map查询时的两个小细节：`map[id]`与`map.value(id,nullptr)`的区别1.`map[id]`—直接访问和自动插入新元素示例代码：关键点：适用场景：2.`map.value(id,nullptr)`—安全查询并避免插入新元素示例代码：关键点：适用场景：3.对比：`map[id]`与`map.value(id,nullptr)`的区别4.总结：选择合适的方式5
设计模式详解（十二）：单例模式——Singleton jungle_pig 单例模式设计模式 android
什么是单例模式单例模式(SingletonPattern)是一种常见的设计模式，用于确保一个类在整个应用程序运行期间只有一个实例，并提供全局访问点。本文将详细介绍单例模式的定义、实现方式、优缺点，以及Android源码中的使用实例，配以图解与注释。单例模式的核心目标是：唯一性：确保类只有一个实例。全局访问：提供对该实例的全局访问。UML类图以下是单例模式的UML类图：Singleton-stati
数字孪生技术在工业制造中的应用探索知识产权13937636601 计算机制造人工智能
一、数字孪生：工业4.0的虚实纽带1.1技术定义与发展脉络数字孪生（DigitalTwin）通过实时数据映射，在虚拟空间构建物理实体的动态镜像。其演进历程：概念萌芽（2002年）：NASA首次提出用于航天器健康监测技术成型（2012年）：通用电气（GE）将其引入工业领域规模化应用（2020年至今）：全球市场规模达$86亿美元，年增速31%（Gartner数据）1.2工业场景的核心价值维度传统模式数
TCP/IP协议栈全解析：从分层模型到核心协议学习的时候网络 tcp/ip 网络服务器
TCP/IP（TransmissionControlProtocol/InternetProtocol）是互联网的核心协议簇，定义了数据如何在网络中传输。本文将深入探讨TCP/IP的七层模型与五层架构、DNS与FTP等协议的工作原理，以及TCP的三次握手与四次挥手过程及其报文结构。目录一、TCP/IP协议族概述二、OSI七层模型与五层架构OSI七层模型框架TCP/IP五层架构TCP/IP协议的应用
《量子门与AI神经元：计算世界的奇妙碰撞》程序猿阿伟人工智能量子计算
在当今科技飞速发展的时代，量子计算和人工智能作为前沿领域，正不断颠覆我们对计算和智能的认知。量子门操作和AI中的神经元计算过程，分别作为这两大领域的核心机制，看似处于不同维度，却有着千丝万缕的联系，它们之间的区别与关联，犹如一把钥匙，为我们打开了通往更高级计算与智能世界的大门。量子门操作是量子计算的基础，它利用量子力学的奇妙特性，如叠加和纠缠，对量子比特进行操控。量子比特，作为量子信息的基本单元，
Android第三次面试（Java基础）每次的天空面试职场和发展 java android
面试题一：在Android里，Array和ArrayList区别？定义与大小：数组声明时要指定大小，之后固定；ArrayList动态，无需提前定大小。性能：二者访问元素快，时间复杂度O(1)；数组插入删除繁琐，ArrayList尾部添加快，其他位置操作慢。数据类型：数组能存基本类型和对象，ArrayList只能存对象，存基本类型需用包装类。方法功能：数组自身方法少，靠Arrays类；ArrayLi
HP LoadRunner 12.02全面性能测试工具的功能与使用指南心灵宝贝测试工具
HPLoadRunner12.02是一款性能测试工具，用于测试应用程序在负载下的系统行为和性能表现。它通过模拟成千上万的用户与应用程序交互，帮助识别性能瓶颈，确保系统能够承受预期的流量。HPLoadRunner12.02下载链接地址：https://pan.quark.cn/s/c23b45ff49e8HPLoadRunner12.02的主要组件VuGen（虚拟用户生成器）：用于创建和调试模拟用户
集团企业IT信息化数据架构规划设计方案数智化领地数字化转型数据治理主数据数据仓库架构
集团企业IT信息化数据架构规划设计方案集团企业IT信息化数据架构规划设计方案项目背景与目标集团企业现状分析IT信息化发展趋势数据架构规划需求与目标项目实施范围及预期成果数据架构规划原则与策略遵循行业标准及最佳实践确保数据安全性、完整性和可用性支持业务灵活拓展与创新需求优化资源配置，提高投资回报率数据架构总体设计方案逻辑架构设计物理架构设计数据集成与交换平台规划数据治理体系建立关键业务应用场景及解决
基于 ArkTS 的混合式开发示例：静态页面与本地数据交互 qq_55376032 harmonyos 华为鸿蒙
一、实现效果1、H5段混合式开发效果图2、静态页面与本地数据交互效果图二、技术栈分析ArkTS：用于构建页面结构和逻辑，支持声明式UI和组件化开发。WebView：通过@ohos.web.webview调用H5页面，支持JavaScript交互。资源管理：使用@kit.ArkTS的util模块读取并解析本地JSON文件。自定义对话框：通过@CustomDialog实现自定义弹窗，支持动态数据加载。
Sublime Text 3 安装与配置指南戴宣千Red
SublimeText3安装与配置指南SublimeText3软件安装PackageConrtol手动安装及配置插件安装以汉化包ChineseLocalizations为例项目地址:https://gitcode.com/Resource-Bundle-Collection/f8e42本仓库提供了一个详细的指南，帮助用户在Windows10（64位）操作系统下安装和配置SublimeText3。内
Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
Sublime Text 2.0.2 安装与汉化指南：从下载到中文包配置的完整教程心灵宝贝 sublime text 编辑器
SublimeText是一款轻量级、高性能的代码编辑器，深受开发者喜爱。SublimeText2.0.2是一个较旧的版本，但仍然可以满足基本的代码编辑需求。以下是关于SublimeText2.0.2的安装、中文包配置以及使用方法的详细指南。1.下载SublimeText2.0.2提供下载链接：https://pan.quark.cn/s/04c0559b2b58。找到SublimeText2.0.
IBM提出新的企业信息化架构是什么自由鬼产品分析对比行业发展架构企业信息化架构
一、传统企业信息化架构特点：模块化架构：以传统的ESB（企业服务总线）作为数据和业务逻辑的集成枢纽。包括ERP、HR、资金管理、MES（制造执行系统）、BPM（业务流程管理）等业务模块。数据控制和分层：数据通过静态数据和实时数据分层进行管理。静态数据包含EPC、布置图等，实时数据主要覆盖生产运营中的动态信息。标准化体系：强调开发、接口、制图、采集等方面的标准化。安全性与基础环境：数据管理较为传统，
自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解
人工智能的爆发式增长正在重塑全球产业格局。从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。然而，面对动辄数亿元的硬件投入和复杂的运维挑战，AI企业正面临一个关键抉择：自建智能算力中心，还是选择第三方算力租赁？本文将从成本、效率、风险及适用场景等维度展开深度分析，为企业提供决策参考。一、成本对比：重资产
JPA 实战经验 jpajava
这个博客会持续更新...JSON数据无法进行更新背景：数据库字段是json格式，代码Entity中字段使用了@Converter进行类型转换，对象本身是个List，产生的效果是查询生效，插入生效，更新不生效。怀疑方向：List对象实例ID发生变更了导致未识别@Converter转换器类型有问题尝试以上操作之后，问题依旧。最后，发现自己搞错概念了，把字段与关联表概念搞混了，它本质是一个字段，JPA对
桥接模式：解耦抽象与实现的利器 wrx繁星点点 #设计模式 java android 开发语言桥接模式 intellij-idea spring cloud jvm
1.引言在软件设计中，将抽象与实现分离是一项重要的原则。若将这两者耦合在一起，系统的灵活性和可扩展性将受到限制。桥接模式（BridgePattern）是一种结构型设计模式，旨在通过分离抽象与具体实现，来提高系统的灵活性和可维护性。2.桥接模式的定义桥接模式通过将抽象部分与具体实现部分分离，使得两者可以独立变化。它使用组合的方式，通过引入桥接接口来减少二者之间的耦合，灵活地调整和扩展系统的功能。3.
128.HarmonyOS NEXT 数字滚动示例详解(三)：列表实现与布局 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT数字滚动示例详解(三)：列表实现与布局效果演示1.列表结构概述列表组件使用List和ListItem实现，包含标题和数字显示两个主要部分。2.List组件实现2.1基本结构List({space:STYLE_CONFIG.ITEM_GU
129.HarmonyOS NEXT 数字滚动示例详解(四)：样式与主题适配 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT数字滚动示例详解(四)：样式与主题适配效果演示1.样式配置概述示例组件使用了统一的样式配置和资源引用，确保界面风格的一致性和可维护性。2.样式常量定义constSTYLE_CONFIG={ITEM_GUTTER:12,//列表项间距PA
125.HarmonyOS NEXT 数字滚动动画详解(五)：最佳实践与应用场景 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT数字滚动动画详解(五)：最佳实践与应用场景效果演示1.使用场景数字滚动组件适用于以下场景：数值动态变化显示计数器效果金额变化展示时间倒计时2.基本使用2.1组件创建@Entry@ComponentstructDigitalScrollD
MATLAB 控制系统设计与仿真 - 28 东雁西飞 MATLAB 控制系统设计与仿真 matlab 算法开发语言机器人自动控制 AI算法
MATLAB状态空间控制系统分析-极点配置就受控系统的控制律的设计而言，由状态反馈极点配置和输出反馈极点配置。状态反馈极点配置问题就是：通过状态反馈矩阵K的选取，使闭环系统的极点，即(A-BK)的特征值恰好处于所希望的一组给定闭环极点的位置。另外，线性定常系统可以用状态反馈任意配置极点的充分必要条件是：该系统必须是完全能控的。所以，在实现极点的任意配置前，必须判别受控系统的能控性。下面结合例子介绍
120.HarmonyOS NEXT 跑马灯组件详解(八)：最佳实践与使用指南 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT跑马灯组件详解(八)：最佳实践与使用指南效果演示1.组件使用规范1.1基本使用MarqueeSection({marqueeTextBuilder:()=>{Text('滚动文本内容')},marqueeAnimationModifie
桥接模式：解耦抽象与实现的设计良方技术拾光者设计模式 java 设计模式桥接模式
桥接模式（BridgePattern）是一种结构型设计模式，它通过将抽象部分与实现部分分离，使它们可以独立变化。这种模式的主要目的是解决多维度变化带来的复杂性问题，使代码更具扩展性和可维护性。桥接模式通过提供一个抽象层，将抽象部分与具体实现部分分离。这样，抽象部分和实现部分可以独立地扩展，而不会相互影响。一，模式结构桥接模式的结构包括以下几个部分：抽象类（Abstraction）：定义抽象接口，并
【Vuex：在带命名空间的模块内访问全局内容】武帝为此前后端 vue.js javascript 前端
文章目录一、命名空间与全局内容的关系1.什么是命名空间？✅开启命名空间二、在命名空间模块内访问全局内容1.访问全局state2.访问全局getters3.调用全局mutations4.调用全局actions三、示例：模块间访问与全局状态共享1.定义模块2.注册模块3.测试调用四、常见问题与注意事项1.如何在组件中访问其他模块的state？2.模块命名冲突问题五、总结一、命名空间与全局内容的关系1.
langchain多人对话牛不才 000-大模型 langchain java 前端 AIGC chatgpt 人工智能 gpt
消息类型1.SystemMessage（系统消息）作用：设定AI的基础行为模式或对话背景，通常在对话开始时通过此消息定义角色。它对整个对话流程有指导性影响，但不会显式出现在对话历史中。特点：仅有一条生效（如多次发送会覆盖之前的设定）不参与多轮对话的内容传递2.HumanMessage（用户消息）作用：表示真实用户在对话中的输入内容，是用户与模型交互的直接信息。特点：必须按时间顺序排列内容直接影响模
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
桥接模式：解耦抽象与实现，实现灵活多变的扩展结构码进未来设计模式桥接模式 java 设计模式
文章目录一、引言二、应用场景与技术背景三、模式定义与实现四、实例详解五、优缺点分析总结：一、引言桥接模式是一种结构型设计模式，它将抽象部分与它的实现部分分离，使它们可以独立变化。这种模式通过创建一个抽象层和实现层的结构，并使用组合而非继承来关联这两层，从而使得系统在面对多维度变化时，能够保持较低的耦合度，支持灵活扩展。二、应用场景与技术背景桥接模式适用于以下场景：系统需要在多个维度上进行扩展，而这
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

Spark源码分析之DAGScheduler详解

你可能感兴趣的:(Spark,大数据,Spark源码剖析与调优)