lipeng_bigdata

Spark源码分析之三：Stage划分

继上篇《Spark源码分析之Job的调度模型与运行反馈》之后，我们继续来看第二阶段--Stage划分。

Stage划分的大体流程如下图所示：

前面提到，对于JobSubmitted事件，我们通过调用DAGScheduler的handleJobSubmitted()方法来处理。那么我们先来看下代码：

// 处理Job提交的函数
  private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {
    var finalStage: ResultStage = null
    
    // 利用最后一个RDD（finalRDD），创建最后的stage对象：finalStage
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.
      // 根据最后一个RDD获取最后的stage
      finalStage = newResultStage(finalRDD, func, partitions, jobId, callSite)
    } catch {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }

    // 创建一个ActiveJob对象
    val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
    
    // 清除RDD分区位置缓存
    // private val cacheLocs = new HashMap[Int, IndexedSeq[Seq[TaskLocation]]]
    clearCacheLocs()
    
    // 调用logInfo()方法记录日志信息
    logInfo("Got job %s (%s) with %d output partitions".format(
      job.jobId, callSite.shortForm, partitions.length))
    logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")")
    logInfo("Parents of final stage: " + finalStage.parents)
    logInfo("Missing parents: " + getMissingParentStages(finalStage))

    val jobSubmissionTime = clock.getTimeMillis()
    
    // 将jobId-->ActiveJob的对应关系添加到HashMap类型的数据结构jobIdToActiveJob中去
    jobIdToActiveJob(jobId) = job
    
    // 将ActiveJob添加到HashSet类型的数据结构activeJobs中去
    activeJobs += job
    
    finalStage.setActiveJob(job)
    
    //2 获取stageIds列表
    // jobIdToStageIds存储的是jobId--stageIds的对应关系
    // stageIds为HashSet[Int]类型的
    // jobIdToStageIds在上面newResultStage过程中已被处理
    val stageIds = jobIdToStageIds(jobId).toArray
    // stageIdToStage存储的是stageId-->Stage的对应关系
    val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
    
    listenerBus.post(
      SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
    
    // 提交最后一个stage
    submitStage(finalStage)

    // 提交其他正在等待的stage
    submitWaitingStages()
  }

这个handleJobSubmitted()方法一共做了这么几件事：

第一，调用newResultStage()方法，生成Stage，包括最后一个Stage：ResultStage和前面的Parent Stage：ShuffleMapStage；

第二，创建一个ActiveJob对象job；

第三，清除RDD分区位置缓存；

第四，调用logInfo()方法记录日志信息；

第五，维护各种数据对应关系涉及到的数据结构：

（1）将jobId-->ActiveJob的对应关系添加到HashMap类型的数据结构jobIdToActiveJob中去；

（2）将ActiveJob添加到HashSet类型的数据结构activeJobs中去；

第六，提交Stage；

下面，除了提交Stage留在第三阶段外，我们挨个分析第二阶段的每一步。

首先是调用newResultStage()方法，生成Stage，包括最后一个Stage：ResultStage和前面的Parent Stage：ShuffleMapStage。代码如下：

/**
   * Create a ResultStage associated with the provided jobId.
   * 用提供的jobId创建一个ResultStage
   */
  private def newResultStage(
      rdd: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      jobId: Int,
      callSite: CallSite): ResultStage = {
    
    // 根据fianl RDD获取parent stage及id，这个id为ResultStage的stageId
    val (parentStages: List[Stage], id: Int) = getParentStagesAndId(rdd, jobId)
    
    // 创建一个ResultStage，即为整个Job的finalStage
    // 参数：id为stage的id，rdd为stage中最后一个rdd，func为在分区上执行的函数操作，
    // partitions为rdd中可以执行操作的分区，parentStages为该stage的父stages，jobId为该stage
    val stage = new ResultStage(id, rdd, func, partitions, parentStages, jobId, callSite)
    
    // 将stage加入到stageIdToStage中
    stageIdToStage(id) = stage
    
    // 更新数据结构jobIdToStageIds
    updateJobIdStageIdMaps(jobId, stage)
    
    // 返回stage
    stage
  }

首先，根据fianl RDD获取parent stages及id，这个id为ResultStage的stageId；

其次，创建一个ResultStage，即为整个Job的finalStage；

然后，将stage加入到数据结构stageIdToStage中；

接着，更新数据结构jobIdToStageIds；

最后，返回这个ResultStage。

我们一步步来看。首先调用getParentStagesAndId()方法，根据fianl RDD获取parent stages及id，这个id为ResultStage的stageId。代码如下：

/**
   * Helper function to eliminate some code re-use when creating new stages.
   */
  private def getParentStagesAndId(rdd: RDD[_], firstJobId: Int): (List[Stage], Int) = {
    // 获取parent stages
    val parentStages = getParentStages(rdd, firstJobId)
    
    // 获取下一个stageId，为AtomicInteger类型，getAndIncrement()能保证原子操作
    val id = nextStageId.getAndIncrement()
    
    // 返回parentStages和id
    (parentStages, id)
  }

这个id即为下一个stageId，通过AtomicInteger类型的getAndIncrement()获得，能够保证原子性。继续分析getParentStages()方法，通过它来获取final RDD的parent stage。代码如下：

/**
   * Get or create the list of parent stages for a given RDD.  The new Stages will be created with
   * the provided firstJobId.
   */
  private def getParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] = {
    // 用HashSet存储parents stage
    val parents = new HashSet[Stage]
    
    // 用HashSet存储已经被访问过的RDD
    val visited = new HashSet[RDD[_]]
    
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    // 存储需要被处理的RDD。Stack中得RDD都需要被处理
    val waitingForVisit = new Stack[RDD[_]]
    
    // 定义一个visit函数，根据传入的RDD，如果之前没有处理过，标记为已处理，循环此RDD的依赖关系dependencies
    // 如果是ShuffleDependency，获取其parents；如果不是，则说明为同一stage，并压入Stack：waitingForVisit顶部
    def visit(r: RDD[_]) {
      if (!visited(r)) {// visited中没有的话
        // 将RDD r加入到visited，表示已经处理过了
        visited += r
        
        // Kind of ugly: need to register RDDs with the cache here since
        // we can't do it in its constructor because # of partitions is unknown
        // 循环Rdd r的依赖关系
        for (dep <- r.dependencies) {
          dep match {
            case shufDep: ShuffleDependency[_, _, _] =>
              // 如果是ShuffleDependency，获取其parents，添加到parents中去
              parents += getShuffleMapStage(shufDep, firstJobId)
            case _ =>
              // 否则，属于同一个stage，压入Stack顶部，后续再递归处理
              waitingForVisit.push(dep.rdd)
          }
        }
      }
    }
    
    // 将rdd压入Stack顶部
    waitingForVisit.push(rdd)
    
    // 循环waitingForVisit，弹出每个rdd
    while (waitingForVisit.nonEmpty) {
      // 调用visit()方法，处理每个rdd
      visit(waitingForVisit.pop())
    }
    
    // 返回得到的parents列表
    parents.toList
  }

getParentStages()方法在其内部定义了如下数据结构：

parents：用HashSet存储parents stages，即finalRDD的所有parent stages，也就是ShuffleMapStage；

visited：用HashSet存储已经被访问过的RDD，在RDD被处理前先存入该HashSet，保证存储在里面的RDD将不会被重复处理；

waitingForVisit：存储需要被处理的RDD。Stack中得RDD都需要被处理。

getParentStages()方法在其内部还定义了一个visit()方法，传入一个RDD，如果之前没有处理过，标记为已处理，并循环此RDD的依赖关系dependencies，如果是ShuffleDependency，调用getShuffleMapStage()方法获取其parent stage；如果不是，则说明为同一stage，并压入Stack：waitingForVisit顶部，等待后续通过visit()方法处理。所以，getParentStages()方法从finalRDD开始，逐渐往上查找，如果是窄依赖，证明在同一个Stage中，继续往上查找，如果是宽依赖，通过getShuffleMapStage()方法获取其parent stage，就能得到整个Job中所有的parent stages，也就是ShuffleMapStage。

接下来，我们看下getShuffleMapStage()方法的实现。代码如下：

/**
   * Get or create a shuffle map stage for the given shuffle dependency's map side.
   * 针对给定的shuffle dependency的map端，获取或者创建一个ShuffleMapStage
   */
  private def getShuffleMapStage(
      shuffleDep: ShuffleDependency[_, _, _],
      firstJobId: Int): ShuffleMapStage = {
    
    // 从数据结构shuffleToMapStage中根据shuffleId获取，如果有直接返回，否则
    // 获取ShuffleDependency中的rdd，调用getAncestorShuffleDependencies()方法，
    // 循环每个parent，调用newOrUsedShuffleStage()方法，创建一个新的ShuffleMapStage，
    // 并加入到数据结构shuffleToMapStage中去
    // 
    // 它的定义为：private[scheduler] val shuffleToMapStage = new HashMap[Int, ShuffleMapStage]
    shuffleToMapStage.get(shuffleDep.shuffleId) match {
      case Some(stage) => stage // 有则直接返回
      case None => // 没有
        // We are going to register ancestor shuffle dependencies
        // 调用getAncestorShuffleDependencies()方法，传入ShuffleDependency中的rdd
        
        // 发现还没有在shuffleToMapStage中注册的祖先shuffle dependencies
        getAncestorShuffleDependencies(shuffleDep.rdd).foreach { dep =>
          // 并循环返回的parents，调用newOrUsedShuffleStage()方法，创建一个新的ShuffleMapStage，
          // 并加入到数据结构shuffleToMapStage中去
          shuffleToMapStage(dep.shuffleId) = newOrUsedShuffleStage(dep, firstJobId)
        }
        
        // Then register current shuffleDep
        // 最后注册当前shuffleDep，并加入到数据结构shuffleToMapStage中，返回stage
        val stage = newOrUsedShuffleStage(shuffleDep, firstJobId)
        shuffleToMapStage(shuffleDep.shuffleId) = stage
        stage
    }
  }

从getShuffleMapStage()方法的注释就能看出，这个方法的主要作用就是针对给定的shuffle dependency的map端，获取或者创建一个ShuffleMapStage。为何是Get or create呢？通过源码得知，getShuffleMapStage()方法首先会根据shuffleDep.shuffleId从数据结构shuffleToMapStage中查找哦是否存在对应的stage，如果存在则直接返回，如果不存在，则调用newOrUsedShuffleStage()方法创建一个Stage并添加到数据结构shuffleToMapStage中，方便后续需要使用此Stage者直接使用。在此之前，会根据入参ShuffleDependency的rdd发现还没有在shuffleToMapStage中注册的祖先shuffle dependencies，然后遍历每个ShuffleDependency，调用newOrUsedShuffleStage()方法为每个ShuffleDependency产生Stage并添加到数据结构shuffleToMapStage中。

下面，我们看下这个getAncestorShuffleDependencies()方法的实现，代码如下：

/** Find ancestor shuffle dependencies that are not registered in shuffleToMapStage yet */
  // 根据传入的RDD，发现还没有在shuffleToMapStage中未注册过的祖先shuffle dependencies
  private def getAncestorShuffleDependencies(rdd: RDD[_]): Stack[ShuffleDependency[_, _, _]] = {
    
    // 存放parents的栈：Stack
    val parents = new Stack[ShuffleDependency[_, _, _]]
    
    // 存放已经处理过的RDD的哈希表：HashSet
    val visited = new HashSet[RDD[_]]
    
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    // 存放等待调用visit的RDD的栈：Stack
    val waitingForVisit = new Stack[RDD[_]]
    
    // 定义方法visit()
    def visit(r: RDD[_]) {
      if (!visited(r)) {// 如果之前没有处理过
        visited += r // 标记为已处理
        
        // 循环RDD的所有依赖
        for (dep <- r.dependencies) {
          dep match {
            case shufDep: ShuffleDependency[_, _, _] => // 如果是ShuffleDependency
              // 如果shuffleToMapStage中没有，添加到parents中
              if (!shuffleToMapStage.contains(shufDep.shuffleId)) {
                parents.push(shufDep)
              }
            case _ =>
          }
          
          // 将该dependence的rdd压入waitingForVisit栈顶部
          waitingForVisit.push(dep.rdd)
        }
      }
    }

    // 将RDD压入到waitingForVisit顶部
    waitingForVisit.push(rdd)
    // 循环waitingForVisit，针对每个RDD调用visit()方法
    while (waitingForVisit.nonEmpty) {
      visit(waitingForVisit.pop())
    }
    
    // 返回parents
    parents
  }

通过代码我们可以发现，它和getParentStages()方法的代码风格非常相似。在其内部也定义了三个数据结构：

parents：存放parents的栈，即Stack，用于存放入参RDD的在shuffleToMapStage中未注册过的祖先shuffle dependencies；

visited：存放已经处理过的RDD的哈希表，即HashSet；

waitingForVisit：存放等待被处理的RDD的栈，即Stack；

定义了一个visit()方法，入参为RDD，针对传入的RDD，如果之前没有处理过则标记为已处理，并循环RDD的所有依赖，如果是如果是ShuffleDependency，并且其依赖的shuffleId在shuffleToMapStage中没有，添加到parents中，否则直接跳过，最后无论为何种Dependency，都将该dependence的rdd压入waitingForVisit栈顶部，等待后续处理。

接下来，我们再看下newOrUsedShuffleStage()方法，其代码如下：

/**
   * Create a shuffle map Stage for the given RDD.  The stage will also be associated with the
   * provided firstJobId.  If a stage for the shuffleId existed previously so that the shuffleId is
   * present in the MapOutputTracker, then the number and location of available outputs are
   * recovered from the MapOutputTracker
   *
   * 为给定的RDD创建一个ShuffleStage
   */
  private def newOrUsedShuffleStage(
      shuffleDep: ShuffleDependency[_, _, _],
      firstJobId: Int): ShuffleMapStage = {
    
    // 从shuffleDep中获取RDD 
    val rdd = shuffleDep.rdd
    
    // 获取RDD的分区个数，即未来的task数目
    val numTasks = rdd.partitions.length
    
    // 构造一个ShuffleMapStage实例
    val stage = newShuffleMapStage(rdd, numTasks, shuffleDep, firstJobId, rdd.creationSite)
    
    
    if (mapOutputTracker.containsShuffle(shuffleDep.shuffleId)) {
      // 如果mapOutputTracker中存在
    
      // 根据shuffleId从mapOutputTracker中获取序列化的多个MapOutputStatus对象
      val serLocs = mapOutputTracker.getSerializedMapOutputStatuses(shuffleDep.shuffleId)
      
      // 反序列化
      val locs = MapOutputTracker.deserializeMapStatuses(serLocs)
      
      // 循环
      (0 until locs.length).foreach { i =>
        if (locs(i) ne null) {
          // locs(i) will be null if missing
          // 将
          stage.addOutputLoc(i, locs(i))
        }
      }
    } else {
      // 如果mapOutputTracker中不存在，注册一个
    
      // Kind of ugly: need to register RDDs with the cache and map output tracker here
      // since we can't do it in the RDD constructor because # of partitions is unknown
      logInfo("Registering RDD " + rdd.id + " (" + rdd.getCreationSite + ")")
      // 注册的内容为
      // 1、根据shuffleDep获取的shuffleId；
      // 2、rdd中分区的个数
      mapOutputTracker.registerShuffle(shuffleDep.shuffleId, rdd.partitions.length)
    }
    stage
  }

这个方法的主要完成了以下两件事：

1、构造一个ShuffleMapStage实例stage；

2、判断是否在mapOutputTracker中存在：

（1）如果不存在，调用mapOutputTracker的registerShuffle()方法注册一个，注册的内容为根据shuffleDep获取的shuffleId和rdd中分区的个数；

（2）如果存在，根据shuffleId从mapOutputTracker中获取序列化的多个MapOutputStatus对象，反序列化后循环，逐个添加到stage中。

紧接着，看下newShuffleMapStage()方法，其代码如下：

/**
   * Create a ShuffleMapStage as part of the (re)-creation of a shuffle map stage in
   * newOrUsedShuffleStage.  The stage will be associated with the provided firstJobId.
   * Production of shuffle map stages should always use newOrUsedShuffleStage, not
   * newShuffleMapStage directly.
   */
  private def newShuffleMapStage(
      rdd: RDD[_],
      numTasks: Int,
      shuffleDep: ShuffleDependency[_, _, _],
      firstJobId: Int,
      callSite: CallSite): ShuffleMapStage = {
    
    // 获得parentStages和下一个stageId
    val (parentStages: List[Stage], id: Int) = getParentStagesAndId(rdd, firstJobId)
    
    // 创建一个ShuffleMapStage
    val stage: ShuffleMapStage = new ShuffleMapStage(id, rdd, numTasks, parentStages,
      firstJobId, callSite, shuffleDep)

    // 将stage加入到数据结构stageIdToStage
    stageIdToStage(id) = stage
    updateJobIdStageIdMaps(firstJobId, stage)
    stage
  }

可以发现，这个方法也调用了getParentStagesAndId()方法，这样，就形成了一个递归，按照RDD的依赖关系，由后往前，逐渐生成Stage。代码剩余的部分就是创建一个ShuffleMapStage，并将stage加入到数据结构stageIdToStage，以及调用updateJobIdStageIdMaps()方法更新相关数据结构。这个updateJobIdStageIdMaps()方法留待下面分析。

下面，简单看下mapOutputTracker注册的代码。

// 注册shuffle
  def registerShuffle(shuffleId: Int, numMaps: Int) {
    // 将shuffleId、numMaps大小和MapStatus类型的Array数组的映射关系，放入mapStatuses中
    // mapStatuses为TimeStampedHashMap[Int, Array[MapStatus]]类型的数据结构
    if (mapStatuses.put(shuffleId, new Array[MapStatus](numMaps)).isDefined) {
      throw new IllegalArgumentException("Shuffle ID " + shuffleId + " registered twice")
    }
  }

很简单，将shuffleId、numMaps大小和MapStatus类型的Array数组的映射关系，放入mapStatuses中，mapStatuses为TimeStampedHashMap[Int, Array[MapStatus]]类型的数据结构。
经历了这多又长又大篇幅的叙述，现在返回newResultStage()方法，在通过getParentStagesAndId()方法获取parent stages及其result stage的id后，紧接着创建一个ResultStage，并将stage加入到stageIdToStage中，最后在调用updateJobIdStageIdMaps()更新数据结构jobIdToStageIds后，返回stage。

下面，简单看下updateJobIdStageIdMaps()方法。代码如下：

/**
   * Registers the given jobId among the jobs that need the given stage and
   * all of that stage's ancestors.
   */
  private def updateJobIdStageIdMaps(jobId: Int, stage: Stage): Unit = {
    // 定义一个函数updateJobIdStageIdMapsList()
    def updateJobIdStageIdMapsList(stages: List[Stage]) {
      
      if (stages.nonEmpty) {
        
        // 获取列表头元素
        val s = stages.head
        
        // 将jobId添加到Stage的jobIds中
        s.jobIds += jobId
        
        // 更新jobIdToStageIds，将jobId与stageIds的对应关系添加进去
        jobIdToStageIds.getOrElseUpdate(jobId, new HashSet[Int]()) += s.id
        
        val parents: List[Stage] = getParentStages(s.rdd, jobId)
        
        val parentsWithoutThisJobId = parents.filter { ! _.jobIds.contains(jobId) }
        updateJobIdStageIdMapsList(parentsWithoutThisJobId ++ stages.tail)
      }
    }
    // 调用函数updateJobIdStageIdMapsList()
    updateJobIdStageIdMapsList(List(stage))
  }

这个方法的实现比较简单，在其内部定义了一个函数updateJobIdStageIdMapsList()，首选传入result stage，将jobId添加到stage的jobIds中，更新jobIdToStageIds，将jobId与stageIds的对应关系添加进去，然后根据给定stage的RDD获取其parent stages，过滤出不包含此JobId的parents stages，再递归调用updateJobIdStageIdMapsList()方法，直到全部stage都处理完。

至此，第二阶段Stage划分大体流程已分析完毕，有遗漏或不清楚的地方，以后再查缺补漏以及细化及更正错误。

K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
大厂面试系列：JVM中有哪些内存区域，分别都是用来干嘛的？石杉的架构笔记面试求职 java 面试 jvm 内存划分类加载
添加VX：ruyuan0220，回复：CSDN，领取更多精品学习资料！目录背景知识大厂面试背景引入到底什么是JVM的内存区域划分？存放类的方法区执行代码指令用的程序计数器Java虚拟机栈Java堆内存核心内存区域的全流程串讲其他内存区域本文小结背景知识我们先聊了一下相关的背景知识：JVM类加载这块的机制，简单介绍一下。大家需要搞明白的是，在什么情况下会触发类的加载？加载之后的验证、准备和解析分别是
oracle创建用户，授权connect，resource后无法建表程序员WANG 数据库 oracle 数据库 dba
oracle创建用户后，授权很重要，grantconnect,resourcetodemo后，如果你觉得可以了，那就错了。具体授权分为三种方式：1、授权管理员权限，即grantconnect,resource,dbato用户；2、先划分角色，已分配权限的角色，授权给用户，grantrole1to用户，用户就拥有了该角色的权限;3、主要用的就是直接授权。详情如下：1.建用户createuserdem
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
前后端分离实践（一）—— 基础理论篇 _云卷云舒_ 前后端分离前后端分离前后端分离
前后端分离实践系列文章总目录目录一、什么是前后端分离？二、为什么需要前后端分离？1、前后端职责不清2、开发效率不高三、前后端分离究竟分离了什么？1、开发职责的分离2、交互方式的分离3、代码组织方式的分离4、应用部署的分离四、为什么要加入Node中间层来实现前后端分离？1、反思前后端的定义2、加入Node中间层之后的系统架构图3、加入Node中间层之后的前后端职责划分4、加入Node中间层的优缺点一
【WRF模拟】WRF运行时进程数限制的原因及报错解决方案 WW、forever WRF模型原理及应用 WRF
目录WRF运行时进程数限制的原因网格块的最小尺寸要求嵌套域的尺寸和分辨率进程数与网格划分的关系案例1：四层嵌套错误：ERROR:ReducetheMPIrankcount,orredistributethetasks解决方法参考WRF运行时进程数限制的原因在进行wrf模拟时，若内层网格分辨率较高，模拟时间较久，可适当增加运行内核数，但如何确定合适的内核数呢？太高会导致模型报错，太低又会增加模型运行
第 7 课Python 容器类型与相关操作嵌入式老牛 Python入门 python 开发语言
1.容器介绍对象是Python中对数据的抽象，Python程序中的所有数据都是由对象或对象间关系来表示的。Python中，可包含其他对象的引用的对象，称之为“容器”。容器的例子有元组、列表和字典等。这些引用的对象是容器对象值的组成部分。常用的容器主要划分为两种：序列（如：列表、元组等）和映射（如：字典）。序列中，每个元素都有下标，它们是有序的。映射中，每个元素都有名称（又称“键”），它们是无序的。
数字化转型的三个阶段：信息化、数字化、数智化兴风键盘侠计算机行业知识大数据创业创新
数字化转型（DigitalTransformation）是当前企业和社会发展的核心驱动力。它不仅是技术层面的变革，更是一种系统性、战略性的转型，涵盖了业务流程、管理模式以及企业文化等多个维度。数字化转型通常可以划分为三个阶段：信息化、数字化和数智化。本文将对这三个阶段进行详细剖析，帮助您理解每个阶段的特征、目标及实施要点。第一阶段：信息化（Informatization）定义与目标信息化是数字化转
FPGA时钟域处理 cycf fpga开发
FPGA时钟域处理文章目录FPGA时钟域处理前言一、时钟域的管理1时钟资源二、跨时钟域设计1.1单bit信号跨时钟域1.1.1慢到快1.1.2快到慢1.1.3慢到快1.2多bit（这里指简单的多个控制信号）三、时钟域区域划分四使用衍生时钟的注意事项4.1原则14.2原则24.3原则3总结前言FPGA在代码设计的时候要考虑不同功能会有不同的时钟域，在设计构思的时候就要考虑到框图中的时钟域划分。一般都
MyBatis 之三：配置文件详解和 Mapper 接口方式 zp8126 MyBatis mybatis java
配置文件MyBatis的配置文件是XML格式的，它定义了MyBatis运行时的核心行为和设置。默认的配置文件名称为mybatis-config.xml，该文件用于配置数据库连接、事务管理器、数据源、类型别名、映射器（mapper文件）以及其他全局属性。以下是一些主要配置元素的概览：作为整个配置文件的根元素，所有其他配置项都包含在其中。用于加载外部属性文件，这些属性可以在配置文件中其他地方通过${p
最新版！快速掌握 JDK17 + springboot3 + springcloud Alibaba :7、链路追踪 Micrometer Tracing&Zipkin 云上凯歌 springcloud Alibaba spring cloud spring 后端
微服务架构是一个分布式架构，它按业务划分服务单元，一个分布式系统往往有很多个服务单元。由于服务单元数量众多，业务的复杂性，如果出现了错误和异常，很难去定位。主要体现在，一个请求可能需要调用很多个服务，而内部服务的调用复杂性，决定了问题难以定位。所以微服务架构中，必须实现分布式链路追踪，去跟进一个请求到底有哪些服务参与，参与的顺序又是怎样的，从而达到每个请求的步骤清晰可见，出了问题，很快定位。分布式
angular 新语法糖学习一
延迟视图@defer是Angularv16引入的一项功能，用于优化组件的加载和渲染。它提供了一种延迟加载组件的方法，可以减少初始渲染时的开销，延迟加载（LazyLoading）主要是通过路由实现的。通过路由配置中的loadChildren属性，可以在需要时加载特定的模块。这种方式适合处理大型应用程序中的模块划分问题，但不能直接用于组件级别的延迟加载。随着angular的发展，在angularv16
基于R语言的现代贝叶斯统计学方法（贝叶斯参数估计、贝叶斯回归、贝叶斯计算实践过程 xiao5kou4chang6kai4 统计生态农业 r语言回归贝叶斯统计学线性回归
专题一贝叶斯统计学的思想与概念1.1信念函数与概率1.2事件划分与贝叶斯法则1.3稀少事件的概率估计1.4可交换性1.5预测模型的构建专题二单参数模型2.1二项式模型与置信域2.2泊松模型与后验分布2.3指数族模型与共轭先验专题三蒙特卡罗逼近3.1蒙特卡罗方法3.2任意函数的后验推断3.3预测分布采样3.4后验模型检验专题四正态模型4.1均值与条件方差的推断4.2基于数学期望的先验4.3非正态分布
RK3588平台开发系列讲解（调试篇）CGroup 精细化的控制内核笔记 RK3588 Android12 开发入门到精通专栏 RK3588
文章目录一、CPU与CGroup二、限制进程的CPU资源占用三、cpu.shares：多个cgroup组的权重划分四、sched_autogroup沉淀、分享、成长，让自己和他人都能有所收获！CGroup的全称是ControlGroup，是容器实现环境隔离的两种关键技术之一，它对很多子系统提供精细化的控制的能力，比如下面这些：CPU内存IO网络CGroup的所有操作都是基于cgroupvirtua
搭建商城系统有可能运用到什么技术 hunzi_1 微信小程序小程序
搭建商城系统涉及多种技术，涵盖前端、后端和数据库等多个方面：一、前端技术HTML（超文本标记语言）这是构建网页的基础语言，用于定义页面的结构。在商城系统中，通过HTML可以创建商品展示页面、购物车页面、用户注册登录页面等的基本框架。例如，使用标签来划分页面的不同区域，如商品图片展示区、商品描述区、购买按钮区域等；用标签来显示商品图片，通过设置其src属性来指定图片的来源路径。CSS（层叠样式表）用
KubeSphere 与 Pig 微服务平台的整合与优化：全流程容器化部署实践小盒子_spring 字节与烟火微服务 KubeSphere Pig微服务平台 Jenkins流水线 SonarQube代码审查 Ingress DevOps
一、前言近年来，为了满足越来越复杂的业务需求，我们从传统单体架构系统升级为微服务架构，就是把一个大型应用程序分割成可以独立部署的小型服务，每个服务之间都是松耦合的，通过RPC或者是Rest协议来进行通信，可以按照业务领域来划分成独立的单元。但是微服务系统相对于以往的单体系统更为复杂，当业务增加时，服务也将越来越多，服务的频繁部署、监控将变得复杂起来，尤其在上了k8s以后会更加复杂。那么有没有一款全
内网安全攻防：渗透测试实战指南之内网信息搜集网络安全进阶渗透测试网络安全渗透测试 web安全信息安全
《内网安全攻防：渗透测试实战指南》第2章：内网信息搜集内网渗透测试的核心是信息搜集。本章主要介绍了当前主机信息搜集、域内存活主机探测、域内端口扫描、域内用户和管理员权限的获取、如何获取域内网段划分信息和拓扑架构分析等，并介绍了域分析工具BloodHound的使用。搜集本机信息网络配置信息、操作系统及软件的信息、本机服务信息、进程列表、启动程序信息、计划任务、主机开机时间、用户列表、连接会话、端口列
第三章、python中的对象、变量、标识符、作用域、引用(调用)及地址的概念(3.1-3.2)------内存地址、创建对象、对象的类型及对象的划分问题 thefg Python基础详解教程对象的类型创建对象 in is id 内存地址逻辑地址
第三章、python中的对象、变量、标识符、作用域、引用(调用)及地址的概念本章讲述编程中对象、变量、地址的基本概念及其之间的关系，可迭代对象、可变对象、不可变对象的特点。
时间轮算法及简易实现后端算法
一、时间轮算法是什么？1.基本概念时间轮（TimeWheel）是一种高效的定时任务调度算法，用于管理和调度大量的定时任务。它的核心思想是将时间划分为多个槽（Slot），每个槽代表一个时间间隔，任务根据其延迟时间被分配到对应的槽中。时间轮通过一个指针（Pointer）周期性地移动，触发当前槽中的任务执行。2.核心名词解释槽（Slot）：时间轮被划分为多个槽，每个槽代表一个时间间隔。例如，一个时间轮有
MVC设计模式简介大海知天空
MVC设计模式（Model-View-Controller)是软件工程中常见的一种软件架构模式，该模式把软件系统（项目）分为三个基本部分：模型（Model）、视图（View）和控制器（Controller）。使用MVC模式有很多优势，例如：简化后期对项目的修改、扩展等维护操作；使项目的某一部分变得可以重复利用；使项目的结构更加直观。具体来讲，MVC模式可以将项目划分为模型（M）、视图（V）和控制器
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
使用神经网络拟合6项参数 Andrew_Xzw 神经网络人工智能深度学习开发语言机器学习 python
使用神经网络拟合6项参数1.数据预处理1.1添加参数解析1.2数据预处理逻辑1.3数据归一化及划分1.4数据标签处理逻辑1.5数据转torch2.定义model2.1CNN_LSTM2.2Transformer3.定义train脚本3.1loss和optimizer3.2train3.3predict1.数据预处理1.1添加参数解析为了方便管理模型和训练等参数，统一用参数解析。defparse_a
ubuntu 22 安装vmware 17.5 bohu83 ubuntu linux vmware vmmon vmnet
因为玩小车，亚博售后说目前技术不支持搭建移植环境，推荐使用官方的虚拟机镜像。ubuntu安装linux,下载，推荐CDSRepository-/var/www/public/stage/session-120/cds/vmw-desktop/ws/17.5.1/23298084/linux/core官方网站brandcom注册很麻烦，貌似有bug，我注册完还提示登录失败。准备工作sudoaptin
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
Go实战全家桶之三十六： go动态创建结构体 leijmdas go go实战全家桶 golang 开发语言后端
开源：water/gowebfunc(self*PagedbRequest)CreateDbTableStru(meta*metadata.MetadataTable)reflect.Value{varmetaColService=service.NewMetadataFactroy()dbFields:=[]reflect.StructField{}for_,col:=rangemeta.Col
集团企业IT技术架构规划方案（基于TOGAF企业架构框架方法论）公众号：优享智库数字化转型数据治理主数据数据仓库架构微服务云原生
集团企业IT技术架构规划方案（基于TOGAF企业架构框架方法论）集团企业IT技术架构规划方案（基于TOGAF企业架构框架方法论）引言项目背景与目标TOGAF方法论简介规划方案概述企业现状分析与评估业务流程梳理现有IT架构评估存在问题及挑战分析架构设计原则与策略制定架构设计原则确定技术选型及标准化策略安全性、可靠性和可扩展性考虑业务架构规划与设计业务需求梳理与整合业务功能模块划分业务流程优化建议数据
Spark任务提交流程尘世壹俗人大数据Spark技术大数据
当包含在applicationmaster中的spark-driver启动后，会与资源调度平台交互获取其他执行器资源，并通过反向注册通知对应的node节点启动执行容器。此外，还会根据程序的执行规划生成两个非常重要的东西，一个是根据spark任务执行计划生成n个ADG有向无环图，另一个是根据有向无环图生成对应的taskset，也可以统称为stage，ADG和taskset由于宽窄依赖以及程序的复杂度
使用分库分表技术，解决了亿级订单数据存储问题?思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
分库分表技术是解决大规模数据存储问题的一种常见策略，特别是在处理亿级订单数据时。通过将数据分散到多个数据库和表中，可以有效地提高系统的可扩展性和性能。以下是一个思维导图结构，以及一个简化的Java架构代码示例，展示了如何使用分库分表技术来管理亿级订单数据。思维导图结构分库分表解决方案设计原则数据分布算法哈希取模（HashModulo）范围划分（RangePartitioning）列表划分（List
Python pandas离散化方法优化与应用实例 python慕遥 Python数据分析 Pandas 数据科学 python pandas 机器学习
大家好，在数据分析中，离散化是将连续数据划分为不同区间的一种重要方法。这种方法可以更好地理解数据分布、简化分析、或在分类建模中对特征进行转换。在Python的Pandas库中，cut和qcut是两个强大的工具，分别用于基于固定区间和基于分位数对数据进行离散化。它们的灵活性和易用性使其在数据处理过程中十分常用。离散化可以将复杂的连续数据转化为更直观的区间，帮助快速发现数据分布规律，并且在机器学习中，
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

Spark源码分析之三：Stage划分

你可能感兴趣的:(Spark源码分析之三：Stage划分)