小白数据猿

Spark Task执行流程源码分析系列之二: 任务构建&调度&资源分配

上一节我们介绍了Task各个环节用到的主要数据结构，本节我们来看看Spark中一个Task是如何构建起来的，又是如何获取到资源，然后提交给集群相应的资源进行启动的。

任务构建&提交

Spark job内部是通过DAG来维护血缘关系的，通过shuffle算子进行stage的划分，上游stage计算完成后，下游stage才能进行，在一个stage中有多个任务需要执行，划分完stage后就会对同一个stage的任务集合进行提交，然后分配资源执行任务，我们先来看下任务提交入口，步骤如下:

首先清空需要计算的stage待处理分区的索引的集合，找出当前stage还没有计算的分区<一个分区是一个Task>；
将当前stage加入到runningStages集合中，并启动对当前stage输出提交到HDFS的协调机制；
计算每个需要计算分区对应任务的偏好分区位置，以方便调度时候找到最合适的位置信息；
对任务进行序列化并广播，ShuffleMapTask会对Stage的rdd和ShuffleDependency进行序列化，ResultTask则是对Stage的rdd和对RDD的分区进行计算的函数func进行序列化；
构建Task集合TaskSet，根据stage的类型创建ShuffleMapTask或者ResultTask集合；
如果集合长度大于0，说明当前stage还有没有未执行的任务，交由TaskScheduler进行调度执行；如果集合长度为0，表明这个stage已经完成了，可以触发下游stage进行执行尝试(由于下一个stage可能依赖多个上游stage，所以也不一定会直接执行)。

// org.apache.spark.scheduler.DAGScheduler 
private def submitMissingTasks(stage: Stage, jobId: Int) {  
  // 清空当前Stage的pendingPartitions，便于记录需要计算的分区任务。
  stage.pendingPartitions.clear()
  // 找出当前Stage的所有分区中还没有完成计算的分区的索引
  val partitionsToCompute: Seq[Int] = stage.findMissingPartitions()
  // 获取ActiveJob的properties。properties包含了当前Job的调度、group、描述等属性信息。
  val properties = jobIdToActiveJob(jobId).properties

  // 将stage添加到runningStages集合中，表示其正在运行
  runningStages += stage
  // 启动对当前Stage的输出提交到HDFS的协调机制
  stage match {
    case s: ShuffleMapStage =>
    outputCommitCoordinator.stageStart(stage = s.id, maxPartitionId = s.numPartitions - 1)
    case s: ResultStage =>
    outputCommitCoordinator.stageStart(stage = s.id, maxPartitionId = s.rdd.partitions.length - 1)
  }
  // 获取还没有完成计算的每一个分区的偏好位置
  val taskIdToLocations: Map[Int, Seq[TaskLocation]] = try {
    stage match {
      case s: ShuffleMapStage =>
      partitionsToCompute.map { id => (id, getPreferredLocs(stage.rdd, id))}.toMap
      case s: ResultStage =>
      partitionsToCompute.map { id =>
        val p = s.partitions(id)
        (id, getPreferredLocs(stage.rdd, p))
      }.toMap
    }
  } catch {
    // 如果发生任何异常，则调用Stage的makeNewStageAttempt()方法开始一次新的Stage执行尝试
    case NonFatal(e) =>
    ...
    return
  }

  // 开始Stage的执行尝试,对这次stage进行分装分配attemptId
  stage.makeNewStageAttempt(partitionsToCompute.size, taskIdToLocations.values.toSeq)
  // 向事件总线投递SparkListenerStageSubmitted事件
  listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))
  
  // 对任务进行序列化并广播
  var taskBinary: Broadcast[Array[Byte]] = null
  try {
    val taskBinaryBytes: Array[Byte] = stage match {
      // 对Stage的rdd和ShuffleDependency进行序列化
      case stage: ShuffleMapStage =>
      JavaUtils.bufferToArray(closureSerializer.serialize((stage.rdd, stage.shuffleDep): AnyRef))
      // 对Stage的rdd和对RDD的分区进行计算的函数func进行序列化
      case stage: ResultStage =>
      JavaUtils.bufferToArray(closureSerializer.serialize((stage.rdd, stage.func): AnyRef))
    }

    // 广播任务的序列化对象
    taskBinary = sc.broadcast(taskBinaryBytes)
  } catch {
    case e: NotSerializableException =>
    ...
    return
    case NonFatal(e) =>
    ...
    return
  }

  // 创建Task序列
  val tasks: Seq[Task[_]] = try {
    stage match {
      case stage: ShuffleMapStage => // 为ShuffleMapStage的每一个分区创建一个ShuffleMapTask
      partitionsToCompute.map { id 
        val locs = taskIdToLocations(id)  // 对应分区的偏好位置序列
        val part = stage.rdd.partitions(id)   // RDD的分区
        // 创建ShuffleMapTask
        new ShuffleMapTask(stage.id, stage.latestInfo.attemptId,
                           taskBinary, part, locs, stage.latestInfo.taskMetrics, properties, Option(jobId),
                           Option(sc.applicationId), sc.applicationAttemptId)
      }

      case stage: ResultStage => // 为ResultStage的每一个分区创建一个ResultTask
      partitionsToCompute.map { id =>
        val p: Int = stage.partitions(id)
        val part = stage.rdd.partitions(p)  // RDD的分区
        val locs = taskIdToLocations(id)  // 分区偏好位置序列
        // 创建ResultTask
        new ResultTask(stage.id, stage.latestInfo.attemptId,
                       taskBinary, part, locs, id, properties, stage.latestInfo.taskMetrics,
                       Option(jobId), Option(sc.applicationId), sc.applicationAttemptId)
      }
    }
  } catch {
    case NonFatal(e) =>
    ...
    return
  }

  if (tasks.size > 0) { // Task数量大于0
    // 将提交的分区添加到pendingPartitions集合中，表示它们正在等待处理
    stage.pendingPartitions ++= tasks.map(_.partitionId)
    // 为这批Task创建TaskSet，调用TaskScheduler的submitTasks方法提交此批Task
    taskScheduler.submitTasks(new TaskSet(
      tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))
    // 记录最后一次提交时间
    stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
  } else { // Task数量为0，没有创建任何Task
    // 将当前Stage标记为完成
    markStageAsFinished(stage, None)
    // 提交当前Stage的子Stage
    submitWaitingChildStages(stage)
  }
}

DAGScheduler向TaskScheduler提交了TaskSet之后，TaskSchedulerImpl会为每个TaskSet创建一个TaskSetManager对象，该对象包含TaskSet所有 tasks，并管理这些tasks的调度，执行以及失败重试等，TaskSetManager新建后，会加入到调度池中，进行调度执行，最后会通过scheduleBackend进行资源的申请来运行这些job。

// org.apache.spark.scheduler.TaskSchedulerImpl
override def submitTasks(taskSet: TaskSet) {
  val tasks = taskSet.tasks  // 获取TaskSet中的所有Task
  this.synchronized {
    val manager = createTaskSetManager(taskSet, maxTaskFailures)  // 创建TaskSetManager
    val stage = taskSet.stageId  // TaskSet的Stage
    // 更新taskSetsByStageIdAndAttempt中记录的推测执行信息
    val stageTaskSets = taskSetsByStageIdAndAttempt.getOrElseUpdate(stage, new HashMap[Int, TaskSetManager])
    stageTaskSets(taskSet.stageAttemptId) = manager
    // 判断是否有冲突的TaskSet，taskSetsByStageIdAndAttempt中不应该存在同属于当前Stage，但是TaskSet却不相同的情况
    val conflictingTaskSet = stageTaskSets.exists { case (_, ts) =>
      ts.taskSet != taskSet && !ts.isZombie
    }
    if (conflictingTaskSet) {
      throw new IllegalStateException(s"more than one active taskSet for stage $stage:" +
                                      s" ${stageTaskSets.toSeq.map{_._2.taskSet.id}.mkString(",")}")
    }

    // 将刚创建的TaskSetManager添加到调度池构建器的调度池中
    schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)
    ...
  }
  // 给Task分配资源并运行Task
  backend.reviveOffers()
}

任务集调度

调度池Pool

DAGScheduler负责构建具有依赖关系的任务集，TasksetManager负责在特定任务集的内部调度任务，CoarseGrainedSchedulerBackend负责任务的资源管理和任务启动，TaskSchedulerImpl负责分配资源给TasksetManager，让它进行任务的启动。但是Spark在运行一个job时候，可能同时存在多个可运行的任务集，这些任务集之间如何调度则是由调度池pool来进行协调管理来决定的，具体的实现在org.apache.spark.scheduler.Pool中，调度池内部有一个根调度队列<rootPool>，根调度队列中包含了多个子调度池。子调度池自身的调度队列中还可以包含其他的调度池或者TaskSetManager，所以整个调度池是一个多层次的调度队列，我们先来看下调度池的私有变量:

schedulableQueue是Schedulable的子类，目前只有Pool和TaskSetManager两种实现，所以调度池中还可以有调度池或者是需要调度的任务集合；
schedulableNameToSchedulable是记录调度的名称与具体的Schedulable的映射关系；
weight和minShare都是Fair调度时候用的参考值；
runningTasks记录当前pool运行的任务数目，也会用到Fair调度中。

private[spark] class Pool(
    val poolName: String,
    val schedulingMode: SchedulingMode,
    initMinShare: Int,
    initWeight: Int)
  extends Schedulable with Logging {
    // 用于存储Schedulable，是一个可以嵌套的层次结构
  	val schedulableQueue = new ConcurrentLinkedQueue[Schedulable]
  	// 调度名称与Schedulable的对应关系
  	val schedulableNameToSchedulable = new ConcurrentHashMap[String, Schedulable]
    // 用于公平调度算法的权重
  	var weight = initWeight
 	  // 用于公平调度算法的参考值
  	var minShare = initMinShare
    // 当前正在运行的任务数量
    var runningTasks = 0
    // 进行调度的优先级
    var priority = 0
  }

添加&删除&获取调度任务

由于schedulableQueue记录了所有的Schdulable，schedulableNameToSchedulable记录了名字与Schedule的映射关系，所以在添加和删除时候只用对齐更改即可。

// 将Schedulable添加到schedulableQueue和schedulableNameToSchedulable中， 并将Schedulable的父亲设置为当前Pool
override def addSchedulable(schedulable: Schedulable) {
  require(schedulable != null)
  schedulableQueue.add(schedulable)
  schedulableNameToSchedulable.put(schedulable.name, schedulable)
  schedulable.parent = this
}

// 将指定的Schedulable从schedulableQueue和schedulableNameToSchedulable中移除
override def removeSchedulable(schedulable: Schedulable) {
  schedulableQueue.remove(schedulable)
  schedulableNameToSchedulable.remove(schedulable.name)
}

// 用于根据指定名称查找Schedulable
override def getSchedulableByName(schedulableName: String): Schedulable = {
  if (schedulableNameToSchedulable.containsKey(schedulableName)) {
    // 当前Pool的schedulableNameToSchedulable中存在就从当前Pool中获取
    return schedulableNameToSchedulable.get(schedulableName)
  }
  // 否则遍历schedulableQueue中的每个Schedulable对象
  for (schedulable <- schedulableQueue.asScala) {
    // 调用每个Schedulable对象的getSchedulableByName()方法获取
    val sched = schedulable.getSchedulableByName(schedulableName)
    if (sched != null) {
      return sched
    }
  }
  null
}

调度算法&排序调度实体

当有了资源后，执行哪个stage的任务呢，是如何进行排序的呢？这是由SchedulingAlgorithm来决定的，有两种算法FairSchedulingAlgorithm和FIFOSchedulingAlgorithm，并且提供了按照排序算法获取不同stage任务执行先后顺序的函数，可以看出会先对rootPool按照排序算法排序，然后对于每个子Pool的进行排序，最后得到排好序的任务集合队列，按照队列中顺序执行对应Schedulable中的任务，getSortedTaskSetQueue是提供给TaskScheduler使用的获取排序的任务集合的列表的方法。

// 任务集合的调度算法，默认为FIFOSchedulingAlgorithm
var taskSetSchedulingAlgorithm: SchedulingAlgorithm = {
  schedulingMode match {
    case SchedulingMode.FAIR =>
    new FairSchedulingAlgorithm()
    case SchedulingMode.FIFO =>
    new FIFOSchedulingAlgorithm()
    case _ =>
    val msg = "Unsupported scheduling mode: $schedulingMode. Use FAIR or FIFO instead."
    throw new IllegalArgumentException(msg)
  }
}

// 对当前Pool中的所有TaskSetManager按照调度算法进行排序，并返回排序后的TaskSetManager
override def getSortedTaskSetQueue: ArrayBuffer[TaskSetManager] = {
  var sortedTaskSetQueue = new ArrayBuffer[TaskSetManager]
  // 对schedulableQueue内的元素进行排序
  val sortedSchedulableQueue =
  schedulableQueue.asScala.toSeq.sortWith(taskSetSchedulingAlgorithm.comparator)
  for (schedulable <- sortedSchedulableQueue) {
    sortedTaskSetQueue ++= schedulable.getSortedTaskSetQueue
  }
  sortedTaskSetQueue
}

调度算法

调度算法是对两个Schedulable的TaskSetManager或者Pool进行排序，具体是实现comparator接口，来比较两个Schedulable。

private[spark] trait SchedulingAlgorithm {
  // 用于对两个Schedulable进行比较
  def comparator(s1: Schedulable, s2: Schedulable): Boolean
}

FIFOSchedulingAlgorithm

FIFOSchedulingAlgorithm是先进先出的排序算法，首先会根据JobId进行比较，选取比较较小的jobId，这是因为越早提交的作业，JobId越小；然后如果是同一个Job，则根据stageId进行比较，因为对同一个Job越早生成的Stage，其StageId越小，有依赖关系的多个Stage之间，DAGScheduler会控制Stage是否会被提交到调度队列中[若其依赖的Stage未执行完前，此Stage不会被提交]，其调度顺序可通过此来保证，但若某Job中有两个无入度的Stage的话，则先调度StageId小的Stage，比较函数的执行步骤如下:

先获取两个Schedulables1和s2的优先级，在DAGscheduler创建TaskSet时使用JobId做为优先级的值；
使用优先级进行比较，如果结果小于0，则优先调度s1，否则优先调度s2；
如果优先级相同，则对两个Schedulable stageId进行比较，优先调度stageId小的。

// 先进先出算法，先比较优先级，再比较Stage ID
private[spark] class FIFOSchedulingAlgorithm extends SchedulingAlgorithm {
  override def comparator(s1: Schedulable, s2: Schedulable): Boolean = {
    val priority1 = s1.priority
    val priority2 = s2.priority
    // 对s1和s2两个Schedulable的优先级进行比较
    var res = math.signum(priority1 - priority2)
    if (res == 0) {
      val stageId1 = s1.stageId
      val stageId2 = s2.stageId
      // 对s1和s2所属的Stage的身份标识进行比较
      res = math.signum(stageId1 - stageId2)
    }
    res < 0
  }
}

FairSchedulingAlgorithm

FairSchedulingAlgorithm是公平调度算法，会根据目前两个Schedulable的运行的任务数目，最少的运行任务数目要求，以及它们之间的比值来进行比较。具体的比较是未满足minShare规定份额的资源的队列或任务集先执行；如果所有均不满足minShare的话，则选择缺失比率小的先调度；如果均不满足，则按执行权重比进行选择，先调度执行权重比小的；如果执行权重也相同的话则会选择StageId小的进行调度[name=“TaskSet_”+ taskSet.stageId.toString]。具体步骤如下:

获取s1，s2的minShare<最少运行任务数目>，runningTasks<运行任务数目>，Needy<是否满足配额，也就是运行中任务是否达到了规定的最小运行数目>，minShareRatio<正在运行的任务数量与最小运行任务数目之间的比值，比值越小说明缺乏资源越多>，taskToWeightRatio<正在运行的任务数量与权重之间的比值。>的信息；
首先要先比较Scheduler目前运行的任务数目跟minShare的大小:
1. 如果s1的正在运行task数小于minShare，并且s2的正在运行task数大于等于minShare，则说明s1的分配的资源不足，优先调度s1；
2. 反之，如果s1的正在运行task数大于等于minShare，并且s2的正在运行task数小于minShare，则说明s2的分配的资源不足，优先调度s2；
如果s1和s2的正在运行task数都小于minShare，那么对minShareRatio进行比较，如果s1的minShareRatio小于s2的minShareRatio，那么优先调度s1，反之优先调度s2
如果s1和s2的正在运行task数都大于等于minShare，则对taskToWeightRatio进行比较，如果s1的taskToWeightRatio小于s2的taskToWeightRatio，那么优先调度s1，反之优先调度s2
如果minShareRatio或taskToWeightRatio比值相等，则比较s1和s2的name，如果s1小于s2，则优先调度s1，反之优先调度s2。

// 公平调度算法
private[spark] class FairSchedulingAlgorithm extends SchedulingAlgorithm {
  override def comparator(s1: Schedulable, s2: Schedulable): Boolean = {
    val minShare1 = s1.minShare
    val minShare2 = s2.minShare
    val runningTasks1 = s1.runningTasks
    val runningTasks2 = s2.runningTasks
    // 处于运行状态的Task的数量是否小于s1的minShare
    val s1Needy = runningTasks1 < minShare1
    val s2Needy = runningTasks2 < minShare2
    // 正在运行的任务数量与minShare之间的比值
    val minShareRatio1 = runningTasks1.toDouble / math.max(minShare1, 1.0)
    val minShareRatio2 = runningTasks2.toDouble / math.max(minShare2, 1.0)
    // 正在运行的任务数量与权重（weight）之间的比值
    val taskToWeightRatio1 = runningTasks1.toDouble / s1.weight.toDouble
    val taskToWeightRatio2 = runningTasks2.toDouble / s2.weight.toDouble

    var compare = 0
    if (s1Needy && !s2Needy) {
      // 运行状态的Task的数量：s1不满足份额；s2满足份额
      return true
    } else if (!s1Needy && s2Needy) {
      // 运行状态的Task的数量：s1满足份额；s2不满足份额
      return false
    } else if (s1Needy && s2Needy) {  // 运行状态的Task的数量：s1和s2都不满足份额
      // minShareRatio是正在运行的任务数量与minShare之间的比值。
      // 如果minShareRatio1小于minShareRatio2，则优先调度s1；
      // 如果minShareRatio2小于minShareRatio1，则优先调度s2。
      // 如果minShareRatio1和minShareRatio2相等，还需要对s1和s2的名字进行比较。
      compare = minShareRatio1.compareTo(minShareRatio2)
    } else { // 运行状态的Task的数量：s1和s2都满足份额
      // taskToWeightRatio是正在运行的任务数量与权重（weight）之间的比值。
      // 如果taskToWeightRatio1小于taskToWeightRatio2，则优先调度s1；
      // 如果taskToWeightRatio2小于taskToWeightRatio1，则优先调度s2。
      // 如果taskToWeightRatio1和taskToWeightRatio2相等，还需要对s1和s2的名字进行比较。
      compare = taskToWeightRatio1.compareTo(taskToWeightRatio2)
    }
    if (compare < 0) {
      true
    } else if (compare > 0) {
      false
    } else {
      // 如果s1的名字小于s2的名字，则优先调度s1，否则优先调度s2。
      s1.name < s2.name
    }
  }
}

初始化

rootPool的初始化是在TaskSchedulerImpl中的initialize初始化中完成的，主要是以下步骤：

创建rootPool，传入参数，其中schedulingMode调度模式，是我们可以通过添加spark参数spark.scheduler.mode进行配置，默认为FIFO；
根据调度匹配，获得对应的schedulableBuilder，正如设计模式中建造者模式一样，schedulableBuilder的作用是创建好池塘后，池内是空的，需要建造者去创建池中的内容；
调用schedulableBuilder的buildPools方法。

def initialize(backend: SchedulerBackend) {
  this.backend = backend 
  // 创建根调度池
  rootPool = new Pool("", schedulingMode, 0, 0)
  // 根据调度模式，创建相应的调度池构建器，默认为FIFOSchedulableBuilder
  schedulableBuilder = {
    schedulingMode match {
      case SchedulingMode.FIFO =>
      new FIFOSchedulableBuilder(rootPool)
      case SchedulingMode.FAIR =>
      new FairSchedulableBuilder(rootPool, conf)
      case _ =>
      throw new IllegalArgumentException(s"Unsupported spark.scheduler.mode: $schedulingMode")
    }
  }
  // 构建调度池
  schedulableBuilder.buildPools()
}

调度器创建者

上面我们介绍了调度池，创建好池塘后，池内是空的，需要建造者去创建池中的“内容”，该部分是由schedulableBuilder来做的，它是一个Trait，定义了三个方法：

rootPool：获取根调度池；
buildPools：构建调度池；
addTaskSetManager：向调度池内添加TaskSetManager。

private[spark] trait SchedulableBuilder {
  // 返回根调度池
  def rootPool: Pool 
  // 对调度池进行构建
  def buildPools(): Unit 
  // 向调度池内添加TaskSetManager
  def addTaskSetManager(manager: Schedulable, properties: Properties): Unit
}

调度器创建者的初始化是在TaskSchedulerImpl中进行，根据不同的schedulingMode[可以通过参数spark.scheduler.mode来进行配置]进行调度器的选择，主要工作是将TaskSetManager添加到Pool中，源码如下：

// 调度模式。此属性依据schedulingModeConf获取枚举类型SchedulingMode的具体值。共有FAIR、FIFO、NONE三种枚举值。
val schedulingMode: SchedulingMode = try {
  // 由spark.scheduler.mode参数决定
  SchedulingMode.withName(schedulingModeConf.toUpperCase)
} catch {
  case e: java.util.NoSuchElementException =>
  throw new SparkException(s"Unrecognized spark.scheduler.mode: $schedulingModeConf")
}

def initialize(backend: SchedulerBackend) {
  this.backend = backend 
  // 创建根调度池
  rootPool = new Pool("", schedulingMode, 0, 0)
  // 根据调度模式，创建相应的调度池构建器，默认为FIFOSchedulableBuilder
  schedulableBuilder = {
    schedulingMode match {
      case SchedulingMode.FIFO =>
      new FIFOSchedulableBuilder(rootPool)
      case SchedulingMode.FAIR =>
      new FairSchedulableBuilder(rootPool, conf)
      case _ =>
      throw new IllegalArgumentException(s"Unsupported spark.scheduler.mode: $schedulingMode")
    }
  }
  // 构建调度池
  schedulableBuilder.buildPools()
}

FIFO调度器

Spark中默认的调度器是FIFO，即谁先提交谁先执行，

buildPools方法什么都不用做；
addTaskSetManager方法向rootPool中添加了TaskSetManager，会添加到rootPool维护的队列的尾部，获取则是从头部获取。

override def buildPools() {
  // nothing
}

override def addTaskSetManager(manager: Schedulable, properties: Properties) {
  // 直接向根调度池添加TaskSetManager
  rootPool.addSchedulable(manager)
}

所以我们可以看出来FIFO比较简单，结构可以如上图所示，但是想象这样子一种场景，用户A的作业很大，需要处理上T的数据，且SQL也非常复杂，而用户B的作业很简单，可能只是select查看前面几条数据而已。由于用户A,B都在同一个SparkSession里，所以其调度完全由Spark决定；如果按FIFO的原则，可能用户B要等好一会，才能从用户A的牙缝里扣出一点计算资源完成自己的这个作业，这样对用户B就不是那么友好了。

FAIR调度器

FAIR调度队列相比FIFO较复杂，支持在调度池中再进行分组，可以有不同的权重，根据权重、资源等来决定谁先执行。其可存在多个调度队列，且队列呈树型结构，现阶段Spark的Fair调度只支持两层树结构。每个队列中还可指定自己内部的调度策略，且Fair还存在一些特殊的属性：minShare：最少资源保证量，当一个队列最少资源未满足时，它将优先于其它同级队列获取资源。weight: 在一个队列内部分配资源时，默认情况下，采用公平轮询的方法将资源分配给各个应用程序，而该参数则将打破这种平衡。例如，如果用户配置一个指定调度池权重为2，那么这个调度池将会获得相对于权重为1的调度池2倍的资源。

构建池子

FairSchedulableBuilder读取用户指定的参数spark.scheduler.allocation.file对应的文件，如果没有指定该文件，则默认加载默认路径的配置文件：$SPARK_HOME/CONF/fairscheduler.xml。文件内容模板如下:

<allocations>
  <pool name="production">
    <schedulingMode>FAIRschedulingMode>
    <weight>1weight>
    <minShare>2minShare>
  pool>
  <pool name="test">
    <schedulingMode>FIFOschedulingMode>
    <weight>2weight>
    <minShare>3minShare>
  pool>
allocations>

可以看出来有以下几个变量，其中：

name调度池名字，可在程序中根据spark.scheduler.pool来指定使用某个调度池，未指定则使用名字为default的调度池；
schedulingMode调度模式，可以选择FIFO或者是FAIR；
weight权重[weight为2的分配到的资源为weight为1的两倍]，如果设置比较大，该调度池一有任务就会马上运行，默认为1;
minShare调度池所需最小资源数（cores），默认为0。

我们接下来来看下如何构建池子的：

首先读取上面说的公平调度的配置文件；
根据文件中的配置的每一项...，解析出name，schdulingMode，weight，minShare等属性构建相应的pool，加入到rootPool中；
最后构建defaultPool加入到rootPool中，用于无法获取指定的pool时候的池子。

// 构建公平调度池
override def buildPools() {
  var is: Option[InputStream] = None
  try {
    is = Option {
      schedulerAllocFile.map { f => // 从文件系统中读取公平调度配置的文件输入流
        new FileInputStream(f)
      }.getOrElse { // 或者获取fairscheduler.xml文件的输入流
        Utils.getSparkClassLoader.getResourceAsStream(DEFAULT_SCHEDULER_FILE)
      }
    }

    // 解析文件输入流并构建调度池
    is.foreach { i => buildFairSchedulerPool(i) }
  } finally {
    is.foreach(_.close())
  }

  // 构建默认的调度池
  buildDefaultPool()
}


// 默认的调度池名。常量DEFAULT_POOL_NAME的值固定为"default"。
val DEFAULT_POOL_NAME = "default"
// 默认的调度模式FIFO
val DEFAULT_SCHEDULING_MODE = SchedulingMode.FIFO
// 公平调度算法中Schedulable的minShare属性的默认值，固定为0。
val DEFAULT_MINIMUM_SHARE = 0
// 默认的权重，固定为1。
val DEFAULT_WEIGHT = 1
// 当根调度池及其子调度池中不存在名为default的调度池时，构建默认调度池
private def buildDefaultPool() {
  if (rootPool.getSchedulableByName(DEFAULT_POOL_NAME) == null) {
    // 创建默认调度池
    val pool = new Pool(DEFAULT_POOL_NAME, DEFAULT_SCHEDULING_MODE,  DEFAULT_MINIMUM_SHARE, DEFAULT_WEIGHT)
    // 向根调度池的调度队列中添加默认的子调度池
    rootPool.addSchedulable(pool)
  }
}

// 对文件输入流进行解析并构建调度池
private def buildFairSchedulerPool(is: InputStream) {
  // 将文件输入流转换为XML
  val xml = XML.load(is)
  // 读取XML的每一个节点
  for (poolNode <- (xml \\ POOLS_PROPERTY)) {
    // 读取的name属性作为调度池的名称
    val poolName = (poolNode \ POOL_NAME_PROPERTY).text
    var schedulingMode = DEFAULT_SCHEDULING_MODE
    var minShare = DEFAULT_MINIMUM_SHARE
    var weight = DEFAULT_WEIGHT

    val xmlSchedulingMode = (poolNode \ SCHEDULING_MODE_PROPERTY).text
    if (xmlSchedulingMode != "") {
      try {
        // 读取的子节点的值作为调度池的调度模式属性
        schedulingMode = SchedulingMode.withName(xmlSchedulingMode)
      } catch {
        case e: NoSuchElementException => ...
      }
    }

    // 读取的子节点的值作为调度池的minShare属性
    val xmlMinShare = (poolNode \ MINIMUM_SHARES_PROPERTY).text
    if (xmlMinShare != "") {
      minShare = xmlMinShare.toInt
    }

    // 读取的子节点的值作为调度池的权重（weight）属性
    val xmlWeight = (poolNode \ WEIGHT_PROPERTY).text
    if (xmlWeight != "") {
      weight = xmlWeight.toInt
    }

    // 创建子调度池
    val pool = new Pool(poolName, schedulingMode, minShare, weight)
    // 将创建的子调度池添加到根调度池的调度队列
    rootPool.addSchedulable(pool)
  }
}

构建完池子后，我们可以得到一个两级树结构的Pool，第一级rootPool负责的队列是各个指定的池子，而第二级池子中的队列中则是加入的任务集，这个是根据properties来指定的具体的加入哪个父Pool，如下所示:

加入任务集

添加一个TaskSetMagager的时候对于FAIR，会先根据任务集指定的properties信息，得到spark.scheduler.pool信息，获取相应名字的队列，如果没有则使用默认的队列，然后将任务集加入到相应的队列中去。

override def addTaskSetManager(manager: Schedulable, properties: Properties) {
  var poolName = DEFAULT_POOL_NAME
  // 以默认调度池作为TaskSetManager的父调度池
  var parentPool = rootPool.getSchedulableByName(poolName)
  // 判断默认调度池是否存在
  if (properties != null) { // 指定了配置信息
    // 以spark.scheduler.pool属性指定的调度池作为TaskSetManager的父调度池，如果没有指定则默认为"default"调度池
    poolName = properties.getProperty(FAIR_SCHEDULER_PROPERTIES, DEFAULT_POOL_NAME)
    // 获取poolName指定的父调度池
    parentPool = rootPool.getSchedulableByName(poolName)

    if (parentPool == null) { // 指定的父调度池不存在
      // 创建新的父调度池
      parentPool = new Pool(poolName, DEFAULT_SCHEDULING_MODE, DEFAULT_MINIMUM_SHARE, DEFAULT_WEIGHT)
      // 将父调度池添加到根调度池中
      rootPool.addSchedulable(parentPool)
    }
  }

  // 将TaskSetManager放入指定的父调度池
  parentPool.addSchedulable(manager)
}

资源管理&分配

上面我们讲了划分stage后，将一个stage的任务集加入到TaskSchedule中，当Spark申请来了资源时候，就可以进行任务的执行，会先通过上面讲到的调度器，选择合适调度策略下的任务集合，然后提交到Executor进行计算。

资源整理

整理所有可用资源

CoarseGrainedSchedulerBackend是TaskScheduler的内部变量，会在TaskSchduler启动时候也启动，CoarseGrainedSchedulerBackend内部会创建DriverEndPoint，负责Executor与Driver的通信，任务的提交进度更新等，在其onStart方法中存在一定时任务，每隔一定时间spark.scheduler.revive.interval[默认为1s]，进行一次调度，给自身发送ReviveOffers消息，进行调用makeOffers，查看是否有资源，然后进行资源分配给Task执行任务，代码如下所示：

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
// 将DriverEndpoint注册到RpcEnv的Dispatcher时，会触发对DriverEndpoint的onStart方法的调用
override def onStart() {
  // 定时任务的执行间隔时间，可通过spark.scheduler.revive.interval属性配置，默认为1s。
  val reviveIntervalMs = conf.getTimeAsMs("spark.scheduler.revive.interval", "1s")
  // 向reviveThread提交了一个向DriverEndpoint自己发送ReviveOffers消息的定时任务
  reviveThread.scheduleAtFixedRate(new Runnable {
    override def run(): Unit = Utils.tryLogNonFatalError {
      // 向自己发送ReviveOffers消息
      Option(self).foreach(_.send(ReviveOffers))
    }
  }, 0, reviveIntervalMs, TimeUnit.MILLISECONDS)
}

接收到ReviveOffers消息后，进行资源整理，然后分配资源：

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
// 接收消息并处理
override def receive: PartialFunction[Any, Unit] = {
  // 启动时DriverEndpoint会向自己发送ReviveOffers消息
  case ReviveOffers => // 调用makeOffers()方法
  makeOffers()
}

makeOffers的主要工作是找到目前活跃的所有executor，然后将executor配置成WorkerOffer包含executor的信息，然后启动任务：

private def makeOffers() {
  // 过滤出激活的Executor
  val activeExecutors = executorDataMap.filterKeys(executorIsAlive)
  // 根据每个激活的Executor的配置，创建WorkerOffer
  val workOffers = activeExecutors.map { case (id, executorData) =>
    new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
  }.toIndexedSeq
  // 调用TaskSchedulerImpl的resourceOffers()方法给Task分配资源，调用launchTasks()方法运行Task。
  launchTasks(scheduler.resourceOffers(workOffers))
}

整理单个Executor可用资源

当Executor执行完成已分配任务时，此时改Executor有可用的空闲core，它会向Driver发送StatusUpdate消息，Driver接收到消息后会调用makeOffers(executorId)方法，为该Executor调度任务执行。

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
// 接收消息并处理
override def receive: PartialFunction[Any, Unit] = { 
	// Task在运行的过程中，会向DriverEndpoint发送StatusUpdate消息，
  // 让Driver知道Task的当前状态，从而执行更新度量、将Task释放的资源分配给其他Task等操作。
  case StatusUpdate(executorId, taskId, state, data) =>
  // 调用TaskSchedulerImpl的statusUpdate方法更新Task的状态
  scheduler.statusUpdate(taskId, state, data.value)
  if (TaskState.isFinished(state)) { // Task的状态为已完成
    executorDataMap.get(executorId) match {
      case Some(executorInfo) =>
      // 将Task释放的内核数增加到对应Executor的空闲内核数
      executorInfo.freeCores += scheduler.CPUS_PER_TASK
      // 给下一个要调度的Task分配资源并运行Task
      makeOffers(executorId)
      case None => // 对于未知的Executor，DriverEndpoint选择忽略]
    }
  }
}

private def makeOffers(executorId: String) {
  // 先判断Executor是否是激活的
  if (executorIsAlive(executorId)) {
    // 获取对应的ExecutorData对象
    val executorData = executorDataMap(executorId)
    // 创建WorkerOffer样例类对象
    val workOffers = IndexedSeq(
      new WorkerOffer(executorId, executorData.executorHost, executorData.freeCores))
    // 分配资源并运行Task
    launchTasks(scheduler.resourceOffers(workOffers))
  }
}

加入任务集时候申请资源

当TaskSchedulerImpl提交任务后，会调用CoarseGrainedSchedulerBackend的reviveOffers来进行申请资源，主要是发送ReviveOffers给DriverEndPoint，跟DriverEndPoint的定时任务是一样的逻辑，这属于任务自身发出来的资源请求。

// org.apache.spark.scheduler.TaskSchedulerImpl
override def submitTasks(taskSet: TaskSet) {
  ....
  // 给Task分配资源并运行Task
  backend.reviveOffers()
}

// org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend
override def reviveOffers() {
  // 向DriverEndpoint发送ReviveOffers消息
  driverEndpoint.send(ReviveOffers)
}

资源分配

资源整理完，就会进行分配资源给Task，来触发任务提交执行，首先会调用TaskSchedulerImpl的resourceOffers方法，方法中会依照调度策略选出要执行的TaskSetManager，然后TaskSetManager内部根据基于本地性的延迟调度策略取出适合的Task交由Executor执行，我们来看下具体是如何执行的。

resourceOffers

resourceOffers方法负责进行资源分配，步骤如下:

遍历所有可用的资源WorkerOffer，更新记录以下几个映射关系:host与executor的映射关系；标记添加了新的executor；更新host与机架之间的关系；
对可用的executors进行shuffle分散，避免将task放在同一个worker上，进行负载均衡；
根据每个WorkerOffer的可用的cpu核数创建同等尺寸的TaskDescription数组，所以可以看出来每个CPU Core只供给一个Task使用；
将每个WorkerOffer的可用的cpu核数统计到availableCpus数组中；
按照调度算法排序，从调度池中获取排序的taskSetManager列表；
遍历TaskSetManager，从最快的本地化级别开始，调用resourceOfferSingleTaskSet方法，给每个TaskSetManager中Task进行分配资源；
如果在所有TaskSet所允许的本地级别下，TaskSet中没有任何一个Task成功启动，调用TaskSetManager的abortIfCompletelyBlacklisted方法，将其添加到黑名单，放弃该Task；
返回已经获得资源的task列表；

// org.apache.spark.scheduler.TaskSchedulerImpl
// 用于给Task分配资源 
def resourceOffers(offers: IndexedSeq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {  
  var newExecAvail = false
  // 遍历WorkerOffer序列，资源添加到记录中:hostToExecutors,hostsByRack
  for (o <- offers) {  
    if (!hostToExecutors.contains(o.host)) {  // 先将资源中的主机记录更新到hostToExecutors字典中
      hostToExecutors(o.host) = new HashSet[String]()
    }
    // 更新Host与Executor的各种映射关系
    if (!executorIdToRunningTaskIds.contains(o.executorId)) { // 说明Executor是新添加的
      hostToExecutors(o.host) += o.executorId
      // 向DAGScheduler的DAGSchedulerEventProcessLoop投递ExecutorAdded事件,告知有新的Executor添加了 
      executorAdded(o.executorId, o.host)
      executorIdToHost(o.executorId) = o.host
      executorIdToRunningTaskIds(o.executorId) = HashSet[Long]()
      newExecAvail = true // 标记添加了新的Executor，加入了新的Executor，则可以对数据来源进行调整利用本地性优势
    }
    for (rack <- getRackForHost(o.host)) {  // 更新Host与机架之间的关系
      hostsByRack.getOrElseUpdate(rack, new HashSet[String]()) += o.host
    }
  }

  // 随机洗牌，避免将任务总是分配给同样一组Worker
  val shuffledOffers = Random.shuffle(offers) 
  // 根据每个WorkerOffer的可用的CPU核数创建同等尺寸的TaskDescription数组,
  // 从这里可以看出，每个CPU Core只供给一个Task使用
  val tasks = shuffledOffers.map(o => new ArrayBuffer[TaskDescription](o.cores))
  // 统计每个Worker的可用的CPU核数
  val availableCpus = shuffledOffers.map(o => o.cores).toArray
  
  // 对rootPool中所有TaskSetManager按照调度算法排序  ArrayBuffer[TaskSetManager]
  val sortedTaskSets = rootPool.getSortedTaskSetQueue

  // 遍历所有的TaskSetManager，如果有新的Executor添加就告诉它们，它们会重新计算支持的本地性级别。
  for (taskSet <- sortedTaskSets) { 
    if (newExecAvail) { // 通知有新的Executor添加了，以触发TaskSetManager重新计算TaskSet的本地性
      taskSet.executorAdded()
    }
  }

  // 遍历TaskSetManager，在单个TaskSetManager中，按照最大本地性的原则（即从高本地性级别到低本地性级别）
  // 调用resourceOfferSingleTaskSet()方法，给单个TaskSet中的Task提供资源
  for (taskSet <- sortedTaskSets) { // 循环根据调度算法排好序的待执行Task
    var launchedAnyTask = false
    var launchedTaskAtCurrentMaxLocality = false
    // 对单个TaskSetManager，遍历它所支持的的本地化级别，按照最大本地性的原则，给Task提供资源
    for (currentMaxLocality <- taskSet.myLocalityLevels) {
      do {
        // 调用resourceOfferSingleTaskSet()方法为单个TaskSetManager分配资源，
        // 最终分配到资源的Task对应的TaskDescription会被放入到tasks数组中， 返回值表示是否有Task被分配了资源
        launchedTaskAtCurrentMaxLocality = resourceOfferSingleTaskSet(
          	taskSet, currentMaxLocality, shuffledOffers, availableCpus, tasks)
        launchedAnyTask |= launchedTaskAtCurrentMaxLocality
      } while (launchedTaskAtCurrentMaxLocality)
    }
    // 如果在任何TaskSet所允许的本地性级别下，TaskSet中没有任何一个任务获得了资源
    if (!launchedAnyTask) {
      // 调用TaskSetManager的abortIfCompletelyBlacklisted方法，放弃在黑名单中的Task。
      taskSet.abortIfCompletelyBlacklisted(hostToExecutors)
    }
  }

  if (tasks.size > 0) {
    hasLaunchedTask = true
  }
  // 返回已经获得了资源的TaskDescription列表
  return tasks
}

resourceOfferSingleTaskSet

resourceOfferSingleTaskSet是针对某个TaskSetManager在maxLocality的限制条件下，选取可以在空闲资源上面启动的任务，具体实现：

遍历WorkerOffer，如果当前executor的cpu数大于每个task所使用的cpu数量，则可以选择在该executor上启动task；
然后调用TaskSetManager的resourceOffer方法，在当前executor上，使用这次本地化级别，查看那些task可用启动；
最后遍历完所有资源，返回满足任务本地性要求下的可以在空闲资源上启动的任务集合。

private def resourceOfferSingleTaskSet(taskSet: TaskSetManager, maxLocality: TaskLocality, 
                                       shuffledOffers: Seq[WorkerOffer],
                                       availableCpus: Array[Int],
                                       tasks:IndexedSeq[ArrayBuffer[TaskDescription]]) : Boolean = {
  var launchedTask = false
  // 将遍历WorkerOffer序列，每个WorkerOffer表示一个可供调度的Executor
  for (i <- 0 until shuffledOffers.size) {
    // 获取WorkerOffer的Executor的身份标识
    val execId = shuffledOffers(i).executorId
    // 获取WorkerOffer的Host
    val host = shuffledOffers(i).host

    // WorkerOffer的可用的CPU核数大于等于CPUS_PER_TASK才可以继续分配，
    // CPUS_PER_TASK由spark.task.cpus参数配置，默认为1。
    if (availableCpus(i) >= CPUS_PER_TASK) {
      try {
        // 给符合条件的待处理Task创建TaskDescription
        for (task <- taskSet.resourceOffer(execId, host, maxLocality)) {
          tasks(i) += task  // 将TaskDescription添加到tasks数组
          // 更新Task的身份标识与TaskSet、Executor的身份标识相关的缓存映
          val tid = task.taskId
          taskIdToTaskSetManager(tid) = taskSet
          taskIdToExecutorId(tid) = execId
          executorIdToRunningTaskIds(execId).add(tid)
          // 由于给Task分配了CPUS_PER_TASK指定数量的CPU内核数，因此WorkerOffer的可用的CPU核数减去CPUS_PER_TASK
          availableCpus(i) -= CPUS_PER_TASK
          // 防止CPU Core超额分配
          assert(availableCpus(i) >= 0)
          launchedTask = true
        }
      } catch {
        case e: TaskNotSerializableException =>
        return launchedTask
      }
    }
  }
  // 返回launchedTask，即是否已经给TaskSet中的某个Task分配到了资源
  return launchedTask
}

lauchTasks

通过上述资源分配可以获取到各个资源上能运行的任务，然后调用launchTasks执行真正的任务启动工作，步骤如下:

对于每个可以运行的任务，先进性序列化，如果序列化大小过大，放弃对TaskSetManager的调度；
序列化大小满足系统要求，则获取任务需要运行的executor的信息，然后对其freeCores进行删减，然后向相应的CoarseGrainedExecutorBackend发送LaunchTask消息，等到相应Executor接到消息后就可以进行启动Task。

// 运行Task
private def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
  for (task <- tasks.flatten) {
    val serializedTask = ser.serialize(task)  // 对TaskDescription进行序列化
    if (serializedTask.limit >= maxRpcMessageSize) { // 序列化后的大小超出了Rpc消息的限制
      // 从TaskSchedulerImpl的taskIdToTaskSetManager中找出Task对应的TaskSetManager
      scheduler.taskIdToTaskSetManager.get(task.taskId).foreach { taskSetMgr =>
        try {
          var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
          "spark.rpc.message.maxSize (%d bytes). Consider increasing " +
          "spark.rpc.message.maxSize or using broadcast variables for large values."
          msg = msg.format(task.taskId, task.index, serializedTask.limit, maxRpcMessageSize)
          // 放弃对TaskSetManager的调度
          taskSetMgr.abort(msg)
        } catch {
          case e: Exception => logError("Exception in error callback", e)
        }
      }
    } else { // 序列化后的TaskDescription的大小小于RPC消息大小的最大值maxRpcMessageSize
      val executorData = executorDataMap(task.executorId)
      // 减少Executor的空闲内核数freeCores
      executorData.freeCores -= scheduler.CPUS_PER_TASK 
      
      // 向CoarseGrainedExecutorBackend发送LaunchTask消息。
      // CoarseGrainedExecutorBackend将在收到LaunchTask消息后运行Task。
      executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
    }
  }
}

总结

最后我们来总结下一个Stage任务集提交到分配到资源的整个过程：

构建任务集: DAGScheduler中在stage提交时候会对任务集进行构建，获取偏好位置等信息，然后提交给TaskSchedulerImpl；
任务调度：任务调度分为两个层次，同一时间中不同stage的调度顺序，同一TaskSet中不同任务的调度顺序
1. 不同stage的调度是通过FIFO或者FAIR的调度方式进行调度排序；
2. 同一TaskSet中的任务则是通过基于任务本地性的延迟调度策略进行调度，这个后面TaskSetManager中会详细讲解。
资源整理分配：资源分配分为三种不同的整理分配方式
1. DriverEndPoint内部会有一个定时任务，定时进行资源整理分配给任务集合执行；
2. TaskSchduler加入任务后，由于想要让其快速执行，会通过SchduleBackend主动向DriverEndPoint发送消息，进行资源请求；
3. 当某个Task任务结束时候，改executor有资源剩余，可以主动进行单个executor资源整理与分配。

好了，本节就到这里，下一节我们看下后续任务是如何执行以及结果回传处理的。

参考

https://blog.csdn.net/dabokele/article/details/51526048
https://www.cnblogs.com/itboys/p/11114457.html
http://www.louisvv.com/archives/1836.html
https://cloud.tencent.com/developer/article/1198471
https://ieevee.com/tech/2016/07/11/spark-scheduler.html

你可能感兴趣的:(Spark,大数据,spark)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
oracle 数据库迁移expdp，impdp（数据泵导出导入）方法小张是铁粉 oracle 数据库
一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
【大数据】FP-growth算法大雨淅淅大数据算法人工智能大数据
目录一、FP-growth算法概述二、FP-growth算法代码实现2.1FP-growth算法matlab实现2.2FP-growth算法python实现三、FP-growth算法应用四、FP-growth算法发展趋势一、FP-growth算法概述FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由JiaweiHan等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen