hao707822882

Spark源码分析之-scheduler模块

Background

Spark在资源管理和调度方式上采用了类似于Hadoop YARN的方式，最上层是资源调度器，它负责分配资源和调度注册到Spark中的所有应用，Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部，Spark又实现了任务调度器，负责任务的调度和协调，类似于MapReduce。本质上，外层的资源调度和内层的任务调度相互独立，各司其职。本文对于Spark的源码分析主要集中在内层的任务调度器上，分析Spark任务调度器的实现。

Scheduler模块整体架构

scheduler模块主要分为两大部分：

TaskSchedulerListener。TaskSchedulerListener部分的主要功能是监听用户提交的job，将job分解为不同的类型的stage以及相应的task，并向TaskScheduler提交task。
TaskScheduler。TaskScheduler接收用户提交的task并执行。而TaskScheduler根据部署的不同又分为三个子模块:
- ClusterScheduler
- LocalScheduler
- MesosScheduler

TaskSchedulerListener

Spark抽象了TaskSchedulerListener并在其上实现了DAGScheduler。DAGScheduler的主要功能是接收用户提交的job，将job根据类型划分为不同的stage，并在每一个stage内产生一系列的task，向TaskScheduler提交task。下面我们首先来看一下TaskSchedulerListener部分的类图：

用户所提交的job在得到DAGScheduler的调度后，会被包装成ActiveJob，同时会启动JobWaiter阻塞监听job的完成状况。
于此同时依据job中RDD的dependency和dependency属性(NarrowDependency，ShufflerDependecy)，DAGScheduler会根据依赖关系的先后产生出不同的stage DAG(result stage, shuffle map stage)。
在每一个stage内部，根据stage产生出相应的task，包括ResultTask或是ShuffleMapTask，这些task会根据RDD中partition的数量和分布，产生出一组相应的task，并将其包装为TaskSet提交到TaskScheduler上去。

RDD的依赖关系和Stage的分类

在Spark中，每一个RDD是对于数据集在某一状态下的表现形式，而这个状态有可能是从前一状态转换而来的，因此换句话说这一个RDD有可能与之前的RDD(s)有依赖关系。根据依赖关系的不同，可以将RDD分成两种不同的类型：Narrow Dependency和Wide Dependency。

Narrow Dependency指的是 child RDD只依赖于parent RDD(s)固定数量的partition。

Wide Dependency指的是child RDD的每一个partition都依赖于parent RDD(s)所有partition。

它们之间的区别可参看下图：

根据RDD依赖关系的不同，Spark也将每一个job分为不同的stage，而stage之间的依赖关系则形成了DAG。对于Narrow Dependency，Spark会尽量多地将RDD转换放在同一个stage中；而对于Wide Dependency，由于Wide Dependency通常意味着shuffle操作，因此Spark会将此stage定义为ShuffleMapStage，以便于向MapOutputTracker注册shuffle操作。对于stage的划分可参看下图，Spark通常将shuffle操作定义为stage的边界。

DAGScheduler

在用户创建SparkContext对象时，Spark会在内部创建DAGScheduler对象，并根据用户的部署情况，绑定不同的TaskSechduler，并启动DAGcheduler

private var taskScheduler: TaskScheduler = { //... } taskScheduler.start() private var dagScheduler = new DAGScheduler(taskScheduler) dagScheduler.start()

而DAGScheduler的启动会在内部创建daemon线程，daemon线程调用run()从block queue中取出event进行处理。

private def run() { SparkEnv.set(env) while (true) { val event = eventQueue.poll(POLL_TIMEOUT, TimeUnit.MILLISECONDS) if (event != null) { logDebug("Got event of type " + event.getClass.getName) } if (event != null) { if (processEvent(event)) { return } } val time = System.currentTimeMillis() // TODO: use a pluggable clock for testability if (failed.size > 0 && time > lastFetchFailureTime + RESUBMIT_TIMEOUT) { resubmitFailedStages() } else { submitWaitingStages() } } }

而run()会调用processEvent来处理不同的event。

DAGScheduler处理的event包括：

JobSubmitted
CompletionEvent
ExecutorLost
TaskFailed
StopDAGScheduler

根据event的不同调用不同的方法去处理。

本质上DAGScheduler是一个生产者-消费者模型，用户和TaskSchduler产生event将其放入block queue，daemon线程消费event并处理相应事件。

Job的生与死

既然用户提交的job最终会交由DAGScheduler去处理，那么我们就来研究一下DAGScheduler处理job的整个流程。在这里我们分析两种不同类型的job的处理流程。

没有shuffle和reduce的job

val textFile = sc.textFile("README.md") textFile.filter(line => line.contains("Spark")).count()

有shuffle和reduce的job

val textFile = sc.textFile("README.md") textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

首先在对RDD的count()和reduceByKey()操作都会调用SparkContext的runJob()来提交job，而SparkContext的runJob()最终会调用DAGScheduler的runJob()：

def runJob[T, U: ClassManifest]( finalRdd: RDD[T], func: (TaskContext, Iterator[T]) => U, partitions: Seq[Int], callSite: String, allowLocal: Boolean, resultHandler: (Int, U) => Unit) { if (partitions.size == 0) { return } val (toSubmit, waiter) = prepareJob( finalRdd, func, partitions, callSite, allowLocal, resultHandler) eventQueue.put(toSubmit) waiter.awaitResult() match { case JobSucceeded => {} case JobFailed(exception: Exception) => logInfo("Failed to run " + callSite) throw exception } }

runJob()会调用prepareJob()对job进行预处理，封装成JobSubmitted事件，放入queue中，并阻塞等待job完成。

当daemon线程的processEvent()从queue中取出JobSubmitted事件后，会根据job划分出不同的stage，并且提交stage：

case JobSubmitted(finalRDD, func, partitions, allowLocal, callSite, listener) => val runId = nextRunId.getAndIncrement() val finalStage = newStage(finalRDD, None, runId) val job = new ActiveJob(runId, finalStage, func, partitions, callSite, listener) clearCacheLocs() if (allowLocal && finalStage.parents.size == 0 && partitions.length == 1) { runLocally(job) } else { activeJobs += job resultStageToJob(finalStage) = job submitStage(finalStage) }

首先，对于任何的job都会产生出一个finalStage来产生和提交task。其次对于某些简单的job，它没有依赖关系，并且只有一个partition，这样的job会使用local thread处理而并非提交到TaskScheduler上处理。

接下来产生finalStage后，需要调用submitStage()，它根据stage之间的依赖关系得出stage DAG，并以依赖关系进行处理：

private def submitStage(stage: Stage) { if (!waiting(stage) && !running(stage) && !failed(stage)) { val missing = getMissingParentStages(stage).sortBy(_.id) if (missing == Nil) { submitMissingTasks(stage) running += stage } else { for (parent <- missing) { submitStage(parent) } waiting += stage } } }

对于新提交的job，finalStage的parent stage还未获得，因此submitStage会调用getMissingParentStages()来获得依赖关系：

private def getMissingParentStages(stage: Stage): List[Stage] = { val missing = new HashSet[Stage] val visited = new HashSet[RDD[_]] def visit(rdd: RDD[_]) { if (!visited(rdd)) { visited += rdd if (getCacheLocs(rdd).contains(Nil)) { for (dep <- rdd.dependencies) { dep match { case shufDep: ShuffleDependency[_,_] => val mapStage = getShuffleMapStage(shufDep, stage.priority) if (!mapStage.isAvailable) { missing += mapStage } case narrowDep: NarrowDependency[_] => visit(narrowDep.rdd) } } } } } visit(stage.rdd) missing.toList }

这里parent stage是通过RDD的依赖关系递归遍历获得。对于Wide Dependecy也就是Shuffle Dependecy，Spark会产生新的mapStage作为finalStage的parent，而对于Narrow Dependecy Spark则不会产生新的stage。这里对stage的划分是按照上面提到的作为划分依据的，因此对于本段开头提到的两种job，第一种job只会产生一个finalStage，而第二种job会产生finalStage和mapStage。

当stage DAG产生以后，针对每个stage需要产生task去执行，故在这会调用submitMissingTasks()：

private def submitMissingTasks(stage: Stage) { val myPending = pendingTasks.getOrElseUpdate(stage, new HashSet) myPending.clear() var tasks = ArrayBuffer[Task[_]]() if (stage.isShuffleMap) { for (p <- 0 until stage.numPartitions if stage.outputLocs(p) == Nil) { val locs = getPreferredLocs(stage.rdd, p) tasks += new ShuffleMapTask(stage.id, stage.rdd, stage.shuffleDep.get, p, locs) } } else { val job = resultStageToJob(stage) for (id <- 0 until job.numPartitions if (!job.finished(id))) { val partition = job.partitions(id) val locs = getPreferredLocs(stage.rdd, partition) tasks += new ResultTask(stage.id, stage.rdd, job.func, partition, locs, id) } } if (tasks.size > 0) { myPending ++= tasks taskSched.submitTasks( new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.priority)) if (!stage.submissionTime.isDefined) { stage.submissionTime = Some(System.currentTimeMillis()) } } else { running -= stage } }

首先根据stage所依赖的RDD的partition的分布，会产生出与partition数量相等的task，这些task根据partition的locality进行分布；其次对于finalStage或是mapStage会产生不同的task；最后所有的task会封装到TaskSet内提交到TaskScheduler去执行。

至此job在DAGScheduler内的启动过程全部完成，交由TaskScheduler执行task，当task执行完后会将结果返回给DAGScheduler，DAGScheduler调用handleTaskComplete()处理task返回:

private def handleTaskCompletion(event: CompletionEvent) { val task = event.task val stage = idToStage(task.stageId) def markStageAsFinished(stage: Stage) = { val serviceTime = stage.submissionTime match { case Some(t) => "%.03f".format((System.currentTimeMillis() - t) / 1000.0) case _ => "Unkown" } logInfo("%s (%s) finished in %s s".format(stage, stage.origin, serviceTime)) running -= stage } event.reason match { case Success => ... task match { case rt: ResultTask[_, _] => ... case smt: ShuffleMapTask => ... } case Resubmitted => ... case FetchFailed(bmAddress, shuffleId, mapId, reduceId) => ... case other => abortStage(idToStage(task.stageId), task + " failed: " + other) } }

每个执行完成的task都会将结果返回给DAGScheduler，DAGScheduler根据返回结果来进行进一步的动作。

RDD的计算

RDD的计算是在task中完成的。我们之前提到task分为ResultTask和ShuffleMapTask，我们分别来看一下这两种task具体的执行过程。

ResultTask

 override def run(attemptId: Long): U = { val context = new TaskContext(stageId, partition, attemptId) try { func(context, rdd.iterator(split, context)) } finally { context.executeOnCompleteCallbacks() } }

ShuffleMapTask

 override def run(attemptId: Long): MapStatus = { val numOutputSplits = dep.partitioner.numPartitions val taskContext = new TaskContext(stageId, partition, attemptId) try { val buckets = Array.fill(numOutputSplits)(new ArrayBuffer[(Any, Any)]) for (elem <- rdd.iterator(split, taskContext)) { val pair = elem.asInstanceOf[(Any, Any)] val bucketId = dep.partitioner.getPartition(pair._1) buckets(bucketId) += pair } val compressedSizes = new Array[Byte](numOutputSplits) val blockManager = SparkEnv.get.blockManager for (i <- 0 until numOutputSplits) { val blockId = "shuffle_" + dep.shuffleId + "_" + partition + "_" + i val iter: Iterator[(Any, Any)] = buckets(i).iterator val size = blockManager.put(blockId, iter, StorageLevel.DISK_ONLY, false) compressedSizes(i) = MapOutputTracker.compressSize(size) } return new MapStatus(blockManager.blockManagerId, compressedSizes) } finally { taskContext.executeOnCompleteCallbacks() } }

ResultTask和ShuffleMapTask都会调用RDD的iterator()来计算和转换RDD，不同的是：ResultTask转换完RDD后调用func()计算结果；而ShufflerMapTask则将其放入blockManager中用来shuffle。

RDD的计算调用iterator()，iterator()在内部调用compute()从RDD依赖关系的根开始计算：

final def iterator(split: Partition, context: TaskContext): Iterator[T] = { if (storageLevel != StorageLevel.NONE) { SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel) } else { computeOrReadCheckpoint(split, context) } } private[spark] def computeOrReadCheckpoint(split: Partition, context: TaskContext): Iterator[T] = { if (isCheckpointed) { firstParent[T].iterator(split, context) } else { compute(split, context) } }

至此大致分析了TaskSchedulerListener，包括DAGScheduler内部的结构，job生命周期内的活动，RDD是何时何地计算的。接下来我们分析一下task在TaskScheduler内干了什么。

TaskScheduler

前面也提到了Spark实现了三种不同的TaskScheduler，包括LocalSheduler、ClusterScheduler和MesosScheduler。LocalSheduler是一个在本地执行的线程池，DAGScheduler提交的所有task会在线程池中被执行，并将结果返回给DAGScheduler。MesosScheduler依赖于Mesos进行调度，笔者对Mesos了解甚少，因此不做分析。故此章节主要分析ClusterScheduler模块。

ClusterScheduler模块与deploy模块和executor模块耦合较为紧密，因此在分析ClUsterScheduler时也会顺带介绍deploy和executor模块。

首先我们来看一下ClusterScheduler的类图：

ClusterScheduler的启动会伴随SparkDeploySchedulerBackend的启动，而backend会将自己分为两个角色：首先是driver，driver是一个local运行的actor，负责与remote的executor进行通行，提交任务，控制executor；其次是StandaloneExecutorBackend，Spark会在每一个slave node上启动一个StandaloneExecutorBackend进程，负责执行任务，返回执行结果。

ClusterScheduler的启动

在SparkContext实例化的过程中，ClusterScheduler被随之实例化，同时赋予其SparkDeploySchedulerBackend：

 master match { ... case SPARK_REGEX(sparkUrl) => val scheduler = new ClusterScheduler(this) val backend = new SparkDeploySchedulerBackend(scheduler, this, sparkUrl, appName) scheduler.initialize(backend) scheduler case LOCAL_CLUSTER_REGEX(numSlaves, coresPerSlave, memoryPerSlave) => ... case _ => ... } } taskScheduler.start()

ClusterScheduler的启动会启动SparkDeploySchedulerBackend，同时启动daemon进程来检查speculative task：

override def start() { backend.start() if (System.getProperty("spark.speculation", "false") == "true") { new Thread("ClusterScheduler speculation check") { setDaemon(true) override def run() { while (true) { try { Thread.sleep(SPECULATION_INTERVAL) } catch { case e: InterruptedException => {} } checkSpeculatableTasks() } } }.start() } }

SparkDeploySchedulerBacked的启动首先会调用父类的start()，接着它会启动client，并由client连接到master向每一个node的worker发送请求启动StandaloneExecutorBackend。这里的client、master、worker涉及到了deploy模块，暂时不做具体介绍。而StandaloneExecutorBackend则涉及到了executor模块，它主要的功能是在每一个node创建task可以运行的环境，并让task在其环境中运行。

override def start() { super.start() val driverUrl = "akka://spark@%s:%s/user/%s".format( System.getProperty("spark.driver.host"), System.getProperty("spark.driver.port"), StandaloneSchedulerBackend.ACTOR_NAME) val args = Seq(driverUrl, "", "", "") val command = Command("spark.executor.StandaloneExecutorBackend", args, sc.executorEnvs) val sparkHome = sc.getSparkHome().getOrElse( throw new IllegalArgumentException("must supply spark home for spark standalone")) val appDesc = new ApplicationDescription(appName, maxCores, executorMemory, command, sparkHome) client = new Client(sc.env.actorSystem, master, appDesc, this) client.start() }

在StandaloneSchedulerBackend中会创建DriverActor，它就是local的driver，以actor的方式与remote的executor进行通信。

override def start() { val properties = new ArrayBuffer[(String, String)] val iterator = System.getProperties.entrySet.iterator while (iterator.hasNext) { val entry = iterator.next val (key, value) = (entry.getKey.toString, entry.getValue.toString) if (key.startsWith("spark.")) { properties += ((key, value)) } } driverActor = actorSystem.actorOf( Props(new DriverActor(properties)), name = StandaloneSchedulerBackend.ACTOR_NAME) }

在client实例化之前，会将StandaloneExecutorBackend的启动环境作为参数传递给client，而client启动时会将此提交给master，由master分发给所有node上的worker，worker会配置环境并创建进程启动StandaloneExecutorBackend。

至此ClusterScheduler的启动，local driver的创建，remote executor环境的启动所有过程都已结束，ClusterScheduler等待DAGScheduler提交任务。

ClusterScheduler提交任务

DAGScheduler会调用ClusterScheduler提交任务，任务会被包装成TaskSetManager并等待调度：

override def submitTasks(taskSet: TaskSet) { val tasks = taskSet.tasks logInfo("Adding task set " + taskSet.id + " with " + tasks.length + " tasks") this.synchronized { val manager = new TaskSetManager(this, taskSet) activeTaskSets(taskSet.id) = manager activeTaskSetsQueue += manager taskSetTaskIds(taskSet.id) = new HashSet[Long]() if (hasReceivedTask == false) { starvationTimer.scheduleAtFixedRate(new TimerTask() { override def run() { if (!hasLaunchedTask) { logWarning("Initial job has not accepted any resources; " + "check your cluster UI to ensure that workers are registered") } else { this.cancel() } } }, STARVATION_TIMEOUT, STARVATION_TIMEOUT) } hasReceivedTask = true; } backend.reviveOffers() }

在任务提交的同时会启动定时器，如果任务还未被执行，定时器持续发出警告直到任务被执行。同时会调用StandaloneSchedulerBackend的reviveOffers()，而它则会通过actor向driver发送ReviveOffers，driver收到ReviveOffers后调用makeOffers()：

// Make fake resource offers on just one executor def makeOffers(executorId: String) { launchTasks(scheduler.resourceOffers( Seq(new WorkerOffer(executorId, executorHost(executorId), freeCores(executorId))))) } // Launch tasks returned by a set of resource offers def launchTasks(tasks: Seq[Seq[TaskDescription]]) { for (task <- tasks.flatten) { freeCores(task.executorId) -= 1 executorActor(task.executorId) ! LaunchTask(task) } }

makeOffers()会向ClusterScheduler申请资源，并向executor提交LauchTask请求。

接下来LaunchTask会进入executor模块，StandaloneExecutorBackend在收到LaunchTask请求后会调用Executor执行task:

override def receive = { case RegisteredExecutor(sparkProperties) => ... case RegisterExecutorFailed(message) => ... case LaunchTask(taskDesc) => logInfo("Got assigned task " + taskDesc.taskId) executor.launchTask(this, taskDesc.taskId, taskDesc.serializedTask) case Terminated(_) | RemoteClientDisconnected(_, _) | RemoteClientShutdown(_, _) => ... } def launchTask(context: ExecutorBackend, taskId: Long, serializedTask: ByteBuffer) { threadPool.execute(new TaskRunner(context, taskId, serializedTask)) }

Executor内部是一个线程池，每一个提交的task都会包装为TaskRunner交由threadpool执行：

class TaskRunner(context: ExecutorBackend, taskId: Long, serializedTask: ByteBuffer) extends Runnable { override def run() { SparkEnv.set(env) Thread.currentThread.setContextClassLoader(urlClassLoader) val ser = SparkEnv.get.closureSerializer.newInstance() logInfo("Running task ID " + taskId) context.statusUpdate(taskId, TaskState.RUNNING, EMPTY_BYTE_BUFFER) try { SparkEnv.set(env) Accumulators.clear() val (taskFiles, taskJars, taskBytes) = Task.deserializeWithDependencies(serializedTask) updateDependencies(taskFiles, taskJars) val task = ser.deserialize[Task[Any]](taskBytes, Thread.currentThread.getContextClassLoader) logInfo("Its generation is " + task.generation) env.mapOutputTracker.updateGeneration(task.generation) val value = task.run(taskId.toInt) val accumUpdates = Accumulators.values val result = new TaskResult(value, accumUpdates) val serializedResult = ser.serialize(result) logInfo("Serialized size of result for " + taskId + " is " + serializedResult.limit) context.statusUpdate(taskId, TaskState.FINISHED, serializedResult) logInfo("Finished task ID " + taskId) } catch { case ffe: FetchFailedException => { val reason = ffe.toTaskEndReason context.statusUpdate(taskId, TaskState.FAILED, ser.serialize(reason)) } case t: Throwable => { val reason = ExceptionFailure(t) context.statusUpdate(taskId, TaskState.FAILED, ser.serialize(reason)) // TODO: Should we exit the whole executor here? On the one hand, the failed task may // have left some weird state around depending on when the exception was thrown, but on // the other hand, maybe we could detect that when future tasks fail and exit then. logError("Exception in task ID " + taskId, t) //System.exit(1) } } } }

其中task.run()则真正执行了task中的任务，如前RDD的计算章节所述。返回值被包装成TaskResult返回。

至此task在ClusterScheduler内运行的流程有了一个大致的介绍，当然这里略掉了许多异常处理的分支，但这不影响我们对主线的了解。

END

至此对Spark的Scheduler模块的主线做了一个顺藤摸瓜式的介绍，Scheduler模块作为Spark最核心的模块之一，充分体现了Spark与MapReduce的不同之处，体现了Spark DAG思想的精巧和设计的优雅。

当然Spark的代码仍然在积极开发之中，当前的源码分析在过不久后可能会变得没有意义，但重要的是体会Spark区别于MapReduce的设计理念，以及DAG思想的应用。DAG作为对MapReduce框架的改进越来越受到大数据界的重视，hortonworks也提出了类似DAG的框架tez作为对MapReduce的改进。

你可能感兴趣的:(spark调度)

Spring Boot 集成 Quartz 实现定时任务（Cron 表达式示例）易xingxing spring boot 后端 java
SpringBoot集成Quartz实现定时任务（Cron表达式示例）前言1.添加Quartz依赖2.创建Quartz任务3.配置Quartz任务调度4.启动SpringBoot观察定时任务执行5.QuartzCron表达式详解6.结论前言在SpringBoot项目中，我们经常需要定时执行某些任务，例如定期清理数据库、同步数据、发送通知等。Quartz是一个强大的任务调度框架，可以通过Cron表达
Linux系统 | 线程的同步与互斥 mooridy Linux linux 操作系统
个人主页：mooridy专栏地址：Linux关注我，和我一起学习更多计算机的知识!前置知识临界资源：多线程执行流共享的资源就叫做临界资源临界区：每个线程内部，访问有临界资源的代码，就叫做临界区原子性：不会被任何调度机制打断的操作，该操作只有两态，要么完成，要么未完成线程互斥什么是互斥？互斥保证有且只有一个执行流进入临界区，访问临界资源，通常对临界资源起保护作用。为啥需要互斥？⼤部分情况，线程使⽤的
顶级Web应用程序测试工具列表旧游无处不堪寻测试工具测试用例 selenium 网络协议功能测试 jmeter postman
今天主要列举Web应用程序的工具。今天的列表仅仅提供索引功能，具体要使用的同学，可以自行搜索哦。通过web应用程序测试，在web应用程序公开发布之前，会发现网站功能、安全性、可访问性、可用性、兼容性和性能等问题。Web应用程序测试工具：WebLOADDigivanteAcunetixInvicti(formerlyNetsparker)TestCompleteAvoAssureAstraWeb功能
阿里云国际站代理商：如何通过Serverless调用GPU资源？聚搜云—服务器分享阿里云 serverless 云计算
1.采用支持GPU资源的Serverless系统选择支持GPU资源的Serverless系统，如Dilu系统，它通过内省弹性（introspectiveelasticity）机制，提供细粒度和自适应的二维协同扩展机制，支持GPU资源按需分配。2.系统设计与架构控制平面：负责深度学习任务的分析、部署、调度和请求分发。用户提交带有预定义QoS描述的深度学习函数程序，系统通过分析获取资源计划，并由调度器
Spark2 之 Expression/Functions zhixingheyi_tian spark spark
ExpressionConvertersrc/main/scala/org/apache/gluten/expression/ExpressionConverter.scalaTopNTransformersrc/main/scala/org/apache/gluten/execution/TopNTransformer.scala
Spark2 之 FallBack zhixingheyi_tian spark spark
newValidatorsrc/main/scala/org/apache/gluten/extension/columnar/validator/Validators.scala/***Avalidatorthatdoesn'tinvolvenativevalidation.**ThisistypicallyRASplannerthatdoesnativevalidationinlinewith
【自学笔记】Spark基础知识点总览-持续更新 Long_poem 笔记 spark 大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录ApacheSpark基础知识点总览目录简介核心组件SparkSQLDataFrame与DatasetAPIRDD（弹性分布式数据集）SparkStreamingMLlib（机器学习库）GraphX（图处理框架）部署模式示例代码创建SparkContext创建RDD并执行操作使用DataFrameAPI使用SparkSQL总结
边缘计算革命：重构软件架构的范式与未来领码科技技能篇产业篇 AI应用边缘计算人工智能软件架构分布式系统云边协同实时性
摘要边缘计算通过将算力下沉至网络边缘，正在颠覆传统中心化软件架构的设计逻辑。本文系统分析了边缘计算对软件架构的范式革新，包括分布式分层架构、实时资源调度、安全防护体系等技术变革，并结合工业物联网、智慧医疗等场景案例，探讨了云边端协同、微服务改造、边缘AI融合等实践路径。文章提出“分层解耦-动态优化-智能自治”的架构设计框架，为开发者提供兼具理论性与操作性的指导。关键词：边缘计算、软件架构、分布式系
linux查看cron调度内容,Linux例行性工作调度cron 长不大的BEN linux查看cron调度内容
什么是例行性工作？比如太阳每天从东方升起，学校的上课铃总是不厌烦的定时响起，老妈的喊叫声总在每天的固定时刻叫你起床等。这些都是例行性工作。Linux系统也有自己的定时要办的事情，比如日志文件的轮替，whatis数据库的建立等等。Linux例行性工作分一次性的(at)和循环执行的(cron)，本篇博客探讨的就是循环执行的例行性工作。它主要分为两类：用户级用户想要建立自己的循环性工作调度时，使用的命令
Linux例行性工作调度crontab 休耕 LINUX linux
转载地址：http://blog.csdn.net/llzk_/article/details/59110915什么是例行性工作？比如太阳每天从东方升起，学校的上课铃总是不厌烦的定时响起，老妈的喊叫声总在每天的固定时刻叫你起床等。这些都是例行性工作。Linux系统也有自己的定时要办的事情，比如日志文件的轮替，whatis数据库的建立等等。Linux例行性工作分一次性的（at）和循环执行的（cron
Linux例行性工作学习总结赫家旺 Linux Linux 例行性工作
1、系统可以通过at这个命令来调度单一工作的任务，“attime”为命令执行的方法，当at进入调度后，系统执行该调度工作时，会到执行时的目录进行任务2、at的执行必须要有atd服务的支持，且/etc/at.deny为控制是否能够执行的用户账号3、通过atq，atrm可以查询与删除at的工作调度4、batch与at相同，不过batch可以在cpu工作负载小于0.8时才进行后续的工作调度5、系统的循环
透析Vue的nextTick原理 Sean2077 Vue vue.js
nextTick是Vue.js中的一个核心机制，用于在下一次DOM更新周期后执行回调函数。它的核心原理是利用JavaScript的事件循环机制（EventLoop），结合微任务（Microtask）或宏任务（Macrotask）的调度策略，确保回调在DOM更新完成后执行。核心原理分析1.DOM更新的异步性Vue的数据驱动视图更新是异步批量执行的。当数据变化时，Vue不会立即更新DOM，而是开启一个
深入解析嵌入式内核：从架构到实践 JNTeresa 架构
一、嵌入式内核概述嵌入式内核是嵌入式操作系统的核心组件，负责管理硬件资源、调度任务、处理中断等关键功能。其核心目标是在资源受限的环境中提供高效、实时的控制能力。与通用操作系统不同，嵌入式内核通常具有高度可裁剪性、实时性和可靠性，能够适应工业控制、医疗设备、智能家居等多样化场景的需求。内核的核心功能-**任务管理**：支持多任务调度，确保关键任务的实时响应。-**内存管理**：优化内存分配，满足嵌入
第9篇：Milvus分布式部署与扩展：从架构设计到实践指南 Gemini技术窝 milvus 分布式 AIGC 机器学习
欢迎来到Milvus分布式部署与扩展的世界！在本文，我将带你深入了解Milvus的分布式架构设计、集群部署与管理。通过这篇博客，你将学会如何高效地部署和管理Milvus集群，并理解背后的原理和思想。准备好了吗？让我们开始这段知识之旅吧！文章目录Milvus的分布式架构设计分布式架构设计的原理和思想分布式架构的优点详细讲解架构设计的细节数据分片与副本机制任务调度与负载均衡Milvus集群部署与管理集
Spark 从HDFS读取时，通常按文件块（block）数量决定初始partition数，这是怎么实现的？闯闯桑 spark hdfs 大数据
在Spark中，从HDFS读取数据时按文件块（block）数量决定初始partition数，这一机制是通过HadoopInputFormat的分片（split）策略实现的。具体流程如下：1.HDFS文件块（Block）与SparkPartition的对应关系HDFS默认块大小（如128MB/256MB）决定了文件的物理存储分布。Spark在读取HDFS文件时，会调用Hadoop的InputForm
transformers中学习率warmup策略具体如何设置糖葫芦君 LLM 学习人工智能机器学习大数据 pytorch
在使用get_linear_schedule_with_warmup（如HuggingFaceTransformers库中的学习率调度器）时，参数的合理设置需要结合数据量（datasetsize）、批次大小（batchsize）和训练轮数（epochs）来确定。以下是分步指南和公式说明：1.核心参数解析get_linear_schedule_with_warmup的主要参数：num_warmup_
django_apscheduler真实完整例子换个网名有点难数据库 python django
整体步骤：1.安装django-apscheduler2.添加到INSTALLED_APPS3.运行迁移，创建数据库表4.创建任务函数5.在apps.py中启动调度器，避免多实例重复运行6.配置调度器，添加定时任务7.运行服务器并测试需要验证每个步骤是否正确，特别是调度器的启动位置，是否在Django应用加载时正确初始化，以及任务是否被正确调度。同时提醒用户注意可能的问题，比如时区设置，任务执行时
大数据内容分享(五)：Hadoop各组件的主要功能及作用详解之乎者也· 大数据（Hadoop）内容分享大数据 hadoop 分布式
目录前言存储类型组件计算分析引擎组件任务调度和集群管理组件其它组件总结前言虽然hadoop的生态体系已经有好多年了，而且越来越多的做大数据的可能会觉得hadoop体系在数据处理方面有一些笨重，但是作为大数据的分布式系统领域的鼻祖，我们还是好好学习一下。Hadoop体系最初建立于2005年，是由DougCutting和MikeCafarella开发的。它的设计灵感来自于Google的MapReduc
VPS加装前置代理全解析星鹿XINGLOO vps 网络协议网络安全网络
随着跨国业务的发展，众多企业用户对网络访问效率与数据安全提出了更高要求。VPS（虚拟专用服务器）凭借其灵活的配置和性能优化能力，成为企业构建专属网络环境的重要选择。通过加装前置代理，可进一步提升VPS的网络处理效率。以下从技术角度解析其原理与实现方法。什么是VPS加装前置代理？前置代理是在VPS前端部署的代理服务器，负责拦截并处理客户端的网络请求。其核心作用是：流量调度-根据预设规则决定请求转发策
【ESP32】【LLM API】Accessing the Xunfei Spark LLM API with ESP32 hmywillstronger spark 大数据分布式
AccessingtheXunfeiSparkLLMAPIwithESP32Real-timeconversationwithXunfeiSparklargelanguagemodelviaESP32microcontrollerIntroductionWiththerapiddevelopmentofartificialintelligencetechnology,largelanguagemo
QApplication详解昕动乐活 Qt
一、详细描述QApplication类管理图形用户界面应用程序的控制流和主要设置。可以说QApplication是Qt的整个后台管理的命脉它包含主事件循环，在其中来自窗口系统和其它资源的所有事件被处理和调度。它也处理应用程序的初始化和结束，并且提供对话管理。它也处理绝大多数系统范围和应用程序范围的设置。对于任何一个使用Qt的图形用户界面应用程序，都正好存在一个QApplication对象，而不论这
NO.18|操作系统|命令|文件权限|软链接|硬链接|静态库|动态库|GDB|大端小端|进程调度算法|内存|用户系统态|LRU|线程|页表|缺页中断|虚拟内存|物理内存|虚拟地址|堆栈|malloc ChoSeitaku 春招面试冲刺算法
Linux中查看进程运行状态的指令、查看内存使用情况的指令、tar解压文件的参数参考回答查看进程运行状态的指令：ps命令。“ps-aux|grepPID”，用来查看某PID进程状态查看内存使用情况的指令：free命令。“free-m”，命令查看内存使用情况。tar解压文件的参数：//五个命令中必选一个-c:建立压缩档案-x：解压-t：查看内容-r：向压缩归档文件末尾追加文件-u：更新原压缩包中的文
Kubernetes: Service 和 Pod 的关系曹天骄 kubernetes 容器云原生
1.PodPod是Kubernetes中的最小可调度单位。它代表一个或多个容器的集合，这些容器共享网络和存储资源。每个Pod有一个唯一的IP地址，但这个IP地址在Pod重启时可能会改变。Pod通常是临时性的，如果Pod被删除或崩溃，Kubernetes会根据Deployment或StatefulSet等控制器重新创建新的Pod。2.ServiceService是一种Kubernetes资源，用于在
地基多线程与线程池了解天天向上杰 java thread 线程池
1.多线程与线程池的核心区别特性多线程（手动创建）线程池（Executor框架）线程创建直接newThread()，每次创建新线程预先创建线程池，复用已有线程资源消耗频繁创建/销毁线程，资源开销大线程复用，减少系统开销任务调度手动管理线程启动和销毁自动调度任务，支持队列、优先级等策略资源控制难以限制并发线程数量，易导致资源耗尽可配置核心线程数、最大线程数、队列容量等异常处理需手动处理线程异常可通过
Python贪心算法详解：如何解决最优组合问题追逐程序梦想者 python 贪心算法开发语言点云处理
Python贪心算法详解：如何解决最优组合问题贪心算法是一种求解最优化问题的经典算法，其基本思想是在每一个阶段选择最优的策略，从而得到全局最优解。在实际应用中，贪心算法适用于一些特殊类型的问题，如背包问题、最小生成树问题、任务调度问题等。Python作为一门高级编程语言，具有简洁、易用、高效等特点，在实现贪心算法时也非常方便。下面将通过具体例子来讲解如何使用Python来实现贪心算法，以解决最优组
贪心算法经典应用：最优答疑调度策略详解与Python实现藍海琴泉贪心算法算法
目录引言：从现实场景到算法设计一、问题背景与数学建模1.1现实场景抽象1.2时间线分析二、贪心策略的数学证明与选择依据2.1贪心选择性质2.2证明过程三、算法实现与代码解析3.1算法步骤分解3.2代码亮点解析四、测试案例与结果验证4.1示例分析4.2边界测试五、算法复杂度分析5.1时间复杂度5.2空间复杂度六、进阶思考与扩展6.1变种问题6.2实际应用引言：从现实场景到算法设计在校园生活中，我们常
六十天Linux从0到项目搭建（第十一天）（阻塞、挂起、进程状态、退出码） h^hh Linux linux
1阻塞（Blocking）1.阻塞的定义阻塞是指进程因等待某种资源（如磁盘I/O、网络数据、锁等）暂时无法继续执行，从而进入“暂停”状态，直到资源就绪后被唤醒。核心特点：进程主动放弃CPU（不再被调度）。一定是因为需要等待资源（如数据未到达、设备忙）。2.阻塞的底层原理(1)进程如何被阻塞？步骤：进程请求资源（如read()读取磁盘数据）。若资源未就绪（如磁盘忙），OS将进程的PCB（task_s
Buffer overFolw---Kryo序列化出现缓冲区溢出的问题解决 Matrix70 #spark 大数据分布式
问题：由于我的数据量太大，我设置批次为10000万，50w数据大概有400M左右，然后进行spark数据处理时候报错为org.apache.spark.SparkException:Kryoserializationfailed:BufferoverFolw.Available:0,rquired58900977,Toavoidthis,increasespark.kryoserializer.b
如何将启发式方法作为混合整数规划模型的热启动——以流水车间调度问题为例 Lins号丹生产调度优化（运筹专项）运筹优化求解器车间调度启发式算法 MIP热启动
文章目录1.引言2.流水车间调度问题案例3.基于NEH启发式算法获取可行解4.将启发式可行解转化为变量值进行热启动1.引言在计算科学当中，启发式方法是一种用于找到给定问题可行方案的技术，这类方法的特点是通用性强，且找可行方案的速度快，但是启发式方法不能保证获得最优解。另一类的精确方法，则能在求解时间充裕前提下保证最优解，但是计算成本可能极高。两类方法各有优势，在实际应用当中，需要根据具体的应用场景
Linux内核源码深度剖析：硬核拆解核心机制与实战小李独爱秋 linux操作系统杂谈 linux 源码分析
引言Linux内核历经30年演进，代码量已超过2800万行，但其设计的优雅性仍令人惊叹。从进程调度中的时间片分配到内存管理的页表映射，每一处细节都值得深究。本文将以Linux5.15LTS版本为基础，通过逐行代码解析、性能优化案例及动态调试实战，带你彻底掌握内核核心模块的实现原理。一、内核启动流程：从BIOS到第一个进程1.x86体系下的启动代码解剖内核启动并非始于start_kernel()，而
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S