AlanHand

7.DAGScheduler的stage算法划分和TaskScheduler的task算法划分

先来一张图描述整个stage算法划分的由来:

先从DAGScheduler的入口开始 , 源码如下 :

     
     
     
     
      
      
      
      /**
      
      
      
       * DAGScheduler的job调度的核心入口函数
      
      
      
       */
      
      
      
       private[scheduler] def handleJobSubmitted(jobId: Int,
      
      
      
       finalRDD: RDD[_],
      
      
      
       func: (TaskContext, Iterator[_]) => _,
      
      
      
       partitions: Array[Int],
      
      
      
       allowLocal: Boolean,
      
      
      
       callSite: CallSite,
      
      
      
       listener: JobListener,
      
      
      
       properties: Properties = null)
      
      
      
       {
      
      
      
       // 使用触发job的最后一个rdd,创建finalStage
      
      
      
       var finalStage: Stage = null
      
      
      
       try {
      
      
      
       // New stage creation may throw an exception if, for example, jobs are run on a
      
      
      
       // HadoopRDD whose underlying HDFS files have been deleted.
      
      
      
       
      
      
      
       // 第一步: 创建一个stage对象 , 并且将stage加入DAGScheduler内存的内存缓存中
      
      
      
       finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)
      
      
      
       } catch {
      
      
      
       case e: Exception =>
      
      
      
       logWarning("Creating new stage failed due to exception - job: " + jobId, e)
      
      
      
       listener.jobFailed(e)
      
      
      
       return
      
      
      
       }
      
      
      
       if (finalStage != null) {
      
      
      
       
      
      
      
       // 第二步: 用finalStage创建一个job , 也就是说这个job的最后一个stage就是finalStage
      
      
      
       val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties)
      
      
      
       clearCacheLocs()
      
      
      
       logInfo("Got job %s (%s) with %d output partitions (allowLocal=%s)".format(
      
      
      
       job.jobId, callSite.shortForm, partitions.length, allowLocal))
      
      
      
       logInfo("Final stage: " + finalStage + "(" + finalStage.name + ")")
      
      
      
       logInfo("Parents of final stage: " + finalStage.parents)
      
      
      
       logInfo("Missing parents: " + getMissingParentStages(finalStage))
      
      
      
       val shouldRunLocally =
      
      
      
       localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1
      
      
      
       val jobSubmissionTime = clock.getTimeMillis()
      
      
      
       if (shouldRunLocally) {
      
      
      
       // Compute very short actions like first() or take() with no parent stages locally.
      
      
      
       listenerBus.post(
      
      
      
       SparkListenerJobStart(job.jobId, jobSubmissionTime, Seq.empty, properties))
      
      
      
       runLocally(job)
      
      
      
       } else {
      
      
      
       
      
      
      
       // 第三步 : 将job加入内存缓存中
      
      
      
       jobIdToActiveJob(jobId) = job
      
      
      
       activeJobs += job
      
      
      
       finalStage.resultOfJob = Some(job)
      
      
      
       val stageIds = jobIdToStageIds(jobId).toArray
      
      
      
       val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
      
      
      
       listenerBus.post(
      
      
      
       SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
      
      
      
       
      
      
      
       // 第四步 : 使用submitStage提交finalStage
      
      
      
       // 这个方法的调用其实会导致第一个stage提交 , 并且导致其它所有的stage , 都给放入waitingStages队列里了
      
      
      
       submitStage(finalStage)
      
      
      
       
      
      
      
       // stage划分算法非常重要 , 对于spark高手来说必须对stage划分算法很清晰
      
      
      
       // 知道自己编写的spark application被划分为几个job
      
      
      
       // 每个job被划分为几个stage
      
      
      
       // 每个stage又包括了哪些代码
      
      
      
       // 只有知道了这些情况才能发现某个具体的stage执行特别慢或者报错 , 最后才能排查问题 , 性能调优
      
      
      
       
      
      
      
       // stage划分算法总结 :
      
      
      
       // 1.从finalStage倒推
      
      
      
       // 2.通过宽依赖来进行新的stage的划分
      
      
      
       // 3.使用递归优先提交父stage
      
      
      
       }
      
      
      
       }
      
      
      
       // 提交等待的stage
      
      
      
       submitWaitingStages()
      
      
      
       }

解释一下第一步和第二步 , 从我们编写程序的一个action算子开始往前倒推 , 最后一个RDD肯定会被划分在finalStage里面 , 并且最后一个RDD与父RDD之间的依赖关系肯定是窄依赖关系 , 因为stage划分的原则就是rdd与父rdd之间为宽依赖的时候就会被划分在不同的stage中,第二步就是将这个finalStage加入到该job缓存队列中 .

关键在于第四步的submitStage方法 , 该方法会不断的从finalStage递归调用submitStage方法将stage加入 waitingStages缓存队列中 , 源码如下:

     
     
     
     
      
      
      
      /**
      
      
      
       * 提交stage的方法
      
      
      
       * 这个其实是stage的划分算法的入口
      
      
      
       * 但是stage划分算法其实就是submitStage()方法与getMissingParentStage()方法共同组成的
      
      
      
       */
      
      
      
       private def submitStage(stage: Stage) {
      
      
      
       val jobId = activeJobForStage(stage)
      
      
      
       if (jobId.isDefined) {
      
      
      
       logDebug("submitStage(" + stage + ")")
      
      
      
       if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
      
      
      
       
      
      
      
       // 调用getMissingParentStages方法获取当前stage的父stage
      
      
      
       val missing = getMissingParentStages(stage).sortBy(_.id)
      
      
      
       logDebug("missing: " + missing)
      
      
      
       
      
      
      
       // 这里会反复递归调用直到最初的stage没有父stage了 , 那么此时就会去首先提交第一个stage
      
      
      
       // 其余的stage此时全部都在waitingStages中
      
      
      
       if (missing == Nil) {
      
      
      
       logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
      
      
      
       submitMissingTasks(stage, jobId.get)
      
      
      
       } else {
      
      
      
       // 递归调用submit()方法去提交父stage , 这里的递归就是stage划分算法的推动者和精髓
      
      
      
       for (parent <- missing) {
      
      
      
       submitStage(parent)
      
      
      
       }
      
      
      
       
      
      
      
       // 并且将当前stage加入waitingStages等待执行的stage的队列中
      
      
      
       waitingStages += stage
      
      
      
       }
      
      
      
       }
      
      
      
       } else {
      
      
      
       abortStage(stage, "No active job for stage " + stage.id)
      
      
      
       }
      
      
      
       }

 
    若是 
    getMissingParentStages方法获取到了当前stage的父stage(其实是遍历stage中RDD的依赖关系)不为Nil则将stage加入缓存队列并继续将stage作为参数调用subMitMissingTasks方法直到父stage为Nil .

 
    getMissingParentStages方法获取stage的父stage , 源码如下: 
   

      
      
      
      
       
       
       
       /**
       
       
       
        * stage的划分算法核心就在这里
       
       
       
        * 获取某个stage的父stage
       
       
       
        * 这个方法其实就是对最后的一个rdd的所有依赖都是窄依赖 , 那么就不会创建新的stage 
       
       
       
        * 只要发现这个stage的rdd宽依赖了某个rdd,那么就用宽依赖的那个rdd创建一个新的stage
       
       
       
        * 然后立即将新的stage返回
       
       
       
        */
       
       
       
        private def getMissingParentStages(stage: Stage): List[Stage] = {
       
       
       
        val missing = new HashSet[Stage]
       
       
       
        val visited = new HashSet[RDD[_]]
       
       
       
        // We are manually maintaining a stack here to prevent StackOverflowError
       
       
       
        // caused by recursively visiting
       
       
       
        val waitingForVisit = new Stack[RDD[_]]
       
       
       
        
       
       
       
        // 自定义的visit方法
       
       
       
        def visit(rdd: RDD[_]) {
       
       
       
        if (!visited(rdd)) {
       
       
       
        visited += rdd
       
       
       
        if (getCacheLocs(rdd).contains(Nil)) {
       
       
       
        // 遍历rdd的依赖
       
       
       
        // 所以说 , 针对我们之前的那个图来看其实对于每一种有shuffle的操作,比如groupByKey , reduceByKey , countByKey , 
       
       
       
        // 底层对应了三个RDD : MapPartitionRDD , shuffleRDD , MapPartitionsRDD
       
       
       
        for (dep <- rdd.dependencies) {
       
       
       
        dep match {
       
       
       
        // 如果是宽依赖 , 那么使用宽依赖的那个rdd创建一个stage , 并且会将isShuffleMap设置为true
       
       
       
        // 默认最后一个stage不是shufflemap stage ,但是finaStage之前所有的stage都是shuffleMap stage
       
       
       
        case shufDep: ShuffleDependency[_, _, _] =>
       
       
       
        val mapStage = getShuffleMapStage(shufDep, stage.jobId)
       
       
       
        if (!mapStage.isAvailable) {
       
       
       
        missing += mapStage
       
       
       
        }
       
       
       
        
       
       
       
        // 如果是窄依赖 , 那么将依赖的rdd放入栈中
       
       
       
        case narrowDep: NarrowDependency[_] =>
       
       
       
        waitingForVisit.push(narrowDep.rdd)
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
        // 首先往栈中推入了一个stage的最后一个RDD
       
       
       
        waitingForVisit.push(stage.rdd)
       
       
       
        // 然后进行while循环
       
       
       
        while (!waitingForVisit.isEmpty) {
       
       
       
        // 对stage的最后一个rdd调用自己定义的visit方法
       
       
       
        visit(waitingForVisit.pop())
       
       
       
        }
       
       
       
        missing.toList
       
       
       
        }

 
     关键点就是那个for循环了 
      , 遍历Stage中RDD的依赖关系 , 若是宽依赖则创建新的stage并设置isShuffle变量为true,反之则加入rdd栈中 , 在返回的stage中判断是否为Nil , 若是Nil的话就调用 
     submitMissingTasks方法 , 告诉TaskScheduler提交task , 源码如下: 
    

 
             
       
       
       /**
 * 提交stage , 为stage创建一批task , task数量与partition数量相同
 */
 private def submitMissingTasks(stage: Stage, jobId: Int) {
 logDebug("submitMissingTasks(" + stage + ")")
 // Get our pending tasks and remember them in our pendingTasks entry
 stage.pendingTasks.clear()
 // First figure out the indexes of partition ids to compute.
 
 // 获取你要创建的task的数量
 val partitionsToCompute: Seq[Int] = {
 if (stage.isShuffleMap) {
 (0 until stage.numPartitions).filter(id => stage.outputLocs(id) == Nil)
 } else {
 val job = stage.resultOfJob.get
 (0 until job.numPartitions).filter(id => !job.finished(id))
 }
 }
 val properties = if (jobIdToActiveJob.contains(jobId)) {
 jobIdToActiveJob(stage.jobId).properties
 } else {
 // this stage will be assigned to "default" pool
 null
 }
 // 将stage加入runningStages队列
 runningStages += stage
 
 // SparkListenerStageSubmitted should be posted before testing whether tasks are
 // serializable. If tasks are not serializable, a SparkListenerStageCompleted event
 // will be posted, which should always come after a corresponding SparkListenerStageSubmitted
 // event.
 stage.latestInfo = StageInfo.fromStage(stage, Some(partitionsToCompute.size))
 outputCommitCoordinator.stageStart(stage.id)
 listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))
 // TODO: Maybe we can keep the taskBinary in Stage to avoid serializing it multiple times.
 // Broadcasted binary for the task, used to dispatch tasks to executors. Note that we broadcast
 // the serialized copy of the RDD and for each task we will deserialize it, which means each
 // task gets a different copy of the RDD. This provides stronger isolation between tasks that
 // might modify state of objects referenced in their closures. This is necessary in Hadoop
 // where the JobConf/Configuration object is not thread-safe.
 var taskBinary: Broadcast[Array[Byte]] = null
 try {
 // For ShuffleMapTask, serialize and broadcast (rdd, shuffleDep).
 // For ResultTask, serialize and broadcast (rdd, func).
 val taskBinaryBytes: Array[Byte] =
 if (stage.isShuffleMap) {
 closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef).array()
 } else {
 closureSerializer.serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef).array()
 }
 taskBinary = sc.broadcast(taskBinaryBytes)
 } catch {
 // In the case of a failure during serialization, abort the stage.
 case e: NotSerializableException =>
 abortStage(stage, "Task not serializable: " + e.toString)
 runningStages -= stage
 return
 case NonFatal(e) =>
 abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}")
 runningStages -= stage
 return
 }
 // 为stage创建指定数量的task
 // 这里有一点很关键就是task的最佳位置计算算法
 val tasks: Seq[Task[_]] = if (stage.isShuffleMap) {
 partitionsToCompute.map { id =>
 // 给每一个partition创建一个task
 // 给每个task计算最佳位置
 val locs = getPreferredLocs(stage.rdd, id)
 val part = stage.rdd.partitions(id)
 // 然后对于finalStage之外的stage , 它的shuffleMap都是true , 所以会创建shuffleMapTask
 new ShuffleMapTask(stage.id, taskBinary, part, locs)
 }
 } else {
 // 如果不是shuffleMap , 那么就是finalStage , final Stage是创建ResultTask的
 val job = stage.resultOfJob.get
 partitionsToCompute.map { id =>
 val p: Int = job.partitions(id)
 val part = stage.rdd.partitions(p)
 val locs = getPreferredLocs(stage.rdd, p)
 new ResultTask(stage.id, taskBinary, part, locs, id)
 }
 }
 if (tasks.size > 0) {
 logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
 stage.pendingTasks ++= tasks
 logDebug("New pending tasks: " + stage.pendingTasks)
 
 // 最后 , 针对stage的task创建TaskSet对象 , 调用TaskScheduler的submitTasks方法提交TaskSet
 // 默认情况下Standalone模式使用的是TaskSchedulerImpl , TaskScheduler只是一个TaskSchusterImpl的接口
 taskScheduler.submitTasks(
 new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))
 stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
 } else {
 // Because we posted SparkListenerStageSubmitted earlier, we should post
 // SparkListenerStageCompleted here in case there are no tasks to run.
 outputCommitCoordinator.stageEnd(stage.id)
 listenerBus.post(SparkListenerStageCompleted(stage.latestInfo))
 logDebug("Stage " + stage + " is actually done; %b %d %d".format(
 stage.isAvailable, stage.numAvailableOutputs, stage.numPartitions))
 runningStages -= stage
 }
 }
 
     
 
      
 
     

我们在返回到 submitStage方法中,将返回的stage在加入waitingStages中 , 最后在入口方法handleJobSubmitted()将所有的缓存队列中的stage全部提交 ;

总结一下:

job:一个job代表的是action之前的所有transformatio操作

stage划分算法原理:该算法是在DAGScheduler中操作的 , 在执行action操作的那个RDD为最后一个RDD ,为它创建一个stage , 将该RDD往前倒推 , 若是窄依赖则将该RDD加入stage中 , 若是宽依赖则创建一个新的stage , 发现的宽依赖的RDD会加入到这个新创建的stage中 , 然后再次往前倒推 , 直到所有的RDD被遍历完 ,stage以栈的数据结构存储RDD , 也就是说从最后一个RDD开始往前推 , 直到遇到一个宽依赖的RDD , 这之间的RDD都会存储到一个stage中 , 而且最后入栈的RDD是下面task划分算法中最先操作的RDD

也就是说一个job需要划分出多少个stage与action操作之前的RDD宽依赖有多少密切相关 , stage数等于宽依赖数 , 最后action操作前DAGScheduler为最后一个RDD所创建的stage

stage数 = 宽依赖数

接下来就是task的算法划分了!

DAGScheduler在提交stage的时候就会为每一个stage创建指定数量的task,task数量与partition数量相同 , 每个task对应一个partition , 并计算每一个task对应的paritition的最佳位置

task的最佳位置计算是从stage的最后一个入栈的RDD(stage中的栈底)开始 , 先判断该RDD是否有cache和checkpoint ,若没有的话则会去找父RDD是否有cache和checkpoint ,若找到该RDD是有缓存的 , 那么就不用往前找了 , 就直接从该RDD开始计算直到计算到该stage中的栈顶的那个RDD , 若都没有的话就会走到TaskScheduler去 , 最后对stage的task创建taskset对象 , 调用TaskScheduler的submitTasks()方法提交taskSet;

在DAGScheduler的submitMissingTasks方法中有如下代码就会触发task的提交 ,可见提交task是一批次一批次的提交, 代码如下:

      
      
      
      
       
       
       
       taskScheduler.submitTasks(
       
       
       
        new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))

TaskScheduler只是提交任务的一个接口 , 具体的操作由其实现类TaskSchedulerImpl实现 , submitTasks方法就是TaskScheduler提交任务的入口 , 源码如下:

      
      
      
      
       
       
       
       /**
       
       
       
        * TaskScheduler提交任务的入口
       
       
       
        */
       
       
       
        override def submitTasks(taskSet: TaskSet) {
       
       
       
        val tasks = taskSet.tasks
       
       
       
        logInfo("Adding task set " + taskSet.id + " with " + tasks.length + " tasks")
       
       
       
        this.synchronized {
       
       
       
        // 给每一TaskSet都会创建一个TaskSetManager
       
       
       
        // TaskSetManager实际上在后面会负责它的那个TaskSet的任务执行状况的监视和管理
       
       
       
        val manager = createTaskSetManager(taskSet, maxTaskFailures)
       
       
       
        // 然后加入内存缓存中
       
       
       
        activeTaskSets(taskSet.id) = manager
       
       
       
        schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)
       
       
       
       
       
       
       
        if (!isLocal && !hasReceivedTask) {
       
       
       
        starvationTimer.scheduleAtFixedRate(new TimerTask() {
       
       
       
        override def run() {
       
       
       
        if (!hasLaunchedTask) {
       
       
       
        logWarning("Initial job has not accepted any resources; " +
       
       
       
        "check your cluster UI to ensure that workers are registered " +
       
       
       
        "and have sufficient resources")
       
       
       
        } else {
       
       
       
        this.cancel()
       
       
       
        }
       
       
       
        }
       
       
       
        }, STARVATION_TIMEOUT, STARVATION_TIMEOUT)
       
       
       
        }
       
       
       
        hasReceivedTask = true
       
       
       
        }
       
       
       
        
       
       
       
        // 在SparkContext原理分析的时候说过创建TaskScheduler的时候就是为TaskSchedulerImpl创建一个SparkDeploySchedulerBackend,这里的backend指的就是之前创建好的SparkDeploySchedulerBackend
       
       
       
        // 而且这个backend是负责创建AppClient向master注册Application的
       
       
       
        backend.reviveOffers()
       
       
       
        }

首先创建TaskSetManager , 它的作用是

在TaskSchedulerImpl中对一个单独的taskSet的任务调度 , 负责追踪每一个task , 如果失败则重试task , 直到超过重试的次数限制 , 并且会通过延迟调度, 并为这个TaskSet处理本地化调度机制 , 它的主要接口是resourceOffer , 在这个接口中 , TaskSet会希望在一个节点上运行一个任务 , 并且接受任务的状态变化消息来知道它负责的task的状态改变了,一个TaskSetManager

最后执行backend(SparkDeploySchedulerBackend)的reciverOffers()方法 , 源码如下:

       
       
       
       
        
        
        
        override def reviveOffers() {
        
        
        
         driverActor ! ReviveOffers
        
        
        
         }

该方法通过driverActor发送一个ReciverOffers消息 , 然后在receiveWithLogging方法中接收到这个消息 , 代码如下:

        
        
        
        
         
         
         
         case ReviveOffers =>
         
         
         
          makeOffers()

继续往makeOffers方法深入:

        
        
        
        
         
         
         
         // Make fake resource offers on all executors
         
         
         
          def makeOffers() {
         
         
         
          
         
         
         
          // 第一步 : 调用TaskSchedulerImpl的resourceOffer方法 , 执行任务分配算法将各个task分配到executor上去
         
         
         
          // 第二步 : 分配好task到executor之后执行自己的launchTasks方法 , 将分配的task发送LaunchTask消息到对应的executor上去 , 由executor启动并执行task
         
         
         
          
         
         
         
          // 给resourceOffer方法传入的是这个Application所有可用的executor , 并且将其封装成了WorkerOffer , 每个workerOffer代表了每个executor可用的cpu资源数量
         
         
         
          launchTasks(scheduler.resourceOffers(executorDataMap.map { case (id, executorData) =>
         
         
         
          new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
         
         
         
          }.toSeq))
         
         
         
          }

launchTasks方法调用之前会首先调用 resourceOffers, 这个方法就是task算法划分的关键 , 我们看看这个方法:

        
        
        
        
         
         
         
         /**
         
         
         
          * Called by cluster manager to offer resources on slaves. We respond by asking our active task
         
         
         
          * sets for tasks in order of priority. We fill each node with tasks in a round-robin manner so
         
         
         
          * that tasks are balanced across the cluster.
         
         
         
          */
         
         
         
          def resourceOffers(offers: Seq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {
         
         
         
          // Mark each slave as alive and remember its hostname
         
         
         
          // Also track if new executor is added
         
         
         
          var newExecAvail = false
         
         
         
          for (o <- offers) {
         
         
         
          executorIdToHost(o.executorId) = o.host
         
         
         
          activeExecutorIds += o.executorId
         
         
         
          if (!executorsByHost.contains(o.host)) {
         
         
         
          executorsByHost(o.host) = new HashSet[String]()
         
         
         
          executorAdded(o.executorId, o.host)
         
         
         
          newExecAvail = true
         
         
         
          }
         
         
         
          for (rack <- getRackForHost(o.host)) {
         
         
         
          hostsByRack.getOrElseUpdate(rack, new HashSet[String]()) += o.host
         
         
         
          }
         
         
         
          }
         
         
         
         
         
         
         
          // Randomly shuffle offers to avoid always placing tasks on the same set of workers.
         
         
         
          
         
         
         
          // 首先将可用executor进行shuffle , 也就是打散尽量做到负载均衡
         
         
         
          val shuffledOffers = Random.shuffle(offers)
         
         
         
          // Build a list of tasks to assign to each worker.
         
         
         
          
         
         
         
          // 然后针对WorkerOffer创建出一堆需要用的东西
         
         
         
          // 比如tasks , 很重要 , 它可以理解为一个二位数组ArrayBuffer , 元素又是一个ArrayBuffer
         
         
         
          // 并且每个子ArrayBuffer的数量是固定的 , 也就是这个executor可用的cpu数量
         
         
         
          val tasks = shuffledOffers.map(o => new ArrayBuffer[TaskDescription](o.cores))
         
         
         
          val availableCpus = shuffledOffers.map(o => o.cores).toArray
         
         
         
          
         
         
         
          // 从rootPool中取出了排序的TaskSet , 之前说了TaskScheduler初始化的时候创建完TaskSchedulerImpl,SparkDeploySchedulerBackend之后执行一个initialize方法
         
         
         
          // 在这个方法中会创建一个调度池
         
         
         
          // 这里相当于是所有提交的TaskSet会先放入调度池 , 然后在执行task分配算法的时候会从这个调度池中取出排好队的TaskSet
         
         
         
          val sortedTaskSets = rootPool.getSortedTaskSetQueue
         
         
         
          for (taskSet <- sortedTaskSets) {
         
         
         
          logDebug("parentName: %s, name: %s, runningTasks: %s".format(
         
         
         
          taskSet.parent.name, taskSet.name, taskSet.runningTasks))
         
         
         
          if (newExecAvail) {
         
         
         
          taskSet.executorAdded()
         
         
         
          }
         
         
         
          }
         
         
         
         
         
         
         
          // Take each TaskSet in our scheduling order, and then offer it each node in increasing order
         
         
         
          // of locality levels so that it gets a chance to launch local tasks on all of them.
         
         
         
          // NOTE: the preferredLocality order: PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY
         
         
         
          
         
         
         
          // 这里就是核心的任务分配算法的核心了
         
         
         
          // 双重for循环遍历所有的taskset , 以及每一种本地化级别
         
         
         
          // 本地化级别(从上到下性能越来越差): Process_Local->进程本地化,rdd的partition和task进入一个executor内 , 那么速度当然快
         
         
         
          // NODE_LOCAL , rdd的partition和task不在一个executor中,不在一个进程中,但是在一个worker节点上
         
         
         
          // NO_PREF , 没有本地化级别
         
         
         
          // RACK_LOCAL , 机架本地化 , 至少rdd的partition和task在一个机架上
         
         
         
          // ANY , 任意的本地化级别
         
         
         
          
         
         
         
          // 对每个TaskSet从最好的一种本地化级别开始遍历
         
         
         
          var launchedTask = false
         
         
         
          for (taskSet <- sortedTaskSets; maxLocality <- taskSet.myLocalityLevels) {
         
         
         
          do {
         
         
         
          // 对当前TaskSet尝试优先使用每一种本地化几倍 , 将TaskSet的task在executor上进行启动
         
         
         
          // 如果启动不了那么跳出这个do while循环 , 进入下一种本地化级别 , 也就是放大本地化级别 , 依次类推直到尝试将TaskSet在某些本地化级别下
         
         
         
          // 让task在executor上全部启动
         
         
         
          launchedTask = resourceOfferSingleTaskSet(
         
         
         
          taskSet, maxLocality, shuffledOffers, availableCpus, tasks)
         
         
         
          } while (launchedTask)
         
         
         
          }
         
         
         
         
         
         
         
          if (tasks.size > 0) {
         
         
         
          hasLaunchedTask = true
         
         
         
          }
         
         
         
          return tasks
         
         
         
          }

该方法里面就是task算法划分的精髓 , 其实就是一个双重for循环比较task与executor的本地化级别是否匹配,匹配的具体方法就是resourceOfferSingleTaskSet方法 , 代码如下:

         
         
         
         
          
          
          
          private def resourceOfferSingleTaskSet(
          
          
          
           taskSet: TaskSetManager,
          
          
          
           maxLocality: TaskLocality,
          
          
          
           shuffledOffers: Seq[WorkerOffer],
          
          
          
           availableCpus: Array[Int],
          
          
          
           tasks: Seq[ArrayBuffer[TaskDescription]]) : Boolean = {
          
          
          
           var launchedTask = false
          
          
          
           
          
          
          
           // 遍历所有executor
          
          
          
           for (i <- 0 until shuffledOffers.size) {
          
          
          
           val execId = shuffledOffers(i).executorId
          
          
          
           val host = shuffledOffers(i).host
          
          
          
           // 如果当前executor的cpu数量至少大于每个task要使用的cpu数量 , 默认是1
          
          
          
           if (availableCpus(i) >= CPUS_PER_TASK) {
          
          
          
           try {
          
          
          
           // 调用TaskSetManager的resourceOffer方法去找到在这个executor上就用这种本地化级别的情况下
          
          
          
           // 哪些TaskSet的哪些task可以启动
          
          
          
           // 遍历使用当前本地化级别 , 可以在该executor上启动的task
          
          
          
           for (task <- taskSet.resourceOffer(execId, host, maxLocality)) {
          
          
          
           // 放入tasks这个二位数组 , 给指定的executor加上要启动的task
          
          
          
           tasks(i) += task
          
          
          
           // 到这里为止其实就是task分配算法的实现了
          
          
          
           // 尝试用本地化级别这种模型去优化task的分配和启动 , 优先希望在最佳本地化的地方启动task , 然后将task分配给executor
          
          
          
           // 将相应的分配信息加入内存缓存
          
          
          
           val tid = task.taskId
          
          
          
           taskIdToTaskSetId(tid) = taskSet.taskSet.id
          
          
          
           taskIdToExecutorId(tid) = execId
          
          
          
           executorsByHost(host) += execId
          
          
          
           availableCpus(i) -= CPUS_PER_TASK
          
          
          
           assert(availableCpus(i) >= 0)
          
          
          
           
          
          
          
           // 
          
          
          
           launchedTask = true
          
          
          
           }
          
          
          
           } catch {
          
          
          
           case e: TaskNotSerializableException =>
          
          
          
           logError(s"Resource offer failed, task set ${taskSet.name} was not serializable")
          
          
          
           // Do not offer resources for this task, but don't throw an error to allow other
          
          
          
           // task sets to be submitted.
          
          
          
           return launchedTask
          
          
          
           }
          
          
          
           }
          
          
          
           }
          
          
          
           return launchedTask
          
          
          
           }

最后调用CoarseGraineSchedulerBackend的launchTasks方法启动task :

        
        
        
        
         
         
         
         // 根据分配好的情况去在executor上启动相应的task
         
         
         
          def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
         
         
         
          for (task <- tasks.flatten) {
         
         
         
          
         
         
         
          // 首先将每个executor要执行的task信息统一进行序列化操作
         
         
         
          val ser = SparkEnv.get.closureSerializer.newInstance()
         
         
         
          val serializedTask = ser.serialize(task)
         
         
         
          if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {
         
         
         
          val taskSetId = scheduler.taskIdToTaskSetId(task.taskId)
         
         
         
          scheduler.activeTaskSets.get(taskSetId).foreach { taskSet =>
         
         
         
          try {
         
         
         
          var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
         
         
         
          "spark.akka.frameSize (%d bytes) - reserved (%d bytes). Consider increasing " +
         
         
         
          "spark.akka.frameSize or using broadcast variables for large values."
         
         
         
          msg = msg.format(task.taskId, task.index, serializedTask.limit, akkaFrameSize,
         
         
         
          AkkaUtils.reservedSizeBytes)
         
         
         
          taskSet.abort(msg)
         
         
         
          } catch {
         
         
         
          case e: Exception => logError("Exception in error callback", e)
         
         
         
          }
         
         
         
          }
         
         
         
          }
         
         
         
          else {
         
         
         
          // 找到对应的executor
         
         
         
          val executorData = executorDataMap(task.executorId)
         
         
         
          // 给executor上的资源减去要使用的cpu资源
         
         
         
          executorData.freeCores -= scheduler.CPUS_PER_TASK
         
         
         
          // 向executor发送LaunchTask消息 , 来在executor上启动task
         
         
         
          executorData.executorActor ! LaunchTask(new SerializableBuffer(serializedTask))
         
         
         
          }
         
         
         
          }
         
         
         
          }

总结一下 task,partition ,stage:

一个stage对应多个task , 一个task对应一个partiition的数据 , 而一个RDD对应多个partition的数据 , 也就说stage是老大 , 有了stage才有task , 一个RDD的数据对应几个partition就会有几个task

因此在一个stage中决定task的数量是栈底的那个宽依赖RDD , 这个宽依赖RDD对应了他的几个父RDD , 并且这几个父RDD是窄依赖 , 宽依赖RDD对应了几个Partition的数据就会有几个task创建

stage中的task数量最终由栈底的那个宽依赖RDD依赖了几个父RDD决定

task从哪个RDD开始计算由哪个RDD是否做了cache和checkpoint决定 , 没有的话则从第一个RDD开始

你可能感兴趣的:(spark)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
pyspark 遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\ 2pi spark python
Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_22732/1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\pyspark\sql\data
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
自定义Spark启动的metastore_db和derby.log生成路径节昊文 spark 大数据分布式
1.进入安装spark目录的conf目录下2.复制spark-defaults.conf.template文件为spark-defaults.conf3.在spark-defaults.conf文件的末尾添加一行：spark.driver.extraJavaOptions-Dderby.system.home=/log即生成的文件存放的目录
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
Spark Sql 简单校验的实现小小小小小小小小小小码农 spark sql java
在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。不使用Sparksession获取上下文，利用spark和antlr的静态方法使用java实现简单的sparksql的语法以及内置函数的校验。1.spark版本3.2.0org.apache.sparkspark-sql_2.123.2.0org.antlrantlr4-runtim
PySpark安装及WordCount实现（基于Ubuntu） uui1885478445 ubuntu linux 运维
在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK：sudoaptupdatesudoaptinstalldefault-jredefault-jdk安装Scala：PySpark还需要Scala，可以使用以下命令安装：sudoaptinstallscala安装Pyth
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
Hive MR & Spark & Yarn参数优化总结大数据侠客 hive相关问题汇总及解决 hive spark mr yarn 参数优化
一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri
Spark 中创建 DataFrame 的2种方式对比闯闯桑 spark 大数据分布式 scala
spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data),schema)创建df的方式有什么区别？在Spark中，创建DataFrame的方式有多种，其中两种常见的方式是：spark.createDataFrame(data).toDF("nam
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &