weixin_30345577

Spark系列(九)DAGScheduler工作原理

以wordcount为示例进行深入分析

 
       1   
       object wordcount { 
      
       2   
         
       3   
         def main(args: Array[String]) { 
      
       4   
           val conf = new SparkConf() 
      
       5   
           conf.setAppName("wordcount").setMaster("local") 
      
       6   
         
       7   
           val sc = new SparkContext(conf) 
      
       8   
           // 产生HadoopRDD->MapPartitionsRDD 
      
       9   
           val lines = sc.textFile("C://Users//Administrator//Desktop//wordcount.txt", 1) 
      
       10   
           // 产生FlatMappedRDD 
      
       11   
           val words = lines.flatMap(line=>line.split(" ")) 
      
       12   
           // 产生MapPartitionsRDD 
      
       13   
           val pairs = words.map(word=>(word,1)) 
      
       14   
           //产生MapPartitionsRDD -> ShuffleRDD -> MapPartitionsRDD, 产生三个RDD 
      
       15   
           val result= pairs.reduceByKey(_ + _); 
      
       16   
           // foreach为action操作，通过SparkContext的runJob方法去触发job(DAGScheduler) 
      
       17   
           result.foreach(count=>println(count)) 
      
       18   
         } 
      
       19   
       }

说明：

1、textFile方法的实现内部先通过hadoopFile创建HadoopRDD(key-value对格式，key为文本文件的每一行偏移量，value为每行的内容)，再转换为MapPartitionsRDD(每个集合元素只包含每行的内容)

2、RDD里是没有reduceByKey的，因此对RDD调用reduceByKey()方法的时候，会触发scala的隐式转换；此时就会在作用域内，寻找隐式转换，会在RDD中找到rddToPairRDDFunctions()隐式转换，然后将RDD转换为PairRDDFunctions。

stage划分算法说明

从触发action操作的rdd开始往前倒推，首先会为最后一个rdd创建一个stage,继续往前倒退的时候，如果发现对某个 rdd是宽依赖，那么就会将该宽依赖的rdd创建一个新的stage,之前面的那个rdd就是新的stage的最后一个rdd。然后以次类推，继续往前倒退，根据窄依赖和宽依赖进行stage的划分，知道所有的rdd全部遍历完成。

划分stage的作用

在spark中提交的应用都会以job的形式进行执行，job提交后会被划分为多个stage,然后把stage封装为TaskSet提交到TaskScheduler到executor中执行。

源码分析

以上wordcount程序action操作后执行流程：

foreach(RDD.scala) -> runJob(SparkContext.scala) -> runJob(DAGScheduler.scala) -> submitJob(DAGScheduler.scala) -> eventProcessLoop.post发送JobSubmitted(DAGScheduler.scala) -> onReceive(DAGScheduler.scala)->case JobSubmitted -> handleJobSubmitted (入口)

DAGScheduler实现类所属包:org.apache.spark.scheduler

handleJobSubmitted

功能：stage的依赖分析及生成stage和对应的Job提交

 
       1   
       private[scheduler] def handleJobSubmitted(jobId: Int, 
      
       2   
             finalRDD: RDD[_], 
      
       3   
             func: (TaskContext, Iterator[_]) => _, 
      
       4   
             partitions: Array[Int], 
      
       5   
             allowLocal: Boolean, 
      
       6   
             callSite: CallSite, 
      
       7   
             listener: JobListener, 
      
       8   
             properties: Properties = null) 
      
       9   
         { 
      
       10   
           var finalStage: Stage = null 
      
       11   
           try { 
      
       12   
             // New stage creation may throw an exception if, for example, jobs are run on a 
      
       13   
             // HadoopRDD whose underlying HDFS files have been deleted. 
      
       14   
             // 使用job的最后一个rdd创建finalStage,并加入到DAGScheduler内部缓存中(stageIdToStage) 
      
       15   
             finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite) 
      
       16   
           } catch { 
      
       17   
             case e: Exception => 
      
       18   
               logWarning("Creating new stage failed due to exception - job: " + jobId, e) 
      
       19   
               listener.jobFailed(e) 
      
       20   
               return 
      
       21   
           } 
      
       22   
           if (finalStage != null) { 
      
       23   
             // 使用finalStage创建一个Job，也就是该Job的最后一个stage 
      
       24   
             val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties) 
      
       25   
             clearCacheLocs() 
      
       26   
             logInfo("Got job %s (%s) with %d output partitions (allowLocal=%s)".format( 
      
       27   
               job.jobId, callSite.shortForm, partitions.length, allowLocal)) 
      
       28   
             logInfo("Final stage: " + finalStage + "(" + finalStage.name + ")") 
      
       29   
             logInfo("Parents of final stage: " + finalStage.parents) 
      
       30   
             logInfo("Missing parents: " + getMissingParentStages(finalStage)) 
      
       31   
             val shouldRunLocally = 
      
       32   
               localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1 
      
       33   
             val jobSubmissionTime = clock.getTimeMillis() 
      
       34   
             // 对于没有父stage的job 本地执行 
      
       35   
             if (shouldRunLocally) { 
      
       36   
               // Compute very short actions like first() or take() with no parent stages locally. 
      
       37   
               listenerBus.post( 
      
       38   
                 SparkListenerJobStart(job.jobId, jobSubmissionTime, Seq.empty, properties)) 
      
       39   
               // 本地执行Job 
      
       40   
               runLocally(job) 
      
       41   
             } else { 
      
       42   
               // 将Job加入内存缓存中 
      
       43   
               jobIdToActiveJob(jobId) = job 
      
       44   
               activeJobs += job 
      
       45   
               finalStage.resultOfJob = Some(job) 
      
       46   
               val stageIds = jobIdToStageIds(jobId).toArray 
      
       47   
               val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo)) 
      
       48   
               listenerBus.post( 
      
       49   
                 SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties)) 
      
       50   
               // 提交stage,所有的stage都放入waitingStages队列里 
      
       51   
               submitStage(finalStage) 
      
       52   
             } 
      
       53   
           } 
      
       54   
           submitWaitingStages() 
      
       55   
         }

 
    submitStage 
   

 
    功能：stage划分算法实现入口 
   

 
       1   
       private def submitStage(stage: Stage) { 
      
       2   
           val jobId = activeJobForStage(stage) 
      
       3   
           if (jobId.isDefined) { 
      
       4   
             logDebug("submitStage(" + stage + ")") 
      
       5   
             if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) { 
      
       6   
               //获取当前stage的父stage 
      
       7   
               val missing = getMissingParentStages(stage).sortBy(_.id) 
      
       8   
               logDebug("missing: " + missing) 
      
       9   
               if (missing == Nil) { 
      
       10   
                 logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents") 
      
       11   
                 // 为stage创建task,且task数据与partition数量相同 
      
       12   
                 submitMissingTasks(stage, jobId.get) 
      
       13   
               } else { 
      
       14   
                 // 提交父stage 
      
       15   
                 for (parent <- missing) { 
      
       16   
                   submitStage(parent) 
      
       17   
                 } 
      
       18   
                 // 将stage加入waitingStages缓存中 
      
       19   
                 waitingStages += stage 
      
       20   
               } 
      
       21   
             } 
      
       22   
           } else { 
      
       23   
             abortStage(stage, "No active job for stage " + stage.id) 
      
       24   
           } 
      
       25   
         }

 
    getMissingParentStages 
   

 
    功能： 
    stage划分算法的具体实现

 
    实现原理： 
   

 
    对于一个stage如果它的最后一个rdd的所有依赖都是窄依赖，那么不会创建新的stage,但如果存在宽依赖，就用宽依赖的那个rdd 
   

 
    创建一个新的stage并返回 
   

 
       1   
       // stage划分算法的具体实现 
      
       2   
         // 对于一个stage如果它的最后一个rdd的所有依赖都是窄依赖，那么不会创建新的stage, 
      
       3   
         // 但如果存在宽依赖，就用宽依赖的那个rdd创建一个新的stage并返回 
      
       4   
         private def getMissingParentStages(stage: Stage): List[Stage] = { 
      
       5   
           val missing = new HashSet[Stage] 
      
       6   
           val visited = new HashSet[RDD[_]] 
      
       7   
           // We are manually maintaining a stack here to prevent StackOverflowError 
      
       8   
           // caused by recursively visiting 
      
       9   
           val waitingForVisit = new Stack[RDD[_]] 
      
       10   
           def visit(rdd: RDD[_]) { 
      
       11   
             if (!visited(rdd)) { 
      
       12   
               visited += rdd 
      
       13   
               if (getCacheLocs(rdd).contains(Nil)) { 
      
       14   
                 // 遍历RDD 
      
       15   
                 for (dep <- rdd.dependencies) { 
      
       16   
                   dep match { 
      
       17   
                     // 宽依赖处理 
      
       18   
                     case shufDep: ShuffleDependency[_, _, _] => 
      
       19   
                       // 创建stage,并将isShuffleMap设置为true 
      
       20   
                       val mapStage = getShuffleMapStage(shufDep, stage.jobId) 
      
       21   
                       if (!mapStage.isAvailable) { 
      
       22   
                         // 将新创建的stage缓存到missing中 
      
       23   
                         missing += mapStage 
      
       24   
                       } 
      
       25   
                     // 窄依赖处理 
      
       26   
                     case narrowDep: NarrowDependency[_] => 
      
       27   
                       // 将依赖的rdd放入栈中 
      
       28   
                       waitingForVisit.push(narrowDep.rdd) 
      
       29   
                   } 
      
       30   
                 } 
      
       31   
               } 
      
       32   
             } 
      
       33   
           } 
      
       34   
           // 向waitingForVisit栈中压rdd 
      
       35   
           waitingForVisit.push(stage.rdd) 
      
       36   
           while (!waitingForVisit.isEmpty) { 
      
       37   
             visit(waitingForVisit.pop()) 
      
       38   
           } 
      
       39   
           // 返回stage列表 
      
       40   
           missing.toList 
      
       41   
         }

 
    说明: 
   

 
    stage划分算法由submitStage()方法和getMissingStages()方法共同组成 
   

 
    submitMissingTasks 
   

 
    功能： 
   

 
    为stage创建一批task，且task数量与partition数量相同 
   

 
       1   
       // 为stage创建一批task，且task数量与partition数量相同 
      
       2   
         private def submitMissingTasks(stage: Stage, jobId: Int) { 
      
       3   
           logDebug("submitMissingTasks(" + stage + ")") 
      
       4   
           // Get our pending tasks and remember them in our pendingTasks entry 
      
       5   
           stage.pendingTasks.clear() 
      
       6   
         
       7   
           // First figure out the indexes of partition ids to compute. 
      
       8   
           // 获取需要创建的partition数量 
      
       9   
           val partitionsToCompute: Seq[Int] = { 
      
       10   
             if (stage.isShuffleMap) { 
      
       11   
               (0 until stage.numPartitions).filter(id => stage.outputLocs(id) == Nil) 
      
       12   
             } else { 
      
       13   
               val job = stage.resultOfJob.get 
      
       14   
               (0 until job.numPartitions).filter(id => !job.finished(id)) 
      
       15   
             } 
      
       16   
           } 
      
       17   
            
       18   
           ................................ 
      
       19   
            
       20   
           // 将stae加入到runningStages缓存中 
      
       21   
           runningStages += stage 
      
       22   
            
       23   
           ................................ 
      
       24   
            
       25   
           // 为stage创建指定数量的task,并计算最佳位置 
      
       26   
           val tasks: Seq[Task[_]] = if (stage.isShuffleMap) { 
      
       27   
             partitionsToCompute.map { id => 
      
       28   
               // 计算最佳位置 
      
       29   
               val locs = getPreferredLocs(stage.rdd, id) 
      
       30   
               val part = stage.rdd.partitions(id) 
      
       31   
               // 创建ShuffleMapTask 
      
       32   
               new ShuffleMapTask(stage.id, taskBinary, part, locs) 
      
       33   
             } 
      
       34   
           } else { 
      
       35   
             val job = stage.resultOfJob.get 
      
       36   
             partitionsToCompute.map { id => 
      
       37   
               val p: Int = job.partitions(id) 
      
       38   
               val part = stage.rdd.partitions(p) 
      
       39   
               val locs = getPreferredLocs(stage.rdd, p) 
      
       40   
               // 给final stage创建ResultTask 
      
       41   
               new ResultTask(stage.id, taskBinary, part, locs, id) 
      
       42   
             } 
      
       43   
           } 
      
       44   
         
       45   
           if (tasks.size > 0) { 
      
       46   
             logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")") 
      
       47   
             stage.pendingTasks ++= tasks 
      
       48   
             logDebug("New pending tasks: " + stage.pendingTasks) 
      
       49   
             // 对stage的task创建TaskSet对象，调用TaskScheduler的submitTasks()方法提交TaskSet 
      
       50   
             taskScheduler.submitTasks( 
      
       51   
               new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties)) 
      
       52   
             stage.latestInfo.submissionTime = Some(clock.getTimeMillis()) 
      
       53   
           } 
      
       54   
            
       55   
           ......................  
      
       56   
         }

getPreferredLocsInternal

功能：

计算每个task对应的partition最佳位置，从stage的最后一个rdd开始查找，看rdd的partition是否有被cache、chencjpoint,如果有那么task的最佳位置就被cache或者checkpoint的partition的位置

调用过程：

submitMissingTasks->getPreferredLocs->getPreferredLocsInternal

 
       1   
       // 计算每个task对应的partition最佳位置 
      
       2   
         // 从stage的最后一个rdd开始查找，看rdd的partition是否有被cache、chencjpoint, 
      
       3   
         // 如果有那么task的最佳位置就被cache或者checkpoint的partition的位置 
      
       4   
         private def getPreferredLocsInternal( 
      
       5   
             rdd: RDD[_], 
      
       6   
             partition: Int, 
      
       7   
             visited: HashSet[(RDD[_],Int)]) 
      
       8   
           : Seq[TaskLocation] = 
      
       9   
         { 
      
       10   
           // If the partition has already been visited, no need to re-visit. 
      
       11   
           // This avoids exponential path exploration.  SPARK-695 
      
       12   
           if (!visited.add((rdd,partition))) { 
      
       13   
             // Nil has already been returned for previously visited partitions. 
      
       14   
             return Nil 
      
       15   
           } 
      
       16   
           // If the partition is cached, return the cache locations 
      
       17   
           // 寻找rdd是否被缓存 
      
       18   
           val cached = getCacheLocs(rdd)(partition) 
      
       19   
           if (!cached.isEmpty) { 
      
       20   
             return cached 
      
       21   
           } 
      
       22   
           // If the RDD has some placement preferences (as is the case for input RDDs), get those 
      
       23   
           // 寻找当前RDD是否被cachepoint 
      
       24   
           val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList 
      
       25   
           if (!rddPrefs.isEmpty) { 
      
       26   
             return rddPrefs.map(TaskLocation(_)) 
      
       27   
           } 
      
       28   
           // If the RDD has narrow dependencies, pick the first partition of the first narrow dep 
      
       29   
           // that has any placement preferences. Ideally we would choose based on transfer sizes, 
      
       30   
           // but this will do for now. 
      
       31   
           // 递归调用自己寻找rdd的父rdd,检查对应的partition是否被缓存或者checkpoint 
      
       32   
           rdd.dependencies.foreach { 
      
       33   
             case n: NarrowDependency[_] => 
      
       34   
               for (inPart <- n.getParents(partition)) { 
      
       35   
                 val locs = getPreferredLocsInternal(n.rdd, inPart, visited) 
      
       36   
                 if (locs != Nil) { 
      
       37   
                   return locs 
      
       38   
                 } 
      
       39   
               } 
      
       40   
             case _ => 
      
       41   
           } 
      
       42   
           // 如果stage从最后一个rdd到最开始的rdd，partiton都没有被缓存或者cachepoint， 
      
       43   
           // 那么task的最佳位置(preferredLocs)为Nil 
      
       44   
           Nil 
      
       45   
         }

转载于:https://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97%E4%B9%8BDAGScheduler%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86.html

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
勇士赢了，我把掌声给了骑士复角度的生活
今天，不参加高考，只看NBA总决赛第三场的较量。这么说有点得罪高考生了，不过我没有当他们面秀，也没有跑到考点外面得瑟，所以我内心毫无波澜。毫无疑问，考场里不乏骑士和勇士球迷，在紧张作答语文考卷同时还心系着球队，不过我希望今天的比赛不会让你们有所分心，毕竟高考不会像比赛录像那样可以再来。今天，好像起来赶考一样，我起得很早，然而事实是睡不着，挺郁闷的，又不是我高考，我紧张什么？九点我并没有准时打开浏览
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
安徽省这个湖,比西湖大8倍,称是安徽的北戴河, 合肥的后花园旅游小号角
旅游爱好者都知道，安徽省是一个旅游资源十分丰富的省份，且不说黄山、九华山、天柱山这三大名山，单说湖泊就不比其它省份少，今天我们一起走遍世界将为大家说说一个号称安徽北戴河，合肥后花园的湖泊，看看到底是哪个湖泊？话说，这个湖泊位于安徽省六安市舒城县境内，东距合肥50千米，大约一个小时左右的车程，它号称是合肥的后花园，安徽的北戴河。相传，湖畔石壁之上有一奇石神似观音临湖，湖中漂动众多小岛栩栩如佛子，宛若
《太虚游》第六十二章。玄牝之威。古楼臭道士
“好好好，流云这孩子深得我心，想必长爻知道是你的话定然会惊喜不已的。”白玄牝听得风流云应了下来，脸色慈和，伸手在他头顶轻轻抚了抚，如同抚在怀中九尾小狐一样自然，极其温柔。身后的四位青丘长老同时一怔，嘴角微动，似要开口劝阻。风流云只感到一道霞光瑞气如有实质一般顺着头顶百会大穴直沉在下丹田内，随后这股气息又逐渐凝聚，似乎给自己吃了什么东西一般。啊喔不好，这祖奶奶该不会是看中我这肉身，像人魔一样，要给她
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
九月班级管理工作反思追梦蜂
这个月应该算是最难的一个月，我已N年没当班主任，然后我又开始当了。职称是一方面，想到我如果退休了，不能再接触学生了，那该是多么遗憾的事！我的学生梁*铭是我的榜样，她那么努力，那么拼，那么上进，为什么我不行？虽然我面临的工作很难，但是高考数学也不容易。她拿下来了！满分150分她考了146分！我目睹她的艰辛，她的拼搏！还有，我要为我的孩子做榜样，如何竭尽全力，实现梦想。还有，服务，为社会做事，也是会有
那年你来了阿尔巴
你孕育在母亲的子宫里已经九个月了。看她大腹便便的样子，我想：我们的女儿一定是个胖姑娘啦。那时总是觉得你的母亲会生一个女儿，那些有着生育经验的妇人们都说肚子圆圆的是女孩，如果是男孩肚子则是尖尖的。转眼到了一朝分娩的时候，你在里面踢打的越来越频繁，使母亲不断的阵痛，你是真的想往这个世界吗？医生进病房来，边询问边抚摸，然后说：还早。阵痛一下平息了，你肯定是觉察到了那双手的陌生。我步出医院，漫行于元宵节前
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
(159)时序收敛---＞(09)时序收敛九 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛九（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）F
准备胡珊珊乐平九小
尊敬的各位领导、各位同仁们：大家上午好！我是来自乐平九小的胡珊珊。今天很高兴能有机会给大家做“智慧作业”应用培训。说到“智慧作业”我感触颇多，我是在智慧作业中成长起来的，我也时常以自己是一名“智慧作业人”自居。早在2020年疫情期间，学校电教处周光杰主任在学校群里发出智慧作业抢题通知，我看了有些心动，一节微课相当于一次省级公开课，这对于我们普通老师是多么难得的机会啊。但想归想，我也不会用软件啊，再
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
在RabbitMQ中四种常见的消息路由模式 Xwzzz_ rabbitmq 分布式
1.Fanout模式Fanout模式的交换机是扇出交换机（FanoutExchange），它会将消息广播给所有绑定到它的队列，而不考虑消息的内容或路由键。工作原理：生产者发送消息到FanoutExchange。FanoutExchange会将消息广播给所有绑定到它的队列，所有绑定的队列都会收到这条消息。消费者监听绑定的队列，处理收到的消息。特点：没有路由键：消息不需要路由键，所有绑定的队列都会接收
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
为什么学生不喜欢上学虾虾说
图片发自App《为什么学生不喜欢上学》作者是丹尼尔·威林厄姆。本书从认知心理学角度，结合大量实证案例，阐释了大脑工作的基本原理，回答了关于学习过程的一系列问题。为什么学生不喜欢上学？——大脑工作的基本原理思考是缓慢的、费力的、不可靠的。思考有三个要素，环境、工作记忆和长期记忆。环境是信息来源；长期记忆是知识、经验的巨型仓库，随时可以调取；工作记忆是中央处理器，是加工信息素材的中央厨房，也是思考过程
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

1	object wordcount {
2
3	def main(args: Array[String]) {
4	val conf = new SparkConf()
5	conf.setAppName("wordcount").setMaster("local")
6
7	val sc = new SparkContext(conf)
8	// 产生HadoopRDD->MapPartitionsRDD
9	val lines = sc.textFile("C://Users//Administrator//Desktop//wordcount.txt", 1)
10	// 产生FlatMappedRDD
11	val words = lines.flatMap(line=>line.split(" "))
12	// 产生MapPartitionsRDD
13	val pairs = words.map(word=>(word,1))
14	//产生MapPartitionsRDD -> ShuffleRDD -> MapPartitionsRDD, 产生三个RDD
15	val result= pairs.reduceByKey(_ + _);
16	// foreach为action操作，通过SparkContext的runJob方法去触发job(DAGScheduler)
17	result.foreach(count=>println(count))
18	}
19	}

1	private[scheduler] def handleJobSubmitted(jobId: Int,
2	finalRDD: RDD[_],
3	func: (TaskContext, Iterator[_]) => _,
4	partitions: Array[Int],
5	allowLocal: Boolean,
6	callSite: CallSite,
7	listener: JobListener,
8	properties: Properties = null)
9	{
10	var finalStage: Stage = null
11	try {
12	// New stage creation may throw an exception if, for example, jobs are run on a
13	// HadoopRDD whose underlying HDFS files have been deleted.
14	// 使用job的最后一个rdd创建finalStage,并加入到DAGScheduler内部缓存中(stageIdToStage)
15	finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)
16	} catch {
17	case e: Exception =>
18	logWarning("Creating new stage failed due to exception - job: " + jobId, e)
19	listener.jobFailed(e)
20	return
21	}
22	if (finalStage != null) {
23	// 使用finalStage创建一个Job，也就是该Job的最后一个stage
24	val job = new ActiveJob(jobId, finalStage, func, partitions, callSite, listener, properties)
25	clearCacheLocs()
26	logInfo("Got job %s (%s) with %d output partitions (allowLocal=%s)".format(
27	job.jobId, callSite.shortForm, partitions.length, allowLocal))
28	logInfo("Final stage: " + finalStage + "(" + finalStage.name + ")")
29	logInfo("Parents of final stage: " + finalStage.parents)
30	logInfo("Missing parents: " + getMissingParentStages(finalStage))
31	val shouldRunLocally =
32	localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1
33	val jobSubmissionTime = clock.getTimeMillis()
34	// 对于没有父stage的job 本地执行
35	if (shouldRunLocally) {
36	// Compute very short actions like first() or take() with no parent stages locally.
37	listenerBus.post(
38	SparkListenerJobStart(job.jobId, jobSubmissionTime, Seq.empty, properties))
39	// 本地执行Job
40	runLocally(job)
41	} else {
42	// 将Job加入内存缓存中
43	jobIdToActiveJob(jobId) = job
44	activeJobs += job
45	finalStage.resultOfJob = Some(job)
46	val stageIds = jobIdToStageIds(jobId).toArray
47	val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
48	listenerBus.post(
49	SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
50	// 提交stage,所有的stage都放入waitingStages队列里
51	submitStage(finalStage)
52	}
53	}
54	submitWaitingStages()
55	}

1	private def submitStage(stage: Stage) {
2	val jobId = activeJobForStage(stage)
3	if (jobId.isDefined) {
4	logDebug("submitStage(" + stage + ")")
5	if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
6	//获取当前stage的父stage
7	val missing = getMissingParentStages(stage).sortBy(_.id)
8	logDebug("missing: " + missing)
9	if (missing == Nil) {
10	logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
11	// 为stage创建task,且task数据与partition数量相同
12	submitMissingTasks(stage, jobId.get)
13	} else {
14	// 提交父stage
15	for (parent <- missing) {
16	submitStage(parent)
17	}
18	// 将stage加入waitingStages缓存中
19	waitingStages += stage
20	}
21	}
22	} else {
23	abortStage(stage, "No active job for stage " + stage.id)
24	}
25	}

1	// stage划分算法的具体实现
2	// 对于一个stage如果它的最后一个rdd的所有依赖都是窄依赖，那么不会创建新的stage,
3	// 但如果存在宽依赖，就用宽依赖的那个rdd创建一个新的stage并返回
4	private def getMissingParentStages(stage: Stage): List[Stage] = {
5	val missing = new HashSet[Stage]
6	val visited = new HashSet[RDD[_]]
7	// We are manually maintaining a stack here to prevent StackOverflowError
8	// caused by recursively visiting
9	val waitingForVisit = new Stack[RDD[_]]
10	def visit(rdd: RDD[_]) {
11	if (!visited(rdd)) {
12	visited += rdd
13	if (getCacheLocs(rdd).contains(Nil)) {
14	// 遍历RDD
15	for (dep <- rdd.dependencies) {
16	dep match {
17	// 宽依赖处理
18	case shufDep: ShuffleDependency[_, _, _] =>
19	// 创建stage,并将isShuffleMap设置为true
20	val mapStage = getShuffleMapStage(shufDep, stage.jobId)
21	if (!mapStage.isAvailable) {
22	// 将新创建的stage缓存到missing中
23	missing += mapStage
24	}
25	// 窄依赖处理
26	case narrowDep: NarrowDependency[_] =>
27	// 将依赖的rdd放入栈中
28	waitingForVisit.push(narrowDep.rdd)
29	}
30	}
31	}
32	}
33	}
34	// 向waitingForVisit栈中压rdd
35	waitingForVisit.push(stage.rdd)
36	while (!waitingForVisit.isEmpty) {
37	visit(waitingForVisit.pop())
38	}
39	// 返回stage列表
40	missing.toList
41	}

1	// 为stage创建一批task，且task数量与partition数量相同
2	private def submitMissingTasks(stage: Stage, jobId: Int) {
3	logDebug("submitMissingTasks(" + stage + ")")
4	// Get our pending tasks and remember them in our pendingTasks entry
5	stage.pendingTasks.clear()
6
7	// First figure out the indexes of partition ids to compute.
8	// 获取需要创建的partition数量
9	val partitionsToCompute: Seq[Int] = {
10	if (stage.isShuffleMap) {
11	(0 until stage.numPartitions).filter(id => stage.outputLocs(id) == Nil)
12	} else {
13	val job = stage.resultOfJob.get
14	(0 until job.numPartitions).filter(id => !job.finished(id))
15	}
16	}
17
18	................................
19
20	// 将stae加入到runningStages缓存中
21	runningStages += stage
22
23	................................
24
25	// 为stage创建指定数量的task,并计算最佳位置
26	val tasks: Seq[Task[_]] = if (stage.isShuffleMap) {
27	partitionsToCompute.map { id =>
28	// 计算最佳位置
29	val locs = getPreferredLocs(stage.rdd, id)
30	val part = stage.rdd.partitions(id)
31	// 创建ShuffleMapTask
32	new ShuffleMapTask(stage.id, taskBinary, part, locs)
33	}
34	} else {
35	val job = stage.resultOfJob.get
36	partitionsToCompute.map { id =>
37	val p: Int = job.partitions(id)
38	val part = stage.rdd.partitions(p)
39	val locs = getPreferredLocs(stage.rdd, p)
40	// 给final stage创建ResultTask
41	new ResultTask(stage.id, taskBinary, part, locs, id)
42	}
43	}
44
45	if (tasks.size > 0) {
46	logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
47	stage.pendingTasks ++= tasks
48	logDebug("New pending tasks: " + stage.pendingTasks)
49	// 对stage的task创建TaskSet对象，调用TaskScheduler的submitTasks()方法提交TaskSet
50	taskScheduler.submitTasks(
51	new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))
52	stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
53	}
54
55	......................
56	}

1	// 计算每个task对应的partition最佳位置
2	// 从stage的最后一个rdd开始查找，看rdd的partition是否有被cache、chencjpoint,
3	// 如果有那么task的最佳位置就被cache或者checkpoint的partition的位置
4	private def getPreferredLocsInternal(
5	rdd: RDD[_],
6	partition: Int,
7	visited: HashSet[(RDD[_],Int)])
8	: Seq[TaskLocation] =
9	{
10	// If the partition has already been visited, no need to re-visit.
11	// This avoids exponential path exploration. SPARK-695
12	if (!visited.add((rdd,partition))) {
13	// Nil has already been returned for previously visited partitions.
14	return Nil
15	}
16	// If the partition is cached, return the cache locations
17	// 寻找rdd是否被缓存
18	val cached = getCacheLocs(rdd)(partition)
19	if (!cached.isEmpty) {
20	return cached
21	}
22	// If the RDD has some placement preferences (as is the case for input RDDs), get those
23	// 寻找当前RDD是否被cachepoint
24	val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList
25	if (!rddPrefs.isEmpty) {
26	return rddPrefs.map(TaskLocation(_))
27	}
28	// If the RDD has narrow dependencies, pick the first partition of the first narrow dep
29	// that has any placement preferences. Ideally we would choose based on transfer sizes,
30	// but this will do for now.
31	// 递归调用自己寻找rdd的父rdd,检查对应的partition是否被缓存或者checkpoint
32	rdd.dependencies.foreach {
33	case n: NarrowDependency[_] =>
34	for (inPart <- n.getParents(partition)) {
35	val locs = getPreferredLocsInternal(n.rdd, inPart, visited)
36	if (locs != Nil) {
37	return locs
38	}
39	}
40	case _ =>
41	}
42	// 如果stage从最后一个rdd到最开始的rdd，partiton都没有被缓存或者cachepoint，
43	// 那么task的最佳位置(preferredLocs)为Nil
44	Nil
45	}

Spark系列(九)DAGScheduler工作原理

你可能感兴趣的:(Spark系列(九)DAGScheduler工作原理)