代码不会写

Spark2.2-Task序列化源码解析

源码版本：2.2

如有错误请指正

一、前言

Spark在运行应用程序时，会根据RDD的操作，将数据处理流程划分为多个stage进行计算，其中划分stage的依据是数据是否产生shuffle。在同一个stage中，RDD之间的依赖都是窄依赖。一个stage下会有多个task，每个task针对不同的分区数据执行同样的运算逻辑。

在Spark集群模式下，多个不同的task可能运行在不同的节点上。那么，是什么机制来确保Spark集群下不同节点都能运行同样的计算逻辑呢？

在Spark中，针对RDD的操作都是一个一个闭包，Spark在进行Job提交时会将操作作为闭包进行序列化发送到执行具体task的节点上，这样就可以达到移动计算逻辑而不是数据的目的，提高计算效率。

二、具体流程

SparkContext初始化时对DAGScheduler和TaskScheduler进行初始化，同时根据部署模式初始化对应的SchedulerBackend
任务提交时触发SparkContext中的runJob
SparkContex向DAGScheduler提交runJob
DAGScheduler向它自己的事件处理器DAGSchedulerEventProcessLoop发送JobSubmitted事件
DAGScheduler创建ResultStage，并往前回溯，遇到shuffle则划分出新的stage
DAGScheduler划分完成后提交stage，遍历回溯提交父stage，如果父stage都完成了，则提交task
DAGScheduler序列化task，并进行广播
DAGScheduler构建task集合，并向TaskScheduler提交任务集，任务集中包含了已经序列化的任务信息
TaskScheduler创建任务集管理器TaskSetManager，向SchedulerBackend申请资源
SchedulerBackend在申请到资源后，执行launchTasks方法，将TaskSet中的Task一个一个地发送到Executor去执行。

三、源码分析

3.1 SparkContext提交任务

Spark应用程序中对Dataset执行一系列操作

点击Dataset中的一个具体操作，例如collect函数中，可以发现Dataset在执行具体的transformation或是action操作时，实际上已经生成了一个执行计划。

具体执行计划是如何生成的，涉及到Spark SQL中的实现细节，这里不做详细描述，之后单独对Spark SQL原理进行解读。

在执行执行计划中的具体操作时，都会掉用SparkContext中的runJob方法，具体是如何调用的，在之后的Spark SQL原理解读中再进行详细描述。

在调用runJob方法时，可以看到，当前的执行函数作为一个参数传给了SparkContext的runJob方法。

SparkContext在获取到func时，首先会对它做一个闭包清理。在ClosureCleaner类中的clean方法验证闭包是否可以被序列化，是否可以直接对它进行转换清理。

private def clean(
    func: AnyRef,
    checkSerializable: Boolean,
    cleanTransitively: Boolean,
    accessedFields: Map[Class[_], Set[String]]): Unit = {

  if (!isClosure(func.getClass)) {
    logWarning("Expected a closure; got " + func.getClass.getName)
    return
  }

  // TODO: clean all inner closures first. This requires us to find the inner objects.
  // TODO: cache outerClasses / innerClasses / accessedFields

  if (func == null) {
    return
  }

  logDebug(s"+++ Cleaning closure $func (${func.getClass.getName}) +++")

  // A list of classes that represents closures enclosed in the given one
  val innerClasses = getInnerClosureClasses(func)

  // A list of enclosing objects and their respective classes, from innermost to outermost
  // An outer object at a given index is of type outer class at the same index
  val (outerClasses, outerObjects) = getOuterClassesAndObjects(func)

  // For logging purposes only
  val declaredFields = func.getClass.getDeclaredFields
  val declaredMethods = func.getClass.getDeclaredMethods

  logDebug(" + declared fields: " + declaredFields.size)
  declaredFields.foreach { f => logDebug("     " + f) }
  logDebug(" + declared methods: " + declaredMethods.size)
  declaredMethods.foreach { m => logDebug("     " + m) }
  logDebug(" + inner classes: " + innerClasses.size)
  innerClasses.foreach { c => logDebug("     " + c.getName) }
  logDebug(" + outer classes: " + outerClasses.size)
  outerClasses.foreach { c => logDebug("     " + c.getName) }
  logDebug(" + outer objects: " + outerObjects.size)
  outerObjects.foreach { o => logDebug("     " + o) }

  // Fail fast if we detect return statements in closures
  getClassReader(func.getClass).accept(new ReturnStatementFinder(), 0)

  // If accessed fields is not populated yet, we assume that
  // the closure we are trying to clean is the starting one
  if (accessedFields.isEmpty) {
    logDebug(s" + populating accessed fields because this is the starting closure")
    // Initialize accessed fields with the outer classes first
    // This step is needed to associate the fields to the correct classes later
    for (cls <- outerClasses) {
      accessedFields(cls) = Set[String]()
    }
    // Populate accessed fields by visiting all fields and methods accessed by this and
    // all of its inner closures. If transitive cleaning is enabled, this may recursively
    // visits methods that belong to other classes in search of transitively referenced fields.
    for (cls <- func.getClass :: innerClasses) {
      getClassReader(cls).accept(new FieldAccessFinder(accessedFields, cleanTransitively), 0)
    }
  }

  logDebug(s" + fields accessed by starting closure: " + accessedFields.size)
  accessedFields.foreach { f => logDebug("     " + f) }

  // List of outer (class, object) pairs, ordered from outermost to innermost
  // Note that all outer objects but the outermost one (first one in this list) must be closures
  var outerPairs: List[(Class[_], AnyRef)] = (outerClasses zip outerObjects).reverse
  var parent: AnyRef = null
  if (outerPairs.size > 0) {
    val (outermostClass, outermostObject) = outerPairs.head
    if (isClosure(outermostClass)) {
      logDebug(s" + outermost object is a closure, so we clone it: ${outerPairs.head}")
    } else if (outermostClass.getName.startsWith("$line")) {
      // SPARK-14558: if the outermost object is a REPL line object, we should clone and clean it
      // as it may carray a lot of unnecessary information, e.g. hadoop conf, spark conf, etc.
      logDebug(s" + outermost object is a REPL line object, so we clone it: ${outerPairs.head}")
    } else {
      // The closure is ultimately nested inside a class; keep the object of that
      // class without cloning it since we don't want to clone the user's objects.
      // Note that we still need to keep around the outermost object itself because
      // we need it to clone its child closure later (see below).
      logDebug(" + outermost object is not a closure or REPL line object, so do not clone it: " +
        outerPairs.head)
      parent = outermostObject // e.g. SparkContext
      outerPairs = outerPairs.tail
    }
  } else {
    logDebug(" + there are no enclosing objects!")
  }

  // Clone the closure objects themselves, nulling out any fields that are not
  // used in the closure we're working on or any of its inner closures.
  for ((cls, obj) <- outerPairs) {
    logDebug(s" + cloning the object $obj of class ${cls.getName}")
    // We null out these unused references by cloning each object and then filling in all
    // required fields from the original object. We need the parent here because the Java
    // language specification requires the first constructor parameter of any closure to be
    // its enclosing object.
    val clone = instantiateClass(cls, parent)
    for (fieldName <- accessedFields(cls)) {
      val field = cls.getDeclaredField(fieldName)
      field.setAccessible(true)
      val value = field.get(obj)
      field.set(clone, value)
    }
    // If transitive cleaning is enabled, we recursively clean any enclosing closure using
    // the already populated accessed fields map of the starting closure
    if (cleanTransitively && isClosure(clone.getClass)) {
      logDebug(s" + cleaning cloned closure $clone recursively (${cls.getName})")
      // No need to check serializable here for the outer closures because we're
      // only interested in the serializability of the starting closure
      clean(clone, checkSerializable = false, cleanTransitively, accessedFields)
    }
    parent = clone
  }

  // Update the parent pointer ($outer) of this closure
  if (parent != null) {
    val field = func.getClass.getDeclaredField("$outer")
    field.setAccessible(true)
    // If the starting closure doesn't actually need our enclosing object, then just null it out
    if (accessedFields.contains(func.getClass) &&
      !accessedFields(func.getClass).contains("$outer")) {
      logDebug(s" + the starting closure doesn't actually need $parent, so we null it out")
      field.set(func, null)
    } else {
      // Update this closure's parent pointer to point to our enclosing object,
      // which could either be a cloned closure or the original user object
      field.set(func, parent)
    }
  }

  logDebug(s" +++ closure $func (${func.getClass.getName}) is now cleaned +++")

  if (checkSerializable) {
    ensureSerializable(func)
  }
}

3.2 DAGScheduler序列化并提交任务

SparkContext在runJob方法中调用了它所拥有的DAGScheduler的runJob方法来运行Job。

DAGScheduler在它的runJob方法中，通过submitJob方法提交任务，获取一个一直阻塞等待Job执行完毕的对象JobWaiter。

在submitJob方法中，DAGScheduler首先会对func的类型进行处理，（为什么会做这样的类型转换？？？）向它的事件处理器发送JobSubmitted

在DAGScheduler实际对JobSubmitted事件进行处理时，func函数的类型已经从(TaskContext, Iterator[_]) => U 转换成了(TaskContext, Iterator[_]) => _

在经过一系列的stage划分等操作，最终提交任务是在DAGScheduler中的submitMissingTasks方法进行处理，我们可以看到抽象类Stage有两个具体实现类ShuffleMapStage和ResultStage，其中只有ResultStage中才有具体的执行操作func。

ShuffleMapStage是在DAG中为shuffle生成数据的中间stage。它们在每一个shffle操作前发生，并且可能包含多个pipelined操作（eg map和filter）。在执行时，ShuffleMapStage会将后面reduce task将会使用到的数据保存为输出文件。'ShfuuleDep'字段描述了每个阶段的shuffle，'outputLocs'和'numAvailableOutputs'变量跟踪了map输出的就绪情况。
ResultStage将一个函数运行在RDD的某些分区，来计算一个action操作的结果。ResultStage对象捕获要执行的函数，'func'，它将会在每一个分区上运行，'partitions'变量存放的是分区的ID集合。一些stage可能不会在RDD的所有分区上运行，例如first和lookup action

由于只有ResultStage中才会包含func信息，DAGScheduler在submitMissingTasks方法中提交task时会区分stage类型类进行序列化。提交task之前首先会进行一些状态更新和获取数据Loc的操作。

更新状态后，DAGScheduler会根据stage的类型来讲stage序列化为二进制的task。针对ShuffleMapStage，会将它的rdd和shuffleDep进行序列化。针对ResultStage，如前面所说，ResultStage对象捕获要执行的函数，'func'，它将会在每一个分区上运行，序列化时会将rdd和func进行序列化。注意，虽然Spark有多种序列化的实现，但在序列化任务信息时，只会采用JavaSerializer。即DAGScheduler中的closureSerializer的固定默认实现是JavaSerializerInstance。

我们再跳转到JavaSerializerInstance的serialize和deserialize方法中可以发现，Spark的JavaSerializerInstance在对闭包进行序列化时，并没有涉及到闭包的独有信息。闭包在进入序列化之前需要先做自己的校验和清理工作，这部分代码是在前面讲的SparkContext中调用ClosureCleaner的clean方法实现的，对闭包的innerClass、declaredField和declaredMethod等方法进行了校验（具体的校验逻辑和原理暂时还未理清）。

Spark的JavaSerializer中的序列化和反序列化方法中基于java.io的ByteArrayOutputStream和InputStream封装了自己的字节输入输出流ByteBufferOutputStream和ByteBufferInputStream。序列化完成后的结果是一个Byte数组Array[Byte]，DAGScheduler会委托SparkContext将这些字节码广播给每一个工作节点。当遇到闭包中存在无法序列化的对象和引用时，会直接触发stage的失败。

完成RDD和func/ shuffleDep的序列化之后，DAGScheduler会根据分区的id、数据本地性结合上一步序列化后的二进制码结果，构造出一系列的Task，这里的Task的运行逻辑一致，但分区id和数据本地性信息是根据要计算的数据的分区信息来进行包装的。

TaskSet构造完成后，DAGScheduler向TaskScheduler提交任务

3.3 TaskScheduler提交具体任务到Executor

TaskScheduler的submitTasks后会构造任务集管理器TaskSetManager来跟踪任务的运行状况，并向SchedulerBackend申请资源。

SchedulerBackend在申请到资源后，会调用Executor中的launchTask来执行具体任务，在执行具体任务是，构造了一个TaskRunner的Runnable对象，TaskRunner对象中存放了具体的Task信息：

TaskDescription，里面包括了Task的描述信息、依赖的jar文件和序列化的task信息。

3.4 Exectutor反序列化任务并执行

Task的具体反序列化过程在Executor中的TaskRunner中的run方法中，即任务实际执行时进行反序列化，我们可以重点看一下TaskRunner中的run方法：

TaskRunner中的反序列化方法是通过获取env中的闭包反序列化实例获得的，这里默认只能使用JavaSerializerInstance进行反序列化，但注意，这里的反序列化之后真正执行的函数还是binary数据。

第一步updateDependencies下载SparkContext广播的JAR和文件，添加jar到classpath中

第二步操作中对task进行真正的反序列化，使用更新后的当前线程类加载器

task = ser.deserialize[Task[Any]](
  taskDescription.serializedTask, Thread.currentThread.getContextClassLoader)

反序列化后真正执行任务是通过调用抽象类Task的run方法来完成的

抽象类Task的run方法是一个final方法，抽象类有两种不同的实现ShuffleMapTask和ResultTask。抽象类Task中的run方法再调用实际Task实现类的runTask方法进行。在这里才会将真正的函数binary数据反序列化为真正的RDD和func。

反序列化出func后，实际运行func，完成数据计算工作。

四、问题

通过上面的源码分析，可以理解Task序列化的整体流程和大概的序列化细节。但具体针对闭包的序列化还是有一些需要仔细研究的点

闭包的序列化清理原理
闭包的JAR依赖
ClassLoader隔离机制

Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
从0开始使用Docker搭建Spark集群吃鱼的羊 SPARK Hadoop
https://www.jianshu.com/p/ee210190224f?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术，朋友叫我直接学习Spark，英雄不问出处，菜鸟不问对错，于是我就开始了Spark学习。为什么要在Docker上搭建Spark集群
PySpark学习笔记5-SparkSQL 兔子宇航员0301 数据开发小白成长笔记学习笔记
sparkSql的数据抽象有两种。一类是dataset适用于java和Scala一类是dataframe适用于java，Scala，python将rdd转换为dataframe#方式一df=spark.createDataFrame(rdd,schema=['name','age'])#方式二schema=Structtype().add('id',integertype(),nullable=F
pySpark学习笔记4——预处理csv数据3 小李飞刀李寻欢 NLP与推荐算法 pySpark hdfs dataframe csv
嗨，各位大佬好，我是开局一手好牌，最后打得稀烂，输掉所有的菜鸟小明哥。本文仍旧是pySpark系列继续，欢迎关注，并请持续关注。入门，开始，继续。有大佬说，很多人写博文都是开篇啥的，往往只有一两篇，后来再无更新，而我不是，专注，持续深入才是我的本色。回到征途，在spark中，有很多函数可能你并不知道或者真的没有，那么就需要自己定义个函数了，这很正常，这就是udf，即望文生义——userdefine
spark学习资料 Liam_ml
AdvancedApacheSpark-SameerFarooqui(Databricks)”(https://www.youtube.com/watch?v=7ooZ4S7Ay6Y)将几天的课程浓缩到了一天，质量非常好。Spark的文档：Overview-Spark1.6.1Documentation,这里面包含项目介绍，代码示例，配置，部署，调优等等，入门使用足够了。Sparkrepo：apa
Hudi学习 6：Hudi使用 hzp666 Hudi hudi 数据湖湖仓一体湖仓融合实时数仓
准备工作：1.安装hdfshttps://mp.csdn.net/mp_blog/creation/editor/1096891432.安装sparkspark学习4：spark安装_hzp666的博客-CSDN博客3.安装ScalaHudi学习6：安装和基本操作_hzp666的博客-CSDN博客spark-shell写入和读取hudi2.模拟数据插入hudi使用spark写入数据
spark学习4：spark安装 hzp666 spark spark 大数据
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-hadoop3.2/conf/2.4.添加动态库在hadoop-3.2.2/bin目录下添加hadoop.dll和winutils.exe文件，可以从https://github.com/cdarlint/winutils和https://github.com/steveloughran/winutils
pyspark学习-自定义udf heiqizero spark spark
#demo1:frompyspark.sqlimportSparkSession,Rowif__name__=='__main__':spark=SparkSession.builder.getOrCreate()num=spark.sparkContext.parallelize([1,2,3,4,5]).map(lambdax:Row(num=x))numDF=spark.createData
pyspark学习-spark.sql.functions normal函数 heiqizero spark spark
1.col#col(col)"""作用:返回一个基于已给列名的列信息场景:类似于dataframe格式中提取data["id"],能够进行计算参数: col:列名返回: column:返回一个基于已给列名的列信息"""spark=SparkSession.builder.getOrCreate()data=spark.range(3)data.select(col("id").alias(
[Spark] 如何设置Spark资源 LZhan
转自1.公众号[Spark学习技巧]如何设置Spark资源2.Spark性能优化篇一：资源调优Spark和YARN管理的两个主要资源：CPU和内存应用程序中每个SparkExecutor都具有相同的固定数量的核心和相同的固定堆大小。使用--executor-cores命令行参数或者通过设置spark.executor.cores属性指定核心数；使用--executor-memory命令行参数或者通
pyspark学习-spark.sql.functions 聚合函数 heiqizero spark spark
https://spark.apache.org/docs/3.4.1/api/python/reference/pyspark.sql/functions.html1.approx_count_distinct和count_distinct#approx_count_distinct(col:ColumnOrName,rsd:Optionnal[float]=None)"""作用:返回列col的
spark学习笔记：弹性分布式数据集RDD(Resilient Distributed Dataset) 黄道婆 bigdata
弹性分布式数据集RDD1.RDD概述1.1什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。D
pyspark学习_dataframe常用操作_02 heiqizero spark spark
#回顾01常用操作frompysparkimportSparkSession,DataFramespark=SparkSession.builder.getOrCreate()peopleDF=spark.read.json("people.json")peopleDF.printSchema()#显示DataFrame的模式信息peopleDF.show()#显示DataFrame的数据信息pe
Spark学习笔记五：Spark资源调度和任务调度开发者连小超
一、StageSpark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。stage切割规则切
pyspark学习_wordcount heiqizero spark spark python
#统计文件中每个字母出现次数#第一版rdd文件行类型:Aaron,OperatingSystem,100frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("RddwordCount").setMaster("local[*]")sc=SparkContext(conf=conf)lines=sc.textFile(
pyspark学习_RDD转为DataFrame heiqizero spark spark python
#方法1：反射机制推断RDD模式people.txtTom12Jack13Janny14frompyspark.sqlimportSparkSession,Rowspark=SparkSession.builder.getOrCreate()lines=spark.sparkContext.textFile("people.txt")people=lines.map(lambdax:x.split
pyspark学习-RDD转换和动作 heiqizero spark spark python
#RDD创建#1.parallelize方法：创建RDD,参数为list,返回RDDsc.parallelize(param:list)#demosc.parallelize(['tom','jack','black'])#2.textFile方法：读取文件,创建RDD,参数为hdfs文件地址或者本地文件地址,返回RDDsc.textFile(param:filepath)#demosc.text
pyspark学习_dataframe常用操作_01 heiqizero spark spark python
1.创建DataFrame本文使用DataFrame通过读取json文件获取数据，代码如下:frompyspark.sqlimportSparkSessionspark=SparkSeesion.builder.getOrCreate()#创建sparkSessionpeopleDF=spark.read.format("json").load("people.json")"""spark支持读取
Spark学习（8）-SparkSQL的运行流程，Spark On Hive 技术闲聊DD 大数据 hive spark 学习
1.SparkSQL的运行流程1.1SparkRDD的执行流程回顾1.2SparkSQL的自动优化RDD的运行会完全按照开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。而SparkSQL会对写完的代码，执行“自动优化”，以提升代码运行效率，避免开发者水平影响到代码执行效率。这是因为：RDD：内含数据类型不限格式和结构。DataFrame：100%是二维表结构，可以被针对Spar
Apriori BluthLeee
Apriori算法原理总结-刘建平FPTree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用Spark学习FPTree算法和PrefixSpan算法-刘建平
Spark学习之Spark Core John Stones spark big data scala
什么是Spark？（官网：http://spark.apache.org）https://www.cnblogs.com/lq0310/p/9841647.html
【大数据】Spark学习笔记 pass night 学习笔记 java spark 大数据 sql
初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型MapReduceResilientdistributedDatesets内存管理DiskBasedJVMManaged延迟高中吞吐量中高优化机制手动手动APILowlevelhighleve
spark学习之旅（2）之之RDD常用方法浩哥的技术博客 spark spark 大数据
RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。这里的弹性指的是RDD可以根据当前情况自动进行内存和硬盘存储的转换简单点讲就是spark中对数据的一个封装，把数据封装进对象，容易操作在spark中所有的计算都是围绕着RDD操作的，每个RDD都被分为多个分区，这些分区运行在集群
spark学习一-------------------Spark算子最详细介绍创作者mateo spark 大数据专栏 spark 学习 ajax
Spark学习–spark算子介绍1.基本概念spark算子：为了提供方便的数据处理和计算，spark提供了一系列的算子来进行数据处理。一般算子分为action（执行算子）算子Transformation（懒执行）算子。2.Transformation算子基本介绍简介：transformation被称为懒执行算子，如果没有action算子，则代码是不会执行的，一般分为：map算子：map算子是将r
2017.09.06 scala spark学习 RazorH 日记
2.scala没有静态的修饰符，但object下的成员都是静态的,若有同名的class,这其作为它的伴生类。在object中一般可以为伴生类做一些初始化等操作,如我们常常使用的valarray=Array(1,2,3)(ps:其使用了apply方法)scala里的object一般特指的是伴生对象，可以通过对象名直接调用其中的成员，类似Java中的static成员，如果不在当前作用域，需要impor
spark学习笔记（十一）——sparkStreaming-概述/特点/构架/DStream入门程序wordcount 一个人的牛牛 spark 学习 spark scala 大数据
目录SparkStreamingsparkStreamingDStreamsparkStreaming特点sparkStreaming构架背压机制DStream入门SparkStreamingsparkStreamingSparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据
Spark学习——1.代表性大数据技术楓尘林间 Spark Spark 大数据学习
本篇博客是学习子雨大数据之Spark入门教程的学习笔记，仅作学习之用。1.代表性的大数据技术HadoopSparkFlinkBeam主要计算模式如图1-11.1HadoopHadoop的生态系统图如图1-2开源谷歌GFS，利用MapReduce分布式并行编程，MapReduce和HDFS是Hadoop的两大核心。HDFS分布式文件管理系统Hive数据仓库数据仓库，借助底层HDFS和HBase完成存
Spark学习笔记一孤独的偷学者开发环境的搭建大数据 spark
文章目录1Spark架构设计与原理思想1.1Spark初始1.2Spark架构核心1.3Spark的计算阶段1.4Spark执行流程1.4Spark核心模块2Spark运行环境2.1Local模式2.2Standalone模式2.2.1上传与解压Spark压缩包2.2.2默认配置文件的修改2.2.3启动集群2.2.4配置历史服务2.2.5配置高可用（HA）1Spark架构设计与原理思想1.1Spa
大数据Spark学习笔记—sparkcore Int mian[] 大数据大数据 spark hadoop scala 分布式
目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa
20210127_spark学习笔记 yehaver spark
一、部分理论spark:由Scala语言开发的快速、通用、可扩展的基于内存的大数据分析引擎。在mapreduce上进行了优化，但没mapreduce稳定。SparkCore是spark平台的基础通用执行引擎，所有其他功能都是基于。它在外部存储系统中提供内存计算和引用数据集。spark最基础的最核心的功能SparkSQL是SparkCore之上的一个组件，它引入了一个称为SchemaRDD的新数据抽
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin