每天一滴水

spark源码二：sparkContext初始化之spark的执行环境SparkConf

SparkEnv是Spark的执行环境对象，其中包括众多与Executor执行相关的对象。由于在local模式下Driver会创建Executor，local-cluster部署模式或者Standalone部署模式下Worker另起的CoarseGrainedExecutorBackend进程中也会创建Executor，所以SparkEnv存在于Driver或者CoarseGrainedExecutorBackend进程中。创建SparkEnv主要使用SparkEnv的createDriverEnv，SparkEnv.createDriverEnv方法有三个参数：conf、isLocal和llistenerBus。

首先在sparkcontext里创建SparkEnv 的入口

private var _env: SparkEnv = _
_env = createSparkEnv(_conf, isLocal, listenerBus)
    SparkEnv.set(_env)

createSparkEnv

val isLocal = (master == "local" || master.startsWith("local["))
private[spark] def createSparkEnv(
      conf: SparkConf,
      isLocal: Boolean,
      listenerBus: LiveListenerBus): SparkEnv = {
    SparkEnv.createDriverEnv(conf, isLocal, listenerBus)
  }

上面代码中的conf是对SparkConf的复制，isLocal标识是否是单机模式，listenerBus采用监听器模式维护各类事件的处理

createDriverEnv

 private[spark] def createDriverEnv(
      conf: SparkConf,
      isLocal: Boolean,
      listenerBus: LiveListenerBus,
      mockOutputCommitCoordinator: Option[OutputCommitCoordinator] = None): SparkEnv = {
    assert(conf.contains("spark.driver.host"), "spark.driver.host is not set on the driver!")
    assert(conf.contains("spark.driver.port"), "spark.driver.port is not set on the driver!")
    val hostname = conf.get("spark.driver.host")
    val port = conf.get("spark.driver.port").toInt
    create(
      conf,
      SparkContext.DRIVER_IDENTIFIER,
      hostname,
      port,
      isDriver = true,
      isLocal = isLocal,
      listenerBus = listenerBus,
      mockOutputCommitCoordinator = mockOutputCommitCoordinator
    )
  }

SparkEnv的方法createDriverEnv最终调用create创建SparkEnv。SparkEnv的构造步骤如下：
1）创建安全管理器SecurityManager；
2）创建基于Akka的分布式消息系统ActorSystem；
3）创建Map任务输出跟踪器mapOutputTracker；
4）实例化ShuffleManager；
5）创建ShuffleMemoryManager；
6）创建块传输服务BlockTransferService；
7）创建BlockManagerMaster；
8）创建块管理器BlockManager；
9）创建广播管理器BroadcastManager；
10）创建缓存管理器CacheManager；
11）创建HTTP文件服务器HttpFileServer；
12）创建测量系统MetricsSystem
13）创建SparkEnv。

第一步：安全管理器SecurityManager
SecurityManager主要对权限、账号进行设置，如果使用Hadoop YARN作为集群管理器，则需要使用证书生成secret key登录，最后给当前系统设置默认的口令认证实例，此实例采用匿名内部类实现

private val secretKey = generateSecretKey()
// 使用HTTP连接设置口令认证
if (authOn) {
//设置默认口令
    Authenticator.setDefault(
        new Authenticator() {
            override def getPasswordAuthentication(): PasswordAuthentication = {
                var passAuth: PasswordAuthentication = null
            val userInfo = getRequestingURL().getUserInfo()
            if (userInfo != null) {
                val  parts = userInfo.split(":", 2)
                passAuth = new PasswordAuthentication(parts(0), parts(1).toCharArray())
                }
                return passAuth
            }
        }
    )
}

generateSecretKey()

// 密钥用于在Hadoop UGI中存储spark秘密
  private val sparkSecretLookupKey = "sparkCookie"
//安全管理器是否开启了spark 通信协议
private val authOn = sparkConf.getBoolean(SecurityManager.SPARK_AUTH_CONF, false)
//检查是否启用了Spark通信协议的身份验证
//如果启用了身份验证，则返回true，否则为false
def isAuthenticationEnabled(): Boolean = authOn
private def generateSecretKey(): String = {
    //没开启通信协议 设置秘钥为null
    if (!isAuthenticationEnabled) return null
    //开启了通信协议，如果是yarn模式，秘钥从用户凭证（sparkCookie）获得
    val sCookie = if (SparkHadoopUtil.get.isYarnMode) {
      val secretKey = SparkHadoopUtil.get.getSecretKeyFromUserCredentials(sparkSecretLookupKey)
      if (secretKey != null) {
        logDebug("in yarn mode, getting secret from credentials")
        return new Text(secretKey).toString
      } else {
        logDebug("getSecretKey: yarn mode, secret key from credentials is null")
      }
      //如果不是yarn模式，直接生成秘钥
      val cookie = akka.util.Crypt.generateSecureCookie
      // 如果我们生成了密码，在第一时间设置它为生效，以供其他人使用
      SparkHadoopUtil.get.addSecretKeyToUserCredentials(sparkSecretLookupKey, cookie)
      logInfo("adding secret to credentials in yarn mode")
      cookie
    } else {
      //不是yarn模式的时候，设置秘钥的方法
      sys.env.get(SecurityManager.ENV_AUTH_SECRET)
        .orElse(sparkConf.getOption(SecurityManager.SPARK_AUTH_SECRET_CONF)) match {
        case Some(value) => value
        case None => throw new Exception("Error: a secret key must be specified via the " +
          SecurityManager.SPARK_AUTH_SECRET_CONF + " config")
      }
    }
    sCookie
  }

总结SecurityManager，SecurityManager主要对权限、账号进行设置如一些秘钥的设置前提是private val authOn = sparkConf.getBoolean(SecurityManager.SPARK_AUTH_CONF, false) 设置了true

第二步：创建基于Akka的分布式消息系统ActorSystem

ActorSystem是Spark中最基础的设施，Spark既使用它发送分布式消息，又用它实现并发编程。消息系统可以实现并发？要解释清楚这个问题，首先应该简单介绍下Scala语言的Actor并发编程模型：Scala认为Java线程通过共享数据以及通过锁来维护共享数据的一致性是糟糕的做法，容易引起锁的争用，降低并发程序的性能，甚至会引入死锁的问题。在Scala中只需要自定义类型继承Actor，并且提供act方法，就如同Java里实现Runnable接口，需要实现run方法一样。但是不能直接调用act方法，而是通过发送消息的方式（Scala发送消息是异步的）传递数据。如：

Actor ! message

Akka是Actor编程模型的高级类库，类似于JDK 1.5之后越来越丰富的并发工具包，简化了程序员并发编程的难度。ActorSystem便是Akka提供的用于创建分布式消息通信系统的基础类。Akka的具体信息见附录B。
正是因为Actor轻量级的并发编程、消息发送以及ActorSystem支持分布式消息发送等特点，Spark选择了ActorSystem。
SparkEnv中创建ActorSystem时用到了AkkaUtils工具类，见代码清单3-3。AkkaUtils.createActorSystem方法用于启动ActorSystem，见代码清单3-4。AkkaUtils使用了Utils的 […]

//码清单3-3　AkkaUtils工具类创建和启动ActorSystem
val (actorSystem, boundPort) =
    Option(defaultActorSystem) match {
        case Some(as) => (as, port)
        case None =>
            val actorSystemName = if (isDriver) driverActorSystemName else executorActorSystemName
            AkkaUtils.createActorSystem(actorSystemName, hostname, port, conf, securityManager)
}

//代码清单3-4　ActorSystem的创建和启动
def createActorSystem(
        name: String,
        host: String,
        port: Int,
        conf: SparkConf,
        securityManager: SecurityManager): (ActorSystem, Int) = {
    val startService: Int => (ActorSystem, Int) = { actualPort =>
        doCreateActorSystem(name, host, actualPort, conf, securityManager)
    }
    Utils.startServiceOnPort(port, startService, conf, name)
}

第三步map任务输出跟踪器mapOutputTracker
mapOutputTracker用于跟踪map阶段任务的输出状态，此状态便于reduce阶段任务获取地址及中间输出结果。每个map任务或者reduce任务都会有其唯一标识，分别为mapId和reduceId。每个reduce任务的输入可能是多个map任务的输出，reduce会到各个map任务的所在节点上拉取Block，这一过程叫做shuffle。每批shuffle过程都有唯一的标识shuffleId。
这里先介绍下MapOutputTrackerMaster。MapOutputTrackerMaster内部使用mapStatuses：TimeStampedHashMap[Int，Array[MapStatus]]来维护跟踪各个map任务的输出状态。其中key对应shuffleId，Array存储各个map任务对应的状态信息MapStatus。由于MapStatus维护了map输出Block的地址BlockManagerId，所以reduce任务知道从何处获取map任务的中间输出。MapOutputTrackerMaster还使用cachedSerializedStatuses：TimeStampedHashMap[Int，Array[Byte]]维护序列化后的各个map任务的输出状态。其中key对应shuffleId，Array存储各个序列化MapStatus生成的字节数组。
Driver和Executor处理MapOutputTrackerMaster的方式有所不同。
·如果当前应用程序是Driver，则创建MapOutputTrackerMaster，然后创建MapOutputTrackerMasterActor，并且注册到ActorSystem中。
·如果当前应用程序是Executor，则创建MapOutputTrackerWorker，并从ActorSystem中找到MapOutputTrackerMasterActor
无论是Driver还是Executor，最后都由mapOutputTracker的属性trackerActor持有MapOutputTrackerMasterActor的引用，参见代码清单3-5。

def registerOrLookup(name: String, newActor: => Actor): ActorRef = {
    if (isDriver) {
        logInfo("Registering " + name)
        actorSystem.actorOf(Props(newActor), name = name)
    } else {
        AkkaUtils.makeDriverRef(name, conf, actorSystem)
    }
    }
    val mapOutputTracker =  if (isDriver) {
        new MapOutputTrackerMaster(conf)
    } else {
        new MapOutputTrackerWorker(conf)
}
    mapOutputTracker.trackerActor = registerOrLookup(
        "MapOutputTracker",
    new MapOutputTrackerMasterActor(mapOutputTracker.asInstanceOf[MapOutputTrackerMaster], conf))

在后面章节大家会知道map任务的状态正是由Executor向持有的MapOutputTracker-MasterActor发送消息，将map任务状态同步到mapOutputTracker的mapStatuses和cached-SerializedStatuses的。Executor究竟是如何找到MapOutputTrackerMasterActor的？registerOrLookup方法通过调用AkkaUtils.makeDriverRef找到MapOutputTrackerMasterActor，实际正是利用ActorSystem提供的分布式消息机制实现的，具体细节参见附录B。这里第一次使用到了Akka提供的功能，以后大家会渐渐感觉到使用Akka的便捷。

第四步：实例化ShuffleManager
ShuffleManager负责管理本地及远程的block数据的shuffle操作。ShuffleManager默认为通过反射方式生成的SortShuffleManager的实例，可以修改属性spark.shuffle.manager为hash来显式控制使用HashShuffleManager。SortShuffleManager通过持有的IndexShuffleBlockManager间接操作BlockManager中的DiskBlockManager将map结果写入本地，并根据shuffleId、mapId写入索引文件，也能通过MapOutputTrackerMaster中维护的mapStatuses从本地或者其他远程节点读取文件。有读者可能会问，为什么需要shuffle？Spark作为并行计算框架，同一个作业会被划分为多个任务在多个节点上并行执行，reduce的输入可能存在于多个节点上，因此需要通过“洗牌”将所有reduce的输入汇总起来，这个过程就是shuffle。这个问题以及对ShuffleManager的具体使用会在第5章和第6章详述。ShuffleManager的实例化见代码清单3-6。代码清单3-6最后创建的ShuffleMemoryManager将在3.2.5节介绍。

val shortShuffleMgrNames = Map(
        "hash" -> "org.apache.spark.shuffle.hash.HashShuffleManager",
        "sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager")
    val shuffleMgrName = conf.get("spark.shuffle.manager", "sort")
    val shuffleMgrClass = shortShuffleMgrNames.get
OrElse(shuffleMgrName.toLowerCase, shuffleMgrName)
    val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)
    val shuffleMemoryManager = new ShuffleMemoryManager(conf)

第五步：shuffle线程内存管理器ShuffleMemoryManager
ShuffleMemoryManager负责管理shuffle线程占有内存的分配与释放，并通过threadMemory：mutable.HashMap[Long, Long]缓存每个线程的内存字节数，见代码清单3-7。

private[spark] class ShuffleMemoryManager(maxMemory: Long) extends Logging {
  private val threadMemory = new mutable.HashMap[Long, Long]()  // threadId -> memory bytes
  def this(conf: SparkConf) = this(ShuffleMemoryManager.getMaxMemory(conf))

getMaxMemory方法用于获取shuffle所有线程占用的最大内存，实现如下。

def getMaxMemory(conf: SparkConf): Long = {
    val memoryFraction = conf.getDouble("spark.shuffle.memoryFraction", 0.2)
    val safetyFraction = conf.getDouble("spark.shuffle.safetyFraction", 0.8)
    (Runtime.getRuntime.maxMemory * memoryFraction * safetyFraction).toLong
  }

从上面代码可以看出，shuffle所有线程占用的最大内存的计算公式为：Java运行时最大内存*Spark的shuffle最大内存占比*Spark的安全内存占比
可以配置属性spark.shuffle.memoryFraction修改Spark的shuffle最大内存占比，配置属性spark.shuffle.safetyFraction修改Spark的安全内存占比。
**注意：**ShuffleMemoryManager通常运行在Executor中， Driver中的ShuffleMemoryManager 只有在local模式下才起作用。

第六部：块传输服务BlockTransferService

val blockTransferService =
    conf.get("spark.shuffle.blockTransferService", "netty").toLowerCase match {
        case "netty" =>
            new NettyBlockTransferService(conf, securityManager, numUsableCores)
        case "nio" =>
            new NioBlockTransferService(conf, securityManager)
    }

BlockTransferService默认为NettyBlockTransferService（可以配置属性spark.shuffle.blockTransferService使用NioBlockTransferService），它使用Netty提供的异步事件驱动的网络应用框架，提供web服务及客户端，获取远程节点上Block的集合。

第七步：BlockManagerMaster介绍
BlockManagerMaster负责对Block的管理和协调，具体操作依赖于BlockManagerMasterActor。Driver和Executor处理BlockManagerMaster的方式不同：

q1 如果当前应用程序是Driver，则创建BlockManagerMasterActor，并且注册到ActorSystem中。

q2 如果当前应用程序是Executor，则从ActorSystem中找到BlockManagerMasterActor。

无论是Driver还是Executor，最后BlockManagerMaster的属性driverActor将持有对BlockManagerMasterActor的引用。BlockManagerMaster的创建代码如下。

val blockManagerMaster = new BlockManagerMaster(registerOrLookup(
      "BlockManagerMaster",
      new BlockManagerMasterActor(isLocal, conf, listenerBus)), conf, isDriver)

第八步：创建块管理器BlockManager
BlockManager负责对Block的管理，只有在BlockManager的初始化方法initialize被调用后，它才是有效的。BlockManager作为存储系统的一部分，具体实现见第4章。BlockManager的创建代码如下。

val blockManager = new BlockManager(executorId, actorSystem, blockManagerMaster,
      serializer, conf, mapOutputTracker, shuffleManager, blockTransferService, securityManager,
      numUsableCores)

第九步：创建广播管理器BroadcastManager
BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾，也会复制到其他节点上。创建BroadcastManager的代码实现如下。

val broadcastManager = new BroadcastManager(isDriver, conf, securityManager)

BroadcastManager必须在其初始化方法initialize被调用后，才能生效。Initialize方法实际利用反射生成广播工厂实例broadcastFactory（可以配置属性spark.broadcast.factory指定，默认为org.apache.spark.broadcast.TorrentBroadcastFactory）。BroadcastManager的广播方法newBroadcast实际代理了工厂broadcastFactory的newBroadcast方法来生成广播或者非广播对象。BroadcastManager的Initialize及newBroadcast方法见代码清单3-8。

private def initialize() {
    synchronized {
      if (!initialized) {
        val broadcastFactoryClass = conf.get("spark.broadcast.factory", "org.apache.spark.broadcast.TorrentBroadcastFactory")
        broadcastFactory =
          Class.forName(broadcastFactoryClass).newInstance.asInstanceOf[BroadcastFactory]
        broadcastFactory.initialize(isDriver, conf, securityManager)
        initialized = true
      }
    }
  }

  private val nextBroadcastId = new AtomicLong(0)

  def newBroadcast[T: ClassTag](value_ : T, isLocal: Boolean) = {
    broadcastFactory.newBroadcast[T](value_, isLocal, nextBroadcastId.getAndIncrement())
  }

  def unbroadcast(id: Long, removeFromDriver: Boolean, blocking: Boolean) {
    broadcastFactory.unbroadcast(id, removeFromDriver, blocking)
  }
}

第十步：创建缓存管理器CacheManager
CacheManager用于缓存RDD某个分区计算后中间结果，缓存计算结果发生在迭代计算的时候，将在6.1节讲到。而CacheManager将在4.14节详细描述。创建CacheManager的代码如下。

val cacheManager = new CacheManager(blockManager)

第十一步：HTTP文件服务器HttpFileServer
HttpFileServer主要提供对jar及其他文件的http访问，这些jar包包括用户上传的jar包。端口由属性spark.fileserver.port配置，默认为0，表示随机生成端口号。

val httpFileServer =
    if (isDriver) {
      val fileServerPort = conf.getInt("spark.fileserver.port", 0)
      val server = new HttpFileServer(conf, securityManager, fileServerPort)
      server.initialize()
      conf.set("spark.fileserver.uri",  server.serverUri)
      server
    } else {
      null
    }

HttpFileServer的初始化过程，见代码清单3-10，主要包括以下步骤：

1) 使用Utils工具类创建文件服务器的根目录及临时目录（临时目录在运行时环境关闭时会删除）。Utils工具的详细介绍，见附录A。

2) 创建存放jar包及其他文件的文件目录。

3) 创建并启动HTTP服务。

def initialize() {
  baseDir = Utils.createTempDir(Utils.getLocalDir(conf), "httpd")
  fileDir = new File(baseDir, "files")
  jarDir = new File(baseDir, "jars")
  fileDir.mkdir()
  jarDir.mkdir()
  logInfo("HTTP File server directory is " + baseDir)
  httpServer = new HttpServer(conf, baseDir, securityManager, requestedPort, "HTTP file server")
  httpServer.start()
  serverUri = httpServer.uri
  logDebug("HTTP file server started at: " + serverUri)
}

HttpServer的构造和start方法的实现中，再次使用了Utils的静态方法startServiceOnPort，因此会回调doStart方法

def start() {
  if (server != null) {
    throw new ServerStateException("Server is already started")
  } else {
    logInfo("Starting HTTP Server")
    val (actualServer, actualPort) =
      Utils.startServiceOnPort[Server](requestedPort, doStart, conf, serverName)
    server = actualServer
    port = actualPort
  }
}

doStart方法中启动内嵌的jetty所提供的HTTP服务

private def doStart(startPort: Int): (Server, Int) = {
  val server = new Server()
  val connector = new SocketConnector
  connector.setMaxIdleTime(60 * 1000)
  connector.setSoLingerTime(-1)
  connector.setPort(startPort)
  server.addConnector(connector)

  val threadPool = new QueuedThreadPool
  threadPool.setDaemon(true)
  server.setThreadPool(threadPool)
  val resHandler = new ResourceHandler
  resHandler.setResourceBase(resourceBase.getAbsolutePath)

  val handlerList = new HandlerList
  handlerList.setHandlers(Array(resHandler, new DefaultHandler))

  if (securityManager.isAuthenticationEnabled()) {
    logDebug("HttpServer is using security")
    val sh = setupSecurityHandler(securityManager)
    // make sure we go through security handler to get resources
    sh.setHandler(handlerList)
    server.setHandler(sh)
  } else {
    logDebug("HttpServer is not using security")
    server.setHandler(handlerList)
  }

  server.start()
  val actualPort = server.getConnectors()(0).getLocalPort

  (server, actualPort)
}

第十二步：创建测量系统MetricsSystem
MetricsSystem是Spark的测量系统，创建MetricsSystem的代码如下。

val metricsSystem = if (isDriver) {
    MetricsSystem.createMetricsSystem("driver", conf, securityManager)
  } else {
    conf.set("spark.executor.id", executorId)
    val ms = MetricsSystem.createMetricsSystem("executor", conf, securityManager)
    ms.start()
    ms
  }

上面调用的createMetricsSystem方法实际创建了MetricsSystem，代码如下。

def createMetricsSystem(
    instance: String, conf: SparkConf, securityMgr: SecurityManager): MetricsSystem = {
  new MetricsSystem(instance, conf, securityMgr)
}

构造MetricsSystem的过程最重要的是调用了MetricsConfig的initialize方法

def initialize() {
    setDefaultProperties(properties)

    var is: InputStream = null
    try {
      is = configFile match {
        case Some(f) => new FileInputStream(f)
        case None => Utils.getSparkClassLoader.getResourceAsStream(METRICS_CONF)
      }

      if (is != null) {
        properties.load(is)
      }
    } catch {
      case e: Exception => logError("Error loading configure file", e)
    } finally {
      if (is != null) is.close()
    }

    propertyCategories = subProperties(properties, INSTANCE_REGEX)
    if (propertyCategories.contains(DEFAULT_PREFIX)) {
      import scala.collection.JavaConversions._

      val defaultProperty = propertyCategories(DEFAULT_PREFIX)
      for { (inst, prop) <- propertyCategories
            if (inst != DEFAULT_PREFIX)
            (k, v) <- defaultProperty
            if (prop.getProperty(k) == null) } {
        prop.setProperty(k, v)
      }
    }
  }

从以上实现可以看出，MetricsConfig的initialize方法主要负责加载metrics.properties文件中的属性配置，并对属性进行初始化转换。

例如：将属性

{.sink.servlet.path=/metrics/json, applications.sink.servlet.path=/metrics/applications/json, .sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet, master.sink.servlet.path=/metrics/master/json}

转换为

Map(applications -> {sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet, sink.servlet.path=/metrics/applications/json}, master -> {sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet, sink.servlet.path=/metrics/master/json}, * -> {sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet, sink.servlet.path=/metrics/json})

第十三步：创建SparkEnv
当所有的基础组件准备好后，最终使用下面的代码创建执行环境SparkEnv。

new SparkEnv(executorId, actorSystem, serializer, closureSerializer, cacheManager,
      mapOutputTracker, shuffleManager, broadcastManager, blockTransferService,
 blockManager, securityManager, httpFileServer, sparkFilesDir,
metricsSystem, shuffleMemoryManager, conf)

注意：serializer和closureSerializer都是使用Class.forName反射生成的org.apache.spark.serializer.JavaSerializer类的实例，其中closureSerializer实例特别用来对Scala中的闭包进行序列化。

虽然没有详细的懂，也不知道学了有什么用，但是大概的流程还是有些印象的，也不知道对于以后有没有帮助，但是我的观点是，学了总比不学强，做了总比不做强，努力了总比坐以待毙强！加油，还是会继续学习的，good lack！

你可能感兴趣的:(spark源码)

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件) catcher92 java maven maven 学习大数据
整合spark3.3.x和hive2.1.1-cdh6.3.2碰到个问题，就是spark官方支持的hive是2.3.x，但是cdh中的hive确是2.1.x的，项目中又计划用spark-thrift-server，导致编译过程中有部分报错。其中OperationLog这个类在hive2.3中新增加了几个方法，导致编译报错。这个时候有两种解决办法：修改spark源码，注释掉调用OperationLo
Spark源码分析数据年轮 Spark spark源码 spark 大数据源码分析
过程描述:1.通过Shell脚本启动Master，Master类继承Actor类，通过ActorySystem创建并启动。2.通过Shell脚本启动Worker，Worker类继承Actor类，通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等)，以后就是定时汇报，保持心跳。4.Master接受消息
Spark 源码分析(一) SparkRpc中序列化与反序列化Serializer的抽象类解读（正在更新中~）别人能写出来的，你也能行！多学习别人的思路，形成自己的思路，高薪工作奔你而来！小白的大数据历程 Spark源码解析开发语言 spark 大数据分布式 scala
后一篇链接在这接上一章请先看解读序列化抽象类第一部分（这是一个链接）目录接上一章请先看解读序列化抽象类第一部分2.Java序列化实现类JavaSerializer(1)JavaSerializationStream类代码实际例子1：序列化(2)JavaDeserializationStream代码实际例子2：反序列化Spark源码下类图在学习过程中，抓住主要问题，请思考问题为什么Kryo序列化更加
Spark-第三周 fightingD&W Spark spark 大数据分布式
1.sparkcontext初始化源码分析Spark源码（7）-SparkContext初始化源码分析_太与旅spark源码-CSDN博客Spark源码学习(一)：SparkContext初始化源码分析_sparkinitialize-CSDN博客2.任务调度源码分析job提交spark提交job运行流程_请详述spark核心执行流程,如何使用sparksubmit在客户端提交job后如何通过st
IDEA 本地运行Spark fir_dameng 大数据开发 spark
IDEA本地运行Spark1、背景2、环境准备3、具体流程3.1IDEA创建maven项目3.2pom.xml配置3.3Demo程序示例3.4结果输出4、总结改进1、背景主要用于本地阅读Spark源码，同时也可以用于实战运行spark程序2、环境准备jdk:1.8+scala:2.12+（Spark3x要求scala版本2.12）3、具体流程3.1IDEA创建maven项目File->Maven-
Spark Submit提交时，Json字符串作为参数南修子
今天遇到一个把json作为参数传入spark程序中的问题原因如下，Spark源码中会对把}}和{{替换掉@VisibleForTestingpublicstaticStringexpandEnvironment(Stringvar,PathcontainerLogDir){var=var.replace(ApplicationConstants.LOG_DIR_EXPANSION_VAR,cont
Spark源码之CacheManager 小狼星I
Spark源码之CacheManager篇CacheManager介绍1.CacheManager管理spark的缓存，而缓存可以基于内存的缓存，也可以是基于磁盘的缓存；2.CacheManager需要通过BlockManager来操作数据；3.当Task运行的时候会调用RDD的comput方法进行计算，而compute方法会调用iterator方法；CacheManager源码解析既然要说Cac
R 安装 devtools 报错信息第一次看海 r语言 java 开发语言
在编译spark源码时遇到sparkr有依赖R环境，当然一般用不到sparkr时可以不加入编译在安装R环境和一些依赖包时遇到一些问题Rscript-e"install.packages(c('knitr','rmarkdown','devtools','testthat','e1071','survival'),repos='http://mirrors.tuna.tsinghua.edu.cn/
Spark源码分析之：Shuffle 你说个der Spark spark 大数据
这一篇我们来分析Spark2.1的Shuffle流程。其实ShuffleDependency从SparkContext初始化就已经被DAGScheduler划分好了，本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。要从Task运行开始说起，就要知道Task在哪里运行的。我们普遍认为Executor是负责执行Task的，但是我们发现Executor其实就是一个类pr
Spark源码——Shuffle过程阿松0311 Spark spark mapreduce big data
shuffle很重要，调优的重点、性能的杀手未优化的shuffle：(图片来源：北风网）未优化的shuffle有两个特点：spark早期版本中，shuffleMapTask将所有数据写入bucket缓存后，才会刷新到磁盘，但是缓存就容易OOM，所以后来的版本，这个缓存设置了阈值，默认100kb，写入数据达到缓存的阈值后，就会将数据刷新到磁盘。这种就不容易OOM，但是频繁刷新涉及过多IO操作，所以这
mac系统spark环境搭建 Maximilian_M Spark学习之路 spark idea scala mac 环境搭建
所需工具1.jdk2.scala下载地址：scala官网下载scala版本下载需注意，后期idea编译可能导致报错，scala版本和spark版本存在一些兼容性问题spark开发语言支持scala、java和python，推荐scala，因为spark源码就是scala，后期可以为研究源码打基础3.spark下载地址：spark官网下载配置环境变量vi~/.bash_profile追加export
【Spark源码分析】Spark的RPC通信二-初稿顧棟 spark rpc
Spark的RPC通信二-初稿SparkRPC的传输层传输层主要还是借助netty框架进行实现。TransportContext包含创建TransportServer、TransportClientFactory和使用TransportChannelHandler设置NettyChannel管道的上下文。TransportClient提供两种通信协议：control-planeRPCs和data-
【Spark源码分析】Spark的RPC通信一-初稿顧棟 Spark spark rpc
Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC消息的发送与接收实现核心类`Inbox`核心类`Dispatcher`核心类`Outbox`Spark的RPC顶层设计在RpcEnv中定义了RPC通信框架的启动、停止和关闭等抽象方法，表示
Spark源码之Worker 小狼星I
Spark源码之Worker介绍篇Worker介绍Worker作为工作节点,一般Driver以及Executor都会在这Worker上分布;Worker代码概览Worker继承了ThreadSafeRpcEndpoint,所以本身就是一个消息循环体,可以直接跟其他组件进行通信；内部封装一堆数据结构，用于记录存储Driver,Executor，Application等信息；Worker内部对自身的资
spark源码阅读——shuffle写 WJL3333
groupByKey这个操作一般会产生两个RDD：（map操作）MapPartitionsRDD（隐式转换之后聚合）ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(
spark源码之shuffleManager cclucc
shufflemanager的实现类：sortshufflemanagerSpark0.8及以前HashBasedShuffle在ShuffleWrite过程按照Hash的方式重组Partition的数据，不进行排序。每个map端的任务为每个reduce端的Task生成一个文件，通常会产生大量的文件（即对应为M*R个中间文件，其中M表示map端的Task个数，R表示reduce端的Task个数），
spark java 调试_远程调试spark源码（基于java的调试工具）吹亚吹 spark java 调试
开发人员在进行程序编码的过程中，不可避免的需要对代码进行调试，其目的是能精确定位程序的运行状况。本文对spark源码进行调试，此调试方式可以调试任何JVM相关的程序，如：普通的命令行程序、web程序等。1、实验环境IPhostnamemasterworker192.168.56.101master是否192.168.56.102node1否是192.168.56.103node2否是192.168
SparkSQL远程调试（IDEA） RainTicking 大数据大数据 spark
启动IntellijIDEA，打开spark源码项目，配置远程调试Run->EditConfiguration启动远程spark-sqlspark-sql--verbose--driver-java-options"-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=5005"运行远程调试，RUN->Debug‘spark
1. spark源码分析（基于yarn cluster模式）-任务提交 Leo Han 大数据 spark scala big data yarn
首先声明，这个系列研究的源码基于spark-2.4.6我们在使用spark-shell提交任务的时候，一般采用如下模式提交任务：park-submit--classxxxxx--name'test_xxxx'--masteryarn-cluster--queueyarn-test--principalad-bigdata-test--keytab'xxxx.keytab'--num-executo
Spark一级资源调度Shedule机制及SpreadOut模式源码深入剖析 weixin_34210740 大数据
本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark源码解读及商业实战指导，请持续关注本套博客。版权声明：本套Spark源码解读及商业实战归作者（秦凯新）所有，禁止转载，欢迎学习。Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施Spark商业环境实战-Spark事件监听总线流程分析Spark商业环境实战-Spark存储体系底层架构剖析Spark商业环境实
Spark事件监听总线流程分析-Spark商业环境实战 weixin_34268753 大数据 ui
本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark源码解读及商业实战指导，请持续关注本套博客。版权声明：本套Spark源码解读及商业实战归作者（秦凯新）所有，禁止转载，欢迎学习。Spark商业环境实战及调优进阶系列Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施Spark商业环境实战-Spark事件监听总线流程分析Spark商业环境实战-Spark存储
spark源码：SparkContext初始化需要启动的组件 weixin_38842855 spark
spark源码分析之SparkContext1.SparkContext简介2初始化SparkContext需要启动的组件2.0SparkContext私有的可变成员变量2.1SpaekEnv2.2LiveListenerBus2.3SparkUI2.4SparkStatusTracker2.5ConsoleProgressBar2.6DAGScheduler2.7TaskScheduler2.8
【Spark源码分析】事件总线机制分析顧棟 Spark spark 大数据
Spark事件总线机制采用Spark2.11源码，以下类或方法被@DeveloperApi注解额部分，可能出现不同版本不同实现的情况。Spark中的事件总线用于接受事件并提交到对应的监听器中。事件总线在Spark应用启动时，会在SparkContext中激活spark运行的事件总线（LiveListenerBus）。LiveListenerBus相关的部分类图如下：由于Spark使用scala语言
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决 xiaoliuyiting spark
解决方法1转载：http://www.cnblogs.com/war3blog/p/7864804.html在编译spark源码的时候老师报类似的错误然后在spark文件夹下的pom.xml里加入如下依赖，源码编译就没有报错成功编译出来了修改spark源码下的pom.xml文件net.alchim31.mavenscala-maven-plugin3.2.0解决方法2转载：https://blog
Spark源码解析之org.apache.spark.deploy.SparkSubmit源码解析南宫紫攸 Spark
前面解读launch.main的时候已经了解了spark-submit的提交流程，这里大概看下流程。当打jar提交到集群运行的时候，一般会设置一些参数，例如本地提交examples的SparkPi：spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://192.168.2.1:7077\D:\spark\spark
Spark-deploy blesslyy spark deploy
Spark-deploy@(spark)[deploy|yarn]写在前面的话请参考Spark源码分析之-deploy模块，虽然是13年的文章，但是作者写的比我明白多了。so我写一半就算了。。。在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了HadoopYARN的方式：外层的资源管理器和应用内的任务调度器；并且分析了Spark应用内的任务调度模块。本文就
7. Spark源码解析之org.apache.spark.deploy.SparkSubmit源码解析訾零 Spark
前面解读launch.main的时候已经了解了spark-submit的提交流程，这里大概看下流程。当打jar提交到集群运行的时候，一般会设置一些参数，例如本地提交examples的SparkPi：spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://192.168.2.1:7077\D:\spark\spark
k8s提交spark应用消费kafka数据写入elasticsearch7 青春不流名 kubernetes spark kafka
一、k8s集群环境k8s1.23版本，三个节点，容器运行时使用docker。spark版本时3.3.3k8s部署单节点的zookeeper、kafka、elasticsearch7二、spark源码https://download.csdn.net/download/TT1024167802/88509398命令行提交方式/opt/module/spark-3.3.3/bin/spark-subm
二、用IDEA导入spark源码，并在本地运行standlone 小小小黄鸡 spark spark
上面我们编译了源码，然后我们接下来用idea将源码导入到开发工具，并在idea上启动standlone的master和slave，方便我们调试。1将项目导入到idea当中然后openasproject即可。我看网上很多说，导入了，然后让maven自动导入依赖就行，但是不知道可能是我的网络问题，我遇到了很多问题，这里我分享出来，看是否能对你们有帮助。2遇到的问题1.导入到idea当中，spark-p
spark源码之任务提交过程机器不能学习
感谢逃出你的肖生克文章指导。一般在命令行我们会以spark-submit来提交自己的代码，并会以这个形式提交./bin/spark-submit\--class\--master\--deploy-mode\--conf=\...#otheroptions\[application-arguments]代码提交到spark后大概会有三个流程。1.找到或是设置spark_home变量2.设置相关相关
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在