大冰的小屋

BlockManager

Spark为了避免Hadoop读写磁盘的I/O操作成为性能瓶颈，优先将配置信息、中间计算结果等数据存入内存，极大的提高了系统的执行效率。除此之外，还可以将这些数据放入磁盘或者外部存储系统中。

1. 块管理器BlockManager 的构造

块管理器BlockManager是Spark存储体系中的核心组件。Driver 和 Executor都会创建BlockManager。其主构造器如下：

/**
 * Manager running on every node (driver and executors) which provides interfaces for putting and
 * retrieving blocks both locally and remotely into various stores (memory, disk, and off-heap).
 *
 * Note that #initialize() must be called before the BlockManager is usable.
 */
private[spark] class BlockManager(
    executorId: String,
    rpcEnv: RpcEnv,
    val master: BlockManagerMaster,
    defaultSerializer: Serializer,
    val conf: SparkConf,
    memoryManager: MemoryManager,
    mapOutputTracker: MapOutputTracker,
    shuffleManager: ShuffleManager,
    blockTransferService: BlockTransferService,
    securityManager: SecurityManager,
    numUsableCores: Int)
  extends BlockDataManager with Logging

BlockManager主要组成：
0. BlockManagerMaster：Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理；
1. DiskBlockManager：磁盘块管理器；
2. blockInfo：用于缓存BlockId和对应的BlockInfo；
3. ExecutionContext：创建ExecutionContext，它是以ThreadPoolExecutor线程池作为服务的，每个线程的名称前缀是block-manager-future，最大可以创建128个线程；
4. MemoryStore：内存存储，将blocks存储在内存中，存储方式可以是Java object数组或者序列化后的
ByteBuffers；
5. DiskStore：磁盘存储；
6. ExternalBlockStore ： ExternalBlockStore 存储BlockManager blocks，内部实际使用的是TachyonBlockManager进行管理；
7. ShuffleClient：shuffle客户端ShuffleClient，默认使用BlockTransferService ，通过spark.shuffle.service.enabled属性设置为true则可以使用外部的ShuffleService；
8. BlockManagerSlaveEndpoint：注册BlockManagerSlaveEndpoint并且返回它的引用（默认Netty模式的话为NettyRpcEndpointRef）；
9. metadataCleaner ：非广播Block清理器；
10. broadcastCleaner : 广播Block清理器;
11. CompressionCodec :压缩算法实现.

  val diskBlockManager = new DiskBlockManager(this, conf)
  private val blockInfo = new TimeStampedHashMap[BlockId, BlockInfo]

  private val futureExecutionContext = ExecutionContext.fromExecutorService(  ThreadUtils.newDaemonCachedThreadPool("block-manager-future", 128))

  // Actual storage of where blocks are kept
  private var externalBlockStoreInitialized = false
  private[spark] val memoryStore = new MemoryStore(this, memoryManager)
  private[spark] val diskStore = new DiskStore(this, diskBlockManager)
  private[spark] lazy val externalBlockStore: ExternalBlockStore = {
    externalBlockStoreInitialized = true
    new ExternalBlockStore(this, executorId)
  }
  memoryManager.setMemoryStore(memoryStore)

  private[spark]
  val externalShuffleServiceEnabled = conf.getBoolean("spark.shuffle.service.enabled", false)
  // Client to read other executors' shuffle files. This is either an external service, or just the
  // standard BlockTransferService to directly connect to other Executors.
  private[spark] val shuffleClient = if (externalShuffleServiceEnabled) {
    val transConf = SparkTransportConf.fromSparkConf(conf, "shuffle", numUsableCores)
    new ExternalShuffleClient(transConf, securityManager, securityManager.isAuthenticationEnabled(),
      securityManager.isSaslEncryptionEnabled())
  } else {
    blockTransferService
  }

  // Register a [[RpcEndpoint]] with a name and return its [[RpcEndpointRef]].
  private val slaveEndpoint = rpcEnv.setupEndpoint(
    "BlockManagerEndpoint" + BlockManager.ID_GENERATOR.next,
    new BlockManagerSlaveEndpoint(rpcEnv, this, mapOutputTracker))

  private val metadataCleaner = new MetadataCleaner(
    MetadataCleanerType.BLOCK_MANAGER, this.dropOldNonBroadcastBlocks, conf)
  private val broadcastCleaner = new MetadataCleaner(
    MetadataCleanerType.BROADCAST_VARS, this.dropOldBroadcastBlocks, conf)

  /* The compression codec to use. Note that the "lazy" val is necessary because we want to delay
   * the initialization of the compression codec until it is first used. The reason is that a Spark
   * program could be using a user-defined codec in a third party jar, which is loaded in
   * Executor.updateDependencies. When the BlockManager is initialized, user level jars hasn't been
   * loaded yet. */
  private lazy val compressionCodec: CompressionCodec = CompressionCodec.createCodec(conf)

2. BlockManager初始化

BlockManager要生效，必须进行初始化操作。而且不能在BlockManager构造过程中进行初始化。因为这个时候应用程序的ID可能还没获得。

  /**
   * Initializes the BlockManager with the given appId. This is not performed in the constructor as
   * the appId may not be known at BlockManager instantiation time (in particular for the driver,
   * where it is only learned after registration with the TaskScheduler).
   *
   * This method initializes the BlockTransferService and ShuffleClient, registers with the
   * BlockManagerMaster, starts the BlockManagerWorker endpoint, and registers with a local shuffle
   * service if configured.
   */
  def initialize(appId: String): Unit = {
    blockTransferService.init(this)
    shuffleClient.init(appId)  // 默认是BlockTransferService

    blockManagerId = BlockManagerId(
      executorId, blockTransferService.hostName, blockTransferService.port)
    // 当有外部的ShuffleService时，创建新的BlockManagerId，否则使用当前BlockManager的BlockManagerId
    shuffleServerId = if (externalShuffleServiceEnabled) {
      logInfo(s"external shuffle service port = $externalShuffleServicePort")
      BlockManagerId(executorId, blockTransferService.hostName, externalShuffleServicePort)
    } else {
      blockManagerId
    }
    // 向BlockManagerMaster注册BlockManagerId
    master.registerBlockManager(blockManagerId, maxMemory, slaveEndpoint)

    // 当有外部的ShuffleService且是Executor的BlockManager时，还需要向BlockManagerMaster注册ShuffleServerId
    // Register Executors' configuration with the local shuffle service, if one should exist.
    if (externalShuffleServiceEnabled && !blockManagerId.isDriver) {
      registerWithExternalShuffleServer()
    }
  }

3. 移出内存方法

该方法用于内存不足时，将指定的Block移出内存。其处理步骤如下：
1. 从blockInfo中查找是否存在要移除的blockId，如果存在则继续操作，否则返回None；
2. 判断该Block是否可以移除，不可移除返回None；
3. 判断该Block内容是否为空，如果为空，则已经移除过了，返回None；
4. 获取该Block的StorageLevel，如果StorageLevel允许存入磁盘，且DiskStore中没有保存此Block，那个调用DiskStore的putArray或者putBytes方法，将此Block写入磁盘；
5. 从内存（MemoryStore）中清除此Block；
6. 使用getCurrentBlockStatus方法获取Block最新的状态。如果此Block的tellMaster属性为true，则调用reportBlockStatus方法给BlockManagerMasterEndpoint报告状态；
7. 如果此Block没有存入磁盘，则从blockInfo中清除此BlockId；
8. 返回Block状态

  /**
   * Drop a block from memory, possibly putting it on disk if applicable. Called when the memory
   * store reaches its limit and needs to free up space.
   *
   * If `data` is not put on disk, it won't be created.
   *
   * Return the block status if the given block has been updated, else None.
   */
  def dropFromMemory(
      blockId: BlockId,
      data: () => Either[Array[Any], ByteBuffer]): Option[BlockStatus] = {

    logInfo(s"Dropping block $blockId from memory")
    val info = blockInfo.get(blockId).orNull

    // If the block has not already been dropped
    if (info != null) {
      info.synchronized {
        // required ? As of now, this will be invoked only for blocks which are ready
        // But in case this changes in future, adding for consistency sake.
        if (!info.waitForReady()) {
          // If we get here, the block write failed.
          logWarning(s"Block $blockId was marked as failure. Nothing to drop")
          return None
        } else if (blockInfo.get(blockId).isEmpty) {
          logWarning(s"Block $blockId was already dropped.")
          return None
        }
        var blockIsUpdated = false
        val level = info.level

        // Drop to disk, if storage level requires
        if (level.useDisk && !diskStore.contains(blockId)) {
          logInfo(s"Writing block $blockId to disk")
          data() match {
            case Left(elements) =>
              diskStore.putArray(blockId, elements, level, returnValues = false)
            case Right(bytes) =>
              diskStore.putBytes(blockId, bytes, level)
          }
          blockIsUpdated = true
        }

        // Actually drop from memory store
        val droppedMemorySize =
          if (memoryStore.contains(blockId)) memoryStore.getSize(blockId) else 0L
        val blockIsRemoved = memoryStore.remove(blockId)
        if (blockIsRemoved) {
          blockIsUpdated = true
        } else {
          logWarning(s"Block $blockId could not be dropped from memory as it does not exist")
        }

        val status = getCurrentBlockStatus(blockId, info)
        if (info.tellMaster) {
          reportBlockStatus(blockId, info, status, droppedMemorySize)
        }
        if (!level.useDisk) {
          // The block is completely gone from this node; forget it so we can put() it again later.
          blockInfo.remove(blockId)
        }
        if (blockIsUpdated) {
          return Some(status)
        }
      }
    }
    None
  }

4. 状态报告方法 reportBlockStatus

reportBlockStatus方法用于向BlockManagerMasterEndpoint报告Block的状态并且重新注册BlockManager。其处理步骤如下：
1. 调用tryToReportBlockStatus方法，tryToReportBlockStatus方法调用了BlockManagerMaster的 updateBlockInfo方法向BlockManagerMasterEndpoint发送消息更新Block占用的内存大小、磁盘大小、存储级别等信息。
2. 如果此BlockManager还没有向BlockManagerMasterEndpoint注册，则调用asyncReregister方法进行注册。

  /**
   * Tell the master about the current storage status of a block. This will send a block update
   * message reflecting the current status, *not* the desired storage level in its block info.
   * For example, a block with MEMORY_AND_DISK set might have fallen out to be only on disk.
   *
   * droppedMemorySize exists to account for when the block is dropped from memory to disk (so
   * it is still valid). This ensures that update in master will compensate for the increase in
   * memory on slave.
   */
  private def reportBlockStatus(
      blockId: BlockId,
      info: BlockInfo,
      status: BlockStatus,
      droppedMemorySize: Long = 0L): Unit = {
    val needReregister = !tryToReportBlockStatus(blockId, info, status, droppedMemorySize)
    if (needReregister) {
      logInfo(s"Got told to re-register updating block $blockId")
      // Re-registering will report our new block for free.
      asyncReregister()
    }
    logDebug(s"Told master about block $blockId")
  }


  /**
   * Actually send a UpdateBlockInfo message. Returns the master's response,
   * which will be true if the block was successfully recorded and false if
   * the slave needs to re-register.
   */
  private def tryToReportBlockStatus(
      blockId: BlockId,
      info: BlockInfo,
      status: BlockStatus,
      droppedMemorySize: Long = 0L): Boolean = {
    if (info.tellMaster) {
      val storageLevel = status.storageLevel
      val inMemSize = Math.max(status.memSize, droppedMemorySize)
      val inExternalBlockStoreSize = status.externalBlockStoreSize
      val onDiskSize = status.diskSize
      master.updateBlockInfo(
        blockManagerId, blockId, storageLevel, inMemSize, onDiskSize, inExternalBlockStoreSize)
    } else {
      true
    }
  }

5. 单对象块写入方法 putSingle

putSingle方法用于将一个由对象构成的Block写入存储系统。

  /**
   * Write a block consisting of a single object.
   */
  def putSingle(
      blockId: BlockId,
      value: Any,
      level: StorageLevel,
      tellMaster: Boolean = true): Seq[(BlockId, BlockStatus)] = {
    putIterator(blockId, Iterator(value), level, tellMaster)
  }

  def putIterator(
      blockId: BlockId,
      values: Iterator[Any],
      level: StorageLevel,
      tellMaster: Boolean = true,
      effectiveStorageLevel: Option[StorageLevel] = None): Seq[(BlockId, BlockStatus)] = {
    require(values != null, "Values is null")
    doPut(blockId, IteratorValues(values), level, tellMaster, effectiveStorageLevel)
  }

6. 序列化块写入方法 putBytes

putBytes方法用于将序列化字节组成的Block写入存储系统。

  /**
   * Put a new block of serialized bytes to the block manager.
   * Return a list of blocks updated as a result of this put.
   */
  def putBytes(
      blockId: BlockId,
      bytes: ByteBuffer,
      level: StorageLevel,
      tellMaster: Boolean = true,
      effectiveStorageLevel: Option[StorageLevel] = None): Seq[(BlockId, BlockStatus)] = {
    require(bytes != null, "Bytes is null")
    doPut(blockId, ByteBufferValues(bytes), level, tellMaster, effectiveStorageLevel)
  }

7. 数据写入方法 doPut

doPut方法是真正的将Block存入存储系统的方法，其处理了是否写入内存、磁盘、外部存储系统，并且为了容错，将数据备份到其他节点上的操作。

8. 数据块备份方法 replicate

9. 创建DiskBlockObjectWriter的方法 getDiskWriter

getDiskWriter方法用于创建DiskBlockObjectWriter， spark.shuffle.sync属性决定了写操作是否是同步的，默认是异步的。

  /**
   * A short circuited method to get a block writer that can write data directly to disk.
   * The Block will be appended to the File specified by filename. Callers should handle error
   * cases.
   */
  def getDiskWriter(
      blockId: BlockId,
      file: File,
      serializerInstance: SerializerInstance,
      bufferSize: Int,
      writeMetrics: ShuffleWriteMetrics): DiskBlockObjectWriter = {
    val compressStream: OutputStream => OutputStream = wrapForCompression(blockId, _)
    val syncWrites = conf.getBoolean("spark.shuffle.sync", false)
    new DiskBlockObjectWriter(file, serializerInstance, bufferSize, compressStream,
      syncWrites, writeMetrics, blockId)
  }

10. 获取本地Block数据方法 getBlockData

getBlockData用于从本地获取Block的数据。其处理过程如下：
1. 如果Block是ShuffleMapTask的输出，那么多个Partition的中间结果都写入了同一个文件，那么IndexShuffleBlockManager的getBlockData方法可以处理这个问题；
2. 如果Block是ResultTask的输出，则使用doGetLocal方法来获取本地中间结果数据。

  /**
   * Interface to get local block data. Throws an exception if the block cannot be found or
   * cannot be read successfully.
   */
  override def getBlockData(blockId: BlockId): ManagedBuffer = {
    if (blockId.isShuffle) {
      shuffleManager.shuffleBlockResolver.getBlockData(blockId.asInstanceOf[ShuffleBlockId])
    } else {
      val blockBytesOpt = doGetLocal(blockId, asBlockResult = false)
        .asInstanceOf[Option[ByteBuffer]]
      if (blockBytesOpt.isDefined) {
        val buffer = blockBytesOpt.get
        new NioManagedBuffer(buffer)
      } else {
        throw new BlockNotFoundException(blockId.toString)
      }
    }
  }

11. 获取本地shuffle数据方法 doGetLocal

当reduce任务与map任务处在同一个节点时，不需要远程拉取，只需要调用doGetLocal方法从本地获取中间结果即可。可以从内存、磁盘、外部存储系统中获取。

  private def doGetLocal(blockId: BlockId, asBlockResult: Boolean): Option[Any] = {
    val info = blockInfo.get(blockId).orNull
    if (info != null) {
      info.synchronized {
        if (blockInfo.get(blockId).isEmpty) {
          logWarning(s"Block $blockId had been removed")
          return None
        }

        // If another thread is writing the block, wait for it to become ready.
        if (!info.waitForReady()) {
          // If we get here, the block write failed.
          logWarning(s"Block $blockId was marked as failure.")
          return None
        }

        val level = info.level
        logDebug(s"Level for block $blockId is $level")

        // Look for the block in memory
        if (level.useMemory) {
          ...
        }

        // Look for the block in external block store
        if (level.useOffHeap) {
           ...
        }

        // Look for block on disk, potentially storing it back in memory if required
        if (level.useDisk) {
            ...
        }
      }
    } else {
      logDebug(s"Block $blockId not registered locally")
    }
    None
  }

12. 获取远程Block数据方法 doGetRemote

doGetRemote用于从远端节点上获取Block数据。其处理步骤如下：
1. 向BlockManagerMasterEndpoint发送GetLocations消息获取Block数据存储的BlockManagerId。如果Block数据复制份数多于1份，则会返回多个BlockManagerId，对这些BlockManagerId洗牌，避免总是从一个BlockManager获取Block数据，代码如下：

  /** Get locations of the blockId from the driver */
  def getLocations(blockId: BlockId): Seq[BlockManagerId] = {
    driverEndpoint.askWithRetry[Seq[BlockManagerId]](GetLocations(blockId))
  }

根据返回的BlockManagerId信息，使用blockTransferService远程同步获取Block数据。

  private def doGetRemote(blockId: BlockId, asBlockResult: Boolean): Option[Any] = {
    require(blockId != null, "BlockId is null")
    val locations = Random.shuffle(master.getLocations(blockId))
    var numFetchFailures = 0
    for (loc <- locations) {
      logDebug(s"Getting remote block $blockId from $loc")
      val data = try {
        blockTransferService.fetchBlockSync(
          loc.host, loc.port, loc.executorId, blockId.toString).nioByteBuffer()
      } catch {
        case NonFatal(e) =>
          numFetchFailures += 1
          if (numFetchFailures == locations.size) {
            // An exception is thrown while fetching this block from all locations
            throw new BlockFetchException(s"Failed to fetch block from" +
              s" ${locations.size} locations. Most recent failure cause:", e)
          } else {
            // This location failed, so we retry fetch from a different one by returning null here
            logWarning(s"Failed to fetch remote block $blockId " +
              s"from $loc (failed attempt $numFetchFailures)", e)
            null
          }
      }

      if (data != null) {
        if (asBlockResult) {
          return Some(new BlockResult(
            dataDeserialize(blockId, data),
            DataReadMethod.Network,
            data.limit()))
        } else {
          return Some(data)
        }
      }
      logDebug(s"The value of block $blockId is null")
    }
    logDebug(s"Block $blockId not found")
    None
  }

13. 获取Block数据方法 get

get方法用于通过BlockId获取Block。get方法首先从本地上获取，如果没有则去远端获取。

  /**
   * Get a block from the block manager (either local or remote).
   */
  def get(blockId: BlockId): Option[BlockResult] = {
    val local = getLocal(blockId)
    if (local.isDefined) {
      logInfo(s"Found block $blockId locally")
      return local
    }
    val remote = getRemote(blockId)
    if (remote.isDefined) {
      logInfo(s"Found block $blockId remotely")
      return remote
    }
    None
  }

14. 数据流序列化方法 dataSerializeStream

如果写入存储体系的数据本身是序列化的，则读取的时候应该对其进行反序列化。dataSerializeStream方法使用了compressionCodec对文件输入流进行压缩和序列化处理。

  /** Serializes into a stream. */
  def dataSerializeStream(
      blockId: BlockId,
      outputStream: OutputStream,
      values: Iterator[Any]): Unit = {
    val byteStream = new BufferedOutputStream(outputStream)
    val ser = defaultSerializer.newInstance()
    ser.serializeStream(wrapForCompression(blockId, byteStream)).writeAll(values).close()
  }

  /**
   * Wrap an output stream for compression if block compression is enabled for its block type
   */
  def wrapForCompression(blockId: BlockId, s: OutputStream): OutputStream = {
    if (shouldCompress(blockId)) compressionCodec.compressedOutputStream(s) else s
  }

15. metadataCleaner和broadcastCleaner

为了有效利用磁盘空间和内存，metadataCleaner和broadcastCleaner分别用于清除blockInfo中很久不用的非广播和广播Block信息。
metadataCleaner参数是dropOldNonBroadcastBlocks，broadcastCleaner的参数是dropOldBroadcastBlocks。这两个函数都会调用dropOldBlocks，它会遍历blockInfo，将很久不用的Block从MemoryStore、DiskStore、ExternalStore中清除。

  private val metadataCleaner = new MetadataCleaner(
    MetadataCleanerType.BLOCK_MANAGER, this.dropOldNonBroadcastBlocks, conf)
  private val broadcastCleaner = new MetadataCleaner(
    MetadataCleanerType.BROADCAST_VARS, this.dropOldBroadcastBlocks, conf)


  private def dropOldNonBroadcastBlocks(cleanupTime: Long): Unit = {
    logInfo(s"Dropping non broadcast blocks older than $cleanupTime")
    dropOldBlocks(cleanupTime, !_.isBroadcast)
  }

  private def dropOldBroadcastBlocks(cleanupTime: Long): Unit = {
    logInfo(s"Dropping broadcast blocks older than $cleanupTime")
    dropOldBlocks(cleanupTime, _.isBroadcast)
  }


  private def dropOldBlocks(cleanupTime: Long, shouldDrop: (BlockId => Boolean)): Unit = {
    val iterator = blockInfo.getEntrySet.iterator
    while (iterator.hasNext) {
      val entry = iterator.next()
      val (id, info, time) = (entry.getKey, entry.getValue.value, entry.getValue.timestamp)
      if (time < cleanupTime && shouldDrop(id)) {
        info.synchronized {
          val level = info.level
          if (level.useMemory) { memoryStore.remove(id) }
          if (level.useDisk) { diskStore.remove(id) }
          if (level.useOffHeap) { externalBlockStore.remove(id) }
          iterator.remove()
          logInfo(s"Dropped block $id")
        }
        val status = getCurrentBlockStatus(id, info)
        reportBlockStatus(id, info, status)
      }
    }
  }

16. 压缩算法 CompressionCodec

为了节省磁盘存储空间，有些情况下需要对Block进行压缩。根据配置属性spark.io.compression.codec来确定要使用的压缩算法，默认为snappy，此压缩算法在牺牲少量压缩比例的条件下，极大的提高了压缩速度。

private[spark] object CompressionCodec {

  private val configKey = "spark.io.compression.codec"

  private[spark] def supportsConcatenationOfSerializedStreams(codec: CompressionCodec): Boolean = {
    codec.isInstanceOf[SnappyCompressionCodec] || codec.isInstanceOf[LZFCompressionCodec]
  }

  private val shortCompressionCodecNames = Map(
    "lz4" -> classOf[LZ4CompressionCodec].getName,
    "lzf" -> classOf[LZFCompressionCodec].getName,
    "snappy" -> classOf[SnappyCompressionCodec].getName)

  def getCodecName(conf: SparkConf): String = {
    conf.get(configKey, DEFAULT_COMPRESSION_CODEC)
  }

  def createCodec(conf: SparkConf): CompressionCodec = {
    createCodec(conf, getCodecName(conf))
  }

  def createCodec(conf: SparkConf, codecName: String): CompressionCodec = {
    val codecClass = shortCompressionCodecNames.getOrElse(codecName.toLowerCase, codecName)
    val codec = try {
      val ctor = Utils.classForName(codecClass).getConstructor(classOf[SparkConf])
      Some(ctor.newInstance(conf).asInstanceOf[CompressionCodec])
    } catch {
      case e: ClassNotFoundException => None
      case e: IllegalArgumentException => None
    }
    codec.getOrElse(throw new IllegalArgumentException(s"Codec [$codecName] is not available. " +
      s"Consider setting $configKey=$FALLBACK_COMPRESSION_CODEC"))
  }

  /**
   * Return the short version of the given codec name.
   * If it is already a short name, just return it.
   */
  def getShortName(codecName: String): String = {
    if (shortCompressionCodecNames.contains(codecName)) {
      codecName
    } else {
      shortCompressionCodecNames
        .collectFirst { case (k, v) if v == codecName => k }
        .getOrElse { throw new IllegalArgumentException(s"No short name for codec $codecName.") }
    }
  }

  val FALLBACK_COMPRESSION_CODEC = "lzf"
  val DEFAULT_COMPRESSION_CODEC = "snappy"
  val ALL_COMPRESSION_CODECS = shortCompressionCodecNames.values.toSeq
}

17. 磁盘写入实现 DiskBlockObjectWriter

DiskBlockObjectWriter被用于输出Spark任务的中间计算结果。DiskBlockObjectWriter继承自OutputStream，不能支持并发的写，而且只能打开一次。其核心是使用fileSegment方法创建FileSegment 来记录分片的起始、结束偏移量。

  /**
   * Returns the file segment of committed data that this Writer has written.
   * This is only valid after commitAndClose() has been called.
   */
  def fileSegment(): FileSegment = {
    if (!commitAndCloseHasBeenCalled) {
      throw new IllegalStateException(
        "fileSegment() is only valid after commitAndClose() has been called")
    }
    new FileSegment(file, initialPosition, finalPosition - initialPosition)
  }

参考：深入理解Spark核心思想与源码分析

你可能感兴趣的:(Spark源码)

Spark-第三周 fightingD&W Spark spark 大数据分布式
1.sparkcontext初始化源码分析Spark源码（7）-SparkContext初始化源码分析_太与旅spark源码-CSDN博客Spark源码学习(一)：SparkContext初始化源码分析_sparkinitialize-CSDN博客2.任务调度源码分析job提交spark提交job运行流程_请详述spark核心执行流程,如何使用sparksubmit在客户端提交job后如何通过st
IDEA 本地运行Spark fir_dameng 大数据开发 spark
IDEA本地运行Spark1、背景2、环境准备3、具体流程3.1IDEA创建maven项目3.2pom.xml配置3.3Demo程序示例3.4结果输出4、总结改进1、背景主要用于本地阅读Spark源码，同时也可以用于实战运行spark程序2、环境准备jdk:1.8+scala:2.12+（Spark3x要求scala版本2.12）3、具体流程3.1IDEA创建maven项目File->Maven-
Spark Submit提交时，Json字符串作为参数南修子
今天遇到一个把json作为参数传入spark程序中的问题原因如下，Spark源码中会对把}}和{{替换掉@VisibleForTestingpublicstaticStringexpandEnvironment(Stringvar,PathcontainerLogDir){var=var.replace(ApplicationConstants.LOG_DIR_EXPANSION_VAR,cont
Spark源码之CacheManager 小狼星I
Spark源码之CacheManager篇CacheManager介绍1.CacheManager管理spark的缓存，而缓存可以基于内存的缓存，也可以是基于磁盘的缓存；2.CacheManager需要通过BlockManager来操作数据；3.当Task运行的时候会调用RDD的comput方法进行计算，而compute方法会调用iterator方法；CacheManager源码解析既然要说Cac
R 安装 devtools 报错信息第一次看海 r语言 java 开发语言
在编译spark源码时遇到sparkr有依赖R环境，当然一般用不到sparkr时可以不加入编译在安装R环境和一些依赖包时遇到一些问题Rscript-e"install.packages(c('knitr','rmarkdown','devtools','testthat','e1071','survival'),repos='http://mirrors.tuna.tsinghua.edu.cn/
Spark源码分析之：Shuffle 你说个der Spark spark 大数据
这一篇我们来分析Spark2.1的Shuffle流程。其实ShuffleDependency从SparkContext初始化就已经被DAGScheduler划分好了，本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。要从Task运行开始说起，就要知道Task在哪里运行的。我们普遍认为Executor是负责执行Task的，但是我们发现Executor其实就是一个类pr
Spark源码——Shuffle过程阿松0311 Spark spark mapreduce big data
shuffle很重要，调优的重点、性能的杀手未优化的shuffle：(图片来源：北风网）未优化的shuffle有两个特点：spark早期版本中，shuffleMapTask将所有数据写入bucket缓存后，才会刷新到磁盘，但是缓存就容易OOM，所以后来的版本，这个缓存设置了阈值，默认100kb，写入数据达到缓存的阈值后，就会将数据刷新到磁盘。这种就不容易OOM，但是频繁刷新涉及过多IO操作，所以这
mac系统spark环境搭建 Maximilian_M Spark学习之路 spark idea scala mac 环境搭建
所需工具1.jdk2.scala下载地址：scala官网下载scala版本下载需注意，后期idea编译可能导致报错，scala版本和spark版本存在一些兼容性问题spark开发语言支持scala、java和python，推荐scala，因为spark源码就是scala，后期可以为研究源码打基础3.spark下载地址：spark官网下载配置环境变量vi~/.bash_profile追加export
【Spark源码分析】Spark的RPC通信二-初稿顧棟 spark rpc
Spark的RPC通信二-初稿SparkRPC的传输层传输层主要还是借助netty框架进行实现。TransportContext包含创建TransportServer、TransportClientFactory和使用TransportChannelHandler设置NettyChannel管道的上下文。TransportClient提供两种通信协议：control-planeRPCs和data-
【Spark源码分析】Spark的RPC通信一-初稿顧棟 Spark spark rpc
Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC消息的发送与接收实现核心类`Inbox`核心类`Dispatcher`核心类`Outbox`Spark的RPC顶层设计在RpcEnv中定义了RPC通信框架的启动、停止和关闭等抽象方法，表示
Spark源码之Worker 小狼星I
Spark源码之Worker介绍篇Worker介绍Worker作为工作节点,一般Driver以及Executor都会在这Worker上分布;Worker代码概览Worker继承了ThreadSafeRpcEndpoint,所以本身就是一个消息循环体,可以直接跟其他组件进行通信；内部封装一堆数据结构，用于记录存储Driver,Executor，Application等信息；Worker内部对自身的资
spark源码阅读——shuffle写 WJL3333
groupByKey这个操作一般会产生两个RDD：（map操作）MapPartitionsRDD（隐式转换之后聚合）ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(
spark源码之shuffleManager cclucc
shufflemanager的实现类：sortshufflemanagerSpark0.8及以前HashBasedShuffle在ShuffleWrite过程按照Hash的方式重组Partition的数据，不进行排序。每个map端的任务为每个reduce端的Task生成一个文件，通常会产生大量的文件（即对应为M*R个中间文件，其中M表示map端的Task个数，R表示reduce端的Task个数），
spark java 调试_远程调试spark源码（基于java的调试工具）吹亚吹 spark java 调试
开发人员在进行程序编码的过程中，不可避免的需要对代码进行调试，其目的是能精确定位程序的运行状况。本文对spark源码进行调试，此调试方式可以调试任何JVM相关的程序，如：普通的命令行程序、web程序等。1、实验环境IPhostnamemasterworker192.168.56.101master是否192.168.56.102node1否是192.168.56.103node2否是192.168
SparkSQL远程调试（IDEA） RainTicking 大数据大数据 spark
启动IntellijIDEA，打开spark源码项目，配置远程调试Run->EditConfiguration启动远程spark-sqlspark-sql--verbose--driver-java-options"-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=5005"运行远程调试，RUN->Debug‘spark
1. spark源码分析（基于yarn cluster模式）-任务提交 Leo Han 大数据 spark scala big data yarn
首先声明，这个系列研究的源码基于spark-2.4.6我们在使用spark-shell提交任务的时候，一般采用如下模式提交任务：park-submit--classxxxxx--name'test_xxxx'--masteryarn-cluster--queueyarn-test--principalad-bigdata-test--keytab'xxxx.keytab'--num-executo
Spark一级资源调度Shedule机制及SpreadOut模式源码深入剖析 weixin_34210740 大数据
本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark源码解读及商业实战指导，请持续关注本套博客。版权声明：本套Spark源码解读及商业实战归作者（秦凯新）所有，禁止转载，欢迎学习。Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施Spark商业环境实战-Spark事件监听总线流程分析Spark商业环境实战-Spark存储体系底层架构剖析Spark商业环境实
Spark事件监听总线流程分析-Spark商业环境实战 weixin_34268753 大数据 ui
本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark源码解读及商业实战指导，请持续关注本套博客。版权声明：本套Spark源码解读及商业实战归作者（秦凯新）所有，禁止转载，欢迎学习。Spark商业环境实战及调优进阶系列Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施Spark商业环境实战-Spark事件监听总线流程分析Spark商业环境实战-Spark存储
spark源码：SparkContext初始化需要启动的组件 weixin_38842855 spark
spark源码分析之SparkContext1.SparkContext简介2初始化SparkContext需要启动的组件2.0SparkContext私有的可变成员变量2.1SpaekEnv2.2LiveListenerBus2.3SparkUI2.4SparkStatusTracker2.5ConsoleProgressBar2.6DAGScheduler2.7TaskScheduler2.8
【Spark源码分析】事件总线机制分析顧棟 Spark spark 大数据
Spark事件总线机制采用Spark2.11源码，以下类或方法被@DeveloperApi注解额部分，可能出现不同版本不同实现的情况。Spark中的事件总线用于接受事件并提交到对应的监听器中。事件总线在Spark应用启动时，会在SparkContext中激活spark运行的事件总线（LiveListenerBus）。LiveListenerBus相关的部分类图如下：由于Spark使用scala语言
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决 xiaoliuyiting spark
解决方法1转载：http://www.cnblogs.com/war3blog/p/7864804.html在编译spark源码的时候老师报类似的错误然后在spark文件夹下的pom.xml里加入如下依赖，源码编译就没有报错成功编译出来了修改spark源码下的pom.xml文件net.alchim31.mavenscala-maven-plugin3.2.0解决方法2转载：https://blog
Spark源码解析之org.apache.spark.deploy.SparkSubmit源码解析南宫紫攸 Spark
前面解读launch.main的时候已经了解了spark-submit的提交流程，这里大概看下流程。当打jar提交到集群运行的时候，一般会设置一些参数，例如本地提交examples的SparkPi：spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://192.168.2.1:7077\D:\spark\spark
Spark-deploy blesslyy spark deploy
Spark-deploy@(spark)[deploy|yarn]写在前面的话请参考Spark源码分析之-deploy模块，虽然是13年的文章，但是作者写的比我明白多了。so我写一半就算了。。。在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了HadoopYARN的方式：外层的资源管理器和应用内的任务调度器；并且分析了Spark应用内的任务调度模块。本文就
7. Spark源码解析之org.apache.spark.deploy.SparkSubmit源码解析訾零 Spark
前面解读launch.main的时候已经了解了spark-submit的提交流程，这里大概看下流程。当打jar提交到集群运行的时候，一般会设置一些参数，例如本地提交examples的SparkPi：spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://192.168.2.1:7077\D:\spark\spark
k8s提交spark应用消费kafka数据写入elasticsearch7 青春不流名 kubernetes spark kafka
一、k8s集群环境k8s1.23版本，三个节点，容器运行时使用docker。spark版本时3.3.3k8s部署单节点的zookeeper、kafka、elasticsearch7二、spark源码https://download.csdn.net/download/TT1024167802/88509398命令行提交方式/opt/module/spark-3.3.3/bin/spark-subm
二、用IDEA导入spark源码，并在本地运行standlone 小小小黄鸡 spark spark
上面我们编译了源码，然后我们接下来用idea将源码导入到开发工具，并在idea上启动standlone的master和slave，方便我们调试。1将项目导入到idea当中然后openasproject即可。我看网上很多说，导入了，然后让maven自动导入依赖就行，但是不知道可能是我的网络问题，我遇到了很多问题，这里我分享出来，看是否能对你们有帮助。2遇到的问题1.导入到idea当中，spark-p
spark源码之任务提交过程机器不能学习
感谢逃出你的肖生克文章指导。一般在命令行我们会以spark-submit来提交自己的代码，并会以这个形式提交./bin/spark-submit\--class\--master\--deploy-mode\--conf=\...#otheroptions\[application-arguments]代码提交到spark后大概会有三个流程。1.找到或是设置spark_home变量2.设置相关相关
Spark自定义输出文件客舟听雨2 spark hadoop 大数据
一、概述本文将通过源码出发讲述spark如何调用hadoop几种OutputFormat,从而实现的文件输出，这里将讲述几种工作中常使用的算子，例如：saveAsTextFile(path)、saveAsHadoopFile(path)二、spark源码分析saveAsTextFile(path)底层调用也是saveAsHadoopFile(path)，所以这里主要是讲述后者的源码；这一步也将带你
spark源码分析Master与Worker启动流程篇那年的坏人 spark spark 源码分布式框架
spark通信流程概述spark作为一套高效的分布式运算框架，但是想要更深入的学习它，就要通过分析spark的源码，不但可以更好的帮助理解spark的工作过程，还可以提高对集群的排错能力，本文主要关注的是Spark的Master的启动流程与Worker启动流程。Master启动我们启动一个Master是通过Shell命令启动了一个脚本start-master.sh开始的，这个脚本的启动流程如下st
2万字硬核spark源码精讲手册大数据兵工厂大数据 spark 大数据
大家好，我是老兵。本期为大家带来spark源码精讲系列，我将结合自身的理解深入浅出的剖析spark内核。全文内容很肝，希望能够给大家提供帮助。1引子（环境准备）本文整体基于Spark2.4.1代码讲解，首先需要准备编译环境。1）编译环境1）scala2.11+jdk1.8+maven3.5+Git2.0+Spark2.4.12）windows环境（idea）2）编译准备好上述环境（自行百度安装教程
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul