AlanHand

10.BlockManager源码分析

先来张原理图吧 !

上面的BlockManagerWorker是在1.3之前的版本中才有的 , 从1.3开始BlockManagerWorker由BlockTransferService替代 .

其实BlockManagerMaster的主要工作是交于BlockManagerMasterActor来处理的:

     
     
     
     
      
      
      
      /**
      
      
      
       * BlockManagerMasterActor is an actor on the master node to track statuses of
      
      
      
       * all slaves' block managers.
      
      
      
       * 
      
      
      
       * 其实BlockManagerMasterActor就是负责维护各个executor的BlockManager的元数据
      
      
      
       * BlockManagerInfo , BlockStatus
      
      
      
       */
      
      
      
      private[spark]
      
      
      
      class BlockManagerMasterActor(val isLocal: Boolean, conf: SparkConf, listenerBus: LiveListenerBus)
      
      
      
       extends Actor with ActorLogReceive with Logging {

该类中有一个内部类就是BlockManagerInfo , 负责存放每一BlockManager的信息并更新和删除block状态的改变:

     
     
     
     
      
      
      
      /**
      
      
      
       * 每一个BlockManager的BlockManagerInfo
      
      
      
       */
      
      
      
      private[spark] class BlockManagerInfo(
      
      
      
       val blockManagerId: BlockManagerId,
      
      
      
       timeMs: Long,
      
      
      
       val maxMem: Long,
      
      
      
       val slaveActor: ActorRef)
      
      
      
       extends Logging {
      
      
      
      
      
      
      
       private var _lastSeenMs: Long = timeMs
      
      
      
       private var _remainingMem: Long = maxMem
      
      
      
      
      
      
      
       // Mapping from block id to its status.
      
      
      
       private val _blocks = new JHashMap[BlockId, BlockStatus]
      
      
      
      
      
      
      
       def getStatus(blockId: BlockId) = Option(_blocks.get(blockId))
      
      
      
      
      
      
      
       def updateLastSeenMs() {
      
      
      
       _lastSeenMs = System.currentTimeMillis()
      
      
      
       }
      
      
      
      
      
      
      
       def updateBlockInfo(
      
      
      
       blockId: BlockId,
      
      
      
       storageLevel: StorageLevel,
      
      
      
       memSize: Long,
      
      
      
       diskSize: Long,
      
      
      
       tachyonSize: Long) {
      
      
      
      
      
      
      
       updateLastSeenMs()
      
      
      
      
      
      
      
       /**
      
      
      
       * 判断如果内部有这个block
      
      
      
       */
      
      
      
       if (_blocks.containsKey(blockId)) {
      
      
      
       // The block exists on the slave already.
      
      
      
       val blockStatus: BlockStatus = _blocks.get(blockId)
      
      
      
       val originalLevel: StorageLevel = blockStatus.storageLevel
      
      
      
       val originalMemSize: Long = blockStatus.memSize
      
      
      
      
      
      
      
       // 判断如果storagelevel是使用内存那么就给剩余内存数量加上当前的内存量
      
      
      
       if (originalLevel.useMemory) {
      
      
      
       _remainingMem += originalMemSize
      
      
      
       }
      
      
      
       }
      
      
      
      
      
      
      
       // 给Block创建一份BlockStatus,然后根据其持久化级别对相应的内存资源进行计算
      
      
      
       if (storageLevel.isValid) {
      
      
      
       /* isValid means it is either stored in-memory, on-disk or on-Tachyon.
      
      
      
       * The memSize here indicates the data size in or dropped from memory,
      
      
      
       * tachyonSize here indicates the data size in or dropped from Tachyon,
      
      
      
       * and the diskSize here indicates the data size in or dropped to disk.
      
      
      
       * They can be both larger than 0, when a block is dropped from memory to disk.
      
      
      
       * Therefore, a safe way to set BlockStatus is to set its info in accurate modes. */
      
      
      
       if (storageLevel.useMemory) {
      
      
      
       _blocks.put(blockId, BlockStatus(storageLevel, memSize, 0, 0))
      
      
      
       _remainingMem -= memSize
      
      
      
       logInfo("Added %s in memory on %s (size: %s, free: %s)".format(
      
      
      
       blockId, blockManagerId.hostPort, Utils.bytesToString(memSize),
      
      
      
       Utils.bytesToString(_remainingMem)))
      
      
      
       }
      
      
      
       if (storageLevel.useDisk) {
      
      
      
       _blocks.put(blockId, BlockStatus(storageLevel, 0, diskSize, 0))
      
      
      
       logInfo("Added %s on disk on %s (size: %s)".format(
      
      
      
       blockId, blockManagerId.hostPort, Utils.bytesToString(diskSize)))
      
      
      
       }
      
      
      
       if (storageLevel.useOffHeap) {
      
      
      
       _blocks.put(blockId, BlockStatus(storageLevel, 0, 0, tachyonSize))
      
      
      
       logInfo("Added %s on tachyon on %s (size: %s)".format(
      
      
      
       blockId, blockManagerId.hostPort, Utils.bytesToString(tachyonSize)))
      
      
      
       }
      
      
      
       
      
      
      
       // 如果StorageLevel是非法的而且之前保存过这个blockId那么就将blockId从内存中删除
      
      
      
       } else if (_blocks.containsKey(blockId)) {
      
      
      
       // If isValid is not true, drop the block.
      
      
      
       val blockStatus: BlockStatus = _blocks.get(blockId)
      
      
      
       _blocks.remove(blockId)
      
      
      
       if (blockStatus.storageLevel.useMemory) {
      
      
      
       logInfo("Removed %s on %s in memory (size: %s, free: %s)".format(
      
      
      
       blockId, blockManagerId.hostPort, Utils.bytesToString(blockStatus.memSize),
      
      
      
       Utils.bytesToString(_remainingMem)))
      
      
      
       }
      
      
      
       if (blockStatus.storageLevel.useDisk) {
      
      
      
       logInfo("Removed %s on %s on disk (size: %s)".format(
      
      
      
       blockId, blockManagerId.hostPort, Utils.bytesToString(blockStatus.diskSize)))
      
      
      
       }
      
      
      
       if (blockStatus.storageLevel.useOffHeap) {
      
      
      
       logInfo("Removed %s on %s on tachyon (size: %s)".format(
      
      
      
       blockId, blockManagerId.hostPort, Utils.bytesToString(blockStatus.tachyonSize)))
      
      
      
       }
      
      
      
       }
      
      
      
       }

每一个BlockManager刚开始的时候都会向BlockManagerMasterActor发送 " RegisterBlockManager "消息进行注册 , BlockManagerMasterActor接收到消息之后的注册代码如下:

     
     
     
     
      
      
      
      /**
      
      
      
       * 接收消息处理的方法
      
      
      
       */
      
      
      
       override def receiveWithLogging = {
      
      
      
       /**
      
      
      
       * 首先BlockManagerMaster需要接收到其它节点的BlockManager注册的消息
      
      
      
       */
      
      
      
       case RegisterBlockManager(blockManagerId, maxMemSize, slaveActor) =>
      
      
      
       // 调用注册方法
      
      
      
       register(blockManagerId, maxMemSize, slaveActor)
      
      
      
       // 发送注册成功的消息
      
      
      
       sender ! true
      
      
      
      
      
      
      
       /**
      
      
      
       * 发送Block信息更改
      
      
      
       */
      
      
      
       case UpdateBlockInfo(
      
      
      
       blockManagerId, blockId, storageLevel, deserializedSize, size, tachyonSize) =>
      
      
      
       sender ! updateBlockInfo(
      
      
      
       blockManagerId, blockId, storageLevel, deserializedSize, size, tachyonSize)

里面会调用register方法 , Block状态更改的消息下面会分析 , 源码如下:

      
      
      
      
       
       
       
       /**
       
       
       
        * BlockManager注册的方法
       
       
       
        */
       
       
       
        private def register(id: BlockManagerId, maxMemSize: Long, slaveActor: ActorRef) {
       
       
       
        val time = System.currentTimeMillis()
       
       
       
        // 首先判断一下HashMap中没有指定的BlockManagerId, 说明从来没有注册过那么才会继续往下走去注册这个BlockManager
       
       
       
        if (!blockManagerInfo.contains(id)) {
       
       
       
        
       
       
       
        // 根据BlockManager对应的ExecutorId找到对应的BlockManagerInfo
       
       
       
        // 做一个安全判断 , 如果没有BlockManagerId那么同步到blockManagerIByExecutorId里面
       
       
       
        // 如果BlockManagerIdByExecutor有的话就做一下清理
       
       
       
        blockManagerIdByExecutor.get(id.executorId) match {
       
       
       
        case Some(oldId) =>
       
       
       
        // A block manager of the same executor already exists, so remove it (assumed dead)
       
       
       
        logError("Got two different block manager registrations on same executor - " 
       
       
       
        + s" will replace old one $oldId with new one $id")
       
       
       
        // 从内存中移除掉executorId相关的blockManagerInfo
       
       
       
        removeExecutor(id.executorId) 
       
       
       
        case None =>
       
       
       
        }
       
       
       
        logInfo("Registering block manager %s with %s RAM, %s".format(
       
       
       
        id.hostPort, Utils.bytesToString(maxMemSize), id))
       
       
       
        
       
       
       
        // 往blockmanagerIdByExecutor map 中保存一份executorid到blockmanagerId的映射
       
       
       
        blockManagerIdByExecutor(id.executorId) = id
       
       
       
        
       
       
       
        // 为BlockManagerId创建一份BlockManagerInfo
       
       
       
        // 并往BlockManagerInfo map中保存一份blockmanagerId到blockmanagerInfo的映射
       
       
       
        // 到这里注册BlockManager就完咯
       
       
       
        blockManagerInfo(id) = new BlockManagerInfo(
       
       
       
        id, System.currentTimeMillis(), maxMemSize, slaveActor)
       
       
       
        }
       
       
       
        listenerBus.post(SparkListenerBlockManagerAdded(time, id, maxMemSize))
       
       
       
        }

其实BlockManager的注册就是将BlockManagerId和与这个BlockManager相关联的ExecutorId加入BlockManagerInfo和BlockManagerIdByExecutor中 ,下面的BlockManagerMasterActor的三个成员变量负责存放这些信息:

      
      
      
      
       
       
       
       // 首先这个map 映射了block manager id 到block manager info 之间的映射关系
       
       
       
        // BlockManagerMaster要负责维护每个BlockManager的BlockManagerInfo
       
       
       
        // 而Spark中管理数据的最小单位为Block , 同Hadoop一样
       
       
       
        private val blockManagerInfo = new mutable.HashMap[BlockManagerId, BlockManagerInfo]
       
       
       
       
       
       
       
        // Mapping from executor ID to block manager ID.
       
       
       
        private val blockManagerIdByExecutor = new mutable.HashMap[String, BlockManagerId]
       
       
       
       
       
       
       
        // Mapping from block id to the set of block managers that have the block.
       
       
       
        private val blockLocations = new JHashMap[BlockId, mutable.HashSet[BlockManagerId]]

接下来就分析一下BlockManager的源码 , BlockManager运行在每个节点上,包括driver和executor都会有一份,主要提供关联在本地或者远程存取数据的功能 , 并支持内存,磁盘和对外存储

,该类中有一成员变量会对每一个block信息进行缓存,如下:

      
      
      
      
       
       
       
       // 这里还有一个东西就是每个BlockManager自己会维护一个map在内存中存放一个一个的block块
       
       
       
        // 这个块是blockId到blcokInfo的映射
       
       
       
        // 每个BlockInfo中是不是就封装了Block的数据
       
       
       
        // BlockInfo最大的作用是用于作为多线程访问同一个Block的同步监视器
       
       
       
        private val blockInfo = new TimeStampedHashMap[BlockId, BlockInfo]

最先调用BlockManager的initialize方法对一些组件进行初始化:

      
      
      
      
       
       
       
       def initialize(appId: String): Unit = {
       
       
       
        
       
       
       
        // 在1.3版本之前BlockManager是使用BlockManagerWorker来进行通信的 , 但1.3版本已经改为BlockTransfer
       
       
       
        // 所以首先初始化用于block数据传输的BlockTransferService
       
       
       
        blockTransferService.init(this)
       
       
       
        shuffleClient.init(appId)
       
       
       
       
       
       
       
        //为当前这个BlockManager创建一个唯一的BlockManagerId,使用到了executorId(每个BlockManager都关联一个executor,BlockTransferService的hostname以及port)
       
       
       
        // 所以 , 从这个BlockManagerId的初始化即可看出一个BlockManager是通过一个节点上的executor来唯一标识的
       
       
       
        blockManagerId = BlockManagerId(
       
       
       
        executorId, blockTransferService.hostName, blockTransferService.port)
       
       
       
       
       
       
       
        shuffleServerId = if (externalShuffleServiceEnabled) {
       
       
       
        BlockManagerId(executorId, blockTransferService.hostName, externalShuffleServicePort)
       
       
       
        } else {
       
       
       
        blockManagerId
       
       
       
        }
       
       
       
       
       
       
       
        // 使用BlockManagerMasterActor引用进行BlockManager的注册 , 发送消息到BlockManagerMasterActor
       
       
       
        master.registerBlockManager(blockManagerId, maxMemory, slaveActor)
       
       
       
       
       
       
       
        // Register Executors' configuration with the local shuffle service, if one should exist.
       
       
       
        if (externalShuffleServiceEnabled && !blockManagerId.isDriver) {
       
       
       
        registerWithExternalShuffleServer()
       
       
       
        }
       
       
       
        }

上面的代码中调用registerBlockManager方法使用BlockManagerMasterActor的引用进行BlockManager进行注册,发送消息到BlockManagerMasterActor , 后面就是调用

BlockManagerMasterActor 的register方法了 , 上面已经提到过.

接下来就是数据的获取了 , 分别是从本地获取数据和从远程的节点上获取数据 , 以下是BlockManager从本地获取数据的源码:

      
      
      
      
       
       
       
       /**
       
       
       
        * 从本地获取数据
       
       
       
        */
       
       
       
        private def doGetLocal(blockId: BlockId, asBlockResult: Boolean): Option[Any] = {
       
       
       
        // 首先尝试直接从内存中获取数据
       
       
       
        val info = blockInfo.get(blockId).orNull
       
       
       
        if (info != null) {
       
       
       
        // 对所有的BlockInfo都会进行多线程并发访问的同步操作
       
       
       
        // 所有BlockInfo相当于是对一个Block用于作为多线程并发访问的同步监视器
       
       
       
        info.synchronized {
       
       
       
        // Double check to make sure the block is still there. There is a small chance that the
       
       
       
        // block has been removed by removeBlock (which also synchronizes on the blockInfo object).
       
       
       
        // Note that this only checks metadata tracking. If user intentionally deleted the block
       
       
       
        // on disk or from off heap storage without using removeBlock, this conditional check will
       
       
       
        // still pass but eventually we will get an exception because we can't find the block.
       
       
       
        if (blockInfo.get(blockId).isEmpty) {
       
       
       
        logWarning(s"Block $blockId had been removed")
       
       
       
        return None
       
       
       
        }
       
       
       
       
       
       
       
        // If another thread is writing the block, wait for it to become ready.
       
       
       
        // 如果其他线程在操作这个block那么其实会卡住等待后去BlockInfo的排他锁
       
       
       
        // 如果始终没有获取到则返回false
       
       
       
        if (!info.waitForReady()) {
       
       
       
        // If we get here, the block write failed.
       
       
       
        logWarning(s"Block $blockId was marked as failure.")
       
       
       
        return None
       
       
       
        }
       
       
       
       
       
       
       
        val level = info.level
       
       
       
        logDebug(s"Level for block $blockId is $level")
       
       
       
       
       
       
       
        // Look for the block in memory
       
       
       
        // 判断如果持久化级别使用了内存比如MEMORY_ONLY,MEMORY_AND_DISK_SER
       
       
       
        // 尝试从MemoryStore中获取数据
       
       
       
        if (level.useMemory) {
       
       
       
        logDebug(s"Getting block $blockId from memory")
       
       
       
        val result = if (asBlockResult) {
       
       
       
        memoryStore.getValues( ).map(new BlockResult(_, DataReadMethod.Memory, info.size))
       
       
       
        } else {
       
       
       
        memoryStore.getBytes(blockId)
       
       
       
        }
       
       
       
        result match {
       
       
       
        case Some(values) =>
       
       
       
        return result
       
       
       
        case None =>
       
       
       
        logDebug(s"Block $blockId not found in memory")
       
       
       
        }
       
       
       
        }
       
       
       
       
       
       
       
        // Look for the block in Tachyon
       
       
       
        if (level.useOffHeap) {
       
       
       
        logDebug(s"Getting block $blockId from tachyon")
       
       
       
        if (tachyonStore.contains(blockId)) {
       
       
       
        tachyonStore.getBytes(blockId) match {
       
       
       
        case Some(bytes) =>
       
       
       
        if (!asBlockResult) {
       
       
       
        return Some(bytes)
       
       
       
        } else {
       
       
       
        return Some(new BlockResult(
       
       
       
        dataDeserialize(blockId, bytes), DataReadMethod.Memory, info.size))
       
       
       
        }
       
       
       
        case None =>
       
       
       
        logDebug(s"Block $blockId not found in tachyon")
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
       
       
       
       
        // Look for block on disk, potentially storing it back in memory if required
       
       
       
        // 判断如果持久化级别使用了硬盘持久化
       
       
       
        // 尝试从DiskStore中获取数据
       
       
       
        if (level.useDisk) {
       
       
       
        logDebug(s"Getting block $blockId from disk")
       
       
       
        // 通过DiskStore的getBytes获取数据
       
       
       
        val bytes: ByteBuffer = diskStore.getBytes(blockId) match {
       
       
       
        case Some(b) => b
       
       
       
        case None =>
       
       
       
        throw new BlockException(
       
       
       
        blockId, s"Block $blockId not found on disk, though it should be")
       
       
       
        }
       
       
       
        assert(0 == bytes.position())
       
       
       
       
       
       
       
        // 如果数据仅仅只是设置了硬盘持久化而没有设置没存持久化存储那么直接将数据封装在BlockResult中返回
       
       
       
        if (!level.useMemory) {
       
       
       
        // If the block shouldn't be stored in memory, we can just return it
       
       
       
        if (asBlockResult) {
       
       
       
        return Some(new BlockResult(dataDeserialize(blockId, bytes), DataReadMethod.Disk,
       
       
       
        info.size))
       
       
       
        } else {
       
       
       
        return Some(bytes)
       
       
       
        }
       
       
       
        } else {
       
       
       
        // Otherwise, we also have to store something in the memory store
       
       
       
        
       
       
       
        // 如果数据还设置了内存持久化那么需要将数据通过memoryStore放入内存中
       
       
       
        if (!level.deserialized || !asBlockResult) {
       
       
       
        /* We'll store the bytes in memory if the block's storage level includes
       
       
       
        * "memory serialized", or if it should be cached as objects in memory
       
       
       
        * but we only requested its serialized bytes. */
       
       
       
        val copyForMemory = ByteBuffer.allocate(bytes.limit)
       
       
       
        copyForMemory.put(bytes)
       
       
       
        memoryStore.putBytes(blockId, copyForMemory, level)
       
       
       
        bytes.rewind()
       
       
       
        }
       
       
       
        if (!asBlockResult) {
       
       
       
        return Some(bytes)
       
       
       
        } else {
       
       
       
        val values = dataDeserialize(blockId, bytes)
       
       
       
        if (level.deserialized) {
       
       
       
        // Cache the values before returning them
       
       
       
        val putResult = memoryStore.putIterator(
       
       
       
        blockId, values, level, returnValues = true, allowPersistToDisk = false)
       
       
       
        // The put may or may not have succeeded, depending on whether there was enough
       
       
       
        // space to unroll the block. Either way, the put here should return an iterator.
       
       
       
        putResult.data match {
       
       
       
        case Left(it) =>
       
       
       
        return Some(new BlockResult(it, DataReadMethod.Disk, info.size))
       
       
       
        case _ =>
       
       
       
        // This only happens if we dropped the values back to disk (which is never)
       
       
       
        throw new SparkException("Memory store did not return an iterator!")
       
       
       
        }
       
       
       
        } else {
       
       
       
        return Some(new BlockResult(values, DataReadMethod.Disk, info.size))
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
        }
       
       
       
        } else {
       
       
       
        logDebug(s"Block $blockId not registered locally")
       
       
       
        }
       
       
       
        None
       
       
       
        }

代码有点多 , 其实总结下来就两大块 , 从硬盘上获取数据和从内存中获取数据 , 在拿取数据的时候必须是线程安全的 , 防止多个BlockManager来读取同一份数据 ,

首先从内存中获取 , 判断数据是否被内存持久化 , 然后调用MemoryStore的getValues或者getBytes方法获取数据 , 至于调用哪个方法看返回的结果是否为BlockResult ,

而数据若是被硬盘持久化的那么就用DiskStore的getBytes方法获取 , 获取到之后在检查一下是否需要内存持久化 , 是的话还得调用MemoryStore存储在内存中 , 一下是MemoryStore和DiskStore的数据获取方法getVlaues和getBytes :

MemoryStore的:

       
       
       
       
        
        
        
        // MemoryStore中维护的entries map中其实就是真的存放的是每个block的数据了
        
        
        
         // 每个block在内存中的数据用MemoryEntry代表
        
        
        
         private val entries = new LinkedHashMap[BlockId, MemoryEntry](32, 0.75f, true)

最后其实block的数据其实是存储在一个类型为HashMap的entries成员变量中了

       
       
       
       
        
        
        
        override def getBytes(blockId: BlockId): Option[ByteBuffer] = {
        
        
        
         // entries也是多线程并发访问同步的
        
        
        
         val entry = entries.synchronized {
        
        
        
         // 尝试从内存中获取block数据
        
        
        
         entries.get(blockId)
        
        
        
         }
        
        
        
         // 如果没有获取到范湖None
        
        
        
         if (entry == null) {
        
        
        
         None
        
        
        
         // 如果获取到了非序列化的数据
        
        
        
         } else if (entry.deserialized) {
        
        
        
         // 调用BlockManager的数据序列化方法将数据序列化返回
        
        
        
         Some(blockManager.dataSerialize(blockId, entry.value.asInstanceOf[Array[Any]].iterator))
        
        
        
         } else {
        
        
        
         // 否则直接返回数据
        
        
        
         Some(entry.value.asInstanceOf[ByteBuffer].duplicate()) // Doesn't actually copy the data
        
        
        
         }
        
        
        
         }
        
        
        
        
        
        
        
         override def getValues(blockId: BlockId): Option[Iterator[Any]] = {
        
        
        
         val entry = entries.synchronized {
        
        
        
         entries.get(blockId)
        
        
        
         }
        
        
        
         if (entry == null) {
        
        
        
         None
        
        
        
         // 如果非序列化直接返回
        
        
        
         } else if (entry.deserialized) {
        
        
        
         Some(entry.value.asInstanceOf[Array[Any]].iterator)
        
        
        
         // 如果序列化了那么用BlockManager进行反序列化再返回
        
        
        
         } else {
        
        
        
         val buffer = entry.value.asInstanceOf[ByteBuffer].duplicate() // Doesn't actually copy data
        
        
        
         Some(blockManager.dataDeserialize(blockId, buffer))
        
        
        
         }
        
        
        
         }

DiskStore的:

       
       
       
       
        
        
        
        private def getBytes(file: File, offset: Long, length: Long): Option[ByteBuffer] = {
        
        
        
         // DiskStore底层使用的是java的nio进行文件的读写操作
        
        
        
         val channel = new RandomAccessFile(file, "r").getChannel
        
        
        
        
        
        
        
         try {
        
        
        
         // For small files, directly read rather than memory map
        
        
        
         if (length < minMemoryMapBytes) {
        
        
        
         val buf = ByteBuffer.allocate(length.toInt)
        
        
        
         channel.position(offset)
        
        
        
         while (buf.remaining() != 0) {
        
        
        
         if (channel.read(buf) == -1) {
        
        
        
         throw new IOException("Reached EOF before filling buffer\n" +
        
        
        
         s"offset=$offset\nfile=${file.getAbsolutePath}\nbuf.remaining=${buf.remaining}")
        
        
        
         }
        
        
        
         }
        
        
        
         buf.flip()
        
        
        
         Some(buf)
        
        
        
         } else {
        
        
        
         Some(channel.map(MapMode.READ_ONLY, offset, length))
        
        
        
         }
        
        
        
         } finally {
        
        
        
         channel.close()
        
        
        
         }
        
        
        
         }

接下来是从别的节点获取数据:

      
      
      
      
       
       
       
       /**
       
       
       
        * 从别的节点拿取数据
       
       
       
        */
       
       
       
        private def doGetRemote(blockId: BlockId, asBlockResult: Boolean): Option[Any] = {
       
       
       
        require(blockId != null, "BlockId is null")
       
       
       
        // 首先BlockManagerMaster上获取每个blockId对应的BlockManager的信息
       
       
       
        // 然后打乱
       
       
       
        val locations = Random.shuffle(master.getLocations(blockId))
       
       
       
        // 遍历每一个BlockManager
       
       
       
        for (loc <- locations) {
       
       
       
        logDebug(s"Getting remote block $blockId from $loc")
       
       
       
        // 使用BlockTransferService进行异步的远程网络获取 , 将block数据传输回来
       
       
       
        // 连接的时候使用的BlockManager的唯一标识,就是host,port,executorId
       
       
       
        val data = blockTransferService.fetchBlockSync(
       
       
       
        loc.host, loc.port, loc.executorId, blockId.toString).nioByteBuffer()
       
       
       
       
       
       
       
        if (data != null) {
       
       
       
        if (asBlockResult) {
       
       
       
        return Some(new BlockResult(
       
       
       
        dataDeserialize(blockId, data),
       
       
       
        DataReadMethod.Network,
       
       
       
        data.limit()))
       
       
       
        } else {
       
       
       
        return Some(data)
       
       
       
        }
       
       
       
        }
       
       
       
        logDebug(s"The value of block $blockId is null")
       
       
       
        }
       
       
       
        logDebug(s"Block $blockId not found")
       
       
       
        None
       
       
       
        }

上面的master.getLocations(blockId)获取到的数据是在BlockManagerMasterActor中的一个成员变量 , 在获取到这些有数据的BlockManagerId之后在进行遍历拉取数据:

       
       
       
       
        
        
        
        // 这个变量存储了一个blockId代表的数据在别的节点上有哪些BlockManager拥有 , 若是做了数据的备份那么本地中一个blockId对应这别的节点上的多个BlockManagerId
        
        
        
         private val blockLocations = new JHashMap[BlockId, mutable.HashSet[BlockManagerId]]

然后通过blockTransferService的fetchBlockSync异步将数据拉取过来 , 后面再做一些反序列化的操作 , 这就是doGetRemote从远程获取数据 .

那么既然有读数据那么就有写数据 , 有三步骤:

1.写内存不足的处理机制是什么? -> 先将旧的数据硬盘持久化 , 将新的数据放入内存 , 若还是不行的话那么就将新的数据硬盘持久化

2.写完以后汇报BlockManagerMasterActor

3.如果要复用的话随机挑一个BlockManager通过BlockTransferService将数据传输过去

1.写内存不足的处理机制是什么?

先来看看BlockManager中的doPut()方法的部分源码(因为有点多):

       
       
       
       
        
        
        
        // 为需要进行存储的block创建一个BlockInfo对象并放入blockInfo map中
        
        
        
         val putBlockInfo = {
        
        
        
         val tinfo = new BlockInfo(level, tellMaster)
        
        
        
         // Do atomically !
        
        
        
         val oldBlockOpt = blockInfo.putIfAbsent(blockId, tinfo)
        
        
        
         if (oldBlockOpt.isDefined) {
        
        
        
         if (oldBlockOpt.get.waitForReady()) {
        
        
        
         logWarning(s"Block $blockId already exists on this machine; not re-adding it")
        
        
        
         return updatedBlocks
        
        
        
         }
        
        
        
         // TODO: So the block info exists - but previous attempt to load it (?) failed.
        
        
        
         // What do we do now ? Retry on it ?
        
        
        
         oldBlockOpt.get
        
        
        
         } else {
        
        
        
         tinfo
        
        
        
         }
        
        
        
         }

首先创建一个putBlockInfo 函数 , 在函数中创建BlockInfo对象

然后接下来是对putBlockInfo函数进行枷锁操作:

        
        
        
        
         
         
         
         // 尝试对blockInfo枷锁,进行多线程并发访问同步 
         
         
         
          putBlockInfo.synchronized {
         
         
         
          logTrace("Put for block %s took %s to get into synchronized block"
         
         
         
          .format(blockId, Utils.getUsedTimeMs(startTimeMs)))
         
         
         
         
         
         
         
          var marked = false
         
         
         
          try {
         
         
         
          // returnValues - Whether to return the values put
         
         
         
          // blockStore - The type of storage to put these values into
         
         
         
          
         
         
         
          // 首先根据持久化级别选择一种blockStore,memroyStore,diskStore等
         
         
         
          val (returnValues, blockStore: BlockStore) = {
         
         
         
          if (putLevel.useMemory) {
         
         
         
          // Put it in memory first, even if it also has useDisk set to true;
         
         
         
          // We will drop it to disk later if the memory store can't hold it.
         
         
         
          (true, memoryStore)
         
         
         
          } else if (putLevel.useOffHeap) {
         
         
         
          // Use tachyon for off-heap storage
         
         
         
          (false, tachyonStore)
         
         
         
          } else if (putLevel.useDisk) {
         
         
         
          // Don't get back the bytes from put unless we replicate them
         
         
         
          (putLevel.replication > 1, diskStore)
         
         
         
          } else {
         
         
         
          assert(putLevel == StorageLevel.NONE)
         
         
         
          throw new BlockException(
         
         
         
          blockId, s"Attempted to put block $blockId without specifying storage level!")
         
         
         
          }
         
         
         
          }
         
         
         
         
         
         
         
          // Actually put the values
         
         
         
          
         
         
         
          // 根据你选择的store , 根据数据的类型将数据放入store中 , 要么是MemoryStore的putBytes要么是DiskStore的putBytes
         
         
         
          val result = data match {
         
         
         
          case IteratorValues(iterator) =>
         
         
         
          blockStore.putIterator(blockId, iterator, putLevel, returnValues)
         
         
         
          case ArrayValues(array) =>
         
         
         
          blockStore.putArray(blockId, array, putLevel, returnValues)
         
         
         
          case ByteBufferValues(bytes) =>
         
         
         
          bytes.rewind()
         
         
         
          blockStore.putBytes(blockId, bytes, putLevel)
         
         
         
          }
         
         
         
          size = result.size
         
         
         
          result.data match {
         
         
         
          case Left (newIterator) if putLevel.useMemory => valuesAfterPut = newIterator
         
         
         
          case Right (newBytes) => bytesAfterPut = newBytes
         
         
         
          case _ =>
         
         
         
          }
         
         
         
         
         
         
         
          // Keep track of which blocks are dropped from memory
         
         
         
          if (putLevel.useMemory) {
         
         
         
          result.droppedBlocks.foreach { updatedBlocks += _ }
         
         
         
          }
         
         
         
         
         
         
         
          // putBlockInfo作为一个函数参数放入getCurrentBlockStatus获取到一个block对应的BlockStatus,putBlockInfo函数的方法会执行
         
         
         
          val putBlockStatus = getCurrentBlockStatus(blockId, putBlockInfo)
         
         
         
          if (putBlockStatus.storageLevel != StorageLevel.NONE) {
         
         
         
          // Now that the block is in either the memory, tachyon, or disk store,
         
         
         
          // let other threads read it, and tell the master about it.
         
         
         
          marked = true
         
         
         
          putBlockInfo.markReady(size)
         
         
         
          if (tellMaster) {
         
         
         
          // 调用reportBlockStatus()方法将新写入的block数据发送到BlockManagerMasterActor以便于进行block元数据的同步和维护
         
         
         
          reportBlockStatus(blockId, putBlockInfo, putBlockStatus)
         
         
         
          }
         
         
         
          updatedBlocks += ((blockId, putBlockStatus))
         
         
         
          }
         
         
         
          }

加锁的代码中需要根据持久化级别选择存储方式 , 根据不同的存储方式调用MemeoryStore的不同存储方法 , 这里详细看一下存储的具体代码:

MemoryStore中不管是putArray或者是putBytes方法都会调用tryToPut将数据优先放入内存,不行的话则尝试移除部分旧数据再将block存入:

        
        
        
        
         
         
         
         /**
         
         
         
          * 优先放入内存 , 不行的话尝试移除部分旧数据再讲block存入 
         
         
         
          */
         
         
         
          private def tryToPut(
         
         
         
          blockId: BlockId,
         
         
         
          value: Any,
         
         
         
          size: Long,
         
         
         
          deserialized: Boolean): ResultWithDroppedBlocks = {
         
         
         
         
         
         
         
          /* TODO: Its possible to optimize the locking by locking entries only when selecting blocks
         
         
         
          * to be dropped. Once the to-be-dropped blocks have been selected, and lock on entries has
         
         
         
          * been released, it must be ensured that those to-be-dropped blocks are not double counted
         
         
         
          * for freeing up more space for another block that needs to be put. Only then the actually
         
         
         
          * dropping of blocks (and writing to disk if necessary) can proceed in parallel. */
         
         
         
         
         
         
         
          var putSuccess = false
         
         
         
          val droppedBlocks = new ArrayBuffer[(BlockId, BlockStatus)]
         
         
         
         
         
         
         
          // 这里必须进行多线程并发同步
         
         
         
          // 要是不这样操作的话当你刚判定内存足够放数据的时候但是其它线程也在放那么就OOM了
         
         
         
          accountingLock.synchronized {
         
         
         
          
         
         
         
          // 调用ensureFreeSpace方法判断内存是否够用,如果不够用此时会将部分数据用dropFromMemory()方法尝试写入磁盘,但是如果持久化不支持磁盘那么数据丢失
         
         
         
          val freeSpaceResult = ensureFreeSpace(blockId, size)
         
         
         
          val enoughFreeSpace = freeSpaceResult.success
         
         
         
          droppedBlocks ++= freeSpaceResult.droppedBlocks
         
         
         
         
         
         
         
          // 将数据写入内存的时候首先调用enoughFreeSpace()方法 , 判断内存是否够放入数据
         
         
         
          if (enoughFreeSpace) {
         
         
         
          val entry = new MemoryEntry(value, size, deserialized)
         
         
         
          entries.synchronized {
         
         
         
          entries.put(blockId, entry)
         
         
         
          currentMemory += size
         
         
         
          }
         
         
         
          val valuesOrBytes = if (deserialized) "values" else "bytes"
         
         
         
          logInfo("Block %s stored as %s in memory (estimated size %s, free %s)".format(
         
         
         
          blockId, valuesOrBytes, Utils.bytesToString(size), Utils.bytesToString(freeMemory)))
         
         
         
          putSuccess = true
         
         
         
          } else {
         
         
         
          // Tell the block manager that we couldn't put it in memory so that it can drop it to
         
         
         
          // disk if the block allows disk storage.
         
         
         
          val data = if (deserialized) {
         
         
         
          Left(value.asInstanceOf[Array[Any]])
         
         
         
          } else {
         
         
         
          Right(value.asInstanceOf[ByteBuffer].duplicate())
         
         
         
          }
         
         
         
          // 调用dropFromMemory尝试将数据写入磁盘,但是如果block的持久化级别没有说可以写入磁盘那么数据就彻底丢啦
         
         
         
          val droppedBlockStatus = blockManager.dropFromMemory(blockId, data)
         
         
         
          droppedBlockStatus.foreach { status => droppedBlocks += ((blockId, status)) }
         
         
         
          }
         
         
         
          }
         
         
         
          ResultWithDroppedBlocks(putSuccess, droppedBlocks)
         
         
         
          }

在做数据存入的时候肯定需要判断内存是否够用 , ensureFreeSpace方法就是这个作用 , 源码如下:

        
        
        
        
         
         
         
          blockIdToAdd: BlockId,
         
         
         
          space: Long): ResultWithDroppedBlocks = {
         
         
         
          logInfo(s"ensureFreeSpace($space) called with curMem=$currentMemory, maxMem=$maxMemory")
         
         
         
         
         
         
         
          val droppedBlocks = new ArrayBuffer[(BlockId, BlockStatus)]
         
         
         
         
         
         
         
          if (space > maxMemory) {
         
         
         
          logInfo(s"Will not store $blockIdToAdd as it is larger than our memory limit")
         
         
         
          return ResultWithDroppedBlocks(success = false, droppedBlocks)
         
         
         
          }
         
         
         
         
         
         
         
          // Take into account the amount of memory currently occupied by unrolling blocks
         
         
         
          val actualFreeMemory = freeMemory - currentUnrollMemory
         
         
         
         
         
         
         
          // 如果当前内存不足够将这个block放入的话
         
         
         
          if (actualFreeMemory < space) {
         
         
         
          val rddToAdd = getRddId(blockIdToAdd)
         
         
         
          val selectedBlocks = new ArrayBuffer[BlockId]
         
         
         
          var selectedMemory = 0L
         
         
         
         
         
         
         
          // This is synchronized to ensure that the set of entries is not changed
         
         
         
          // (because of getValue or getBytes) while traversing the iterator, as that
         
         
         
          // can lead to exceptions.
         
         
         
          // 同步entries
         
         
         
          entries.synchronized {
         
         
         
          val iterator = entries.entrySet().iterator()
         
         
         
          // 尝试从entries中移除一部分数据
         
         
         
          while (actualFreeMemory + selectedMemory < space && iterator.hasNext) {
         
         
         
          val pair = iterator.next()
         
         
         
          val blockId = pair.getKey
         
         
         
          if (rddToAdd.isEmpty || rddToAdd != getRddId(blockId)) {
         
         
         
          selectedBlocks += blockId
         
         
         
          selectedMemory += pair.getValue.size
         
         
         
          }
         
         
         
          }
         
         
         
          }
         
         
         
         
         
         
         
          // 判断如果移除一部分数据之后就可以存放新的block了
         
         
         
          if (actualFreeMemory + selectedMemory >= space) {
         
         
         
          logInfo(s"${selectedBlocks.size} blocks selected for dropping")
         
         
         
          // 将之前选择的要移除的block数据遍历
         
         
         
          for (blockId <- selectedBlocks) {
         
         
         
          val entry = entries.synchronized { entries.get(blockId) }
         
         
         
          // This should never be null as only one thread should be dropping
         
         
         
          // blocks and removing entries. However the check is still here for
         
         
         
          // future safety.
         
         
         
          if (entry != null) {
         
         
         
          val data = if (entry.deserialized) {
         
         
         
          Left(entry.value.asInstanceOf[Array[Any]])
         
         
         
          } else {
         
         
         
          Right(entry.value.asInstanceOf[ByteBuffer].duplicate())
         
         
         
          }
         
         
         
          
         
         
         
          // 调用dropFromMemory方法将尝试数据写入磁盘 , 但是如果block的持久化级别没有说可以写入磁盘那么这个数据就丢咯
         
         
         
          val droppedBlockStatus = blockManager.dropFromMemory(blockId, data)
         
         
         
          droppedBlockStatus.foreach { status => droppedBlocks += ((blockId, status)) }
         
         
         
          }
         
         
         
          }
         
         
         
          return ResultWithDroppedBlocks(success = true, droppedBlocks)
         
         
         
          } else {
         
         
         
          logInfo(s"Will not store $blockIdToAdd as it would require dropping another block " +
         
         
         
          "from the same RDD")
         
         
         
          return ResultWithDroppedBlocks(success = false, droppedBlocks)
         
         
         
          }
         
         
         
          }
         
         
         
          ResultWithDroppedBlocks(success = true, droppedBlocks)
         
         
         
          }

上面在删除一些内存中的老数据时不是真正的删掉 , 而是将数据进行硬盘持久化 , 若是一个block的数据没有设置成硬盘持久化的话那么这份数据就会丢掉

而对于硬盘的数据存储就比较简单了 , 源码如下:

        
        
        
        
         
         
         
         override def putBytes(blockId: BlockId, _bytes: ByteBuffer, level: StorageLevel): PutResult = {
         
         
         
          // So that we do not modify the input offsets !
         
         
         
          // duplicate does not copy buffer, so inexpensive
         
         
         
          // 使用Java NIO 将数据写入磁盘文件
         
         
         
          val bytes = _bytes.duplicate()
         
         
         
          logDebug(s"Attempting to put block $blockId")
         
         
         
          val startTime = System.currentTimeMillis
         
         
         
          val file = diskManager.getFile(blockId)
         
         
         
          val channel = new FileOutputStream(file).getChannel
         
         
         
          while (bytes.remaining > 0) {
         
         
         
          channel.write(bytes)
         
         
         
          }
         
         
         
          channel.close()
         
         
         
          val finishTime = System.currentTimeMillis
         
         
         
          logDebug("Block %s stored as %s file on disk in %d ms".format(
         
         
         
          file.getName, Utils.bytesToString(bytes.limit), finishTime - startTime))
         
         
         
          PutResult(bytes.limit(), Right(bytes.duplicate()))
         
         
         
          }

写完数据之后就是报告BlockManagerMasterActor了 , 其实就一行代码:

     
     
     
     
      
      
      
      // 调用reportBlockStatus()方法将新写入的block数据发送到BlockManagerMasterActor以便于进行block元数据的同步和维护
      
      
      
       reportBlockStatus(blockId, putBlockInfo, putBlockStatus)

可以深入一下reportBlockStatus这个方法 :

     
     
     
     
      
      
      
      private def reportBlockStatus(
      
      
      
       blockId: BlockId,
      
      
      
       info: BlockInfo,
      
      
      
       status: BlockStatus,
      
      
      
       droppedMemorySize: Long = 0L): Unit = {
      
      
      
       val needReregister = !tryToReportBlockStatus(blockId, info, status, droppedMemorySize)
      
      
      
       if (needReregister) {
      
      
      
       logInfo(s"Got told to re-register updating block $blockId")
      
      
      
       // Re-registering will report our new block for free.
      
      
      
       asyncReregister()
      
      
      
       }
      
      
      
       logDebug(s"Told master about block $blockId")
      
      
      
       }
      
      
      
      
      
      
      
       /**
      
      
      
       * Actually send a UpdateBlockInfo message. Returns the master's response,
      
      
      
       * which will be true if the block was successfully recorded and false if
      
      
      
       * the slave needs to re-register.
      
      
      
       */
      
      
      
       private def tryToReportBlockStatus(
      
      
      
       blockId: BlockId,
      
      
      
       info: BlockInfo,
      
      
      
       status: BlockStatus,
      
      
      
       droppedMemorySize: Long = 0L): Boolean = {
      
      
      
       if (info.tellMaster) {
      
      
      
       val storageLevel = status.storageLevel
      
      
      
       val inMemSize = Math.max(status.memSize, droppedMemorySize)
      
      
      
       val inTachyonSize = status.tachyonSize
      
      
      
       val onDiskSize = status.diskSize
      
      
      
       master.updateBlockInfo(
      
      
      
       blockManagerId, blockId, storageLevel, inMemSize, onDiskSize, inTachyonSize)
      
      
      
       } else {
      
      
      
       true
      
      
      
       }
      
      
      
       }

可以看出就是拿取master发送一个更新BlockInfo的消息而已 , 而BlockManagerMasterActor获取到这个消息之后就会调用如下的代码:

     
     
     
     
      
      
      
      /**
      
      
      
       * 更新blockInfo , 即每个BlockManager上的block信息发生变化都会发送updateBlockInfo请求到BlockManagerMaster , 进行BlockInfo的更新
      
      
      
       */
      
      
      
       private def updateBlockInfo(
      
      
      
       blockManagerId: BlockManagerId,
      
      
      
       blockId: BlockId,
      
      
      
       storageLevel: StorageLevel,
      
      
      
       memSize: Long,
      
      
      
       diskSize: Long,
      
      
      
       tachyonSize: Long): Boolean = {
      
      
      
      
      
      
      
       if (!blockManagerInfo.contains(blockManagerId)) {
      
      
      
       if (blockManagerId.isDriver && !isLocal) {
      
      
      
       // We intentionally do not register the master (except in local mode),
      
      
      
       // so we should not indicate failure.
      
      
      
       return true
      
      
      
       } else {
      
      
      
       return false
      
      
      
       }
      
      
      
       }
      
      
      
      
      
      
      
       if (blockId == null) {
      
      
      
       blockManagerInfo(blockManagerId).updateLastSeenMs()
      
      
      
       return true
      
      
      
       }
      
      
      
      
      
      
      
       // 调用BlockManager的BlockManagerInfo的updateBlockInfo()方法更新block信息
      
      
      
       blockManagerInfo(blockManagerId).updateBlockInfo(
      
      
      
       blockId, storageLevel, memSize, diskSize, tachyonSize)
      
      
      
      
      
      
      
       // 每一个blcok可能会在多个BlockManager上面
      
      
      
       // 如果将StoreageLevel设置成带着 _2 的这种 , 那么就需要将block replicate一份 , 放到其他BlockManager上
      
      
      
       // 而blockLocations map其实是保存了每个blockId对应的BlcokManagerId的set集合
      
      
      
       // 所以 这里会更新blockLocations中的信息 , 因为是用set存储BlockManagerId , 因此自动就去重了
      
      
      
       var locations: mutable.HashSet[BlockManagerId] = null
      
      
      
       if (blockLocations.containsKey(blockId)) {
      
      
      
       locations = blockLocations.get(blockId)
      
      
      
       } else {
      
      
      
       locations = new mutable.HashSet[BlockManagerId]
      
      
      
       blockLocations.put(blockId, locations)
      
      
      
       }
      
      
      
      
      
      
      
       if (storageLevel.isValid) {
      
      
      
       locations.add(blockManagerId)
      
      
      
       } else {
      
      
      
       locations.remove(blockManagerId)
      
      
      
       }
      
      
      
      
      
      
      
       // Remove the block from master tracking if it has been removed on all slaves.
      
      
      
       if (locations.size == 0) {
      
      
      
       blockLocations.remove(blockId)
      
      
      
       }
      
      
      
       true
      
      
      
       }

最后第三步 , 需要将设置了备份的block数据传输到别的BlockManager上去存储 :

在duPut操作的方法中最后一步有如下的操作:

     
     
     
     
      
      
      
      // 重要 : 如果我们的持久化级别是定义了_2的这种后缀,说明需要对block进行备份(replica) ,然后传输到其它节点上 
      
      
      
       if (putLevel.replication > 1) {
      
      
      
       data match {
      
      
      
       case ByteBufferValues(bytes) =>
      
      
      
       if (replicationFuture != null) {
      
      
      
       Await.ready(replicationFuture, Duration.Inf)
      
      
      
       }
      
      
      
       case _ =>
      
      
      
       val remoteStartTime = System.currentTimeMillis
      
      
      
       // Serialize the block if not already done
      
      
      
       if (bytesAfterPut == null) {
      
      
      
       if (valuesAfterPut == null) {
      
      
      
       throw new SparkException(
      
      
      
       "Underlying put returned neither an Iterator nor bytes! This shouldn't happen.")
      
      
      
       }
      
      
      
       bytesAfterPut = dataSerialize(blockId, valuesAfterPut)
      
      
      
       }
      
      
      
       
      
      
      
       // 调用replicate进行复制操作
      
      
      
       replicate(blockId, bytesAfterPut, putLevel)
      
      
      
       logDebug("Put block %s remotely took %s"
      
      
      
       .format(blockId, Utils.getUsedTimeMs(remoteStartTime)))
      
      
      
       }
      
      
      
       }
      
      
      
      
      
      
      
       BlockManager.dispose(bytesAfterPut)
      
      
      
      
      
      
      
       if (putLevel.replication > 1) {
      
      
      
       logDebug("Putting block %s with replication took %s"
      
      
      
       .format(blockId, Utils.getUsedTimeMs(startTimeMs)))
      
      
      
       } else {
      
      
      
       logDebug("Putting block %s without replication took %s"
      
      
      
       .format(blockId, Utils.getUsedTimeMs(startTimeMs)))
      
      
      
       }
      
      
      
      
      
      
      
       updatedBlocks

其中replicate方法就是对数据进行备份:

     
     
     
     
      
      
      
      private def replicate(blockId: BlockId, data: ByteBuffer, level: StorageLevel): Unit = {
      
      
      
      
      
      
      
       // Get cached list of peers
      
      
      
       peersForReplication ++= getPeers(forceFetch = false)
      
      
      
       def getRandomPeer(): Option[BlockManagerId] = {
      
      
      
       // If replication had failed, then force update the cached list of peers and remove the peers
      
      
      
       // that have been already used
      
      
      
       if (replicationFailed) {
      
      
      
       peersForReplication.clear()
      
      
      
       peersForReplication ++= getPeers(forceFetch = true)
      
      
      
       peersForReplication --= peersReplicatedTo
      
      
      
       peersForReplication --= peersFailedToReplicateTo
      
      
      
       }
      
      
      
       if (!peersForReplication.isEmpty) {
      
      
      
       Some(peersForReplication(random.nextInt(peersForReplication.size)))
      
      
      
       } else {
      
      
      
       None
      
      
      
       }
      
      
      
       }
      
      
      
       while (!done) {
      
      
      
       
      
      
      
       // 随机获取一个其它的BlockManager
      
      
      
       getRandomPeer() match {
      
      
      
       case Some(peer) =>
      
      
      
       try {
      
      
      
       val onePeerStartTime = System.currentTimeMillis
      
      
      
       data.rewind()
      
      
      
       logTrace(s"Trying to replicate $blockId of ${data.limit()} bytes to $peer")
      
      
      
       
      
      
      
       // 使用BlockTransferService将数据异步写入其他的BlockManager上
      
      
      
       blockTransferService.uploadBlockSync(
      
      
      
       peer.host, peer.port, peer.executorId, blockId, new NioManagedBuffer(data), tLevel)
      
      
      
       logTrace(s"Replicated $blockId of ${data.limit()} bytes to $peer in %s ms"
      
      
      
       .format(System.currentTimeMillis - onePeerStartTime))
      
      
      
       peersReplicatedTo += peer
      
      
      
       peersForReplication -= peer
      
      
      
       replicationFailed = false
      
      
      
       if (peersReplicatedTo.size == numPeersToReplicateTo) {
      
      
      
       done = true // specified number of peers have been replicated to
      
      
      
       }
      
      
      
       } catch {
      
      
      
       case e: Exception =>
      
      
      
       logWarning(s"Failed to replicate $blockId to $peer, failure #$failures", e)
      
      
      
       failures += 1
      
      
      
       replicationFailed = true
      
      
      
       peersFailedToReplicateTo += peer
      
      
      
       if (failures > maxReplicationFailures) { // too many failures in replcating to peers
      
      
      
       done = true
      
      
      
       }
      
      
      
       }
      
      
      
       case None => // no peer left to replicate to
      
      
      
       done = true
      
      
      
       }
      
      
      
       }
      
      
      
       }

随机获取一个BlockManagerId然后通过BlockTransferService将数据写入到其它的BlockManager上去 ,

你可能感兴趣的:(spark)

【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Apache PAIMON 学习潇锐killer 学习
参考：ApachePAIMON：实时数据湖技术框架及其实践数据湖不仅仅是一个存储不同类数据的技术手段，更是提高数据分析效率、支持数据驱动决策、加速AI发展的基础设施。新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。ApachePAIMON是一个支持大规模实时数据更新的存储和分析
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换（四）青云交大数据新视界 Java 大视界 Spark RDD 数据转换大数据数据分区性能优化社交网络 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Spark Streaming 实时数据处理框架：案例与实践青云交大数据新视界 #Spark 之道 Spark Streaming 大数据新视界实时数据处理案例分析实践技巧框架比较应用场景
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，