bit1129

【Spark三十】Hash Based Shuffle之一Shuffle Write + NoConsolidationFiles

在Spark1.2的时候，Spark将默认基于Hash的Shuffle改为了默认基于Sort的Shuffle。那么二者在Shuffle过程中具体的Behavior究竟如何，Hash based shuffle有什么问题，Sort Based Shuffle有什么问题，

先看源代码分析下Hash Based Shuffle的流程，然后在从大方面去理解，毕竟，看代码是见数目不见森林。等见了树木之后，再看看森林是什么样的。

1.Hash Shuffle总体架构图

2. 示例程序

package spark.examples

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object SparkWordCountHashShuffle {
  def main(args: Array[String]) {
    System.setProperty("hadoop.home.dir", "E:\\devsoftware\\hadoop-2.5.2\\hadoop-2.5.2");
    val conf = new SparkConf()
    conf.setAppName("SparkWordCount")
    conf.setMaster("local[3]")
    //Hash based Shuffle；
    conf.set("spark.shuffle.manager", "hash");
    val sc = new SparkContext(conf)
    val rdd = sc.textFile("file:///D:/word.in.3",4); //数据至少产生4个分区
    val rdd1 = rdd.flatMap(_.split(" "))
    val rdd2 = rdd1.map((_, 1))
    val rdd3 = rdd2.reduceByKey(_ + _, 3); ///3个分区对应3个ResultTask
    rdd3.saveAsTextFile("file:///D:/wordout" + System.currentTimeMillis());
    sc.stop
  }
}

调用rdd3.toDebugString得到如下的RDD依赖关系图(其实在ShuffledRDD之后，即在saveAsTextFile内部还会继续对rdd3进行转换，此处不考虑，ShuffledRDD是经过Shuffle过形成的RDD）

(3) ShuffledRDD[4] at reduceByKey at SparkWordCountHashShuffle.scala:18 []
 +-(5) MappedRDD[3] at map at SparkWordCountHashShuffle.scala:17 []
    |  FlatMappedRDD[2] at flatMap at SparkWordCountHashShuffle.scala:16 []
    |  file:///D:/word.in.3 MappedRDD[1] at textFile at SparkWordCountHashShuffle.scala:15 []
    |  file:///D:/word.in.3 HadoopRDD[0] at textFile at SparkWordCountHashShuffle.scala:15 []

Shuffle写操作发生在ShuffleMapTask中，Shuffle读操作发生在ResultTask中。ResultTask通过MapOutputTrackerMaster来获取ShuffleMapTask写数据的位置，因此，当ShuffleMapTask执行完后会更新MapOutputTrackerMaster以记录Shuffle写入数据的位置，而ResultTask则读取MapOutputTrackerMaster的相关信息读取ShuffleMapTask的写入数据

3. Hash Shuffle Write

3.1 ShuffleMapTask的runTask方法

  override def runTask(context: TaskContext): MapStatus = {
    // Deserialize the RDD using the broadcast variable.
    val ser = SparkEnv.get.closureSerializer.newInstance()
    ///反序列化taskBinary得到rdd和dep，rdd是Shuffle前的最后一个RDD，即wordcount中的MappedRDD[3]
    ///dep是ShuffleDependency
    val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

    metrics = Some(context.taskMetrics)
    var writer: ShuffleWriter[Any, Any] = null
    try {
      ///获取shuffleManager，此处是HashShuffleManager
      val manager = SparkEnv.get.shuffleManager
      ///根据dep.shuffleHandle以及partitionId获取HashShuffleWriter，
      ///首先，ShuffleWriter是与RDD的一个分区关联的，因此M个ShuffleMapTask(对应m个partition)，就会产生m个writer
      ///dep.shuffleHandle获取的是什么，下面分析  
      writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
      
      ////调用HashShuffleWriter的write方法，写入的数据(入参是RDD中，index为partition的分区数据集合(Iteratable)
      writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])
      
      ///stop做了什么事？调用stop的返回值的get方法以返回MapStatus对象，至于MapStatus对象中有什么数据，后面分析
      return writer.stop(success = true).get
    } catch {
      case e: Exception =>
        try {
          if (writer != null) {
            writer.stop(success = false)
          }
        } catch {
          case e: Exception =>
            log.debug("Could not stop writer", e)
        }
        throw e
    }
  }

3.2 反序列化taskBinary

    val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

问题在于rdd和dep指的是什么？rdd是ShuffleMapStage的最后一个RDD，dep是ShuffleDependency类型，表示这个Stage对于它依赖的Stage而言是Shuffle依赖的。

rdd和dep是在DAGScheduler的submitMissingTasks中序列化的，代码片段如下

 var taskBinary: Broadcast[Array[Byte]] = null
    try {
      // For ShuffleMapTask, serialize and broadcast (rdd, shuffleDep).
      // For ResultTask, serialize and broadcast (rdd, func).
      val taskBinaryBytes: Array[Byte] =
        if (stage.isShuffleMap) { ///rdd来自于stage.rdd，dep来自于stage.shuffleDep.get，这个stage是ShuffleMapStage
          closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef).array()
        } else {
          closureSerializer.serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef).array()
        }
      taskBinary = sc.broadcast(taskBinaryBytes)///通过broadcast，由driver向workers传播
    } catch {
      // In the case of a failure during serialization, abort the stage.
      case e: NotSerializableException =>
        abortStage(stage, "Task not serializable: " + e.toString)
        runningStages -= stage
        return
      case NonFatal(e) =>
        abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}")
        runningStages -= stage
        return
    }

3.3 dep.shuffleHandle

dep是ShuffleDependency对象；dep.shuffleHandle的类型是ShuffleHandle，实际类型是BasicShuffleHandle。shuffleHandle是ShuffleDependency的一个成员变量，在实例化ShuffleDependency的时候，即给它进行复制。复制是调用HashShuffleManager的registerShuffle方法实现的，registerShuffle有三个参数，shuffleId,ShuffleMapStage的最后一个RDD(这里的MappedRDD[3]的分区数，以及ShuffleDependency对象本身）。

  val shuffleHandle: ShuffleHandle = _rdd.context.env.shuffleManager.registerShuffle(
    shuffleId, _rdd.partitions.size, this)

_rdd是ShuffleDependency的一个成员，这个rdd是ShuffledRDD构造时传入的，如下是ShuffledRDD的getDependencies方法，prev就是ShuffledRDD依赖的RDD，就是这里的_rdd。

registerShuffle记录的是ShuffledRDD依赖的rdd的partition数目

  override def getDependencies: Seq[Dependency[_]] = {
    List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator, mapSideCombine))
  }

3.4 HashShuffleManager的registerShuffle方法

  /* Register a shuffle with the manager and obtain a handle for it to pass to tasks. */
  override def registerShuffle[K, V, C](
      shuffleId: Int,
      numMaps: Int, ////可见这个参数是mapper RDD的partition数目
      dependency: ShuffleDependency[K, V, C]): ShuffleHandle = {
    new BaseShuffleHandle(shuffleId, numMaps, dependency)
  }

3.4.2 关于BaseShuffleHandle

/**
 * A basic ShuffleHandle implementation that just captures registerShuffle's parameters.
 */
private[spark] class BaseShuffleHandle[K, V, C](
    shuffleId: Int,
    val numMaps: Int,
    val dependency: ShuffleDependency[K, V, C])
  extends ShuffleHandle(shuffleId)

/**
 * An opaque handle to a shuffle, used by a ShuffleManager to pass information about it to tasks.
 *
 * @param shuffleId ID of the shuffle
 */
private[spark] abstract class ShuffleHandle(val shuffleId: Int) extends Serializable {}

BaseShuffleHandle更像是一个case class,注意它是可序列化的，正如BaseShuffleHandle的方法说明，用于存放shuffle的信息的。

3.5manger.getWriter方法此处的manager是HashShuffleManager，

  /** Get a writer for a given partition. Called on executors by map tasks. */
  override def getWriter[K, V](handle: ShuffleHandle, mapId: Int, context: TaskContext)
      : ShuffleWriter[K, V] = {
    new HashShuffleWriter(
      shuffleBlockManager, handle.asInstanceOf[BaseShuffleHandle[K, V, _]], mapId, context)
  }

可见此处的getWriter返回一个HashShuffleWriter，它是针对Mapper partitions中一个partition返回的(mapId的含义就是一个mapper的一个partition的index)。同时携带一个BaseShuffleHandle(启动携带了shuffleId，mapper partitions总数以及ShuffleDependency)。在构造HashShuffleWriter的过程中，出现了shuffleBlockManager对象,注意getWriter是在HashShuffleManager中定义的，因此ShuffleBlockManager是HashShuffleManager的一个实例，代码定义如下，也就是说，对于Hash Shuffle而言，它的ShuffleBlockManager是FileShuffleBlockManager类型的，这个类中定义了Hash Shuffle时，ShuffleMapTask写磁盘时的文件载体就在这里面定义，待会儿介绍

  override def shuffleBlockManager: FileShuffleBlockManager = {
    fileShuffleBlockManager
  }

3.6 HashShuffleWriter实例化完后，调用它的write方法（注意，HahsShuffleWriter的实际存储载体是FileShuffleBlockManager）：

调用writer.write方法进行实际的写数据操作

writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])

write方法的入参是一个partition的数据集合(Iteratable),这个partition是一个整数，是mapper的partitions的一个partition的index

/** Write a bunch of records to this task's output */

  
  override def write(records: Iterator[_ <: Product2[K, V]]): Unit = {
    ///上面看到ShuffleDependency构造时，包含了如下信息：
   /// List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator, mapSideCombine))
    ///根据dep的aggregator和mapSideCombine定义的不同情况，决定对分区数据是否进行按照Key进行Map端的合并
    val iter = 
     if (dep.aggregator.isDefined) {
        if (dep.mapSideCombine) {///如果定义了dep.aggregator同时定义了dep.mapSideCombine，则对Key进行combine操作，这是一个map端的combine 就是_ + _操作
           dep.aggregator.get.combineValuesByKey(records, context) ////内部使用HashMap进行combine
        } else { ////如果定义了dep.aggregator但是未定义map端的combiner
          records
        }
     }

     else if (dep.aggregator.isEmpty && dep.mapSideCombine) { ///如果定义了dep.mapSideCombine但是没有定义dep.aggregator，则抛出异常
       throw new IllegalStateException("Aggregator is empty for map-side combine")
     } 
     else { //直接返回，不进行Map端的按照Key的合并
      records
    }

    ////遍历iter，每个partition生成一个文件？不是！是根据不同的Key获取不同的输出文件(一共partitioner.partition个文件)
    for (elem <- iter) {
      ///根据元素Key得到bucketId，此处的关键是dep.partitioner指的是Shuffle前的最后一个RDD的分区方法还是Shuffle后的第一个RDD的分区方法
      val bucketId = dep.partitioner.getPartition(elem._1) ///根据Key获取bucketId
      ////根据bucketId获得一个writer，根据bucketId获得不同的writer，也就是不同的(Key,Value)写到不同的文件中了（依据elem所对应的bucketId)
      ///writers是shuffle的函数，参数是bucketId
      shuffle.writers(bucketId).write(elem)
    }
  }

3.7 Aggregator.combineValuesByKey

Aggregator.combineValuesByKey（即Mapper端做combine）是比较复杂的一步，它依据是否要spill磁盘分成了使用AppendOnlyMap做combine和ExternalAppendOnlyMap做combine，方法的结果是一样的，就是返回一个可迭代的数据集合(比较长，后面再展开说)

3.8 遍历每个元素，调用dep.partitioner.getPartition(elem._1)获取bucketId

此处的dep.partitioner是Shuffle前的最后一个RDD(MappedRDD[3])定义的partitoner还是Shuffle后的第一个RDD(ShuffledRDD)定义的partitioner

ShuffleDependency的partitioner是作为构造参数传入到ShuffleDependen中的，它的注释是用于对shuffle输出进行分区。通过调试也确认了，这个partitioner指的是ShuffledRDD的分区数，即它是Shuffle后的第一个RDD(ShuffledRDD)定义的partitioner。

调试发现dep.partitioner是一个分区数为3的HashPartitioner。

这也就是不难理解，dep.partitioner.getPartition(elem._1)获取的是这个elem按照ShuffledRDD的分区算法存放到指定的位置，因此，bucketId是ShuffledRDD的分区的index。

3.8.2. Partitioner的getPartition方法：

  def getPartition(key: Any): Int = key match {
    case null => 0
    ////使用Utils.nonNegativeMod的方法计算Key的Hash取模
    case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
  }

3.8.3 Utils.nonNegativeMod方法

 /* Calculates 'x' modulo 'mod', takes to consideration sign of x,
  * i.e. if 'x' is negative, than 'x' % 'mod' is negative too
  * so function return (x % mod) + mod in that case.
  */
  def nonNegativeMod(x: Int, mod: Int): Int = {
    val rawMod = x % mod
    rawMod + (if (rawMod < 0) mod else 0)
  }

3.9调用shuffle.writers(bucketId)获取一个目标(ShuffledRDD每个分区对应的ResultTask的拉取数据的源头）的writer,然后调用write将元素写入

3.10 首先看一下shuffle变量在HashShuffleWriter中的定义

  ///shuffleBlockManager的类型是FileShuffleBlockManager
  private val shuffle = shuffleBlockManager.forMapTask(dep.shuffleId, mapId, numOutputSplits, ser,
    writeMetrics)

3.11 shuffleBlockManager.forMapTask方法

/**
   * Get a ShuffleWriterGroup for the given map task, which will register it as complete
   * when the writers are closed successfully
   */
  ///mapId:是map端的partitionId,numBuckets是ResultTask的个数或者ShuffledRDD的分区数
  ///forMapTask是针对每个mapId，建立numBuckets个数(Reducer个数)的File？
  def forMapTask(shuffleId: Int, mapId: Int, numBuckets: Int, serializer: Serializer,
      writeMetrics: ShuffleWriteMetrics) = {
    new ShuffleWriterGroup {
      shuffleStates.putIfAbsent(shuffleId, new ShuffleState(numBuckets))
      private val shuffleState = shuffleStates(shuffleId)
      private var fileGroup: ShuffleFileGroup = null

      val writers: Array[BlockObjectWriter] = if (consolidateShuffleFiles) { ///如果是consolidateShuffleFiles，把shuffle聚合在一起
        fileGroup = getUnusedFileGroup()
        Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>
          val blockId = ShuffleBlockId(shuffleId, mapId, bucketId)
          blockManager.getDiskWriter(blockId, fileGroup(bucketId), serializer, bufferSize,
            writeMetrics)
        }
      } else {
        Array.tabulate[BlockObjectWriter](numBuckets) { bucketId => ///创建一个个数为numBuckets的数组，数组元素类型是BlockObjectWriter
          val blockId = ShuffleBlockId(shuffleId, mapId, bucketId) //ShuffleBlockId对象，入参：shuffleId，mapId以及每个reducer的partitionId
          //blockManager的类型是org.apache.spark.storage.BlockManager
          //BlockManager的类注释是Manager running on every node (driver and executors) which provides interfaces for putting and retrieving blocks both locally and remotely into various stores (memory, disk, and off-heap).
          //diskBlockManager的类型是DiskBlockManager
          //DiskBlockManager:
 /*Creates and maintains the logical mapping between logical blocks and physical on-disk
 * locations. By default, one block is mapped to one file with a name given by its BlockId.
 * However, it is also possible to have a block map to only a segment of a file, by calling
 * mapBlockToFileSegment().
          val blockFile = blockManager.diskBlockManager.getFile(blockId) ///根据上面的三方面信息，获取一个文件blockFile，一共M*N个文件
          // Because of previous failures, the shuffle file may already exist on this machine.
          // If so, remove it.
          if (blockFile.exists) {
            if (blockFile.delete()) {
              logInfo(s"Removed existing shuffle file $blockFile")
            } else {
              logWarning(s"Failed to remove existing shuffle file $blockFile")
            }
          }
          ///根据blockId,blockFile获取一个BlockObjectWriter，blockId和blockFile有点重复，因为blockFile中已经包含了blockId的信息
          ///bufferSize取自SparkConf中配置的spark.shuffle.file.buffer.kb参数，以kb为单位，默认为32，即32kb，用于写文件的缓冲
          blockManager.getDiskWriter(blockId, blockFile, serializer, bufferSize, writeMetrics)
        }
      }

由于forMapTask返回的ShuffleWriterGroup类型的对象，因此shuffle变量是ShuffleWriterGroup类型的，而ShuffleWriterGroup对象有一个writers成员

3.11.1 ShuffleBlockId

这个类像是JavaBean，它有唯一的一个name，用户获取这个ShuffleBlockId的名称，其中的reduceId,就是上面构造时传入的bucketId

name = "shuffle_" + shuffleId + "_" + mapId + "_" + reduceId

3.11.2 blockManager.diskBlockManager.getFile(blockId)

根据blockid获取一个File，注意，此时这个File还没有创建，如果这个File已经存在，首先将其删除

它是调用DiskBlockManager的getFile方法

def getFile(blockId: BlockId): File = getFile(blockId.name)

getFile继续调用重载的getFile(fileName)

  def getFile(filename: String): File = {
    // Figure out which local directory it hashes to, and which subdirectory in that
    //对文件名做Hash
    //filename,例如shuffle_0_0_0
    val hash = Utils.nonNegativeHash(filename)
    //此处首先要知道localDirs是什么含义，通过它得到dirId,（dirId是一个目录的索引，即localDir[dirId]将得到具体的的目录）
    //localDirs就是制定的存放map结果数据的临时目录，可以指定多个，用逗号分隔
    //在wordcount例子中，没有指定spark.local.dir，默认去java.io.tmp的目录，并且localDirs的长度为1
    //此时dirId为0
    val dirId = hash % localDirs.length
    //subDirsPerLocalDir是什么？它取自SparkConf的spark.diskStore.subDirectories配置参数，默认为64
    //因为localDirs.length为1，那么subDirId=hash%subDirsPerLocalDir, 0~63的数字
    val subDirId = (hash / localDirs.length) % subDirsPerLocalDir

    // Create the subdirectory if it doesn't already exist
    //subDir是个二维数组：
    //private val subDirs = Array.fill(localDirs.length)(new Array[File](subDirsPerLocalDir))
    ///fill接收两个参数，第一个参数为n，表示对于0到n-1，每个元素都第二个参数填充，因此subDirs是个二维数组，表示对于每个localDir，都有0到subDirsPerLocalDir个数的子目录

    ///根据dirId和subDirId获取子目录的文件对象，应该还是null，经验证是null
    var subDir = subDirs(dirId)(subDirId)
    
    //子目录尚不存在
    if (subDir == null) {
      subDir = subDirs(dirId).synchronized { ///subDirs(dirId)得到的是一个一维数组
        val old = subDirs(dirId)(subDirId) ///线程同步的两阶段检查
        if (old != null) {
          old
        } else {
          val newDir = new File(localDirs(dirId), "%02x".format(subDirId)) ///将subDirId转换成16进制，
          newDir.mkdir()
          subDirs(dirId)(subDirId) = newDir ///给二维数组赋值
          newDir ///赋给subDir
        }
      }
    }
    ///文件所在的目录，以及文件名，但是并未创建File，即没有调用File.createNewFile
    ///subDir是${java.io.tmp}/spark-local-20150219132253-c917/0c(或者0d，是个单调增的16进制数，)
    new File(subDir, filename)
  }

localDirs：

  /* Create one local directory for each path mentioned in spark.local.dir; then, inside this
   * directory, create multiple subdirectories that we will hash files into, in order to avoid
   * having really large inodes at the top level. */
  //Gets or creates the directories listed in spark.local.dir or SPARK_LOCAL_DIRS,
  private[spark] val localDirs: Array[File] = createLocalDirs(conf)

郁闷的是，本地的断点调试进不了这个代码，源代码和class文件已经不匹配了，先把wordcount程序执行ShuffleMapTask生成的map结果，写下来，然后反推代码的含义

C:\Users\hadoop\AppData\Local\Temp\spark-local-20150219132253-c917>tree /f
文件夹 PATH 列表
卷序列号为 4E9D-390C
C:.
├─0c
│      shuffle_0_0_0
│
├─0d
│      shuffle_0_0_1
│
├─0e
│      shuffle_0_0_2
│      shuffle_0_2_0
│
├─0f
│      shuffle_0_2_1
│      shuffle_0_3_0
│
├─10
│      shuffle_0_2_2
│      shuffle_0_3_1
│
├─11
│      shuffle_0_3_2
│
├─12
└─13

经过上面的验证，localDirs是 C:\Users\hadoop\AppData\Local\Temp\spark-local-20150219132253-c917，而它下面的0c，0d...13则是16进制的子dirs。每个目录下最多有64个。

3.11.3 获取到blockFile之后，执行如下语句，获取Writer，返回的类型为BlockObjectWriter

blockManager.getDiskWriter(blockId, blockFile, serializer, bufferSize, writeMetrics)

上面的语句的实现方法如下：

  def getDiskWriter(
      blockId: BlockId,
      file: File,
      serializer: Serializer,
      bufferSize: Int,
      writeMetrics: ShuffleWriteMetrics): BlockObjectWriter = {
    val compressStream: OutputStream => OutputStream = wrapForCompression(blockId, _)
    val syncWrites = conf.getBoolean("spark.shuffle.sync", false)
    new DiskBlockObjectWriter(blockId, file, serializer, bufferSize, compressStream, syncWrites,
      writeMetrics)
  }

可见它是返回DiskBlockObjectWriter，有压缩算法serializer?

至此，FileShuffleBlockManager的forMapTask已经分析完了

3.12 通过shuffle.writers(bucketId)获取到FileShuffleBlockManager的forMapTask返回的DiskShuffleBlockWriter对象，调用它的write方法

  override def write(value: Any) {
    if (!initialized) {
      open()
    }

    objOut.writeObject(value) ///写入二进制流

    if (writesSinceMetricsUpdate == 32) {
      writesSinceMetricsUpdate = 0
      updateBytesWritten()
    } else {
      writesSinceMetricsUpdate += 1
    }
  }

3.13 当这个RDD的partition中的数据写完后，代码回到ShuffleMapTask的runTask中，执行最后一步，

return writer.stop(success = true).get

此时有两步操作，首先关闭上面的writer，因为在写的时候，打开了R个文件，需要关闭；其次是要讲写入的数据通知MapOutputTrackerMaster

 /** Close this writer, passing along whether the map completed */
  override def stop(initiallySuccess: Boolean): Option[MapStatus] = {
    var success = initiallySuccess
    try {
      if (stopping) {
        return None
      }
      stopping = true
      if (success) {
        try {
          Some(commitWritesAndBuildStatus())  ///这是干啥？应该是作为返回值的，使用Some包装
        } catch {
          case e: Exception =>
            success = false
            revertWrites()
            throw e
        }
      } else {
        revertWrites()
        None
      }
    } finally {
      // Release the writers back to the shuffle block manager.
      if (shuffle != null && shuffle.writers != null) { ///try的commitWritesAndBuildStatus已经关闭了所有打开的shuffle的writers，这里为什么还要release？
        try {
          shuffle.releaseWriters(success)
        } catch {
          case e: Exception => logError("Failed to release shuffle writers", e)
        }
      }
    }
  }

3.13.1

commitWritesAndBuildStatus

  private def commitWritesAndBuildStatus(): MapStatus = {
    // Commit the writes. Get the size of each bucket block (total block size).
    //每个writer都有写数据
    val sizes: Array[Long] = shuffle.writers.map { writer: BlockObjectWriter =>
      writer.commitAndClose() ///提交并关闭
      writer.fileSegment().length ///fileSegment()的长度如何结算的？这是每个writer写数据的长度
    }
    ///sizes是数组，表示本map所有的针对所有的reduce的数据都已经产生，每个mapper为每个reducer产生一个文件
    MapStatus(blockManager.shuffleServerId, sizes)
  }

3.13.2 DiskBlockObjectWriter的fileSegment()方法

  override def fileSegment(): FileSegment = {
    ///三个参数： 
    //initialPosition表示内容在文件的起始位置， finalPosition-initialPosition表示这个Segment的长度，对于没有启用consolidatition的map out，每个Seg就是一个完成的文件
    new FileSegment(file, initialPosition, finalPosition - initialPosition)
  }

3.14上面在commitWritesAndBuildStatus方法中返回了MapStatus对象，此对象尚没有给MapOutputTrackerMaster登记自己shuffle数据的位置

由于Spark的源代码和二进制包不同步，导致代码无法跟踪，先暂时到这里，先接着分析Hash Based Shuffle读吧。

上面对Hash based Shuffle write进行了源代码的剖析，还有一部分没有涉及，就是map端的combine操作，Aggragator.combineValuesByKey操作，没有进行涉及，再写。

其他【不包含在上面的分钟】

传入的partition数和实际的partition个数的对应关系

conf.set("spark.shuffle.manager", "hash");

1. 指定partition书目的textFile操作

    val rdd = sc.textFile("file:///D:/word.in.3",4); //4是最小partition书目

2. 如下的代码来自于HadoopRDD.scala，当前的minPartitions的值是4，得到的inputSplits的值是5，也就是Partition的数目为5

  override def getPartitions: Array[Partition] = {
    val jobConf = getJobConf()
    // add the credentials here as this can be called before SparkContext initialized
    SparkHadoopUtil.get.addCredentials(jobConf)
    val inputFormat = getInputFormat(jobConf)
    if (inputFormat.isInstanceOf[Configurable]) {
      inputFormat.asInstanceOf[Configurable].setConf(jobConf)
    }
    val inputSplits = inputFormat.getSplits(jobConf, minPartitions)
    val array = new Array[Partition](inputSplits.size)
    for (i <- 0 until inputSplits.size) {
      array(i) = new HadoopPartition(id, i, inputSplits(i))
    }
    array
  }

ResultTask个数与Map Partition个数之间的关系，

1.如果ResultTask没有指定个数，那么默认是与Map Partition的个数相同；如果指定了，则按照指定的值创建ResultTask实例

package spark.examples

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object SparkWordCount {
  def main(args: Array[String]) {
    System.setProperty("hadoop.home.dir", "E:\\devsoftware\\hadoop-2.5.2\\hadoop-2.5.2");
    val conf = new SparkConf()
    conf.setAppName("SparkWordCount")
    conf.setMaster("local")
    //Hash based Shuffle；
    conf.set("spark.shuffle.manager", "hash");
    val sc = new SparkContext(conf)
    val rdd = sc.textFile("file:///D:/word.in.3",4); //4表示最小Partition书目
    println(rdd.toDebugString)
    val rdd1 = rdd.flatMap(_.split(" "))
    println("rdd1:" + rdd1.toDebugString)
    val rdd2 = rdd1.map((_, 1))
    println("rdd2:" + rdd2.toDebugString)
    val rdd3 = rdd2.reduceByKey(_ + _, 3); ///3表示ReduceTask的个数，如果不指定则与Map Partition的个数相同
    println("rdd3:" + rdd3.toDebugString)
    rdd3.saveAsTextFile("file:///D:/wordout" + System.currentTimeMillis());
    sc.stop
  }
}

HashBased Shuffle Map产生的文件数，与Map Partition个数和ReduceTask个数的关系

1.Map的中间结果默认存放在java.io.tmp目录下，如果指定了则保存到指定目录

2.如果一个RDD有N个Partition，会产生N个ShuffleMapTask。

3.如果有1个ResultTask，那么最后的结果，会产生1个结果文件.Part-00000。如果有R个ReduceTask（即ResultTask)，则会产生R个结果文件。

4.M个partition，N个reduceTask，产生多少个Map文件？M*N。例如：

/tmp/0c/shuffle_0_0_0

/tmp/0d/shuffle_0_0_1

/tmp/0d/shuffle_0_0_2

/tmp/0e/shuffle_0_2_0

/tmp/0f/shuffle_0_2_1

/tmp/0f/shuffle_0_3_0

shuffle后面的三个数字的含义：

shuffleId
PartiontionID
ReduceTaskId,表明该partition将由第几个ReuceTask进行处理。最大值是2，因为一共3个ReduceTask

并行度

是指执行ReduceTask有几个core来执行，同时执行的个数。(除了一个local【4】的方式，还有一个设置并行度的参数)。设置了并行度后，上面的文件个数不变。

  /**
   * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to
   * run locally with 4 cores, or "spark://master:7077" to run on a Spark standalone cluster.
   */
  def setMaster(master: String): SparkConf = {
    set("spark.master", master)
  }

spark.shuffle.consolidateFiles选项

示例源代码：

package spark.examples.shuffle

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.SparkContext._

object SparkHashShuffleConsolidationFile {
  def main(args: Array[String]) {
    System.setProperty("hadoop.home.dir", "E:\\devsoftware\\hadoop-2.5.2\\hadoop-2.5.2");
    val conf = new SparkConf()
    conf.setAppName("SparkWordCount")
    conf.setMaster("local[3]")
    //Hash based Shuffle；
    conf.set("spark.shuffle.manager", "hash");

    //使用文件聚合
    conf.set("spark.shuffle.consolidateFiles", "true");

    val sc = new SparkContext(conf)
    //10个以上的分区，每个分区对应一个Map Task
    //读取一个1M的文件
    val rdd = sc.textFile("file:///D:/server.log", 10);
    val rdd1 = rdd.flatMap(_.split(" "))
    val rdd2 = rdd1.map((_, 1))
    //6个Reducer
    val rdd3 = rdd2.reduceByKey(_ + _, 6);
    rdd3.saveAsTextFile("file:///D:/wordcount" + System.currentTimeMillis());

    println(rdd3.toDebugString)
    sc.stop
  }
}

结果Map Task产生了13个目录，文件内容：

C:.
├─00
│      merged_shuffle_0_5_2
│
├─01
│      merged_shuffle_0_4_2
│      merged_shuffle_0_5_1
│
├─02
│      merged_shuffle_0_3_2
│      merged_shuffle_0_4_1
│      merged_shuffle_0_5_0
│
├─03
│      merged_shuffle_0_2_2
│      merged_shuffle_0_3_1
│      merged_shuffle_0_4_0
│
├─04
│      merged_shuffle_0_1_2
│      merged_shuffle_0_2_1
│      merged_shuffle_0_3_0
│
├─05
│      merged_shuffle_0_0_2
│      merged_shuffle_0_1_1
│      merged_shuffle_0_2_0
│
├─06
│      merged_shuffle_0_0_1
│      merged_shuffle_0_1_0
│
├─07
│      merged_shuffle_0_0_0
│
├─0c
├─0d
├─0e
├─11
└─13

1. 结果显示一共六个Mapper，3个Reducer，18个文件，分析原因

2. 每个文件有个merged前缀，何意

加大输入文件的规模，看看结果？结果还是一样。为什么只有6个Mapper，而且只有3个Reducer(3是跟并行度有关的吧？)

你可能感兴趣的:(shuffle)

自定义分区我的K8409 Hadoop hdfs hadoop 大数据
通过简单例子了解partition分区类的重写方法分区是在MR的过程中进行的，属于Shuffle阶段但是在Job端不要忘记进行调用：job.setPartitionerClass(xxx.class)按照年龄分区：classAgePartitionerextendsPartitioner{@OverridepublicintgetPartition(MyComparablekey,NullWrit
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
TypeError: list indices must be integers or slices, not list m0_68138877 pytorch list
TypeError:listindicesmustbeintegersorslices,notlist原因：传入参数搞错了计划通过一个下标list，通过rand.shuffle实现训练数据的随机化，结果因为传入的数据是没有tokenized的（就是一堆原始的字符串，并且是用list保存的，tokenize之后应该是一个torch.tensor类型的张量）修复方法：对应原因，传入正确的参数即可总结：
Python | Leetcode Python题解之第384题打乱数组 Mopes__ 分享 Python Leetcode 题解
题目：题解：classSolution:def__init__(self,nums:List[int]):self.nums=numsself.original=nums.copy()defreset(self)->List[int]:self.nums=self.original.copy()returnself.numsdefshuffle(self)->List[int]:foriinran
浙大 | PTA 自测-5 Shuffling Machine (20分) 赞美_太阳！数据结构-起步能力自测 c语言 oj系统
Shufflingisaprocedureusedtorandomizeadeckofplayingcards.Becausestandardshufflingtechniquesareseenasweak,andinordertoavoid“insidejobs”whereemployeescollaboratewithgamblersbyperforminginadequateshuffles
PTA 自测-5 Shuffling Machine byakki python实战
Shufflingisaprocedureusedtorandomizeadeckofplayingcards.Becausestandardshufflingtechniquesareseenasweak,andinordertoavoid“insidejobs”whereemployeescollaboratewithgamblersbyperforminginadequateshuffles
PTA 自测-5 Shuffling Machine (20 分) c语言扶栏笑看花满园 PTA题目
Shufflingisaprocedureusedtorandomizeadeckofplayingcards.Becausestandardshufflingtechniquesareseenasweak,andinordertoavoid"insidejobs"whereemployeescollaboratewithgamblersbyperforminginadequateshuffles
Spark-RDD迭代器管道计算隔着天花板看星星 spark 大数据 scala
一、上下文《Spark-Task启动流程》中讲到我们提交Stage是传入的是这个Stage最后一个RDD，当Task中触发ShuffleWriter、返回Driver数据或者写入Hadoop文件系统时才触发这个RDD调用它的iterator()，下面我们就来看下RDD.iterator()背后的故事。二、RDD中的iterator我们先来看下rdd.iterator()以及后面一些列的调用fina
MapTask、Shuffle、ReduceTask工作机制 piziyang12138
MapReduce整个工作流程：image.pngimage.pngShuffle阶段image.png
【划分数据集】stratifiedShuffleSplit分层抽样芜湖xin python
importpandasaspdfromsklearn.model_selectionimportStratifiedShuffleSplit#分出10%作为独立测试集ss=StratifiedShuffleSplit(n_splits=1,test_size=0.1,random_state=42)data=pd.read_csv("F:\\PaperCode\\Mypaper_python_c
大数据开发（Spark面试真题-卷一） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、什么是SparkStreaming？简要描述其工作原理。2、什么是Spark内存管理机制？请解释其中的主要概念，并说明其作用。3、请解释一下Spark中的shuffle是什么，以及为什么shuffle操作开销较大？4、请解释一下Spark中的RDD持久化（Caching）是什么以及为什么要使用持久化？5、请解释一下Spark中ResilientDistribut
大数据开发（Hadoop面试真题-卷九） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？2、既然HBase底层数据是存储在HDFS上，为什么不直接使用HDFS，而还要用HBase?3、Sparkmapjoin的实现原理？4、Spark的stage如何划分？在源码中是怎么判断属于ShuffleMapStage或ResultStage的？5、SparkreduceByKe
Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数不想起的昵称 hive spark hive 数据仓库
背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？看看这个参数如何运用：我们的spark-sql版本：[hadoop@666~]$spark-sql--versionWelcometo______/__
HIVE中MAP和REDUCE数量这孩子谁懂哈 HIVE hive hadoop mapreduce
一、总览MR执行过程一般的MapReduce程序会经过以下几个过程：输入（Input）、输入分片（Splitting）、Map阶段、Shuffle阶段、Reduce阶段、输出（Finalresult）。1、输入就不用说了，数据一般放在HDFS上面就可以了，而且文件是被分块的。关于文件块和文件分片的关系，在输入分片中说明。2、输入分片：在进行Map阶段之前，MapReduce框架会根据输入文件计算输
粉丝：什么情况下，hive 只会产生一个reduce任务，而没有maptask 浪尖聊大数据-浪尖 mapreduce hive 大数据 spark java
今天下午，在微信群里看到粉丝聊天，提到了一个某公司的面试题：什么情况下，hive只会产生一个reduce任务，而没有maptask这个问题是不是很神奇？我们常规使用的mapreducer任务执行过程大致如下图：appmaster通过某种策略计算数据源可以做多少分片（getSplits方法），对应的生成固定数量的maptask，假如存在shuffle的话，就根据默认或者指定的reducer数，将数据
hive中mr个数判断 qq_18219755 大数据 hive mr个数
对于JOIN操作：Map：以JOINON条件中的列作为Key，如果有多个列，则Key是这些列的组合以JOIN之后所关心的列作为Value，当有多个列时，Value是这些列的组合。在Value中还会包含表的Tag信息，用于标明此Value对应于哪个表。按照Key进行排序。Shuffle：根据Key的值进行Hash，并将Key/Value对按照Hash值推至不同对Reduce中。Reduce：Redu
spark为什么比mapreduce快？后端
spark为什么比mapreduce快？首先澄清几个误区：1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所以shuffle次数不能减少所以总结spark比mapreduce快的原
大数据Map Reduce (Hadoop) 和 MPP数据库的区别山哥Samuel
原理的角度出发,mapreduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤.二分查找要求数据是排序好的,所以MapReduce之间会有一个shuffle的过程对Map的结果排序.Reduce的输入是排好序的.MR分而治之的策略和数据库行业中另一种数据库MassivelyParallelProcessor即大规模并行处理数据库(典型代表AW
C++,stl，常用排序算法，常用拷贝和替换算法柏箱 C++STL c++排序算法算法 stl 拷贝和替换算法
目录1.常用排序算法sortrandom_shufflemergereverse2.常用拷贝和替换算法copyreplacereplace_ifswap1.常用排序算法sort默认从小到大排序#includeusingnamespacestd;intmain(){vectorv;v.push_back(1);v.push_back(2);v.push_back(9);v.push_back(2);
面试系列之《Spark》（持续更新...） atwdy Spark 面试 spark
1.job&stage&task如何划分？job：应用程序中每遇到一个action算子就会划分为一个job。stage：一个job任务中从后往前划分，分区间每产生了shuffle也就是宽依赖则划分为一个stage，stage这体现了spark的pipeline思想，即数据在内存中尽可能的往后多计算，最后落盘，减少磁盘IO。task：RDD中一个分区对应一个task。2.什么是宽依赖和窄依赖？根据分
Collections集合工具类 IT老王Hua_TZ java基础 java java 开发语言
Collections集合工具类Collections是集合工具类，用来对集合进行操作。部分方法如下：publicstaticvoidsort(Listlist)//集合元素排序//排序前元素list集合元素[33,11,77,55]Collections.sort(list);//排序后元素list集合元素[11,33,55,77]publicstaticvoidshuffle(Listlist
Hadoop Shuffle SharlotteZZZ
Whentherearemultiplereducers,themaptaskspartitiontheiroutput,eachcreatingonepartitionforeachreducetask.Therecanbemanykeys(andtheirassociatedvalues)ineachpartition,buttherecordsforeverykeyareallinasing
深度学习基础之《TensorFlow框架（4）—Operation》 csj50 机器学习深度学习
一、常见的OP1、举例类型实例标量运算add，sub，mul，div，exp，log，greater，less，equal向量运算concat，slice，splot，canstant，rank，shape，shuffle矩阵运算matmul，matrixinverse，matrixdateminant带状态的运算variable，assgin，assginadd神经网络组件softmax，sig
洗牌算法 hekirakuno
随机打乱一个数组的顺序。场景：验证码之类。要求生成n位不重复的数字组合（0
ShuffleManager 原理 stone_zhu
在Spark的源码中，负责shuffle过程的执行、计算、处理的组件主要是ShuffleManager。在Spark1.2以前，默认的shuffle计算引擎是HashShuffleManager。该ShuffleMananger有一个非常严重的弊端，就是会产生大量的磁盘文件，进而有大量的磁盘IO操作，比较影响性能。因此在Spark1.2之后，默认的ShuffleManager改成了SortShuf
刘谦春晚魔术解析Python python成长之路 Python java 前端服务器 python
说明：技术有限魔术口吻以名字三个字、男生、北方人为例来写的importrandomlist1=[]whilelen(list1)!=4:num=random.randint(1,13)ifnumnotinlist1:list1.append(num)#给list1中存入4个不相同的数print(f"随机抽4张牌，分别是{list1}")random.shuffle(list1)print(f"打乱
28个极简代码——python YYHhao. python学习 python 开发语言
文章目录1、大写首字母2、逗号连接3、分块4、合并两个字典5、回文序列6、检查重复项7、解包8、链式对比9、链式函数调用10、列表的差11、内存占用12、使用枚举13、首字母小写14、通过函数取差15、不使用if-else的计算子16、压缩17、元素频率18、元音统计19、展开列表20、重复元素判断21、字典默认值22、字符元素组成23、字节占用24、打印N次字符串25、Shuffle26、Try
深度学习为什么需要suffle，xgb为什么不需要shuffle? fengyuzhou
因为深度学习的优化方法是随机梯度下降，每次只需要考虑一个batch的数据，也就是每次的“视野”只能看到这一批数据，而不是全局的数据。是一种“流式学习”。原始数据因为某中原因分布并不平均，会出现连续的正负样本，或者数据分布集中的情况，这样的话会限制梯度优化方向的可选择性，导致收敛点选择空间严重变少。不容易收敛到最优值。而xgb模型训练建树的过程最重要的步骤是分裂点的选择。考虑的数据是整个训练集。xg
spark 资源动态释放 kikiki2
通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。版本如下配置HDP里面已经默认支持spark动态资源释配置代码配置valsparkConf=newSparkConf().set("spark.shuffle.service.enabled","true").set("spark.dyna
深度学习上采样算子 noobiee 机器学习深度学习深度学习人工智能算法
CV领域1.Upsample利用传统插值方法进行上采样。往往会在upsample后接一个conv，进行学习。任务：超分，目标检测。2.PixelShufflePixelShuffler是一种端到端可学习的上采样模块，通过设置上采样比例，就可由低分辨率图像获取指定倍率的高分辨率图像。上采样可以理解为在同一个位置，原来只是以1:1的比例提取信息，而现在以1:4的比例提取信息，提取信息的频率更高了，所以
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =