hongs_yang

spark shuffle部分分析

spark shuffle流程分析

回到ShuffleMapTask.runTask函数

现在回到ShuffleMapTask.runTask函数中：

override def runTask(context: TaskContext): MapStatus = {

首先得到要reduce的task的个数。

valnumOutputSplits = dep.partitioner.numPartitions

metrics = Some(context.taskMetrics)

valblockManager = SparkEnv.get.blockManager

valshuffleBlockManager = blockManager.shuffleBlockManager

varshuffle: ShuffleWriterGroup = null

varsuccess = false

try {

得到对数据时行serializer操作的类，

// Obtain all the block writers for shuffle blocks.

valser = SparkEnv.get.serializerManager.get(dep.serializerClass, SparkEnv.get.conf)

通过shuffleid与要进行reduce的task个数，生成ShuffleBlockId，

同时根据blockid生成ShuffleWriterGroup.shuffle的实现为DiskBlockObjectWriter。

通过spark.shuffle.consolidateFiles配置是否合并文件的输入。默认的为false,

合并文件设置为true,下次再有task在本机运行时，会直接打开当前输入的文件进行输入。

shuffle = shuffleBlockManager.forMapTask(dep.shuffleId, partitionId, numOutputSplits, ser)

根据rdd的iterator取出数据，根据element的key重新进行partition,重新写入到shuffle的

// Write the map output to its associated buckets.

for (elem <- rdd.iterator(split, context)) {

valpair = elem.asInstanceOf[Product2[Any, Any]]

valbucketId = dep.partitioner.getPartition(pair._1)

每一个partition都对应着一个DiskBlockObjectWriter, 通过此实例的write函数，写入shuffle的数据。

也就是说，这个时候此RDD远行的task个数为core的个数，此时打开的文件个数为corenum*numpartition。

shuffle.writers(bucketId).write(pair)

}

// Commit the writes. Get the size of each bucket block (total block size).

vartotalBytes = 0L

vartotalTime = 0L

把这次打开的所有的文件全部commit,同时关闭文件的输入。

valcompressedSizes: Array[Byte] = shuffle.writers.map { writer: BlockObjectWriter =>

writer.commit()

writer.close()

valsize = writer.fileSegment().length

totalBytes += size

totalTime += writer.timeWriting()

MapOutputTracker.compressSize(size)

}

// Update shuffle metrics.

valshuffleMetrics = new ShuffleWriteMetrics

shuffleMetrics.shuffleBytesWritten = totalBytes

shuffleMetrics.shuffleWriteTime = totalTime

metrics.get.shuffleWriteMetrics = Some(shuffleMetrics)

success = true

new MapStatus(blockManager.blockManagerId, compressedSizes)

} catch { casee: Exception =>

// If there is an exception from running the task, revert the partial writes

// and throw the exception upstream to Spark.

if (shuffle != null && shuffle.writers != null) {

for (writer <- shuffle.writers) {

writer.revertPartialWrites()

writer.close()

}

throwe

} finally {

// Release the writers back to the shuffle block manager.

if (shuffle != null && shuffle.writers != null) {

shuffle.releaseWriters(success)

}

// Execute the callbacks on task completion.

context.executeOnCompleteCallbacks()

}

关于SparkEnv

在ShuffleMapTask.runTask中开始就通过SparkEnv.get去获取SparkEnv里面的内容，

SparkEnv中主要通过ThreadLocal来存储此实例，

此实例中包含Akka actor,serializer,BlockManager,shuffle使用的MapoutputTracker等。

SparkEnv实例生成包含两部分，master与worker,

master是在sparkcontext生成时生成，worker是在executor生成时生成

因此现在我们来分析下这个类定义

针对每一个Worker中的executor会生成一个SparkEnv实例：

在Executor实例生成时，会执行发下代码：

设置当前executor的属性env为创建一个SparkEnv实例，此实例通过当前的executorId与当前的host生成。

private val env = {

if (!isLocal) {

val_env = SparkEnv.create(conf, executorId, slaveHostname, 0,

isDriver = false, isLocal = false)

SparkEnv.set(_env)

_env.metricsSystem.registerSource(executorSource)

_env

} else {

SparkEnv.get

}

针对master启动时生成的SparkEnv实例：

通过在生成SparkContext实例时，生成SparkEnv属性：

private[spark] val env = SparkEnv.create(

conf,

//注意：此处使用的是driver,表示这是一个driver程序(master),worker时这里传入的是具体的executorid

"<driver>",

conf.get("spark.driver.host"),

conf.get("spark.driver.port").toInt,

isDriver = true,

isLocal = isLocal)

SparkEnv.set(env)

生成的env实例，此实例是一个线程本地实例，每一个线程都有自己独立的SparkEnv

private val env = new ThreadLocal[SparkEnv]

声明可变的变量，用来存储最后变化的实例，通过sparkEnv.get时如果env不存在，会拿这个值

@volatileprivatevarlastSetSparkEnv : SparkEnv = _

def set(e: SparkEnv) {

lastSetSparkEnv = e

env.set(e)

}

def get: SparkEnv = {

Option(env.get()).getOrElse(lastSetSparkEnv)

}

下面是sparkenv的create函数：

private[spark] def create(

conf: SparkConf,

executorId: String,

hostname: String,

port: Int,

isDriver: Boolean,

isLocal: Boolean): SparkEnv = {

val (actorSystem, boundPort) = AkkaUtils.createActorSystem("spark", hostname, port,

conf = conf)

// Bit of a hack: If this is the driver and our port was 0 (meaning bind to any free port),

// figure out which port number Akka actually bound to and set spark.driver.port to it.

if (isDriver && port == 0) {

conf.set("spark.driver.port", boundPort.toString)

}

valclassLoader = Thread.currentThread.getContextClassLoader

// Create an instance of the class named by the given Java system property, or by

// defaultClassName if the property is not set, and return it as a T

def instantiateClass[T](propertyName: String, defaultClassName: String): T = {

valname = conf.get(propertyName, defaultClassName)

Class.forName(name, true, classLoader).newInstance().asInstanceOf[T]

}

生成一个Serializermanager实例

valserializerManager = new SerializerManager

得到配置的Serializer实例，这个地方有部分资料建议配置为org.apache.spark.serializer.KryoSerializer.

请参见http://spark.apache.org/docs/0.9.0/tuning.html的说明。

valserializer = serializerManager.setDefault(

conf.get("spark.serializer", "org.apache.spark.serializer.JavaSerializer"), conf)

闭包使用的serializer,如果闭包中函数使用了大量的对象，可修改默认的值

valclosureSerializer = serializerManager.get(

conf.get("spark.closure.serializer", "org.apache.spark.serializer.JavaSerializer"),

conf)

此部分检查是否是driver(也就是是否是master)

def registerOrLookup(name: String, newActor: => Actor): ActorRef = {

如果是master时，生成一个actor的实例，

if (isDriver) {

logInfo("Registering " + name)

actorSystem.actorOf(Props(newActor), name = name)

} else {

否则表示是worker,生成一个actor的引用。对指定的actor进行连接，生成actorref

valdriverHost: String = conf.get("spark.driver.host", "localhost")

valdriverPort: Int = conf.getInt("spark.driver.port", 7077)

Utils.checkHost(driverHost, "Expected hostname")

valurl = s"akka.tcp://spark@$driverHost:$driverPort/user/$name"

valtimeout = AkkaUtils.lookupTimeout(conf)

logInfo(s"Connecting to $name: $url")

Await.result(actorSystem.actorSelection(url).resolveOne(timeout), timeout)

}

此处生成BlockManagerMaster实例，如果是driver时，

会生成一个名称为BlockManagerMaster的BlockManagerMasterActor实例。

否则表示是worker,生成BlockManagerMaster,并创建与master中的BlockManagerMasterActor的actorref引用。

BlockManagerMasterActor中通过配置spark.storage.blockManagerTimeoutIntervalMs，,默认值为60000ms

定期检查上面注册的BlockManagerId是否过期。

valblockManagerMaster = new BlockManagerMaster(registerOrLookup(

"BlockManagerMaster",

new BlockManagerMasterActor(isLocal, conf)), conf)

生成BlockManager,BlockManager中会生成ShuffleBlockManager,DiskBlockManager,memory/disk的store.

针对此BlockManager，生成一个BlockManagerId实例，

通过master的actor(BlockManagerMasterActor),向master注册此block,并定期向master发送心跳。

心跳的发送通过spark.storage.blockManagerTimeoutIntervalMs配置的值/4

valblockManager = new BlockManager(executorId,

actorSystem, blockManagerMaster, serializer, conf)

valconnectionManager = blockManager.connectionManager

valbroadcastManager = new BroadcastManager(isDriver, conf)

生成CacheManager,

valcacheManager = new CacheManager(blockManager)

生成MapOutputTracker,如果是master时，生成 MapOutputTrackerMaster，否则生成 MapOutputTracker

// Have to assign trackerActor after initialization as MapOutputTrackerActor

// requires the MapOutputTracker itself

valmapOutputTracker = if (isDriver) {

new MapOutputTrackerMaster(conf)

} else {

new MapOutputTracker(conf)

}

如果是master时，生成 MapOutputTrackerMasterActor实例，否则生成对actor的引用。

mapOutputTracker.trackerActor = registerOrLookup(

"MapOutputTracker",

new MapOutputTrackerMasterActor(mapOutputTracker.asInstanceOf[MapOutputTrackerMaster]))

生成ShuffleFetcher的实例，通过spark.shuffle.fetcher 配置，默认为BlockStoreShuffleFetcher。

valshuffleFetcher = instantiateClass[ShuffleFetcher](

"spark.shuffle.fetcher", "org.apache.spark.BlockStoreShuffleFetcher")

valhttpFileServer = new HttpFileServer()

httpFileServer.initialize()

conf.set("spark.fileserver.uri", httpFileServer.serverUri)

valmetricsSystem = if (isDriver) {

MetricsSystem.createMetricsSystem("driver", conf)

} else {

MetricsSystem.createMetricsSystem("executor", conf)

}

metricsSystem.start()

// Set the sparkFiles directory, used when downloading dependencies. In local mode,

// this is a temporary directory; in distributed mode, this is the executor's current working

// directory.

valsparkFilesDir: String = if (isDriver) {

Utils.createTempDir().getAbsolutePath

} else {

"."

}

// Warn about deprecated spark.cache.class property

if (conf.contains("spark.cache.class")) {

logWarning("The spark.cache.class property is no longer being used! Specify storage " +

"levels using the RDD.persist() method instead.")

}

new SparkEnv(

executorId,

actorSystem,

serializerManager,

serializer,

closureSerializer,

cacheManager,

mapOutputTracker,

shuffleFetcher,

broadcastManager,

blockManager,

connectionManager,

httpFileServer,

sparkFilesDir,

metricsSystem,

conf)

}

ShuffleBlockManager.forMapTask函数

shuffleBlockManager.forMapTask函数是shufflemaptask运行shuffle的核心函数，

此函数中会生成ShuffleWriterGroup实例，

并根据运行的task个数，通常是cpu core个数*reduce的partition个shuffle个文件，每一次的运行都会生成这么多个文件。

因此这部分会同时打开core*reduceparitionnum个file,每一个的maptask运行都会生成这么多个文件。

此部分完成后就会产生大量的map output文件个数，总文件个数为maptasknum*reducetasknum个文件。

同时spark中为了控制文件的生成个数，可通过spark.shuffle.consolidateFiles配置是否重用write文件。默认为false,

如果此值设置为true,每一个worker通常只生成core*reducetasknum个文件。

每一个文件打开通过spark.shuffle.file.buffer.kb配置的缓存大小。默认为100kb，也就是一次运行中

每一个worker中会有core*reducetasknum*100kb的内存buffer的使用。由这部分我个人认为，

这玩意还是不合适maptask的任务太多的分析任务。Mapreduce的shuffle从性能上会比这要慢一些，

但是从对大数据量的支持上还是要好一些。

函数定义

def forMapTask(shuffleId: Int, mapId: Int, numBuckets: Int, serializer: Serializer) = {

生成一个ShuffleWriterGroup实例

new ShuffleWriterGroup {

shuffleStates.putIfAbsent(shuffleId, new ShuffleState(numBuckets))

privatevalshuffleState = shuffleStates(shuffleId)

privatevarfileGroup: ShuffleFileGroup = null

如果spark.shuffle.consolidateFiles配置的值为true,检查是否有上次生成的writer文件，重新打开这个文件。

也就是在文件中进行append操作。

valwriters: Array[BlockObjectWriter] = if (consolidateShuffleFiles) {

fileGroup = getUnusedFileGroup()

Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>

valblockId = ShuffleBlockId(shuffleId, mapId, bucketId)

blockManager.getDiskWriter(blockId, fileGroup(bucketId), serializer, bufferSize)

}

} else {

否则每一个task都会生成新的writer文件。

Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>

valblockId = ShuffleBlockId(shuffleId, mapId, bucketId)

此处主要是通过sparkenv中的diskBlockMangaer来在指定的路径下生成文件。

路径通过spark.local.dir配置。默认为java.io.tmpdir。

valblockFile = blockManager.diskBlockManager.getFile(blockId)

// Because of previous failures, the shuffle file may already exist on this machine.

// If so, remove it.

if (blockFile.exists) {

if (blockFile.delete()) {

logInfo(s"Removed existing shuffle file $blockFile")

} else {

logWarning(s"Failed to remove existing shuffle file $blockFile")

}

blockManager.getDiskWriter(blockId, blockFile, serializer, bufferSize)

}

这个函数在shuffleMapTask执行完成的时候调用。如果上面提到的配置为true时，

会把writer的blockfile放到一个容器中，下一次task运行时，会直接打开这个blockfile文件。

overridedef releaseWriters(success: Boolean) {

if (consolidateShuffleFiles) {

if (success) {

valoffsets = writers.map(_.fileSegment().offset)

fileGroup.recordMapOutput(mapId, offsets)

}

recycleFileGroup(fileGroup)

} else {

shuffleState.completedMapTasks.add(mapId)

}

privatedef getUnusedFileGroup(): ShuffleFileGroup = {

valfileGroup = shuffleState.unusedFileGroups.poll()

if (fileGroup != null) fileGroupelse newFileGroup()

}

privatedef newFileGroup(): ShuffleFileGroup = {

valfileId = shuffleState.nextFileId.getAndIncrement()

valfiles = Array.tabulate[File](numBuckets) { bucketId =>

valfilename = physicalFileName(shuffleId, bucketId, fileId)

blockManager.diskBlockManager.getFile(filename)

}

valfileGroup = new ShuffleFileGroup(fileId, shuffleId, files)

shuffleState.allFileGroups.add(fileGroup)

fileGroup

}

privatedef recycleFileGroup(group: ShuffleFileGroup) {

shuffleState.unusedFileGroups.add(group)

}

DAGShuduler中注册shuffleid与mapStatus

在DAGSheduler的调度中，启动一个stage时，如果是shuffle stage,会执行如下代码：

DAGsheduler.runjob-->submitJob-->JobSubmitted actor-->

newStage传入参数getParentStages-->getShuffleMapStage-->newOrUsedStage

private def newOrUsedStage(

rdd: RDD[_],

numTasks: Int,

shuffleDep: ShuffleDependency[_,_],

jobId: Int,

callSite: Option[String] = None)

: Stage =

{

valstage = newStage(rdd, numTasks, Some(shuffleDep), jobId, callSite)

if (mapOutputTracker.has(shuffleDep.shuffleId)) {

valserLocs = mapOutputTracker.getSerializedMapOutputStatuses(shuffleDep.shuffleId)

vallocs = MapOutputTracker.deserializeMapStatuses(serLocs)

for (i <- 0 until locs.size) stage.outputLocs(i) = List(locs(i))

stage.numAvailableOutputs = locs.size

} else {

在master中注册此shuffleid

// Kind of ugly: need to register RDDs with the cache and map output tracker here

// since we can't do it in the RDD constructor because # of partitions is unknown

logInfo("Registering RDD " + rdd.id + " (" + rdd.origin + ")")

mapOutputTracker.registerShuffle(shuffleDep.shuffleId, rdd.partitions.size)

}

stage

}

回到dagsheduler的调度中，当shuffle的所有的task处理完成后，会调用如下代码：

....

execBackend.statusUpdate(taskId, TaskState.FINISHED, serializedResult)

.....

case smt: ShuffleMapTask =>

valstatus = event.result.asInstanceOf[MapStatus]

valexecId = status.location.executorId

logDebug("ShuffleMapTask finished on " + execId)

if (failedEpoch.contains(execId) && smt.epoch <= failedEpoch(execId)) {

logInfo("Ignoring possibly bogus ShuffleMapTask completion from " + execId)

} else {

第一个task完成后，都会把map返回的MapStatus(记录有location信息)记录到stage的outputloc中。

stage.addOutputLoc(smt.partitionId, status)

}

if (running.contains(stage) && pendingTasks(stage).isEmpty) {

markStageAsFinished(stage)

logInfo("looking for newly runnable stages")

logInfo("running: " + running)

logInfo("waiting: " + waiting)

logInfo("failed: " + failed)

if (stage.shuffleDep != None) {

.........................................

如果所有的shuffle的task都执行完成，把此stage对应的shuffled与所有的location注册到mapOutputTracker中

此处是通过DAGSheculer来完成的，因此，mapoutputtracker是一个MapOutputTrackerMaster的实现。

mapOutputTracker.registerMapOutputs(

stage.shuffleDep.get.shuffleId,

stage.outputLocs.map(list => if (list.isEmpty) nullelse list.head).toArray,

changeEpoch = true)

}

Shuffle的读取计算

此时shuffle的MAP RDD执行完成后，会通过PairRDDFunctions来做处理

回到PairRDDFunctions中的reduceByKey，

reduceByKey-->combineByKey

再次来看这个函数的定义

def combineByKey[C](createCombiner: V => C,

mergeValue: (C, V) => C,

mergeCombiners: (C, C) => C,

partitioner: Partitioner,

mapSideCombine: Boolean = true,

serializerClass: String = null): RDD[(K, C)] = {

if (getKeyClass().isArray) {

if (mapSideCombine) {

thrownew SparkException("Cannot use map-side combining with array keys.")

}

if (partitioner.isInstanceOf[HashPartitioner]) {

thrownew SparkException("Default partitioner cannot partition array keys.")

}

valaggregator = new Aggregator[K, V, C](createCombiner, mergeValue, mergeCombiners)

如果当前的RDD的partitioner与传入的partitioner相等，表示是一个map,不需要进行shuffle,直接在map端合并。

if (self.partitioner == Some(partitioner)) {

self.mapPartitionsWithContext((context, iter) => {

new InterruptibleIterator(context, aggregator.combineValuesByKey(iter, context))

}, preservesPartitioning = true)

} elseif (mapSideCombine) {

如果设置有在map端先进行一次合并，类似于mapreduce中的combine,先在map端执行一次合并，

并生成MapPartitionsRDD

valcombined = self.mapPartitionsWithContext((context, iter) => {

aggregator.combineValuesByKey(iter, context)

}, preservesPartitioning = true)

生成一个ShuffledRDD实例，在reduce端执行合并操作。合并的核心函数是aggregator实例中定义的相关函数。

valpartitioned = new ShuffledRDD[K, C, (K, C)](combined, partitioner)

.setSerializer(serializerClass)

partitioned.mapPartitionsWithContext((context, iter) => {

new InterruptibleIterator(context, aggregator.combineCombinersByKey(iter, context))

}, preservesPartitioning = true)

} else {

不执行combiner操作，直接在reduce端进行shuffle操作。

// Don't apply map-side combiner.

valvalues = new ShuffledRDD[K, V, (K, V)](self, partitioner).setSerializer(serializerClass)

values.mapPartitionsWithContext((context, iter) => {

new InterruptibleIterator(context, aggregator.combineValuesByKey(iter, context))

}, preservesPartitioning = true)

}

在Reduce端，生成为ShuffledRDD。数据计算函数通过compute函数完成。

ShuffledRDD中计算函数的实现

override def compute(split: Partition, context: TaskContext): Iterator[P] = {

valshuffledId = dependencies.head.asInstanceOf[ShuffleDependency[K, V]].shuffleId

通过指定的shuffledid,拿到shuffle完成的数据。

SparkEnv.get.shuffleFetcher.fetch[P](shuffledId, split.index, context,

SparkEnv.get.serializerManager.get(serializerClass, SparkEnv.get.conf))

}

从SparkEnv中拿到shuffleFetcher的实例。从SparkEnv生成来看，

通过spark.shuffle.fetcher 配置，默认为BlockStoreShuffleFetcher。

Sparkenv中的定义

valshuffleFetcher = instantiateClass[ShuffleFetcher](

"spark.shuffle.fetcher", "org.apache.spark.BlockStoreShuffleFetcher")

BlockStoreShuffleFetcher.fetch的函数：

override def fetch[T](

shuffleId: Int,

reduceId: Int,

context: TaskContext,

serializer: Serializer)

: Iterator[T] =

{

logDebug("Fetching outputs for shuffle %d, reduce %d".format(shuffleId, reduceId))

valblockManager = SparkEnv.get.blockManager

valstartTime = System.currentTimeMillis

在executor中的mapoutputtracker会通过GetMapOutputStatuses事件

向mapoutputtrackermaster中的MapOutputTrackerMasterActor发起得到所有的mapStatus事件。

valstatuses = SparkEnv.get.mapOutputTracker.getServerStatuses(shuffleId, reduceId)

...........................

valsplitsByAddress = new HashMap[BlockManagerId, ArrayBuffer[(Int, Long)]]

把BlockManagerid相同的map结果进行合并，index的值就是map的partition

for (((address, size), index) <- statuses.zipWithIndex) {

splitsByAddress.getOrElseUpdate(address, ArrayBuffer()) += ((index, size))

}

得到每一个map的输出文件的结果集地址，地址由shuffleid,mappartitionnum,reduceparttion组成。

valblocksByAddress: Seq[(BlockManagerId, Seq[(BlockId, Long)])] = splitsByAddress.toSeq.map {

case (address, splits) =>

(address, splits.map(s => (ShuffleBlockId(shuffleId, s._1, reduceId), s._2)))

}

def unpackBlock(blockPair: (BlockId, Option[Iterator[Any]])) : Iterator[T] = {

valblockId = blockPair._1

valblockOption = blockPair._2

blockOptionmatch {

case Some(block) => {

block.asInstanceOf[Iterator[T]]

}

case None => {

blockIdmatch {

case ShuffleBlockId(shufId, mapId, _) =>

valaddress = statuses(mapId.toInt)._1

thrownew FetchFailedException(address, shufId.toInt, mapId.toInt, reduceId, null)

case _ =>

thrownew SparkException(

"Failed to get block " + blockId + ", which is not a shuffle block")

}

通过blockManager从blockid中获取Iterator,用来得到数据

这里的blockManager中reduce进行shuffle的具体有两个实现，默认为BasicBlockFetcherIterator，

如果spark.shuffle.use.netty配置为true时，实现类为NettyBlockFetcherIterator。

在BasicBlockFetcherIterator中通过nio的方式使用sparkenv中的ConnectionManager来接收数据，

而NettyBlockFetcherIterator通过netty的通信框架进行操作，使用netty时，

通过reduce端spark.shuffle.copier.threads配置的线程数来获取数据，默认的线程个数为6.

valblockFetcherItr = blockManager.getMultiple(blocksByAddress, serializer)

取出每一个blockid中的values部分的iterator.

valitr = blockFetcherItr.flatMap(unpackBlock)

valcompletionIter = CompletionIterator[T, Iterator[T]](itr, {

valshuffleMetrics = new ShuffleReadMetrics

shuffleMetrics.shuffleFinishTime = System.currentTimeMillis

shuffleMetrics.remoteFetchTime = blockFetcherItr.remoteFetchTime

shuffleMetrics.fetchWaitTime = blockFetcherItr.fetchWaitTime

shuffleMetrics.remoteBytesRead = blockFetcherItr.remoteBytesRead

shuffleMetrics.totalBlocksFetched = blockFetcherItr.totalBlocks

shuffleMetrics.localBlocksFetched = blockFetcherItr.numLocalBlocks

shuffleMetrics.remoteBlocksFetched = blockFetcherItr.numRemoteBlocks

context.taskMetrics.shuffleReadMetrics = Some(shuffleMetrics)

})

new InterruptibleIterator[T](context, completionIter)

}

通过MapOutputTracker得到shuffle的stage的map完成的mapstatus

上面得到MapStatus的容器的函数定义

def getServerStatuses(shuffleId: Int, reduceId: Int): Array[(BlockManagerId, Long)] = {

检查executor本地是否有此shuffleid的mapstatuses信息，

valstatuses = mapStatuses.get(shuffleId).orNull

如果本地还没有shuffle的状态数据(所有的shuffle完成的状态都需要从master中同步过来)，

if (statuses == null) {

logInfo("Don't have map outputs for shuffle " + shuffleId + ", fetching them")

varfetchedStatuses: Array[MapStatus] = null

出于线程安全考虑，

fetching.synchronized {

如果shuffleid已经在fetching中存在，等待shuffle从master获取MapStatus完成。

这里主要是为了多个task同时来获取数据，第一个task已经向master发起申请，

第二个就不需要在发起只需要等待第一个完成申请并得到数据存储到fetchedStatuses中。

if (fetching.contains(shuffleId)) {

// Someone else is fetching it; wait for them to be done

while (fetching.contains(shuffleId)) {

try {

fetching.wait()

} catch {

casee: InterruptedException =>

}

if (fetchedStatuses == null) {

// We won the race to fetch the output locs; do so

logInfo("Doing the fetch; tracker actor = " + trackerActor)

// This try-finally prevents hangs due to timeouts:

try {

通过askTracker函数，通过actorref向MapoutputTrackerMasterActor发起GetMapOutputStatuses事件。

得到此stage完成的所有的task的MapStatus信息

valfetchedBytes =

askTracker(GetMapOutputStatuses(shuffleId)).asInstanceOf[Array[Byte]]

解析成fetchedStatuses数据。

fetchedStatuses = MapOutputTracker.deserializeMapStatuses(fetchedBytes)

logInfo("Got the output locations")

添加到executor中的MapStatuses容器中。缓存起来，共下一个task实例。

mapStatuses.put(shuffleId, fetchedStatuses)

} finally {

从master中获取数据完成，把fetching中的shuffleid移出。

fetching.synchronized {

fetching -= shuffleId

fetching.notifyAll()

}

if (fetchedStatuses != null) {

fetchedStatuses.synchronized {

通过指定的shuffleid与reduceid的值，得到此reduce在blockid中要获取数据的大小。

return MapOutputTracker.convertMapStatuses(shuffleId, reduceId, fetchedStatuses)

}

else {

thrownew FetchFailedException(null, shuffleId, -1, reduceId,

new Exception("Missing all output locations for shuffle " + shuffleId))

}

} else {

通过指定的shuffleid与reduceid的值，得到此reduce在blockid中要获取数据的大小。local的cache模式

statuses.synchronized {

return MapOutputTracker.convertMapStatuses(shuffleId, reduceId, statuses)

}

MapOutputTracker.convertMapStatuses函数

private def convertMapStatuses(

shuffleId: Int,

reduceId: Int,

statuses: Array[MapStatus]): Array[(BlockManagerId, Long)] = {

assert (statuses != null)

statuses.map {

status =>

if (status == null) {

thrownew FetchFailedException(null, shuffleId, -1, reduceId,

new Exception("Missing an output location for shuffle " + shuffleId))

} else {

取出MapStatus中，针对此reduce的partition中的shuffle的内容大小。

(status.location, decompressSize(status.compressedSizes(reduceId)))

}

........

你可能感兴趣的:(spark源码分析,spark shuffle)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
自定义分区我的K8409 Hadoop hdfs hadoop 大数据
通过简单例子了解partition分区类的重写方法分区是在MR的过程中进行的，属于Shuffle阶段但是在Job端不要忘记进行调用：job.setPartitionerClass(xxx.class)按照年龄分区：classAgePartitionerextendsPartitioner{@OverridepublicintgetPartition(MyComparablekey,NullWrit
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><