AlanHand

9.Shuffle读写源码分析

先直接上原理图吧 !

ShuffleMapTask在计算数据之后会为每一个ResultTask创建一份bucket缓存 , 以及对应的ShuffleBlockFIle磁盘文件进行储存 , 在计算完之后会将计算过的相应信息放入MapStatus , 最后发送给Driver中的DAGScheduler的MapOutputTracker , 每个ResultTask会用BlockStoreShuffleFetcher去MapOutputTracker中的MapStatus获取需要拉取的数据 , 然后通过底层的BlockManager将数据拉取过来 , 拉取过来的数据就会组成一个内部的RDD , 叫ShuffleRDD , 存入缓存 , 缓存不够存入磁盘 , 最后ResultMap对数据进行聚合生成MapPartitionRDD , 也就是我们所写程序中action操作后结果RDD

优化后的shuffle分析原理图:

优化后的shuffle原理就是根据cpu的数量在ShuffleMap写入数据到磁盘文件时只会创建于cpu相应的文件数据 , 后面在运行新的ShuffleMapTask的时候也只会向同样的文件中写入数据 , 同时会记录下一些索引来记录哪个ShuffleMapTask计算的数据在ShuffleBlockFile中的位置 , 多个ShuffleMapTask写入的数据就叫做一个segment , 也就是说原来的100个ShuffleMapTask对应的100个ResulTask时会创建100*100个磁盘文件 , 而现在只需要cpu数量乘以ResultMap的数量之积文件数 , 减少了大量的磁盘文件读写 , 这种优化shuffle的方式只需在创建SparkContext的时候设置一个参数即可

在上一章节关于Task的源码分析最后的关于writer的代码中:

writer . write ( rdd . iterator ( partition , context ). asInstanceOf [ Iterator [ _ <: Product2 [ Any , Any ]]])

其实这个writer默认的情况下就是HaspShuffleWriter , 调用writer的方法源码如下:

       
       
       
       
        
        
        
        /** Write a bunch of records to this task's output */
        
        
        
         /**
        
        
        
         * 将每个ShuffleMapTask计算出来的新的RDD的partition数据写入本地磁盘
        
        
        
         */
        
        
        
         override def write(records: Iterator[_ <: Product2[K, V]]): Unit = {
        
        
        
         // 首先判断,是否需要在map端进行本地聚合
        
        
        
         // 比如reduceByKey这样的算子操作的话它的dep.aggregator.isDegined就是true , 包括def.mapSideCombine也是true
        
        
        
         val iter = if (dep.aggregator.isDefined) {
        
        
        
         if (dep.mapSideCombine) {
        
        
        
         // 这里就会执行本地聚合,比如(Hi,1)(Hi,1)那么此时就会聚合成(Hi,2)
        
        
        
         dep.aggregator.get.combineValuesByKey(records, context)
        
        
        
         } else {
        
        
        
         records
        
        
        
         }
        
        
        
         } else {
        
        
        
         require(!dep.mapSideCombine, "Map-side combine without Aggregator specified!")
        
        
        
         records
        
        
        
         }
        
        
        
        
        
        
        
         // 如果进行本地聚合那么就会遍历数据 , 对每个数据调用partition默认是HashPartition , 生成bucketId
        
        
        
         // 也就决定了每一份数据要写入哪个bucket
        
        
        
         for (elem <- iter) {
        
        
        
         val bucketId = dep.partitioner.getPartition(elem._1)
        
        
        
         // 获取到了bucketId之后就会调用ShuffleBlockManager.formapTask()方法来生成bucketId对应的writer,然后用writer将数据写入bucket
        
        
        
         shuffle.writers(bucketId).write(elem)
        
        
        
         }
        
        
        
         }

这里的shuffle是HushShuffleWriter的一个成员变量 , 通过shuffleBlockManager对象的forMapTask方法获取每个bucketId对应的writer , forMapTask方法源码如下:

       
       
       
       
        
        
        
        /**
        
        
        
         * 给每个map task获取一个ShuffleWriterGroup
        
        
        
         */
        
        
        
         def forMapTask(shuffleId: Int, mapId: Int, numBuckets: Int, serializer: Serializer,
        
        
        
         writeMetrics: ShuffleWriteMetrics) = {
        
        
        
         new ShuffleWriterGroup {
        
        
        
         shuffleStates.putIfAbsent(shuffleId, new ShuffleState(numBuckets))
        
        
        
         private val shuffleState = shuffleStates(shuffleId)
        
        
        
         private var fileGroup: ShuffleFileGroup = null
        
        
        
        
        
        
        
         // 重点: 对应上我们之前所说的shuffle有两种模式 , 一种是普通的,一种是优化后的
        
        
        
         // 如果开启了consolication机制,也即使consolicationShuffleFiles为true的话那么实际上不会给每个bucket都获取一个独立的文件
        
        
        
         // 而是为了这个bucket获取一个ShuffleGroup的writer
        
        
        
         val writers: Array[BlockObjectWriter] = if (consolidateShuffleFiles) {
        
        
        
         fileGroup = getUnusedFileGroup()
        
        
        
         Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>
        
        
        
         // 首先用shuffleId, mapId,bucketId生成一个一个唯一的ShuffleBlockId
        
        
        
         // 然后用bucketId来调用shuffleFileGroup的apply()函数为bucket获取一个ShuffleFileGroup
        
        
        
         val blockId = ShuffleBlockId(shuffleId, mapId, bucketId)
        
        
        
         // 然后用BlockManager的getDisWriter()方法针对ShuffleFileGroup获取一个Writer
        
        
        
         // 这样的话如果开启了consolidation机制那么对于每一个bucket都会获取一个针对ShuffleFileGroup的writer , 而不是一个独立的ShuffleBlockFile的writer
        
        
        
         // 这样就实现了所谓的多个ShuffleMapTask的输出数据合并
        
        
        
         blockManager.getDiskWriter(blockId, fileGroup(bucketId), serializer, bufferSize,
        
        
        
         writeMetrics)
        
        
        
         }
        
        
        
         } else {
        
        
        
         // 如果没有开启consolation机制
        
        
        
         Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>
        
        
        
         // 同样生成一个ShuffleBlockId
        
        
        
         val blockId = ShuffleBlockId(shuffleId, mapId, bucketId)
        
        
        
         // 然后调用BlockManager的DiskBlockManager , 获取一个代表了要写入本地磁盘文件的BlockFile
        
        
        
         val blockFile = blockManager.diskBlockManager.getFile(blockId)
        
        
        
         // Because of previous failures, the shuffle file may already exist on this machine.
        
        
        
         // If so, remove it.
        
        
        
         // 而且会判断这个blockFile要是存在的话还得删除它
        
        
        
         if (blockFile.exists) {
        
        
        
         if (blockFile.delete()) {
        
        
        
         logInfo(s"Removed existing shuffle file $blockFile")
        
        
        
         } else {
        
        
        
         logWarning(s"Failed to remove existing shuffle file $blockFile")
        
        
        
         }
        
        
        
         }
        
        
        
         // 然后调用BlockManager的getDiskWriterff针对那个blockFile生成writer
        
        
        
         blockManager.getDiskWriter(blockId, blockFile, serializer, bufferSize, writeMetrics)
        
        
        
         }
        
        
        
         // 所以使用过这种普通的我shuffle操作的话对于每一个ShuffleMapTask输出的bucket都会在本地获取一个但粗的shuffleBlockFile
        
        
        
         }

上面代码的注释已经很详细啦 , 就是根据是否设置consolication机制来判断是否给每一个bucket数据创建一个独立的文件 , 若设置了consolication机制的话那么就会给这个bucket数据生成一个shuffeBlockId

然后根据bucket原有的id获取到一个ShuffleFileGroup . 而最后就会针对每一个bucket都会获取这个关于ShuffleFileGroup的Writer进行数据的写 , 而不是为每一个bucket都创建一个独立的shufflerBlockFile的writer

上面是关于一个stage中最后shuffle的写操作 , 接下来就是下一个stage读取上一个stage shuffle数据的读操作:

先来看下ShuffleRDD中的compute方法 , 源码如下:

        
        
        
        
         
         
         
          /**
         
         
         
          * Shuffle读数据的入口
         
         
         
          */
         
         
         
          override def compute(split: Partition, context: TaskContext): Iterator[(K, C)] = {
         
         
         
          // ResultTask或者ShuffleMapTask在执行ShuffleRDD时肯定会调用ShuffleRDD的compute方法,来计算当前这个RDD的partition的数据
         
         
         
          // 这个就是之前的Task源码分析时结合TaskRunner所分析的
         
         
         
          // 在这里会调用ShuffleManager的getReader()方法,获取一个HashShuffleReader , 然后调用它的read()方法拉取该ResultTask,ShuffleMapTask需要聚合的数据
         
         
         
          val dep = dependencies.head.asInstanceOf[ShuffleDependency[K, V, C]]
         
         
         
          SparkEnv.get.shuffleManager.getReader(dep.shuffleHandle, split.index, split.index + 1, context)
         
         
         
          .read()
         
         
         
          .asInstanceOf[Iterator[(K, C)]]
         
         
         
          }

其实就是获取了一个与HashShuffleWriter相对应的HashShuffleReader来读取bucket中的数据而已 , 我们来看看HashShuffleWriter中读取数据的方法read(),源码如下:

       
       
       
       
        
        
        
        override def read(): Iterator[Product2[K, C]] = {
        
        
        
         val ser = Serializer.getSerializer(dep.serializer)
        
        
        
         // 这里就跟图解上面的串起来了
        
        
        
         // ResultTask在拉取数据时其实会调用BlockStoreShuffleFetcher来从DAGScheduler的MapOutputTrackermaster中获取自己想要的数据的信息
        
        
        
         // 底层再通过BlockManager从对应的位置拉取需要的数据
        
        
        
         val iter = BlockStoreShuffleFetcher.fetch(handle.shuffleId, startPartition, context, ser)
        
        
        
        
        
        
        
         val aggregatedIter: Iterator[Product2[K, C]] = if (dep.aggregator.isDefined) {
        
        
        
         if (dep.mapSideCombine) {
        
        
        
         new InterruptibleIterator(context, dep.aggregator.get.combineCombinersByKey(iter, context))
        
        
        
         } else {
        
        
        
         new InterruptibleIterator(context, dep.aggregator.get.combineValuesByKey(iter, context))
        
        
        
         }
        
        
        
         } else {
        
        
        
         require(!dep.mapSideCombine, "Map-side combine without Aggregator specified!")
        
        
        
        
        
        
        
         // Convert the Product2s to pairs since this is what downstream RDDs currently expect
        
        
        
         iter.asInstanceOf[Iterator[Product2[K, C]]].map(pair => (pair._1, pair._2))
        
        
        
         }

原理就是先拿到需要拉取数据的原信息 , 通过DAGScheduler的MapOutputTracker来获取 , 然后通过BlockManager来进行网络数据的拉取 , 这之间的操作都是上面的BlockStoreShuffleFetcher的fetch()方法实现的 , 源码如下:

        
        
        
        
         
         
         
         def fetch[T](
         
         
         
          shuffleId: Int,
         
         
         
          reduceId: Int,
         
         
         
          context: TaskContext,
         
         
         
          serializer: Serializer)
         
         
         
          : Iterator[T] =
         
         
         
          {
         
         
         
          logDebug("Fetching outputs for shuffle %d, reduce %d".format(shuffleId, reduceId))
         
         
         
          val blockManager = SparkEnv.get.blockManager
         
         
         
         
         
         
         
          val startTime = System.currentTimeMillis
         
         
         
          
         
         
         
          // 重点 : 首先拿到一个全局的MapOutputTrackerMaster的引用 , 然后调用其getServerStatuses方法 , 传入的两个参数要注意
         
         
         
          // shuffleId可以代表当前这个stage的上一个stage , shuffle是分为两个stage的 , shuffle write发生在上一个stage中,shuffle read发生在当前的stage
         
         
         
          // 因此shuffleId 可以限制到上一个stage的所有ShuffleMapTask输出的mapStatus
         
         
         
          // 而reduceId就是所谓的buckedId来限制每个MapStatus中获取当前这个ResultTask需要获取的每个ShuffleMapTask的输出文件的信息
         
         
         
          // 这里的getServerStatuses会走远程网络通信的 , 因为要获取Driver上的DAGScheduler的MapOutputTrackerMaster 
         
         
         
          val statuses = SparkEnv.get.mapOutputTracker.getServerStatuses(shuffleId, reduceId)
         
         
         
          logDebug("Fetching map output location for shuffle %d, reduce %d took %d ms".format(
         
         
         
          shuffleId, reduceId, System.currentTimeMillis - startTime))
         
         
         
         
         
         
         
          // 下面的代码就是对刚刚拉取到的信息status进行一些数据结构上的转换操作 , 比如弄成map格式的数据
         
         
         
          val splitsByAddress = new HashMap[BlockManagerId, ArrayBuffer[(Int, Long)]]
         
         
         
          for (((address, size), index) <- statuses.zipWithIndex) {
         
         
         
          splitsByAddress.getOrElseUpdate(address, ArrayBuffer()) += ((index, size))
         
         
         
          }
         
         
         
         
         
         
         
          val blocksByAddress: Seq[(BlockManagerId, Seq[(BlockId, Long)])] = splitsByAddress.toSeq.map {
         
         
         
          case (address, splits) =>
         
         
         
          (address, splits.map(s => (ShuffleBlockId(shuffleId, s._1, reduceId), s._2)))
         
         
         
          }
         
         
         
         
         
         
         
          def unpackBlock(blockPair: (BlockId, Try[Iterator[Any]])) : Iterator[T] = {
         
         
         
          val blockId = blockPair._1
         
         
         
          val blockOption = blockPair._2
         
         
         
          blockOption match {
         
         
         
          case Success(block) => {
         
         
         
          block.asInstanceOf[Iterator[T]]
         
         
         
          }
         
         
         
          case Failure(e) => {
         
         
         
          blockId match {
         
         
         
          case ShuffleBlockId(shufId, mapId, _) =>
         
         
         
          val address = statuses(mapId.toInt)._1
         
         
         
          throw new FetchFailedException(address, shufId.toInt, mapId.toInt, reduceId, e)
         
         
         
          case _ =>
         
         
         
          throw new SparkException(
         
         
         
          "Failed to get block " + blockId + ", which is not a shuffle block", e)
         
         
         
          }
         
         
         
          }
         
         
         
          }
         
         
         
          }
         
         
         
         
         
         
         
          // 重点 : ShuffleBlockFetcherIterator构造以后在其内部就直接根据拉取到的硬盘上的具体位置信息 
         
         
         
          // 通过BlockManager去远程的ShuffleMapTask所在节点的BlockManager去拉取数据
         
         
         
          val blockFetcherItr = new ShuffleBlockFetcherIterator(
         
         
         
          context,
         
         
         
          SparkEnv.get.blockManager.shuffleClient,
         
         
         
          blockManager,
         
         
         
          blocksByAddress,
         
         
         
          serializer,
         
         
         
          SparkEnv.get.conf.getLong("spark.reducer.maxMbInFlight", 48) * 1024 * 1024)
         
         
         
          val itr = blockFetcherItr.flatMap(unpackBlock)
         
         
         
         
         
         
         
          // 最后将拉取到的数据进行一些转化和封装返回
         
         
         
          val completionIter = CompletionIterator[T, Iterator[T]](itr, {
         
         
         
          context.taskMetrics.updateShuffleReadMetrics()
         
         
         
          })
         
         
         
         
         
         
         
          new InterruptibleIterator[T](context, completionIter) {
         
         
         
          val readMetrics = context.taskMetrics.createShuffleReadMetricsForDependency()
         
         
         
          override def next(): T = {
         
         
         
          readMetrics.incRecordsRead(1)
         
         
         
          delegate.next()
         
         
         
          }
         
         
         
          }
         
         
         
          }

重点是MapOutputTrackerMaster的getServerStatuses方法中的shuffleId和reduceId , shuffleId代表的是上一个stage中shuffle产生的所有MapStatus数据 ,而reduceId其实就是bucketId , 代表的是当前这个stage中MapResultTask获取的数据文件信息

我们在进入MapOutputTrackerMaster的getServerStatuses方法继续深入 , 源码如下:

        
        
        
        
         
         
         
         /**
         
         
         
          * Called from executors to get the server URIs and output sizes of the map outputs of
         
         
         
          * a given shuffle.
         
         
         
          */
         
         
         
          def getServerStatuses(shuffleId: Int, reduceId: Int): Array[(BlockManagerId, Long)] = {
         
         
         
          val statuses = mapStatuses.get(shuffleId).orNull
         
         
         
          if (statuses == null) {
         
         
         
          logInfo("Don't have map outputs for shuffle " + shuffleId + ", fetching them")
         
         
         
          var fetchedStatuses: Array[MapStatus] = null
         
         
         
          
         
         
         
          // 做了线程同步
         
         
         
          fetching.synchronized {
         
         
         
          // Someone else is fetching it; wait for them to be done
         
         
         
          // 不断去拉取shuffleId对应的数据 , 只要还没拉倒就死循环等待
         
         
         
          while (fetching.contains(shuffleId)) {
         
         
         
          try {
         
         
         
          fetching.wait()
         
         
         
          } catch {
         
         
         
          case e: InterruptedException =>
         
         
         
          }
         
         
         
          }

其实就是不断拉取shuffleId对应的数据而已

最后就是拉取ResultTaskMap的数据了 , 在ShuffleBlockFetchIterator类中的initialize()方法中 , 源码如下:

        
        
        
        
         
         
         
         /**
         
         
         
          * 将这个方法作为入口 , 开始拉取ResultTask对应的多份数据
         
         
         
          */
         
         
         
          private[this] def initialize(): Unit = {
         
         
         
          // Add a task completion callback (called in both success case and failure case) to cleanup.
         
         
         
          context.addTaskCompletionListener(_ => cleanup())
         
         
         
         
         
         
         
          // Split local and remote blocks.
         
         
         
          // 切分本地的和远程的block
         
         
         
          val remoteRequests = splitLocalRemoteBlocks()
         
         
         
          // Add the remote requests into our queue in a random order
         
         
         
          // 切分完之后进行shuffle随机排序操作
         
         
         
          fetchRequests ++= Utils.randomize(remoteRequests)
         
         
         
         
         
         
         
          
         
         
         
          // Send out initial requests for blocks, up to our maxBytesInFlight
         
         
         
          // 循环往复 , 只要发现还有数据没有拉取完就发送请求到远程去拉取数据
         
         
         
          // 这其中有一个参数就是max.bytes.in.flight这么一个参数,这个参数就决定了最多能拉取到多少数据到本地就要开始我们自定义的reduce算子的处理
         
         
         
          while (fetchRequests.nonEmpty &&
         
         
         
          (bytesInFlight == 0 || bytesInFlight + fetchRequests.front.size <= maxBytesInFlight)) {
         
         
         
          sendRequest(fetchRequests.dequeue())
         
         
         
          }
         
         
         
         
         
         
         
          val numFetches = remoteRequests.size - fetchRequests.size
         
         
         
          logInfo("Started " + numFetches + " remote fetches in" + Utils.getUsedTimeMs(startTime))
         
         
         
         
         
         
         
          // Get Local Blocks
         
         
         
          // 拉取完了远程数据之后获取本地的数据
         
         
         
          fetchLocalBlocks()
         
         
         
          logDebug("Got local blocks in " + Utils.getUsedTimeMs(startTime))
         
         
         
          }

以上所有就是Shuffle操作的所有详情咯 !

你可能感兴趣的:(Java,spark)

java零到一：Servlet和JSP-12： jstl和el表达式注意以及servlet的mvc模式慕容屠苏 java基础零到一
1、在javaee5.0及以上版本当中，如果要使用jstl和el表达式，应该注意的问题:1)常识javaee1.4---->servlet2.4(tomcat5.5)javaee5.0---->servlet2.5(tomcat6.0)sun公司在发布javaee5.0时，已经将jstl对应的jar文件合并到javaee5.0当中了，所以，不必拷贝2)解决方式:方式一:建议使用tomcat6.0及
JavaEE基础八之EL与JSTL相关知识(过时不谈) ZHWVICDI Java EE JavaEE EL表达式 JSTL
EL功能动态输出内容替代JSP中的表达式元素简化jsp主要就是取值一般格式${EL表达式}内置对象牢记！！因为其他也是差不多param/paramValues方便输出请求参数pageScope/requestScopre/sessionScope/applicationScope输出各范围的属性header/headerValues与请求头相关cookie/initParampageContext
16、JavaEE核心技术-EL与 JSTL 跟着汪老师学编程 java-ee java
EL与JSTL实践一.EL（ExpressionLanguage）EL（表达式语言）是JSP2.0中引入的一种简单的脚本语言，用于在JSP页面中简化数据的访问和显示。它通过一种类似于JavaScript的语法，允许开发者在JSP页面中直接访问JavaBean的属性、集合、甚至是Java类的静态字段和方法。1、EL的基本语法EL表达式的语法格式为${}，例如：${requestScope.userN
用SpringBoot做一个web小案例环境搭建只恨天高 Java 代码笔记 spring boot java 后端
前面我讲了四部分内容：springboot入门，springboot的配置相关知识点，springboot的视图模板引擎，springboot整合持久层框架有了这些知识点，我们就可以来完成一个相对功能完整的增删改查的小案例了，这个案例我们把以前讲JavaWeb入门课程中的哪个例子重新写一遍，基本功能：登录，用户列表显示，用户信息的增删改查，用户的模糊查询等，选用的技术由springboot2.0.
Java基础编程找素数是盈盈啊笔记
说明：除了1和它本身以外，不能被其他正整数整除，就叫素数。方法是否需要接收数据进行处理？需要接收101以及200，以便找该区间中的素数。方法是否需要返回数据？需要返回找到的素数个数。方法内部的实现逻辑：使用for循环来产生如101到200之间的每个数；每拿到一个数，判断该数是否是素数；判断规则是：从2开始遍历到该数的一半的数据，看是否有数据可以整除它，有则不是素数，没有则是素数；根据判
JAVA面试_进阶部分_正确使用 Volatile 变量茂茂在长安 JAVA java 面试开发语言
Java语言中的volatile变量可以被看作是一种“程度较轻的synchronized”；与synchronized块相比，volatile变量所需的编码较少，并且运行时开销也较少，但是它所能实现的功能也仅是synchronized的一部分。本文介绍了几种有效使用volatile变量的模式，并强调了几种不适合使用volatile变量的情形。锁提供了两种主要特性：互斥（mutualexclusio
JAVA面试_进阶部分_混杂（1）茂茂在长安 JAVA java 面试开发语言
1、说说线程安全问题，什么是线程安全，如何实现线程安全；线程安全-如果线程执行过程中不会产生共享资源的冲突，则线程安全。线程不安全-如果有多个线程同时在操作主内存中的变量，则线程不安全实现线程安全的三种方式1）互斥同步临界区：syncronized、ReentrantLock信号量semaphore互斥量mutex2）非阻塞同步CAS（CompareAndSwap）3）无同步方案可重入代码使用Th
JAVA面试常见题_基础部分_springboot面试题茂茂在长安 JAVA java 面试 spring boot
问题一什么是SpringBoot？多年来，随着新功能的增加，spring变得越来越复杂。只需访问https://spring.io/projects页面，我们就会看到可以在我们的应用程序中使用的所有Spring项目的不同功能。如果必须启动一个新的Spring项目，我们必须添加构建路径或添加Maven依赖关系，配置应用程序服务器，添加spring配置。因此，开始一个新的spring项目需要很多努力，
Java全栈开发学习路线：从基础到实战，掌握前后端与数据库，成为全栈软件工程师软件职业规划 java java
1.Java基础Java语法：变量、数据类型、运算符、控制流程（if、switch、循环等）面向对象编程（OOP）：类与对象、继承、多态、封装、抽象类、接口异常处理：try-catch-finally、自定义异常集合框架：List、Set、Map、ArrayList、LinkedList、HashMap等泛型：泛型类、泛型方法、泛型接口IO流：文件读写、字节流、字符流多线程：线程创建、同步、锁、线
从零基础开始实现一个Spring Boot + Vue 项目的详细步骤指南软件职业规划 spring spring boot vue.js 后端
一、准备工作1.开发环境搭建安装JDK（JavaDevelopmentKit）：前往Oracle官网（https://www.oracle.com/java/technologies/javase-jdk11-downloads.html，以JDK11为例）下载适合你操作系统的JDK安装包，按照安装向导完成安装。安装完成后，配置系统环境变量，确保在命令行中能通过java-version命令查看到正
后端Web开发框架（Java）测试人子期软件测试测试开发 java 前端 spring
SpringBoot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。讲的通俗一点就是SpringBoot并不是一个新的框架，它只是整合和默认实现了很多框架的配置方式。通过SpringBoot，可以轻松地创建独立的、基于生产级别的基于Spring的应用程序。为什么使用Spri
不多 bb，直接来看Java 全栈面试进阶宝典，保底拿下offer Java程序V Java java 面试 jvm
大家都知道，现在的Java面试是越来越难了！主要原因无非是两个：随着Java这个行业的兴起，不管是在家待业的、对自己现在工作不满意的、大学选错专业的、缺钱的、想自己学的等等这些人绝大部分都是选择了去学习Java！大量人才涌入，导致岗位竞争越来越大，面试也就越来越难！另外一个就是这两年的疫情影响，很多公司都宣布倒闭、裁员。加上互联网行业内卷的推动，面试造火箭工作拧螺丝已经是一个很常见的现象了！最近也
Maven中的依赖管理: ＜dependencies＞与＜dependencyManagement＞的区别 Fhoro maven java spring boot 后端
在Java项目的构建过程中，依赖管理是一个至关重要的部分，特别是当使用Maven作为构建工具时。Maven提供了多种方式来管理项目的依赖，而和是最常用的两个概念。本文将详细探讨这两者的区别及其应用场景。什么是？dependencies是Maven项目中直接声明所需依赖的方式。在pom.xml文件中，我们可以通过标签列出项目所需的所有库和组件。每个依赖项都包括groupId、artifactId和v
2024前端Webpack面试题司宁前端面试题前端 webpack
1、谈谈你对Webpack的理解Webpack是一个模块打包工具，可以使用它管理项目中的模块依赖，并编译输出模块所需的静态文件。它可以很好地管理、打包开发中所用到的HTML,CSS,JavaScript和静态文件（图片，字体）等，让开发更高效。对于不同类型的依赖，Webpack有对应的模块加载器，而且会分析模块间的依赖关系，最后合并生成优化的静态资源。2、Webpack的基本功能代码转换：Type
Java Spring Boot 常用技术及核心注解微笑的曙光（StevenLi） JAVA java spring boot 开发语言
一、常用技术自动配置（Auto-Configuration）SpringBoot根据类路径中的依赖自动配置应用程序。例如，引入spring-boot-starter-web会自动配置内嵌Tomcat和SpringMVC。@EnableAutoConfiguration//启用自动配置起步依赖（StarterDependencies）通过预定义的依赖集合（如spring-boot-starter-d
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
fetch java_拦截Java语言中的Fetch（）API响应和请求就大概是这样 fetch java
我想拦截Javascript中的提取API请求和响应。例如：在发送请求之前，要拦截请求URL，一旦获得响应，就要拦截响应。以下代码用于拦截所有XMLHTTPRequest的响应。(function(open){XMLHttpRequest.prototype.open=function(XMLHttpRequest){varself=this;this.addEventListener("read
XMLHttpRequest、Fetch、Axios和AJAX的关系冰镇屎壳郎前端 #JavaScript ajax 前端 javascript
一、基于http协议用于前后端通信的工具1、XMLHttpRequest（原生JS对象）XMLHttpRequest（XHR）是原生JavaScript对象。通过XMLHttpRequest可以在不刷新页面的情况下请求特定URL，获取数据。特性：浏览器广泛支持功能丰富：可以跟踪请求的状态、支持进度事件、文件上传、同步请求等可同步可异步不支持PromiseAPI2、Fetch（浏览器原生API）（1
JVM汇总篇 xk_一步一步来 JVM JVM汇总篇
转自：https://blog.csdn.net/wolf_love666/article/details/85712922书中内容来自于深入理解java虚拟机，作者周志明。会融合自己的知识和理解来记录下来，为了赚钱而奋斗！DayDayUp!!!前期准备：准备篇（一）内存管理内存如何划分、内存溢出的原因----点击这里内存分配和垃圾回收-----点击这里（二）虚拟机如何执行数据存储和访问（类文件结
通过覆盖原型属性拦截 XMLHttpRequest 响应 @大迁世界服务器运维
在JavaScript中有两种发起HTTP请求的API-现代的fetch()和传统的XMLHttpRequest。它们功能完全相同,只是语法不同。XMLHttpRequest使用回调处理响应,而fetch()返回更方便使用的Promise。XMLHttpRequest是发起HTTP请求的主流API。在新项目中使用传统的XMLHttpRequest是没有意义的。另一方面,将现有可运行的基于XMLHt
小白十分钟速通 Spring Boot 基础 Gao_雪 Spring spring boot 后端 java spring vscode
SpringBoot介绍随着Spring体系的不断庞大，加上现代互联网应用体积庞大，构建一个应用还是非常困难的，Spring团队重新打造了一个新的面向微服务的框架SpringBoot。严格来说SpringBoot不能是一个框架，它更是一个方案，Spring工程的快速上手方案，它极大的降低了JavaWeb工程的创建和运行和部署的难度。在过去这些都是Java工程师的老大难，所以说SpringBoot的
Shiro反序列化漏洞原理与复现指南豪门土狗网络安全笔记 linux
0x01漏洞简介ApacheShiro是Java领域广泛使用的安全框架，用于身份认证、权限控制等场景。漏洞背景：Shiro在1.2.5及以下版本中，默认使用硬编码的AES加密密钥（kPH+bIxk5D2deZiIxcaaaA==），攻击者可通过构造恶意RememberMeCookie触发反序列化漏洞，导致远程代码执行（RCE）。影响版本：ApacheShiro≤1.2.5、≤1.5.2（部分版本需
贪心算法（5）（java）k次取反后最大化的数组和奋进的小暄贪心算法 java 算法
题目：给定一个整数数组`nums`和一个整数`k`，你可以进行最多`k`次取反操作。每次操作可以选择数组中的一个元素并将其取反（即`x`变为`-x`）。最终返回经过`k`次取反操作后，数组可能的最大总和。解法：分情况讨论。设：整个数组中负数的个数是m个1.m>k:把前k小负数转化成正数2.m==k:把所有负数全部转化成正数3.mk){//情况一：负数个数多于k次反转Arrays.sort(nums
零基础小白如何系统学习Spring Boot Victoria Zhu 学习 spring boot 后端
零基础小白如何系统学习SpringBoot一、学习前的准备1.必备基础知识✅Java基础：掌握Java8+的核心语法（类/对象/集合/异常处理）✅Maven/Gradle：理解依赖管理工具的基本使用（pom.xml配置）✅HTTP协议：了解RESTfulAPI设计理念（GET/POST/PUT/DELETE）环境要求公式环境要求公式环境要求公式推荐配置：JDK≥11,IDE=IntelliJIDE
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
Node.js 的模块作用域和 module 对象详细介绍还是鼠鼠 node.js node.js javascript 前端 vscode web
目录代码示例1.创建模块文件module-demo.js2.导入模块并使用module-demo.js运行结果总结在Node.js中，每个文件都是一个独立的模块，具有自己的作用域。与浏览器JavaScript代码不同，Node.js采用模块作用域，这意味着一个文件中的变量、函数、类等不会污染全局作用域，而是仅在该模块内部有效。这种设计提高了代码的封装性和安全性。module对象是Node.js提供
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI 3.0声明式开发与高性能渲染实践披光人 harmonyOS harmonyos
第一章鸿蒙声明式UI架构演进与技术优势1.1从命令式到声明式的范式迁移HarmonyNext的ArkUI3.0标志着鸿蒙开发生态的重大革新，其核心在于采用声明式UI编程范式。相较于传统Android的XML+Java/Kotlin命令式开发模式，声明式UI具有以下技术特征：状态驱动视图：UI呈现完全由数据状态决定，开发者只需描述"UI应该是什么样子"，无需手动操作DOM元素单向数据流：采用Stat
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多