不清不慎

Spark源码解读之Shuffle原理剖析与源码分析

在前面几篇文章中，介绍了Spark的启动流程Spark内核架构流程深度剖析，Spark源码分析之DAGScheduler详解，Spark源码解读之Executor以及Task工作原理剖析，Spark源码解读之Executor以及Task工作原理剖析等Spark重要组件的源码剖析之后，接着之前的文章，本篇文章来剖析Shuffle的原理，shuffle阶段无论是mapreduce还是Spark都是其核心以及难点，了解了其shuffle操作原理之后，更加有利于我们调优系统，避免不必要的错误。

转载请标明原文地址：原文地址

spark的shuffle操作有之前的版本和现在优化后的版本，它可以通过一个参数来调节，具体我们后面会详述，本篇主要从以下几个方面来深入Shuffle原理：

普通shuffle操作的原理剖析
优化后的shuffle操作原理剖析
shuffle源码剖析

普通shuffle操作的原理剖析

首先来看看早期没有任何优化的shuffle操作的原理，如下图是shuffle简单原理图：

这里我们假设每一个节点上运行着两个ShuffleMapTask，每一个ShuffleMapTask都会为每一个ResultTask创建一个bucket缓存，并且接着会将bucket缓存中的数据刷新到磁盘文件shuffleBlockFile中，ShuffleMapTask刷新到磁盘中的数据信息会封装在MapStatus中，发送到Driver的DAGScheduler的MapOutputTracker中，而每一个ResultTask会用BlockStoreShuffleFetcher去MapOutputTracker中获取自己所需要的数据的信息，然后通过底层的BlockManager将数据拉取过来。

将数据拉取过来之后，会将这些数据组成一个RDD，即ShuffleRDD，优先存入内存当中，其次再写入磁盘中。然后每一个ResultTask针对这些RDD数据执行自己的聚合操作或者算子函数生成MapPartitionRDD。

以上就是普通Shuffle操作的执行原理，从上图我们可以发现一个问题，每一个ShuffleMapTask都需要为每一个ResultTask生成一个文件和bucket缓存，假设有100个ShuffleMapTask，100个ResultTask，那么就需要总共生成10000个文件，此时会有大量的磁盘IO操作，严重的影响shuffle的性能。

因此，在后期的新版本的Spark中，加入了优化操作，具体原理我们来看看。

优化后的shuffle操作原理剖析

优化后的Shuffle操作原理图如下：

这里假设我们的服务器上有两个CPU cores，运行着4个ShuffleMapTask，因此每次可以并行执行两个两个ShuffleMapTask，在之前的版本中，当前并行执行的一批ShuffleMapTask执行完毕之后执行下一批时会重新生成bucket缓存，而且在刷新到磁盘上的时候也会重新生成ShuffleBlockFile。但是在优化后的Shuffle操作中它不会重新生成缓存和磁盘文件，而是将数据写入之前的缓存和磁盘文件中，即合并了多个ShuffleMpaTask产生的文件，这也叫做consolidation机制。在多个ShuffleMapTask合并产生的文件称为一组ShuffleGroup，里面存储了多个ShuffleMapTask的数据，每个ShuffleMapTask的数据称为一个segment，此外还会通过一些索引来标识每个ShuffleMapTask在ShuffleBlockFile中的位置以及偏移量，来进行区分不同的ShuffleMapTask产生的数据。

优化参数的设置只需在SparkConf中设置即可，即设置spark.shuffle.consolidateFiles参数为true即可，可以看出来，在优化后的shuffle操作，它产生的磁盘文件是cpu core数量*ResultTask的数量，比如这里假设了2个cpu core，有100个ResultTask，因此会产生200个磁盘文件，相比之前没有优化的Shuffle操作，减少了20倍的磁盘文件，对系统的性能有很大的提升。

对Spark Shuffle操作有以下两个特点：

在早期版本中，bucket缓存十分重要，因为ShuffleMapTask只有将数据写入缓存中，然后才会刷新到磁盘中，但是如果缓存过多，有可能会导致OutOfMemory，因此，在新版中，进行了优化设置，缩小了缓存的大小，默认是100KB，当超过这个阀值时，就会将数据一点点写入磁盘中。但是这样也有一个缺点，当数据过多的时候，会有大量的磁盘IO操作。
与MpaReduce的Shuffle不一样，MapReduce它必须将所有的数据写入磁盘文件之后才会去进行Reduce操作，因为MapReduce会对数据进行排序。但是Spark不会对数据进行排序，因此不需要等待全部数据写入磁盘就ResultTask就可以拉取数据进行计算。这样，明显比MapReduce快很多，但是MapReduce可以直接在Reduce端对每一个key的value进行计算，但是Spark由于实时拉取的机制，因此只有先执行action操作，进行Shuffle操作，生成对应的MapPartitionRDD，然后去进行计算。

shuffle源码剖析

在上面了解了Shuffle的原理之后，我们来简单看看其内部源码。

Shuffle操作会在stage之间进行操作，之前的stage会先将数据写入到磁盘，这里使用了HashShuffleWriter，在这个类中，我们来看看write方法：

/** Write a bunch of records to this task's output */
  /**
    * 将每个ShuffleMapTask计算出来的新的RDD的partition数据，写入本地磁盘
    * @param records
    */
  override def write(records: Iterator[_ <: Product2[K, V]]): Unit = {
    //判断是否需要进行本地，如果是reduceByKey这种操作，则要进行聚合操作
    //即dep.aggregator.isDefined为true
    //dep.mapSideCombine也为true
    val iter = if (dep.aggregator.isDefined) {
      if (dep.mapSideCombine) {
        //这里进行本地聚合操作，比如本地有(hello,1),(hello,1)
        //则可以聚合成(hello,2)
        dep.aggregator.get.combineValuesByKey(records, context)
      } else {
        records
      }
    } else {
      require(!dep.mapSideCombine, "Map-side combine without Aggregator specified!")
      records
    }

    //如果需要本地聚合，则先进行聚合
    //然后遍历数据，对每一个数据，进行partition操作，默认的是HashPartitioner,并且生成bucketId
    //也就表示这数据要写入哪一个bucket
    for (elem <- iter) {
      val bucketId = dep.partitioner.getPartition(elem._1)
      //调用shuffleBlockManager.forMapTask()方法生成bucketId对应的writer,然后用writer将数据写入bucket
      shuffle.writers(bucketId).write(elem)
    }
  }

在写入bucket的时候，会调用shuffleBlockManager.forMapTask()方法生成bucketId对应的writer,然后用writer将数据写入bucket，因此我们进行forMapTask这个方法中：

/**
   * Get a ShuffleWriterGroup for the given map task, which will register it as complete
   * when the writers are closed successfully
   */
  /**
    * 给每一个map task生成 一个ShuffleWriterGroup
    */
  def forMapTask(shuffleId: Int, mapId: Int, numBuckets: Int, serializer: Serializer,
      writeMetrics: ShuffleWriteMetrics) = {
    new ShuffleWriterGroup {
      shuffleStates.putIfAbsent(shuffleId, new ShuffleState(numBuckets))
      private val shuffleState = shuffleStates(shuffleId)
      private var fileGroup: ShuffleFileGroup = null

      val openStartTime = System.nanoTime
      //判断是否开启了consolidate优化，如果开启了，就不会为每一个bucket获取一个输出文件
      //而是为每一个bucket获取一个ShuffleGroup的write
      val writers: Array[BlockObjectWriter] = if (consolidateShuffleFiles) {
        fileGroup = getUnusedFileGroup()
        Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>
          //首先生成一个唯一的blockId，然后用bucketId来调用ShuffleFileGroup的apply函数来获取一个writer
          val blockId = ShuffleBlockId(shuffleId, mapId, bucketId)
          //使用blockManager.getDiskWriter()函数来获取一个writer
          //实际上在开启优化配置后，对一个bucketId，不再是像之前一样获取一个独立的ShuffleBlockFile的writer
          //而是获取ShuffleFileGroup中的一个writer
          //这样就实现了多个ShufffleMapTask的输出文件的合并
          blockManager.getDiskWriter(blockId, fileGroup(bucketId), serializer, bufferSize,
            writeMetrics)
        }
      } else {
        //如果没有进行shuffle优化配置，也会针对每一个shuffleMapTask创建一个ShuffleBlockFile
        Array.tabulate[BlockObjectWriter](numBuckets) { bucketId =>
          val blockId = ShuffleBlockId(shuffleId, mapId, bucketId)
          val blockFile = blockManager.diskBlockManager.getFile(blockId)
          // Because of previous failures, the shuffle file may already exist on this machine.
          // If so, remove it.
          //如果ShuffleBlockFile存在，则进行删除
          if (blockFile.exists) {
            if (blockFile.delete()) {
              logInfo(s"Removed existing shuffle file $blockFile")
            } else {
              logWarning(s"Failed to remove existing shuffle file $blockFile")
            }
          }
          //写入磁盘中
          blockManager.getDiskWriter(blockId, blockFile, serializer, bufferSize, writeMetrics)
        }
      }

将结果数据写入磁盘文件之后，就开始了Shuffle操作，Shuffle操作的入口在RDD包下的ShuffleRDD类中，源码如下：

 /**
    *shuffle的入口
    */
  override def compute(split: Partition, context: TaskContext): Iterator[(K, C)] = {
    //这里会调用shuffleManager.getReader()来获取一个HashShuffleReader
    //然后调用它的reader方法来拉取resultTask需要聚合的数据
    val dep = dependencies.head.asInstanceOf[ShuffleDependency[K, V, C]]
    SparkEnv.get.shuffleManager.getReader(dep.shuffleHandle, split.index, split.index + 1, context)
      .read()
      .asInstanceOf[Iterator[(K, C)]]
  }

在读取数据的时候使用的HashShuffleReader这个类。在这个类的read方法中：

 /** Read the combined key-values for this reduce task */
  override def read(): Iterator[Product2[K, C]] = {
    val ser = Serializer.getSerializer(dep.serializer)
    //通过BlockStoreShuffleFetcher的fetch方法来从DAGScheduler的MapOutputTrackerMaster中获取
    //自己需要的数据的信息，然后底层再通过对应的BlockManager拉取需要的数据
    val iter = BlockStoreShuffleFetcher.fetch(handle.shuffleId, startPartition, context, ser)

    val aggregatedIter: Iterator[Product2[K, C]] = if (dep.aggregator.isDefined) {
      if (dep.mapSideCombine) {
        new InterruptibleIterator(context, dep.aggregator.get.combineCombinersByKey(iter, context))
      } else {
        new InterruptibleIterator(context, dep.aggregator.get.combineValuesByKey(iter, context))
      }
    } else {
      require(!dep.mapSideCombine, "Map-side combine without Aggregator specified!")

      // Convert the Product2s to pairs since this is what downstream RDDs currently expect
      iter.asInstanceOf[Iterator[Product2[K, C]]].map(pair => (pair._1, pair._2))
    }

    // Sort the output if there is a sort ordering defined.
    dep.keyOrdering match {
      case Some(keyOrd: Ordering[K]) =>
        // Create an ExternalSorter to sort the data. Note that if spark.shuffle.spill is disabled,
        // the ExternalSorter won't spill to disk.
        val sorter = new ExternalSorter[K, C, C](ordering = Some(keyOrd), serializer = Some(ser))
        sorter.insertAll(aggregatedIter)
        context.taskMetrics.incMemoryBytesSpilled(sorter.memoryBytesSpilled)
        context.taskMetrics.incDiskBytesSpilled(sorter.diskBytesSpilled)
        sorter.iterator
      case None =>
        aggregatedIter
    }
  }

这里会使用BlockStoreShuffleFetcher调用fetch方法来拉取所需要的数据，我们可以进行这个方法中简单看一下：

 def fetch[T](
      shuffleId: Int,
      reduceId: Int,
      context: TaskContext,
      serializer: Serializer)
    : Iterator[T] =
  {
    logDebug("Fetching outputs for shuffle %d, reduce %d".format(shuffleId, reduceId))
    val blockManager = SparkEnv.get.blockManager

    val startTime = System.currentTimeMillis

    //获取一个全局的MapOutputTracker，并且调用其getServerStatuses方法
    //注意这里传入了两个参数，shuffleId和reduceId
    //shuffle有两个stage参与，因此shuffleId代表表示上一个stage，使用这个参数来获取
    //上一个stage的ShuffleMapTask shuffle write输出的MapStatus数据信息
    //在获取到MapStatus之后，还要使用reduceId来拉取当前stage需要获取的之前stage的ShuffleMapTask的输出文件信息
    //这个getServerStatuses方法是需要走网络通信的，因为它要连接Driver上的DAGScheduler来获取MapOutputTracker上的数据信息
    val statuses = SparkEnv.get.mapOutputTracker.getServerStatuses(shuffleId, reduceId)

    logDebug("Fetching map output location for shuffle %d, reduce %d took %d ms".format(
      shuffleId, reduceId, System.currentTimeMillis - startTime))

    val splitsByAddress = new HashMap[BlockManagerId, ArrayBuffer[(Int, Long)]]
    for (((address, size), index) <- statuses.zipWithIndex) {
      splitsByAddress.getOrElseUpdate(address, ArrayBuffer()) += ((index, size))
    }

    val blocksByAddress: Seq[(BlockManagerId, Seq[(BlockId, Long)])] = splitsByAddress.toSeq.map {
      case (address, splits) =>
        (address, splits.map(s => (ShuffleBlockId(shuffleId, s._1, reduceId), s._2)))
    }

    def unpackBlock(blockPair: (BlockId, Try[Iterator[Any]])) : Iterator[T] = {
      val blockId = blockPair._1
      val blockOption = blockPair._2
      blockOption match {
        case Success(block) => {
          block.asInstanceOf[Iterator[T]]
        }
        case Failure(e) => {
          blockId match {
            case ShuffleBlockId(shufId, mapId, _) =>
              val address = statuses(mapId.toInt)._1
              throw new FetchFailedException(address, shufId.toInt, mapId.toInt, reduceId, e)
            case _ =>
              throw new SparkException(
                "Failed to get block " + blockId + ", which is not a shuffle block", e)
          }
        }
      }
    }

    val blockFetcherItr = new ShuffleBlockFetcherIterator(
      context,
      SparkEnv.get.blockManager.shuffleClient,
      blockManager,
      blocksByAddress,
      serializer,
      SparkEnv.get.conf.getLong("spark.reducer.maxMbInFlight", 48) * 1024 * 1024)
    val itr = blockFetcherItr.flatMap(unpackBlock)

    val completionIter = CompletionIterator[T, Iterator[T]](itr, {
      context.taskMetrics.updateShuffleReadMetrics()
    })

    new InterruptibleIterator[T](context, completionIter) {
      val readMetrics = context.taskMetrics.createShuffleReadMetricsForDependency()
      override def next(): T = {
        readMetrics.incRecordsRead(1)
        delegate.next()
      }
    }
  }

这个方法中主要会去连接Driver去MapOutputTracker中去获取数据信息，然后进行拉取。具体源代码读者可以自行去查看，本篇文章就介绍完毕，如有任何问题，欢迎指教。

【java小灶课】详解java与python的不同之处 wit_@ python java big data web
以下是一篇详细的博客，全面介绍了Java与Python在多方面的区别，包括语法、类型系统、内存管理、面向对象特性、并发编程以及常见应用场景等，希望能帮助你深入理解这两门语言的异同，为学习或实际应用提供指导。目录语言概述语法对比类型系统内存管理与垃圾回收面向对象特性函数式编程与Lambda表达式异常处理标准库与第三方库生态并发和多线程运行效率与性能优化常见应用场景学习曲线与社区支持总结1.语言概述J
使用 Caffeine 和 Redis 实现高效的二级缓存架构微技术 redis 架构数据库缓存
在现代应用开发中，缓存是提升系统性能的关键手段。为了兼顾本地缓存的高性能和分布式缓存的扩展能力，常见的实现方式是结合使用Caffeine和Redis实现二级缓存架构。本文将详细介绍如何通过SpringBoot实现一个Caffeine+Redis二级缓存，并通过合理的架构设计和代码实现，确保缓存的一致性、性能和容错性。一、需求与挑战1.多级缓存的需求：•一级缓存（Caffeine）：快速响应，存储本
Wi-Fi 7、Wi-Fi 6 与 5G、4G 的全方位对比微凉的衣柜科技头条 5G 网段
随着无线通信技术的飞速发展，Wi-Fi7、Wi-Fi6，以及5G、4G已经成为人们生活和工作中不可或缺的网络技术。无论是家庭网络、高速移动通信，还是工业物联网，这些技术都在发挥各自的作用。那么，它们之间有什么区别？适用的场景又有哪些呢？本文将从速度、延迟、覆盖范围、网络架构和应用场景等多方面为大家做一个详细的对比分析。1.技术基本概念Wi-Fi7（802.11be）：最新一代Wi-Fi标准，主打超
第五篇 vue3 ref 与 reactive 对比小画家~ 前端 vue.js
ref若需要自动加载.value,那么就要在底部菜单中设置选项选择vue勾选：AutoInsert:DotValueAuto-completeRefvaluewith`.value`.注意点：ref不能写越过value.必须要在valeu前面进行定义通过reactive来修改整体名称的值letcarad=reactive({brand:"小汽车",price:"1888"})//通过reactiv
Numpy基础01（Jupyter基本用法/Ndarray创建与基本操作） XYX的Blog 数据分析与可视化 numpy jupyter
内容一：Jupyter开发环境IPython是一个增强型的Python交互式解释器，提供了自动补全、命令历史、魔法命令等功能。它支持与操作系统命令交互、内联绘图和多语言扩展，并可与JupyterNotebook集成，适用于数据分析和科学计算。IPython还支持远程访问、包管理和插件扩展，是一个功能强大且灵活的开发工具。JupyterNotebook是IPython的开发环境。1.1Jupyter
基于TSN的混合5G网络中的确定性通信研究需求与综述神一样的老师论文阅读分享网络
ResearchDemandandReviewonDeterministicCommunicationinHybrid5GnetworksbasedonTSNMahmoudAlqudahUniversityofSiegenSiegen,Germanymahmoud.alqudah@uni-siegen.deRomanObermaisserUniversityofSiegenSiegen,Germa
Python魔法方法__call__深入详解图灵学者 python精华 python 开发语言
目录1、魔法方法__call__初探‍♂️1.1什么是__call__?1.2基础用法演示1.3自定义行为与参数传递2、实现轻量级装饰器模式️2.1装饰器概念回顾2.2利用__call__构建装饰器2.3深入理解装饰器应用场景3、类实例变身函数调用3.1类似函数的行为模拟3.2动态执行与灵活性提升3.3实战案例：日志记录器4、实现状态机模式4.1状态机概念回顾4.2通过__call__管理状态转换
Python魔法参数：深入解析*args和**kwargs的强大用途图灵学者 python精华 python java linux
目录引言基础概念解析*args：处理位置参数**kwargs：处理关键字参数*args和**kwargs的实际应用场景1.函数装饰器中使用*args和**kwargs2.类构造函数中使用*args和**kwargs3.API调用中使用**kwargs与其他参数类型的结合使用结合默认参数位置参数与关键字参数的混合使用高级技巧和注意事项参数解包与重打包性能考量调试技巧案例研究场景描述实现步骤实际应用案
服务器性能监控与优化系统：实战指南与代码案例我的运维人生服务器运维运维开发技术共享
服务器性能监控与优化系统：实战指南与代码案例在现代IT基础设施中，服务器性能监控与优化是确保业务连续性和高效运行的关键环节。通过实时监控和调优，能够及时发现并解决潜在的性能瓶颈，从而提升用户体验和系统稳定性。本文将详细介绍服务器性能监控与优化系统的实践方法，并通过具体代码案例进行说明。一、性能监控的重要性性能监控是服务器管理的核心任务之一，通过实时监控关键性能指标（如CPU使用率、内存使用率、磁盘
1、Java 环境搭建与基本概念：开启 Java 编程之旅的第一步翻晒时光从0学Java java 开发语言
大家好，欢迎来到我们的Java学习系列博客，今天是第一课，我们将一起探索Java环境搭建与基本概念。无论你是编程新手，还是想要学习一门新语言的老手，Java都是一个非常值得学习的语言，它在众多领域都有着广泛的应用，从企业级软件开发、安卓应用开发到大数据处理，都能看到Java的身影。让我们开始这充满挑战与乐趣的Java学习之旅吧！一、Java的发展历程与特点Java诞生于SunMicrosystem
python调用oracle存储过程传入多参数_精通 Oracle+Python，第 5 部分：存储过程、Python 编程... weixin_39669133
调用数据库存储过程及其他感兴趣的高级Python编程功能。2010年3月发布对于涉及数据库的软件开发来说，有两种主流开发方法：一种是在应用程序中(对于三层体系结构，也可以是在中间件中)实现所有业务逻辑，另一种是在数据库内部实现所有业务逻辑。本教程不讨论这两种解决方案的优缺点；不过，使用Oracle数据库方法还是会为面向数据库的应用程序带来某些好处。用PL/SQL嵌入所有业务逻辑可大大减少应用程序与
AI引领工业制造智能化革命：机器视觉与时序数据预测的双重驱动火山说数人工智能制造
AI在工业制造的应用正在经历从传统自动化向智能化的巨大飞跃。在众多AI技术中，基于机器视觉的工业辅助检测和基于时序数据的智能预测，毫无疑问是目前备受关注的两个重要方向。它们不仅极大提升了生产效率，还通过精准的决策和实时监控，推动着各行各业的智能转型。一、基于机器视觉的工业辅助检测：让机器的眼睛比人类更聪明如果你曾经站在生产线旁边，眼睛盯着一个个小零件，试图快速判断它们的质量，你应该知道那种疲惫和压
VMware ESXi 8.0U3c macOS Unlocker & OEM BIOS 标准版和厂商定制版，已适配主流品牌服务器 sysinside VMware ESXi Dell HPE 联想华为浪潮
VMwareESXi8.0U3cmacOSUnlocker&OEMBIOS标准版和厂商定制版ESXi8.0U3c标准版，Dell(戴尔)、HPE(慧与)、Lenovo(联想)、Inspur(浪潮)、Cisco(思科)、Hitachi(日立)、Fujitsu(富士通)、NEC(日电)定制版、Huawei(华为)OEM定制版请访问原文链接：https://sysin.org/blog/vmware-e
深入理解Oracle DB的事务小小不董 Oracle DB管理及运维 oracle 数据库服务器 linux dba
1.引言本节详细介绍OracleDB的事务。2.理解事务的基本概念与特性2.1事务的定义与特性2.1.1定义在Oracle数据库中，事务是一组逻辑相关的数据库操作单元，这些操作要么全部成功执行并提交（使数据库状态发生永久性改变），要么全部失败并回滚（撤销所有已执行的操作，使数据库恢复到事务开始前的状态）。例如，在银行转账系统中，从一个账户扣款并在另一个账户收款这两个操作就构成一个事务。2.1.2事
VSCode配置python环境 40577131 python vscode 编程语言人工智能爬虫
初学Python，使用的IDE又从Pycharm转到了VSCode，就试着对VSCode进行环境配置。1.安装Python——Python官网2.安装VSCode——VSCode官网，vscode下载与安装——参考这儿在两个安装完成之后可以配置一下vscode中文环境：Ctrl+shift+X进入商店扩展，步骤：1.ctrl+shift+x2.输入Chinese3.点击install安装退出重启配
Mac 使用 GVM 管理多版本 Go 环境自学AI的鲨鱼儿 #环境安装 macos golang 开发语言
使用GVM管理多版本Go环境在本文中，我们将使用gvm（GoVersionManager）工具管理本地多个Go语言版本。gvm功能类似于Python的Anaconda，可以方便地切换不同版本的Go环境，非常适合需要多版本开发与测试的场景。需要注意的是，gvm在第一次安装Go时，需要终端环境中已经存在一个可用的Go语言版本，因为gvm需要依赖现有的Go环境来编译安装新的版本。为了满足这一需求，我们可
围术期冠心病风险因子及综合管理方案研究报告 LCG元围术期 vue.js 信息系统人工智能
一、引言1.1研究背景与意义在医疗领域，手术治疗是许多疾病的重要干预手段，但围术期的风险因素一直是影响手术成功率和患者预后的关键问题。其中，冠心病作为一种常见的心血管疾病，其在围术期的风险因子对患者的生命安全构成了重大威胁。随着人口老龄化加剧以及手术适应证的不断拓宽，越来越多的冠心病患者需要接受手术治疗，这使得围术期冠心病风险的管理变得尤为重要。围术期冠心病风险的存在，不仅增加了手术的复杂性和难度
机器学习数学基础-定积分应用-经济问题华东算法王（原聪明的小孩子小孩哥解析宋浩微积分算法
定积分在经济学中的应用广泛，特别是用来解决与累积量、平均值、总收入、成本、利润等相关的问题。以下是定积分在经济学中的几个常见应用场景：1.总收入和总成本的计算在经济学中，定积分常用于计算总收入、总成本等累积量。如果给定价格函数和需求函数或供应函数，定积分可以帮助我们计算从某一数量到另一数量之间的总收入或总成本。总收入：假设某商品的价格随数量的变化而变化，价格函数为(p(x))，其中(x)表示销售的
全新发布：企业级安全网盘解决方案，助力数据高效流转与安全管理！ c++代码诗人信息安全开发语言 c++
全新发布：企业级安全网盘解决方案，助力数据高效流转与安全管理！在数字化办公快速发展的今天，信息安全与数据高效管理成为企业的核心需求。我们全新推出的企业级网盘系统，为您提供一站式解决方案，集稳定性、高安全性、多功能性于一体，助力您的企业高效运行和数据安全保障。以下是我们的网盘核心亮点：1.稳定可靠的技术架构客户端采用MFC开发：运行高效，界面直观，用户体验流畅，特别适合Windows系统用户。服务端
oc中* 与**的区别以及如何修改传递的实参数晨枫阳 iOS开发记录 ios objective-c
指针的概念在oc中用*符号申明指针变量，例如，NSString*str=@"Hello,World!"表示声明了一个指向NSString类型对象的指针变量str。这里重点记住（1）str代表的是一个指针变量，里面存储着Hello,World!的地址（2）*str代表的是获取指针变量str指向的地址存储的值，例如，intvalue=*p;表示将指针p指向的内存地址中的值赋给变量value。（3）**
战场物联网：通信挑战与最新解决方案综述神一样的老师论文阅读分享物联网物联网
论文标题TheInternetofBattleThings:ASurveyonCommunicationChallengesandRecentSolutions作者信息RachelKufakunesu,HermanMyburgh,AllanDeFreitas论文出处DiscoverInternetofThings(2025)5:3|Theinternetofbattlethings:asurvey
迁移学习与RBF神经网络 fanxbl957 人工智能理论与实践迁移学习神经网络人工智能
迁移学习与RBF神经网络一、引言在机器学习和深度学习领域，迁移学习和神经网络都是备受关注的重要技术。迁移学习旨在将从一个或多个源任务中学习到的知识应用到目标任务中，以加快目标任务的学习过程，提高学习效果，尤其在数据稀缺或训练资源有限的情况下展现出显著优势。而RBF（径向基函数）神经网络作为一种经典的神经网络结构，以其独特的函数逼近能力和良好的局部逼近特性，在众多领域取得了出色的性能表现。将迁移学习
纳米ITO, ATO, CTO, AZO, IZO, GZO都指的是什么？ Sun_13250243710 纳米氧化物纳米ito 纳米ato 纳米azo 纳米cto 纳米复合氧化物
这些材料均为常见的功能性纳米材料，在光电领域应用广泛。下面为你介绍纳米ITO、ATO、CTO、AZO、IZO、GZO：纳米ITO（氧化铟锡）成分结构：由氧化铟（In₂O₃）和10%的氧化锡（SnO₂）组成。50nm尺度下，其晶体结构呈现出规则有序排列，铟、锡原子与氧原子通过化学键紧密相连，形成稳定晶格结构。性能特点：具备出色的光学透明性，在可见光范围内的透光率可达80%以上。同时，电学性能优异，电
如何优化物流库存规划？4个工具助力精准需求预测与资源配置物流系统团队协作
在物流管理的庞大体系中，库存管理占据着举足轻重的地位。它不仅直接影响着企业的运营成本和客户服务水平，还与整个供应链的稳定性和效率紧密相连。从库存的规划、采购、存储到配送，每一个环节都需要精细把控，以实现资源的优化配置和效益的最大化。接下来，我们将深入探讨物流库存管理中的关键要点、相关实用工具以及风险应对策略，尤其会着重突出板栗看板在其中的重要作用。一、物流库存管理流程解析（一）库存规划与需求预测库
电商效率提升实战：看板工具如何优化任务可视化与进度追踪 androidios小程序
在电商行业，尤其是面对旺季订单量激增和多部门协作的复杂场景，看板工具能够显著提升团队的协作效率和项目管理能力。以下是如何使用看板工具提升效率的具体方法，以板栗看板为例：一、任务管理与进度跟踪电商运营涉及多个环节，如商品上架、促销活动策划、订单处理和客户服务等。通过板栗看板，团队可以将这些任务以卡片形式展示在看板上，帮助团队成员清晰了解任务的状态、优先级和负责人。通过拖拽任务卡片，团队成员可以直观地
“数据飞轮” 理念焕新，助力 2025 企业数智化发展大数据大模型
2024年，全球科技领域在人工智能浪潮的席卷下加速前行，数字化转型进程也随之踏入全新阶段。在这一背景下，数据飞轮理念延续“以数据消费促资产建设，以数据消费助业务发展”的核心内涵，实现焕新升级。在2025年，升级后的数据飞轮2.0，将AI视作数智化的核心竞争力，借助AI技术推动企业更普惠的数据消费。“数据飞轮”2.0的理念，带来了多方面的显著升级。其一，它将AI技术深度融入数据生产、管理与应用各环节
大数据：数字时代的变革引擎大数据
在当今这个数字化飞速发展的时代，大数据无疑是最为耀眼的存在，如同变革的引擎，驱动着各个领域的创新与发展。大数据的起源可追溯到信息技术发展的早期阶段。随着计算机的诞生和数据存储技术的逐步发展，人们开始积累越来越多的数据。然而，早期的数据量相对较小，处理和分析技术也较为有限。直到互联网的普及，数据的产生方式发生了根本性的变化。网站、搜索引擎、社交媒体等互联网应用的兴起，使得数据量呈爆炸式增长。每天，全
【Redis】使用redis-cli的“--bigkeys”选项查找大Key 奇墨 ITQM redis 数据库缓存
在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。下面将为大家介绍大Key的定义及查找方法：一、什么是大Key？通常我们会将含有较大数据或含有大量成员、列表数的Key称之为大Key，下面我们将用几个实际的例子对大Key的特
Axios 封装：处理重复调用与内容覆盖问题 PorkCanteen 问题解决前端 javascript http
问题描述&背景下拉选择框，支持搜索，搜索时携带参数调用接口并更新下拉选项下拉选择连续进行多次搜索，先请求但响应时间长的返回值会覆盖后请求但响应时间短的举例：搜索后先清空选项，再输入内容进行搜索。清空后查询全量数据接口响应时间更长，覆盖搜索过滤后的数据问题分析连续多次请求导致问题通过防抖debounce函数，限制短期内无法重复调用接口-使用lodash的debounce函数实现若接口响应时间相差较大
飞轮科技荣获中国电信星海大数据最佳合作伙伴奖！
近日，由中国电信集团数据发展中心主办的数据要素合作论坛在广州召开。大会以“数聚共生·智启未来”为主题，旨在展示数据要素应用成果，探索数据要素创新实践。与会期间，为了感谢2024年生态合作伙伴对中国电信数据业务发展工作的支持，会议举行了“星海大数据·最佳合作伙伴奖”颁奖仪式。飞轮科技凭借其在数据分析领域的卓越表现与深厚实力，获得这一殊荣。作为中国电信的长期合作伙伴，飞轮科技持续致力于为中国电信提供先
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

Spark源码解读之Shuffle原理剖析与源码分析

普通shuffle操作的原理剖析

优化后的shuffle操作原理剖析

shuffle源码剖析

你可能感兴趣的:(Spark,Spark源码剖析与调优)