水墨风漾

Spark Shuffle原理和Shuffle的问题解决和优化

摘要：

1 shuffle原理

　　1.1 mapreduce的shuffle原理

　　　　1.1.1 map task端操作

　　　　1.1.2 reduce task端操作

　　 1.2 spark现在的SortShuffleManager

2 Shuffle操作问题解决

　　 2.1 数据倾斜原理

   2.2 数据倾斜问题发现与解决

   2.3 数据倾斜解决方案

3 spark RDD中的shuffle算子

  3.1 去重

  3.2 聚合

  3.3 排序

  3.4 重分区

  3.5 集合操作和表操作

4 spark shuffle参数调优

内容：

　1 shuffle原理

   概述：Shuffle描述着数据从map task输出到reduce task输入的这段过程。在分布式情况下，reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存，磁盘IO的消耗。

　　 1.1 mapreduce的shuffle原理

　　　　1.1.1 map task端操作

　　　　每个map task都有一个内存缓冲区（默认是100MB），存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据。

　　　　Spill过程：这个从内存往磁盘写数据的过程被称为Spill，中文可译为溢写。整个缓冲区有个溢写的比例spill.percent（默认是0.8），当达到阀值时map task 可以继续往剩余的memory写，同时溢写线程锁定已用memory，先对key(序列化的字节)做排序,如果client程序设置了Combiner，那么在溢写的过程中就会进行局部聚合。

　　　　Merge过程：每次溢写都会生成一个临时文件，在map task真正完成时会将这些文件归并成一个文件，这个过程叫做Merge。

　　　　1.1.2 reduce task端操作

　　　　当某台TaskTracker上的所有map task执行完成，对应节点的reduce task开始启动，简单地说，此阶段就是不断地拉取(Fetcher)每个map task所在节点的最终结果，然后不断地做merge形成reduce task的输入文件。

　　　　Copy过程：Reduce进程启动一些数据copy线程(Fetcher)通过HTTP协议拉取TaskTracker的map阶段输出文件

　　　　Merge过程：Copy过来的数据会先放入内存缓冲区（基于JVM的heap size设置），如果内存缓冲区不足也会发生map task的spill（sort 默认,combine 可选），多个溢写文件时会发生map task的merge

　　　　下面总结下mapreduce的关键词：

　　　　　　存储相关的有：内存缓冲区，默认大小，溢写阀值

　　　　　　主要过程：溢写（spill），排序，合并（combine），归并（Merge）,Copy或Fetch

　　　　　　相关参数：内存缓冲区默认大小，JVM heap size，spill.percent

　　　　　　详细

　　　　关于排序方法：

　在Map阶段，k-v溢写时，采用的正是快排；而溢出文件的合并使用的则是归并；在Reduce阶段，通过shuffle从Map获取的文件进行合并的时候采用的也是归并；最后阶段则使用了堆排作最后的合并过程。

　　 1.2 spark现在的SortShuffleManager　　

SortShuffleManager运行原理
SortShuffleManager的运行机制主要分成两种，一种是普通运行机制，另一种是bypass运行机制。当shuffle read task的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时（默认为200），就会启用bypass机制。

普通运行机制

下图说明了普通的SortShuffleManager的原理。在该模式下，数据会先写入一个内存数据结构中，此时根据不同的shuffle算子，可能选用不同的数据结构。如果是reduceByKey这种聚合类的shuffle算子，那么会选用Map数据结构，一边通过Map进行聚合，一边写入内存；如果是join这种普通的shuffle算子，那么会选用Array数据结构，直接写入内存。接着，每写一条数据进入内存数据结构之后，就会判断一下，是否达到了某个临界阈值。如果达到临界阈值的话，那么就会尝试将内存数据结构中的数据溢写到磁盘，然后清空内存数据结构。

在溢写到磁盘文件之前，会先根据key对内存数据结构中已有的数据进行排序。排序过后，会分批将数据写入磁盘文件。默认的batch数量是10000条，也就是说，排序好的数据，会以每批1万条数据的形式分批写入磁盘文件。写入磁盘文件是通过Java的BufferedOutputStream实现的。BufferedOutputStream是Java的缓冲输出流，首先会将数据缓冲在内存中，当内存缓冲满溢之后再一次写入磁盘文件中，这样可以减少磁盘IO次数，提升性能。

一个task将所有数据写入内存数据结构的过程中，会发生多次磁盘溢写操作，也就会产生多个临时文件。最后会将之前所有的临时磁盘文件都进行合并，这就是merge过程，此时会将之前所有临时磁盘文件中的数据读取出来，然后依次写入最终的磁盘文件之中。此外，由于一个task就只对应一个磁盘文件，也就意味着该task为下游stage的task准备的数据都在这一个文件中，因此还会单独写一份索引文件，其中标识了下游各个task的数据在文件中的start offset与end offset。

SortShuffleManager由于有一个磁盘文件merge的过程，因此大大减少了文件数量。比如第一个stage有50个task，总共有10个Executor，每个Executor执行5个task，而第二个stage有100个task。由于每个task最终只有一个磁盘文件，因此此时每个Executor上只有5个磁盘文件，所有Executor只有50个磁盘文件。

bypass运行机制

下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下：

shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值（默认为200）。
不是排序类的shuffle算子（比如reduceByKey）。
此时task会为每个下游task都创建一个临时磁盘文件，并将数据按key进行hash然后根据key的hash值，将key写入对应的磁盘文件之中。当然，写入磁盘文件时也是先写入内存缓冲，缓冲写满之后再溢写到磁盘文件的。最后，同样会将所有临时磁盘文件都合并成一个磁盘文件，并创建一个单独的索引文件。

该过程的磁盘写机制其实跟未经优化的HashShuffleManager是一模一样的，因为都要创建数量惊人的磁盘文件，只是在最后会做一个磁盘文件的合并而已。因此少量的最终磁盘文件，也让该机制相对未经优化的HashShuffleManager来说，shuffle read的性能会更好。

而该机制与普通SortShuffleManager运行机制的不同在于：第一，磁盘写机制不同；第二，不会进行排序。也就是说，启用该机制的最大好处在于，shuffle write过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销。

2 Shuffle操作问题解决

　　 2.1 数据倾斜原理

　　在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，此时如果某个key对应的数据量特别大的话，就会发生数据倾斜

   2.2 数据倾斜问题发现与定位

　　通过Spark Web UI来查看当前运行的stage各个task分配的数据量，从而进一步确定是不是task分配的数据不均匀导致了数据倾斜。

   知道数据倾斜发生在哪一个stage之后，接着我们就需要根据stage划分原理，推算出来发生倾斜的那个stage对应代码中的哪一部分，这部分代码中肯定会有一个shuffle类算子。通过countByKey查看各个key的分布。

   2.3 数据倾斜解决方案

　　　　2.3.1 过滤少数导致倾斜的key

　　　　2.3.2 提高shuffle操作的并行度

　　　　2.3.3 局部聚合和全局聚合

　方案实现思路：这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据，执行reduceByKey等聚合操作，进行局部聚合，那么局部聚合结果，就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了，比如(hello, 4)。
代码：

2.3.4 将reduce join转为map join（（小表几百M或者一两G））　　　　　　　　　

　　　　方案实现思路：不使用join算子进行连接操作，而使用Broadcast变量与map类算子实现join操作，进而完全规避掉shuffle类的操作，彻底避免数据倾斜的发生和出现。将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量；接着对另外一个RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD的全量数据，与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用你需要的方式连接起来。　

　　代码：
　　
　　 2.3.5 采样倾斜key并分拆join操作（join的两表都很大，但仅一个RDD的几个key的数据量过大）　　

　　方案实现思路：

对包含少数几个数据量过大的key的那个RDD，通过sample算子采样出一份样本来，然后统计一下每个key的数量，计算出来数据量最大的是哪几个key。
然后将这几个key对应的数据从原来的RDD中拆分出来，形成一个单独的RDD，并给每个key都打上n以内的随机数作为前缀，而不会导致倾斜的大部分key形成另外一个RDD。
接着将需要join的另一个RDD，也过滤出来那几个倾斜key对应的数据并形成一个单独的RDD，将每条数据膨胀成n条数据，这n条数据都按顺序附加一个0~n的前缀，不会导致倾斜的大部分key也形成另外一个RDD。
再将附加了随机前缀的独立RDD与另一个膨胀n倍的独立RDD进行join，此时就可以将原先相同的key打散成n份，分散到多个task中去进行join了。
而另外两个普通的RDD就照常join即可。
代码

2.3.6 使用随机前缀和扩容RDD进行join(RDD中有大量的key导致数据倾斜)

　　方案实现思路：

　　将含有较多倾斜key的RDD扩大多倍，与相对分布均匀的RDD配一个随机数。
3 spark RDD中的shuffle算子

  3.1 去重：

　　　def distinct()

　　　def distinct(numPartitions: Int)

  3.2 聚合

　　　def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

　　　def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]

　　　def groupBy[K](f: T => K, p: Partitioner):RDD[(K, Iterable[V])]

　　　def groupByKey(partitioner: Partitioner):RDD[(K, Iterable[V])]

　　　def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner): RDD[(K, U)]

　　　def aggregateByKey[U: ClassTag](zeroValue: U, numPartitions: Int): RDD[(K, U)]

　　　def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]

　　　def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C, numPartitions: Int): RDD[(K, C)]

　　　def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C, partitioner: Partitioner, mapSideCombine: Boolean = true, serializer: Serializer = null): RDD[(K, C)]

  3.3 排序

　　　def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length): RDD[(K, V)]

　　 def sortBy[K](f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

  3.4 重分区

　　　def coalesce(numPartitions: Int, shuffle: Boolean = false, partitionCoalescer: Option[PartitionCoalescer] = Option.empty)

　　　def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null)

  3.5集合或者表操作

　　　def intersection(other: RDD[T]): RDD[T]

　　　def intersection(other: RDD[T], partitioner: Partitioner)(implicit ord: Ordering[T] = null): RDD[T]

　　 def intersection(other: RDD[T], numPartitions: Int): RDD[T]

　　　def subtract(other: RDD[T], numPartitions: Int): RDD[T]

　　　def subtract(other: RDD[T], p: Partitioner)(implicit ord: Ordering[T] = null): RDD[T]

　　　def subtractByKey[W: ClassTag](other: RDD[(K, W)]): RDD[(K, V)]

　　　def subtractByKey[W: ClassTag](other: RDD[(K, W)], numPartitions: Int): RDD[(K, V)]

　　　def subtractByKey[W: ClassTag](other: RDD[(K, W)], p: Partitioner): RDD[(K, V)]

　　　def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))]

　　　def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]

　　　def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))]

　　　def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]

4 spark shuffle参数调优　

spark.shuffle.file.buffer

默认值：32k
参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。
调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如64k），从而减少shuffle write过程中溢写磁盘文件的次数，也就可以减少磁盘IO次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。
spark.reducer.maxSizeInFlight

默认值：48m
参数说明：该参数用于设置shuffle read task的buffer缓冲大小，而这个buffer缓冲决定了每次能够拉取多少数据。
调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如96m），从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。
spark.shuffle.io.maxRetries

默认值：3
参数说明：shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表了可以重试的最大次数。如果在指定次数之内拉取还是没有成功，就可能会导致作业执行失败。
调优建议：对于那些包含了特别耗时的shuffle操作的作业，建议增加重试最大次数（比如60次），以避免由于JVM的full gc或者网络不稳定等因素导致的数据拉取失败。在实践中发现，对于针对超大数据量（数十亿~上百亿）的shuffle过程，调节该参数可以大幅度提升稳定性。
spark.shuffle.io.retryWait

默认值：5s
参数说明：具体解释同上，该参数代表了每次重试拉取数据的等待间隔，默认是5s。
调优建议：建议加大间隔时长（比如60s），以增加shuffle操作的稳定性。
spark.shuffle.memoryFraction

默认值：0.2
参数说明：该参数代表了Executor内存中，分配给shuffle read task进行聚合操作的内存比例，默认是20%。
调优建议：在资源参数调优中讲解过这个参数。如果内存充足，而且很少使用持久化操作，建议调高这个比例，给shuffle read的聚合操作更多内存，以避免由于内存不足导致聚合过程中频繁读写磁盘。在实践中发现，合理调节该参数可以将性能提升10%左右。
spark.shuffle.manager

默认值：sort
参数说明：该参数用于设置ShuffleManager的类型。Spark 1.5以后，有三个可选项：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默认选项，但是Spark 1.2以及之后的版本默认都是SortShuffleManager了。tungsten-sort与sort类似，但是使用了tungsten计划中的堆外内存管理机制，内存使用效率更高。
调优建议：由于SortShuffleManager默认会对数据进行排序，因此如果你的业务逻辑中需要该排序机制的话，则使用默认的SortShuffleManager就可以；而如果你的业务逻辑不需要对数据进行排序，那么建议参考后面的几个参数调优，通过bypass机制或优化的HashShuffleManager来避免排序操作，同时提供较好的磁盘读写性能。这里要注意的是，tungsten-sort要慎用，因为之前发现了一些相应的bug。
spark.shuffle.sort.bypassMergeThreshold

默认值：200
参数说明：当ShuffleManager为SortShuffleManager时，如果shuffle read task的数量小于这个阈值（默认是200），则shuffle write过程中不会进行排序操作，而是直接按照未经优化的HashShuffleManager的方式去写数据，但是最后会将每个task产生的所有临时磁盘文件都合并成一个文件，并会创建单独的索引文件。
调优建议：当你使用SortShuffleManager时，如果的确不需要排序操作，那么建议将这个参数调大一些，大于shuffle read task的数量。那么此时就会自动启用bypass机制，map-side就不会进行排序了，减少了排序的性能开销。但是这种方式下，依然会产生大量的磁盘文件，因此shuffle write性能有待提高。
spark.shuffle.consolidateFiles

默认值：false
参数说明：如果使用HashShuffleManager，该参数有效。如果设置为true，那么就会开启consolidate机制，会大幅度合并shuffle write的输出文件，对于shuffle read task数量特别多的情况下，这种方法可以极大地减少磁盘IO开销，提升性能。
调优建议：如果的确不需要SortShuffleManager的排序机制，那么除了使用bypass机制，还可以尝试将spark.shffle.manager参数手动指定为hash，使用HashShuffleManager，同时开启consolidate机制。在实践中尝试过，发现其性能比开启了bypass机制的SortShuffleManager要高出10%~30%。

链接：https://zhuanlan.zhihu.com/p/22024169
https://www.cnblogs.com/arachis/p/Spark_Shuffle.html

【CodeMirror】系列（一）官网文档学习（一）系统指南一棵开花的树，枝芽无限靠近你 CodeMirror 学习 CodeMirror 前端编辑器
这个系列来学习一下CodeMirror编辑器。这篇文章主要是记录一下官方文档的学习，先把官方文档大致浏览一遍。CodeMirror是一个Web端的代码编辑器，和前面学习的MonacoEditor一样。应该比MonacoEditor轻便一些，而且有Vue版本，对Vue用户友好。另外可以将代码显示成DOM元素，对于代码和DOM元素的转换这块比较简单，在MonacoEditor中就没有这么方便，Mona
pmap 命令详解：使用场景、参数解析与实际应用实例 weixin_42587823 linux云计算服务器 linux 运维
pmap命令详解：使用场景、参数解析与实际应用实例在Linux系统中，了解进程的内存使用情况对系统调优、故障排查和内存泄漏分析至关重要。pmap命令就是一个非常实用的工具，它可以显示指定进程的内存映射信息，帮助我们直观地了解内存分配情况、共享库的加载情况以及各个内存段的占用详情。本文将详细介绍pmap命令的使用场景、各参数的功能及实际应用实例，包括具体的输入命令和输出解释。一、pmap命令的基本概
6、片元着色器之gamma校正不收藏找不到我着色器着色器
1、什么是gamma校正？显示器显示片元着色器输出的颜色值是会进行如下换算：Colorscreen=Colorgamma(1)Color_{screen}=Color^{gamma}\quad(1)Colorscreen=Colorgamma(1)其中：Color是片元着色器输出的颜色值，Colorscreen是显示器实际显示的颜色值，gamma为显示器的gamma值，不同的显示器的gamma值可
往adobe illustrator中添加latex字体 npupengsir adobe illustrator ui
找到如下字体所在路径/path/to/miktex/type1\public\amsfonts\cm然后copy相应的字体文件cmmi10.pfb将相应的pfb文件复制到Adobeillustrator字体文件夹:/path/to/illustrator/SupportFiles/Required/Fonts然后重启即可。
区块链和大模型的结合 hanyongyi 1531 区块链
大模型@区块链（4个应用）_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1mu4y1W7bY/?spm_id_from=333.337.search-card.all.click&vd_source=8d683f22b43d55b6630d3bec03cfdb6d通过使用自然语言询问有关Aptos区块链生态系统的任何问题，使用户能够无缝地进入web3
Adobe Firefly 技术浅析（三）：GANs 的改进爱研究的小牛 AIGC——图像 AIGC—生成对抗网络 AIGC 机器学习深度学习
生成式对抗网络（GANs）在图像生成领域取得了显著的进展，但原始的GANs在训练稳定性、生成质量以及多样性方面存在一些挑战。AdobeFirefly在其图像生成技术中采用了多种改进的GANs方法，以提高生成图像的质量和多样性。1.条件生成式对抗网络（cGANs）1.1基本原理条件生成式对抗网络（cGANs）通过引入额外的条件信息（如类别标签、文本描述等），使得生成器能够根据这些条件生成特定类型的图
第5篇：从入门到精通：深入详解Python模块与包管理的应用猿享天开 python 开发语言
第5篇：模块与包管理目录模块概述什么是模块导入模块标准库简介创建与使用自定义模块创建模块导入自定义模块模块搜索路径包（Packages）什么是包创建包导入包中的模块常用内置模块介绍math模块datetime模块os模块sys模块模块与包的最佳实践命名规范组织结构避免循环导入示例代码常见问题及解决方法总结模块概述什么是模块模块是Python中组织代码的一种方式。一个模块就是一个包含Python定义
Java对接DeepSeek全攻略：从0到1小白无忧古龙飞扬 java 开发语言 ai
本文将带你从零开始，详细讲解如何在Java中对接DeepSeekAPI，适合小白用户。我们将从环境搭建、API调用、数据处理等方面逐步展开，并提供完整的代码示例。目录准备工作获取DeepSeekAPI密钥创建Java项目添加依赖使用Maven引入HTTP和JSON库编写代码创建请求和响应类发送HTTP请求处理API响应完整代码示例运行与测试常见问题与解决方案1.准备工作1.1获取DeepSeekA
Windows安装nvm【超详细图解】古龙飞扬 windows
在Windows系统上安装nvm（NodeVersionManager，即Node.js版本管理器）的详细步骤如下：一、下载nvm安装包方式一：官网下载地址：https://nvm.uihtm.com/注意此种方式可能会打不开，看运气，如果打不开还有第二种方式。方式二：GitHub下载1.访问nvm的GitHub页面：前往nvm的GitHub页面下载适用于Windows的安装包。2.选择安装包：通
豆包AI的详细介绍古龙飞扬人工智能
一、平台访问与登录网页版：在浏览器中输入豆包官网地址，登录账号后，点击首页导航栏中的“AI作画”或相关图片生成入口，即可进入图片生成页面。APP版：在安卓应用市场或iOS的AppStore中搜索“豆包”，下载安装后打开并登录，在首页或功能区找到“AI作画”等类似入口，点击进入图片生成界面。二、主要功能及示例智能对话功能描述：豆包AI能够理解和解析自然语言，用户可以通过语音或者文字的方式输入问题，它
Spring Security 6.4登录全览：机制、特性、实战与优化古龙飞扬 java 前端数据库
一、登录机制SpringSecurity的登录机制是其安全框架的核心部分，它提供了一种灵活且强大的方式来保护应用程序的资源。在SpringSecurity6.4中，登录机制主要包括以下几个方面：认证流程：用户通过登录表单提交用户名和密码。SpringSecurity的UsernamePasswordAuthenticationFilter拦截该请求，并从中提取用户名和密码。创建一个Username
js隐藏td loveking6 js隐藏
通过if条件判断td的显示情况window.οnlοad=function(){//获取td的唯一标识，经过判断使其不显示（不占位隐藏）document.getElementById("admin2").style.display="none";$("#admin2").hide();$("#admin2").attr("style","display:none");//获取td的唯一标识，使其显
鸿蒙开发：权限管理之权限声明
前言本文基于Api13。为什么要有权限管理？最大原因是提高用户对隐私和数据安全的控制权，防止恶意软件滥用权限，试想一下，如果没有权限管理，肯定会有一些恶意软件利用这些默认授权权限，获取用户的敏感信息，对用户隐私构成威胁‌，这是其一，其二就是用户的体验，因为用户无法根据自己的需求授权权限，可能导致不必要的权限被授予，于公于私，于情于理，权限管理都是必须且坚决要执行的。鸿蒙生态中，可以说，权限管理从始
如何选择测试管理工具测试工具
选择测试管理工具的关键在于需求匹配、功能全面、易用高效。其中，需求匹配强调企业应明确自身测试流程和目标，选择工具时要确保其功能与实际需求高度契合；功能全面要求测试管理工具具备需求管理、缺陷跟踪、自动化测试集成、报告生成等多项核心功能；易用高效则要求工具操作简单、界面友好，并能与其他系统无缝对接，从而提升整体测试效率和团队协同能力。在软件开发和互联网项目中，测试管理工具扮演着关键角色。随着项目复杂度
用Python打造智能姓名生成器：从数据分离到AI赋能灏瀚星空 python 人工智能开发语言经验分享笔记
用Python打造智能姓名生成器：从数据分离到AI赋能目录项目概述与功能清单环境准备与工具选择项目架构设计核心代码实现AI古文解析模块交互界面开发使用示例与效果展示扩展思路与优化建议1.项目概述与功能清单核心功能数据管理CSV文件存储姓氏/名字库支持用户导入/导出数据交互界面姓名生成与实时预览已选名单管理（增删改查）排除词输入框（黑名单过滤）AI赋能从古文中提取字词及注解自动生成姓名寓意解析扩展功
HarmonyOS NEXT 开发环境搭建与金融理财类APP开发指南 harmonyos
引言随着华为鸿蒙操作系统HarmonyOSNEXT的推出，越来越多的开发者开始关注并投入到这一新生态系统的开发中。本文将详细介绍如何在HarmonyOSNEXT上搭建开发环境，并通过一个金融理财类财务记账APP的示例，展示如何进行应用程序的技术开发。开发环境搭建首先，开发者需要准备一台运行Windows或macOS的计算机，并确保安装了最新版本的JavaDevelopmentKit(JDK)。接下
IMX6ULL学习整理篇——UBoot的一些基础知识（1.编译流程） charlie114514191 从0开始的学习ARMv7a IMX6ULL芯片学习 UBoot 嵌入式软件编译
前言笔者整理了最近刷IMX6ULL的一些学习笔记，这里打算稍微整理一下东西发上来作为作为一个补充正文大部分而言，当我们拿到源码的时候，一般都是——先使用make来生成一份针对我们目标开发板的配置。举个例子，正点原子针对他们的开发板（EMMC作为类似于我们电脑的硬盘，DDR类似我们电脑的内存），使用的就是他们自己配置的mx6ull_14x14_ddr512_emmc_defconfig文件。也就是说
Python常用10个模块详解：提升开发效率的利器 Python_trys python microsoft 数据库开发语言 Python入门 Python基础 Python教程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】Python作为一门功能强大且易于学习的编程语言，拥有丰富的标准库和第三方模块，能够帮助开发者快速实现各种功能。本文将详细介绍Python中常用的10个模块，帮助你在开发中更高效地完成任务。1.os模块：操作系统交互os模块提供了与操作系统交互的功能，包括文件操作、目录管理、环境变量等。常用功能：文件与目录操作：importos#获取当前
使用Node.js对接StockTV全球金融市场数据API 数据分析爬虫
使用Node.js对接StockTV全球金融市场数据API摘要：本文详细介绍了如何通过Node.js客户端库快速接入StockTV全球金融市场数据API，涵盖股票、外汇、期货和加密货币的实时行情获取与历史数据查询。通过本文，开发者可掌握RESTAPI调用、WebSocket实时订阅等核心功能。一、项目概述StockTVAPINode.js客户端是一个轻量级SDK，提供对全球四大金融市场的标准化访问
Linux文件描述符 linuxvim
Linux文件描述符Linux系统中，把一切都看做是文件，当进程打开现有文件或创建新文件时，内核向进程返回一个文件描述符（filedescriptor，fd）[1,4]，在windows下面，这玩意儿叫filehandle，句柄。文件描述符（filedescriptor）就是内核为了高效管理这些已经被打开的文件所创建的索引，其是一个非负整数（通常是小整数），用于指代被打开的文件，所有执行I/O操作
CSS文本样式 css前端
文本text属性写在前面：上午我在做计组实验就没有去写博客，现在赶紧补上，还有五门期末考试要复习，加油。注意区分text和font，text是是对文本的整体结构排版的调整，而font的对文字本身的一个效果。属性说明text-indent首行缩进text-align水平对齐text-decoration文本修饰text-transform大小写转换line-height行高letter-spacin
云端书签：在iCloud中存储Safari书签的终极指南 2401_85702623 icloud safari 前端
云端书签：在iCloud中存储Safari书签的终极指南在数字化时代，互联网成为了我们获取信息的海洋，而书签则是我们在这海洋中导航的灯塔。Safari浏览器的书签功能帮助我们保存喜爱的网站，但当书签数量日益增多，如何在不同设备间同步它们成了一个挑战。iCloud作为苹果公司提供的云服务，为我们提供了一个完美的解决方案。本文将详细介绍如何在iCloud中存储和同步Safari书签，确保你的灯塔始终照
掌握Conda的艺术：精通channels管理 2401_85702623 conda
掌握Conda的艺术：精通channels管理Conda作为Python和其他科学计算包的包管理器，其强大的包管理能力很大程度上依赖于channels。channels是Conda用来查找和安装包的源。默认情况下，Conda会从Anaconda的官方源安装包，但有时我们需要添加额外的channels来获取更多的包或者特定版本的包。本文将详细介绍如何在Conda中使用condaconfig--add
AcWing-差分矩阵门左有棵树 AcWing 算法 c++
题目：差分矩阵（二维差分）输入一个n行m列的整数矩阵，再输入q个操作，每个操作包含五个整数x1,y1,x2,y2,c，其中(x1,y1)和(x2,y2)表示一个子矩阵的左上角坐标和右下角坐标。每个操作都要将选中的子矩阵中的每个元素的值加上c。请你将进行完所有操作后的矩阵输出。输入格式第一行包含三个整数n,m,q。接下来n行，每行包含m个整数，表示整数矩阵。接下来q行，每行包含五个整数x1,y1,x
区间合并问题六七_Shmily 数据结构与算法分析算法区间合并
在算法中遇到区间合并问题时，可以从以下角度进行分析和解决：一、核心思路：排序与贪心策略排序预处理将区间按照起始端点升序排序，确保后续处理时相邻区间可能重叠。这是解决区间合并问题的关键预处理步骤[。排序后，重叠或相邻的区间会连续排列，便于合并（例如，区间[1,3]和[2,6]会相邻）。贪心合并逻辑遍历排序后的区间，逐个判断是否与结果集中的最后一个区间重叠：重叠条件：当前区间的起始点≤结果集最后一个区
3月16日星期日早报简报微语报早读微语早读生活
3月16日星期日，农历二月十七，早报#微语早读。1、多地探索将DeepSeek嵌入纪检监察工作，有的已甄别出可疑数据；2、再次超越！《哪吒2》票房进入全球票房榜前5名；3、北京修订小客车数量调控细则：增加亲属间车辆转让范围；4、市场监管总局：全面加大包括直播带货在内的网售产品抽查力度；5、西安交通大学通报“副教授权威期刊论文全文抄袭”：解除聘用关系；6、涉多个知名品牌！卫生巾、纸尿裤残次料，竟被翻
Python模块详解：定义、操作方法与高级特性编程咕咕gu- python 数据库开发语言学习路线数据分析
如果你正在学习Python，那么你需要的话可以点击这里Python重磅福利：入门&进阶全套学习资料、电子书、软件包、项目源码等等免费分享！在Python中，模块是一个包含Python定义和语句的文件。模块可以定义函数、类和变量。模块也可以包含可执行的代码。你可以通过import语句将一个模块中的函数、类等导入到当前的程序中，以便能够重复使用代码，提高代码的可维护性。模块定义一个Python文件（.
7、基于osg引擎实现读取vtk数据通过着色器实现简单体渲染(1) 不收藏找不到我着色器着色器
1、顶点着色器代码#version110/*GLSL1.10需要显式声明精度(OpenGLES要求)*/#ifdefGL_ESprecisionhighpfloat;#endif//体数据采样步长uniformfloatxStepSize,yStepSize,zStepSize;//体数据纹理和颜色纹理uniformsampler3DbaseTexture;uniformsampler1DtfTe
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构 weixin_42587823 linux云计算 nginx 负载均衡架构
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构一、负载均衡的核心价值当单台服务器无法承载高并发流量时，负载均衡通过将请求分发到多台服务器，实现：横向扩展：突破单机性能瓶颈故障隔离：自动剔除异常节点动态调度：根据策略优化资源利用率二、Nginx原生负载均衡策略1.轮询（RoundRobin）配置示例：upstreambackend{server192.168.1.10:8080;s
2021-05-21 python中curses基本用法 zerfew python curses cli
有时候linux系统没有界面，可能需要在terminal终端完成程序的交互和状态显示，C语言的ncurses支持命令行界面程序开发，curses是基于ncurses实现的python终端界面库。本文实现一个简单的demo小程序，方便初学者学习和使用。首先上demo主程序#-*-coding:UTF-8-*-importcursesimportlocalelocale.setlocale(local
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

Spark Shuffle原理和Shuffle的问题解决和优化

你可能感兴趣的:(Spark Shuffle原理和Shuffle的问题解决和优化)