u010022051

Spark性能优化指南——基础篇

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18238

前言

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。

然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。

Spark的性能调优实际上是由很多部分组成的，不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况，对Spark作业进行综合性的分析，然后进行多个方面的调节和优化，才能获得最佳性能。

笔者根据之前的Spark作业开发经验以及实践积累，总结出了一套Spark作业的性能优化方案。整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；数据倾斜调优，主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案；shuffle调优，面向的是对Spark的原理有较深层次掌握和研究的同学，主要讲解了如何对Spark作业的shuffle运行过程以及细节进行调优。

本文作为Spark性能优化指南的基础篇，主要讲解开发调优以及资源调优。

开发调优调优概述

Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。

原则一：避免创建重复的RDD

通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDD lineage，也就是“RDD的血缘关系链”。

我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据。

一些Spark初学者在刚开始开发Spark作业时，或者是有经验的工程师在开发RDD lineage极其冗长的Spark作业时，可能会忘了自己之前对于某一份数据已经创建过一个RDD了，从而导致对于同一份数据，创建了多个RDD。这就意味着，我们的Spark作业会进行多次重复计算来创建多个代表相同数据的RDD，进而增加了作业的性能开销。

一个简单的例子

[Python] 纯文本查看复制代码

 
     ? 
    
          / 
          / 
           需要对名为“hello.txt”的HDFS文件进行一次 
          map 
          操作，再进行一次 
          reduce 
          操作。也就是说，需要对一份数据执行两次算子操作。 
         
          / 
          / 
           错误的做法：对于同一份数据执行多次算子操作时，创建多个RDD。 
         
          / 
          / 
           这里执行了两次textFile方法，针对同一个HDFS文件，创建了两个RDD出来，然后分别对每个RDD都执行了一个算子操作。 
         
          / 
          / 
           这种情况下，Spark需要从HDFS上两次加载hello.txt文件的内容，并创建两个单独的RDD；第二次加载HDFS文件以及创建RDD的性能开销，很明显是白白浪费掉的。 
         
          val rdd1  
          = 
           sc.textFile( 
          "hdfs://192.168.0.1:9000/hello.txt" 
          ) 
         
          rdd1. 
          map 
          (...) 
         
          val rdd2  
          = 
           sc.textFile( 
          "hdfs://192.168.0.1:9000/hello.txt" 
          ) 
         
          rdd2. 
          reduce 
          (...) 
         
          / 
          / 
           正确的用法：对于一份数据执行多次算子操作时，只使用一个RDD。 
         
          / 
          / 
           这种写法很明显比上一种写法要好多了，因为我们对于同一份数据只创建了一个RDD，然后对这一个RDD执行了多次算子操作。 
         
          / 
          / 
           但是要注意到这里为止优化还没有结束，由于rdd1被执行了两次算子操作，第二次执行 
          reduce 
          操作的时候，还会再次从源头处重新计算一次rdd1的数据，因此还是会有重复计算的性能开销。 
         
          / 
          / 
           要彻底解决这个问题，必须结合“原则三：对多次使用的RDD进行持久化”，才能保证一个RDD被多次使用时只被计算一次。 
         
          val rdd1  
          = 
           sc.textFile( 
          "hdfs://192.168.0.1:9000/hello.txt" 
          ) 
         
          rdd1. 
          map 
          (...) 
         
          rdd1. 
          reduce 
          (...)

原则二：尽可能复用同一个RDD

除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外，在对不同的数据执行算子操作时还要尽可能地复用一个RDD。比如说，有一个RDD的数据格式是key-value类型的，另一个是单value类型的，这两个RDD的value数据是完全一样的。那么此时我们可以只使用key-value类型的那个RDD，因为其中已经包含了另一个的数据。对于类似这种多个RDD的数据有重叠或者包含的情况，我们应该尽量复用一个RDD，这样可以尽可能地减少RDD的数量，从而尽可能减少算子执行的次数。

一个简单的例子

[Python] 纯文本查看复制代码

 
     ? 
    
          / 
          / 
           错误的做法。 
         
          / 
          / 
           有一个< 
          Long 
          , String>格式的RDD，即rdd1。 
         
          / 
          / 
           接着由于业务需要，对rdd1执行了一个 
          map 
          操作，创建了一个rdd2，而rdd2中的数据仅仅是rdd1中的value值而已，也就是说，rdd2是rdd1的子集。 
         
          JavaPairRDD< 
          Long 
          , String> rdd1  
          = 
           ... 
         
          JavaRDD<String> rdd2  
          = 
           rdd1. 
          map 
          (...) 
         
          / 
          / 
           分别对rdd1和rdd2执行了不同的算子操作。 
         
          rdd1.reduceByKey(...) 
         
          rdd2. 
          map 
          (...) 
         
          / 
          / 
           正确的做法。 
         
          / 
          / 
           上面这个case中，其实rdd1和rdd2的区别无非就是数据格式不同而已，rdd2的数据完全就是rdd1的子集而已，却创建了两个rdd，并对两个rdd都执行了一次算子操作。 
         
          / 
          / 
           此时会因为对rdd1执行 
          map 
          算子来创建rdd2，而多执行一次算子操作，进而增加性能开销。 
         
          / 
          / 
           其实在这种情况下完全可以复用同一个RDD。 
         
          / 
          / 
           我们可以使用rdd1，既做reduceByKey操作，也做 
          map 
          操作。 
         
          / 
          / 
           在进行第二个 
          map 
          操作时，只使用每个数据的 
          tuple 
          ._2，也就是rdd1中的value值，即可。 
         
          JavaPairRDD< 
          Long 
          , String> rdd1  
          = 
           ... 
         
          rdd1.reduceByKey(...) 
         
          rdd1. 
          map 
          ( 
          tuple 
          ._2...) 
         
          / 
          / 
           第二种方式相较于第一种方式而言，很明显减少了一次rdd2的计算开销。 
         
          / 
          / 
           但是到这里为止，优化还没有结束，对rdd1我们还是执行了两次算子操作，rdd1实际上还是会被计算两次。 
         
          / 
          / 
           因此还需要配合“原则三：对多次使用的RDD进行持久化”进行使用，才能保证一个RDD被多次使用时只被计算一次。

原则三：对多次使用的RDD进行持久化

当你在Spark代码中多次对一个RDD做了算子操作后，恭喜，你已经实现Spark作业第一步的优化了，也就是尽可能复用RDD。此时就该在这个基础之上，进行第二步优化了，也就是要保证对一个RDD执行多次算子操作时，这个RDD本身仅仅被计算一次。

Spark中对于一个RDD执行多次算子的默认原理是这样的：每次你对一个RDD执行一个算子操作时，都会重新从源头处计算一遍，计算出那个RDD来，然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。

因此对于这种情况，我们的建议是：对多次使用的RDD进行持久化。此时Spark就会根据你的持久化策略，将RDD中的数据保存到内存或者磁盘中。以后每次对这个RDD进行算子操作时，都会直接从内存或磁盘中提取持久化的RDD数据，然后执行算子，而不会从源头处重新计算一遍这个RDD，再执行算子操作。

对多次使用的RDD进行持久化的代码示例

[Python] 纯文本查看复制代码

 
     ? 
    
          / 
          / 
           如果要对一个RDD进行持久化，只要对这个RDD调用cache()和persist()即可。 
         
          / 
          / 
           正确的做法。 
         
          / 
          / 
           cache()方法表示：使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。 
         
          / 
          / 
           此时再对rdd1执行两次算子操作时，只有在第一次执行 
          map 
          算子时，才会将这个rdd1从源头处计算一次。 
         
          / 
          / 
           第二次执行 
          reduce 
          算子时，就会直接从内存中提取数据进行计算，不会重复计算一个rdd。 
         
          val rdd1  
          = 
           sc.textFile( 
          "hdfs://192.168.0.1:9000/hello.txt" 
          ).cache() 
         
          rdd1. 
          map 
          (...) 
         
          rdd1. 
          reduce 
          (...) 
         
          / 
          / 
           persist()方法表示：手动选择持久化级别，并使用指定的方式进行持久化。 
         
          / 
          / 
           比如说，StorageLevel.MEMORY_AND_DISK_SER表示，内存充足时优先持久化到内存中，内存不充足时持久化到磁盘文件中。 
         
          / 
          / 
           而且其中的_SER后缀表示，使用序列化的方式来保存RDD数据，此时RDD中的每个partition都会序列化成一个大的字节数组，然后再持久化到内存或磁盘中。 
         
          / 
          / 
           序列化的方式可以减少持久化的数据对内存 
          / 
          磁盘的占用量，进而避免内存被持久化数据占用过多，从而发生频繁GC。 
         
          val rdd1  
          = 
           sc.textFile( 
          "hdfs://192.168.0.1:9000/hello.txt" 
          ).persist(StorageLevel.MEMORY_AND_DISK_SER) 
         
          rdd1. 
          map 
          (...) 
         
          rdd1. 
          reduce 
          (...)

对于persist()方法而言，我们可以根据不同的业务场景选择不同的持久化级别。

Spark的持久化级别

持久化级别	含义解释
MEMORY_ONLY	使用未序列化的Java对象格式，将数据保存在内存中。如果内存不够存放所有的数据，则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时，那些没有被持久化的数据，需要从源头处重新计算一遍。这是默认的持久化策略，使用cache()方法时，实际就是使用的这种持久化策略。
MEMORY_AND_DISK	使用未序列化的Java对象格式，优先尝试将数据保存在内存中。如果内存不够存放所有的数据，会将数据写入磁盘文件中，下次对这个RDD执行算子时，持久化在磁盘文件中的数据会被读取出来使用。
MEMORY_ONLY_SER	基本含义同MEMORY_ONLY。唯一的区别是，会将RDD中的数据进行序列化，RDD的每个partition会被序列化成一个字节数组。这种方式更加节省内存，从而可以避免持久化的数据占用过多内存导致频繁GC。
MEMORY_AND_DISK_SER	基本含义同MEMORY_AND_DISK。唯一的区别是，会将RDD中的数据进行序列化，RDD的每个partition会被序列化成一个字节数组。这种方式更加节省内存，从而可以避免持久化的数据占用过多内存导致频繁GC。
DISK_ONLY	使用未序列化的Java对象格式，将数据全部写入磁盘文件中。
MEMORY_ONLY_2, MEMORY_AND_DISK_2, 等等.	对于上述任意一种持久化策略，如果加上后缀_2，代表的是将每个持久化的数据，都复制一份副本，并将副本保存到其他节点上。这种基于副本的持久化机制主要用于进行容错。假如某个节点挂掉，节点的内存或磁盘中的持久化数据丢失了，那么后续对RDD计算时还可以使用该数据在其他节点上的副本。如果没有副本的话，就只能将这些数据从源头处重新计算一遍了。

如何选择一种最合适的持久化策略

默认情况下，性能最高的当然是MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作，就避免了这部分的性能开销；对这个RDD的后续算子操作，都是基于纯内存中的数据的操作，不需要从磁盘文件中读取数据，性能也很高；而且不需要复制一份数据副本，并远程传送到其他节点上。但是这里必须要注意的是，在实际的生产环境中，恐怕能够直接用这种策略的场景还是有限的，如果RDD中数据比较多时（比如几十亿），直接用这种持久化级别，会导致JVM的OOM内存溢出异常。
如果使用MEMORY_ONLY级别时发生了内存溢出，那么建议尝试使用MEMORY_ONLY_SER级别。该级别会将RDD数据序列化后再保存在内存中，此时每个partition仅仅是一个字节数组而已，大大减少了对象数量，并降低了内存占用。这种级别比MEMORY_ONLY多出来的性能开销，主要就是序列化与反序列化的开销。但是后续算子可以基于纯内存进行操作，因此性能总体还是比较高的。此外，可能发生的问题同上，如果RDD中的数据量过多的话，还是可能会导致OOM内存溢出的异常。
如果纯内存的级别都无法使用，那么建议使用MEMORY_AND_DISK_SER策略，而不是MEMORY_AND_DISK策略。因为既然到了这一步，就说明RDD的数据量很大，内存无法完全放下。序列化后的数据比较少，可以节省内存和磁盘的空间开销。同时该策略会优先尽量尝试将数据缓存在内存中，内存缓存不下才会写入磁盘。
通常不建议使用DISK_ONLY和后缀为_2的级别：因为完全基于磁盘文件进行数据的读写，会导致性能急剧降低，有时还不如重新计算一次所有RDD。后缀为_2的级别，必须将所有数据都复制一份副本，并发送到其他节点上，数据复制以及网络传输会导致较大的性能开销，除非是要求作业的高可用性，否则不建议使用。

原则四：尽量避免使用shuffle类算子

如果有可能的话，要尽量避免使用shuffle类算子。因为Spark作业运行过程中，最消耗性能的地方就是shuffle过程。shuffle过程，简单来说，就是将分布在集群中多个节点上的同一个key，拉取到同一个节点上，进行聚合或join等操作。比如reduceByKey、join等算子，都会触发shuffle操作。

shuffle过程中，各个节点上的相同key都会先写入本地磁盘文件中，然后其他节点需要通过网络传输拉取各个节点上的磁盘文件中的相同key。而且相同key都拉取到同一个节点进行聚合操作时，还有可能会因为一个节点上处理的key过多，导致内存不够存放，进而溢写到磁盘文件中。因此在shuffle过程中，可能会发生大量的磁盘文件读写的IO操作，以及数据的网络传输操作。磁盘IO和网络数据传输也是shuffle性能较差的主要原因。

因此在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子，尽量使用map类的非shuffle算子。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以大大减少性能开销。

Broadcast与map进行join代码示例

[Python] 纯文本查看复制代码

 
     ? 
    
          / 
          / 
           传统的join操作会导致shuffle操作。 
         
          / 
          / 
           因为两个RDD中，相同的key都需要通过网络拉取到一个节点上，由一个task进行join操作。 
         
          val rdd3  
          = 
           rdd1.join(rdd2) 
         
          / 
          / 
           Broadcast 
          + 
          map 
          的join操作，不会导致shuffle操作。 
         
          / 
          / 
           使用Broadcast将一个数据量较小的RDD作为广播变量。 
         
          val rdd2Data  
          = 
           rdd2.collect() 
         
          val rdd2DataBroadcast  
          = 
           sc.broadcast(rdd2Data) 
         
          / 
          / 
           在rdd1. 
          map 
          算子中，可以从rdd2DataBroadcast中，获取rdd2的所有数据。 
         
          / 
          / 
           然后进行遍历，如果发现rdd2中某条数据的key与rdd1的当前数据的key是相同的，那么就判定可以进行join。 
         
          / 
          / 
           此时就可以根据自己需要的方式，将rdd1当前数据与rdd2中可以连接的数据，拼接在一起（String或 
          Tuple 
          ）。 
         
          val rdd3  
          = 
           rdd1. 
          map 
          (rdd2DataBroadcast...) 
         
          / 
          / 
           注意，以上操作，建议仅仅在rdd2的数据量比较少（比如几百M，或者一两G）的情况下使用。 
         
          / 
          / 
           因为每个Executor的内存中，都会驻留一份rdd2的全量数据。

原则五：使用map-side预聚合的shuffle操作

如果因为业务需要，一定要使用shuffle操作，无法用map类的算子来替代，那么尽量使用可以map-side预聚合的算子。

所谓的map-side预聚合，说的是在每个节点本地对相同的key进行一次聚合操作，类似于MapReduce中的本地combiner。map-side预聚合之后，每个节点本地就只会有一条相同的key，因为多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时，就会大大减少需要拉取的数据数量，从而也就减少了磁盘IO以及网络传输开销。

通常来说，在可能的情况下，建议使用reduceByKey或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说比较差。

比如如下两幅图，就是典型的例子，分别基于reduceByKey和groupByKey进行单词计数。其中第一张图是groupByKey的原理图，可以看到，没有进行任何本地聚合时，所有数据都会在集群节点之间传输；第二张图是reduceByKey的原理图，可以看到，每个节点本地的相同key数据，都进行了预聚合，然后才传输到其他节点上进行全局聚合。

原则六：使用高性能的算子

除了shuffle相关的算子有优化原则之外，其他的算子也都有着相应的优化原则。

使用reduceByKey/aggregateByKey替代groupByKey

详情见“原则五：使用map-side预聚合的shuffle操作”。

使用mapPartitions替代普通map

mapPartitions类的算子，一次函数调用会处理一个partition所有的数据，而不是一次函数调用处理一条，性能相对来说会高一些。但是有的时候，使用mapPartitions会出现OOM（内存溢出）的问题。因为单次函数调用就要处理掉一个partition所有的数据，如果内存不够，垃圾回收时是无法回收掉太多对象的，很可能出现OOM异常。所以使用这类操作时要慎重！

使用foreachPartitions替代foreach

原理类似于“使用mapPartitions替代map”，也是一次函数调用处理一个partition的所有数据，而不是一次函数调用处理一条数据。在实践中发现，foreachPartitions类的算子，对性能的提升还是很有帮助的。比如在foreach函数中，将RDD中所有数据写MySQL，那么如果是普通的foreach算子，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。实践中发现，对于1万条左右的数据量写MySQL，性能可以提升30%以上。

使用filter之后进行coalesce操作

通常对一个RDD执行filter算子过滤掉RDD中较多数据后（比如30%以上的数据），建议使用coalesce算子，手动减少RDD的partition数量，将RDD中的数据压缩到更少的partition中去。因为filter之后，RDD的每个partition中都会有很多数据被过滤掉，此时如果照常进行后续的计算，其实每个task处理的partition中的数据量并不是很多，有一点资源浪费，而且此时处理的task越多，可能速度反而越慢。因此用coalesce减少partition数量，将RDD中的数据压缩到更少的partition之后，只要使用更少的task即可处理完所有的partition。在某些场景下，对于性能的提升会有一定的帮助。

使用repartitionAndSortWithinPartitions替代repartition与sort类操作

repartitionAndSortWithinPartitions是Spark官网推荐的一个算子，官方建议，如果需要在repartition重分区之后，还要进行排序，建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行重分区的shuffle操作，一边进行排序。shuffle与sort两个操作同时进行，比先shuffle再sort来说，性能可能是要高的。

原则七：广播大变量

有时在开发过程中，会遇到需要在算子函数中使用外部变量的场景（尤其是大变量，比如100M以上的大集合），那么此时就应该使用Spark的广播（Broadcast）功能来提升性能。

在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC，都会极大地影响性能。

因此对于上述情况，如果使用的外部变量比较大，建议使用Spark的广播功能，对该变量进行广播。广播后的变量，会保证每个Executor的内存中，只驻留一份变量副本，而Executor中的task执行时共享该Executor中的那份变量副本。这样的话，可以大大减少变量副本的数量，从而减少网络传输的性能开销，并减少对Executor内存的占用开销，降低GC的频率。

广播大变量的代码示例

[Python] 纯文本查看复制代码

 
     ? 
    
          / 
          / 
           以下代码在算子函数中，使用了外部的变量。 
         
          / 
          / 
           此时没有做任何特殊操作，每个task都会有一份list1的副本。 
         
          val list1  
          = 
           ... 
         
          rdd1. 
          map 
          (list1...) 
         
          / 
          / 
           以下代码将list1封装成了Broadcast类型的广播变量。 
         
          / 
          / 
           在算子函数中，使用广播变量时，首先会判断当前task所在Executor内存中，是否有变量副本。 
         
          / 
          / 
           如果有则直接使用；如果没有则从Driver或者其他Executor节点上远程拉取一份放到本地Executor内存中。 
         
          / 
          / 
           每个Executor内存中，就只会驻留一份广播变量副本。 
         
          val list1  
          = 
           ... 
         
          val list1Broadcast  
          = 
           sc.broadcast(list1) 
         
          rdd1. 
          map 
          (list1Broadcast...)

原则八：使用Kryo优化序列化性能

在Spark中，主要有三个地方涉及到了序列化：

在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输（见“原则七：广播大变量”中的讲解）。
将自定义的类型作为RDD的泛型类型时（比如JavaRDD，Student是自定义类型），所有自定义类型对象，都会进行序列化。因此这种情况下，也要求自定义的类必须实现Serializable接口。
使用可序列化的持久化策略时（比如MEMORY_ONLY_SER），Spark会将RDD中的每个partition都序列化成一个大的字节数组。

对于这三种出现序列化的地方，我们都可以通过使用Kryo序列化类库，来优化序列化和反序列化的性能。Spark默认使用的是Java的序列化机制，也就是ObjectOutputStream/ObjectInputStream API来进行序列化和反序列化。但是Spark同时支持使用Kryo序列化库，Kryo序列化类库的性能比Java序列化类库的性能要高很多。官方介绍，Kryo序列化机制比Java序列化机制，性能高10倍左右。Spark之所以默认没有使用Kryo作为序列化类库，是因为Kryo要求最好要注册所有需要进行序列化的自定义类型，因此对于开发者来说，这种方式比较麻烦。

以下是使用Kryo的代码示例，我们只要设置序列化类，再注册要序列化的自定义类型即可（比如算子函数中使用到的外部变量类型、作为RDD泛型类型的自定义类型等）：

[Python] 纯文本查看复制代码

 
      ? 
     
           / 
           / 
            创建SparkConf对象。 
          
           val conf  
           = 
            new SparkConf().setMaster(...).setAppName(...) 
          
           / 
           / 
            设置序列化器为KryoSerializer。 
          
           conf. 
           set 
           ( 
           "spark.serializer" 
           ,  
           "org.apache.spark.serializer.KryoSerializer" 
           ) 
          
           / 
           / 
            注册要序列化的自定义类型。 
          
           conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))

原则九：优化数据结构

Java中，有三种类型比较耗费内存：

对象，每个Java对象都有对象头、引用等额外的信息，因此比较占用内存空间。
字符串，每个字符串内部都有一个字符数组以及长度等额外信息。
集合类型，比如HashMap、LinkedList等，因为集合类型内部通常会使用一些内部类来封装集合元素，比如Map.Entry。

因此Spark官方建议，在Spark编码实现中，特别是对于算子函数中的代码，尽量不要使用上述三种数据结构，尽量使用字符串替代对象，使用原始类型（比如Int、Long）替代字符串，使用数组替代集合类型，这样尽可能地减少内存占用，从而降低GC频率，提升性能。

但是在笔者的编码实践中发现，要做到该原则其实并不容易。因为我们同时要考虑到代码的可维护性，如果一个代码中，完全没有任何对象抽象，全部是字符串拼接的方式，那么对于后续的代码维护和修改，无疑是一场巨大的灾难。同理，如果所有操作都基于数组实现，而不使用HashMap、LinkedList等集合类型，那么对于我们的编码难度以及代码可维护性，也是一个极大的挑战。因此笔者建议，在可能以及合适的情况下，使用占用内存较少的数据结构，但是前提是要保证代码的可维护性。

资源调优调优概述

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。

总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

Spark作业基本运行原理

详细原理见上图。我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数，占有一定数量的内存和CPU core。而Driver进程要做的第一件事情，就是向集群管理器（可以是Spark Standalone集群，也可以是其他的资源管理集群，美团•大众点评使用的是YARN作为资源管理集群）申请运行Spark作业需要使用的资源，这里的资源指的就是Executor进程。YARN集群管理器会根据我们为Spark作业设置的资源参数，在各个工作节点上，启动一定数量的Executor进程，每个Executor进程都占有一定数量的内存和CPU core。

在申请到了作业执行所需的资源之后，Driver进程就会开始调度和执行我们编写的作业代码了。Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批task，然后将这些task分配到各个Executor进程中执行。task是最小的计算单元，负责执行一模一样的计算逻辑（也就是我们自己编写的某个代码片段），只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后，会在各个节点本地的磁盘文件中写入计算中间结果，然后Driver就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复，直到将我们自己编写的代码逻辑全部执行完，并且计算完所有的数据，得到我们想要的结果为止。

Spark是根据shuffle类算子来进行stage的划分。如果我们的代码中执行了某个shuffle类算子（比如reduceByKey、join等），那么就会在该算子处，划分出一个stage界限来。可以大致理解为，shuffle算子执行之前的代码会被划分为一个stage，shuffle算子执行以及之后的代码会被划分为下一个stage。因此一个stage刚开始执行的时候，它的每个task可能都会从上一个stage的task所在的节点，去通过网络传输拉取需要自己处理的所有key，然后对拉取到的所有相同的key使用我们自己编写的算子函数执行聚合操作（比如reduceByKey()算子接收的函数）。这个过程就是shuffle。

当我们在代码中执行了cache/persist等持久化操作时，根据我们选择的持久化级别的不同，每个task计算出来的数据也会保存到Executor进程的内存或者所在节点的磁盘文件中。

因此Executor的内存主要分为三块：第一块是让task执行我们自己编写的代码时使用，默认是占Executor总内存的20%；第二块是让task通过shuffle过程拉取了上一个stage的task的输出后，进行聚合等操作时使用，默认也是占Executor总内存的20%；第三块是让RDD持久化时使用，默认占Executor总内存的60%。

task的执行速度是跟每个Executor进程的CPU core数量有直接关系的。一个CPU core同一时间只能执行一个线程。而每个Executor进程上分配到的多个task，都是以每个task一条线程的方式，多线程并发运行的。如果CPU core数量比较充足，而且分配到的task数量比较合理，那么通常来说，可以比较快速和高效地执行完这些task线程。

以上就是Spark作业的基本运行原理的说明，大家可以结合上图来理解。理解作业基本原理，是我们进行资源参数调优的基本前提。

资源参数调优

了解完了Spark作业运行的基本原理之后，对资源相关的参数就容易理解了。所谓的Spark资源参数调优，其实主要就是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着作业运行原理中的某个部分，我们同时也给出了一个调优的参考值。

num-executors

参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你启动少量的Executor进程，此时你的Spark作业的运行速度是非常慢的。
参数调优建议：每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适，设置太少或太多的Executor进程都不好。设置的太少，无法充分利用集群资源；设置的太多的话，大部分队列可能无法给予充分的资源。

executor-memory

参数说明：该参数用于设置每个Executor进程的内存。Executor内存的大小，很多时候直接决定了Spark作业的性能，而且跟常见的JVM OOM异常，也有直接的关联。
参数调优建议：每个Executor进程的内存设置4G~8G较为合适。但是这只是一个参考值，具体的设置还是得根据不同部门的资源队列来定。可以看看自己团队的资源队列的最大内存限制是多少，num-executors乘以executor-memory，就代表了你的Spark作业申请到的总内存量（也就是所有Executor进程的内存总和），这个量是不能超过队列的最大内存量的。此外，如果你是跟团队里其他人共享这个资源队列，那么申请的总内存量最好不要超过资源队列最大总内存的1/3~1/2，避免你自己的Spark作业占用了队列所有的资源，导致别的同学的作业无法运行。

executor-cores

参数说明：该参数用于设置每个Executor进程的CPU core数量。这个参数决定了每个Executor进程并行执行task线程的能力。因为每个CPU core同一时间只能执行一个task线程，因此每个Executor进程的CPU core数量越多，越能够快速地执行完分配给自己的所有task线程。
参数调优建议：Executor的CPU core数量设置为2~4个较为合适。同样得根据不同部门的资源队列来定，可以看看自己的资源队列的最大CPU core限制是多少，再依据设置的Executor数量，来决定每个Executor进程可以分配到几个CPU core。同样建议，如果是跟他人共享这个队列，那么num-executors * executor-cores不要超过队列总CPU core的1/3~1/2左右比较合适，也是避免影响其他同学的作业运行。

driver-memory

参数说明：该参数用于设置Driver进程的内存。
参数调优建议：Driver的内存通常来说不设置，或者设置1G左右应该就够了。唯一需要注意的一点是，如果需要使用collect算子将RDD的数据全部拉取到Driver上进行处理，那么必须确保Driver的内存足够大，否则会出现OOM内存溢出的问题。

spark.default.parallelism

参数说明：该参数用于设置每个stage的默认task数量。这个参数极为重要，如果不设置可能会直接影响你的Spark作业性能。
参数调优建议：Spark作业的默认task数量为500~1000个较为合适。很多同学常犯的一个错误就是不去设置这个参数，那么此时就会导致Spark自己根据底层HDFS的block数量来设置task的数量，默认是一个HDFS block对应一个task。通常来说，Spark默认设置的数量是偏少的（比如就几十个task），如果task数量偏少的话，就会导致你前面设置好的Executor的参数都前功尽弃。试想一下，无论你的Executor进程有多少个，内存和CPU有多大，但是task只有1个或者10个，那么90%的Executor进程可能根本就没有task执行，也就是白白浪费了资源！因此Spark官网建议的设置原则是，设置该参数为num-executors * executor-cores的2~3倍较为合适，比如Executor的总CPU core数量为300个，那么设置1000个task是可以的，此时可以充分地利用Spark集群的资源。

spark.storage.memoryFraction

参数说明：该参数用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6。也就是说，默认Executor 60%的内存，可以用来保存持久化的RDD数据。根据你选择的不同的持久化策略，如果内存不够时，可能数据就不会持久化，或者数据会写入磁盘。
参数调优建议：如果Spark作业中，有较多的RDD持久化操作，该参数的值可以适当提高一些，保证持久化的数据能够容纳在内存中。避免内存不够缓存所有的数据，导致数据只能写入磁盘中，降低了性能。但是如果Spark作业中的shuffle类操作比较多，而持久化操作比较少，那么这个参数的值适当降低一些比较合适。此外，如果发现作业由于频繁的gc导致运行缓慢（通过spark web ui可以观察到作业的gc耗时），意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

spark.shuffle.memoryFraction

参数说明：该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能够使用的Executor内存的比例，默认是0.2。也就是说，Executor默认只有20%的内存用来进行该操作。shuffle操作在进行聚合时，如果发现使用的内存超出了这个20%的限制，那么多余的数据就会溢写到磁盘文件中去，此时就会极大地降低性能。
参数调优建议：如果Spark作业中的RDD持久化操作较少，shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。此外，如果发现作业由于频繁的gc导致运行缓慢，意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

资源参数的调优，没有一个固定的值，需要同学们根据自己的实际情况（包括Spark作业中的shuffle操作数量、RDD持久化操作数量以及spark web ui中显示的作业gc情况），同时参考本篇文章中给出的原理以及调优建议，合理地设置上述参数。

资源参数参考示例

以下是一份spark-submit命令的示例，大家可以参考一下，并根据自己的实际情况进行调节：

[Plain Text] 纯文本查看复制代码

 
      ? 
     
           ./bin/spark-submit \ 
          
           --master yarn-cluster \ 
          
           --num-executors 100 \ 
          
           --executor-memory 6G \ 
          
           --executor-cores 4 \ 
          
           --driver-memory 1G \ 
          
           --conf spark.default.parallelism=1000 \ 
          
           --conf spark.storage.memoryFraction=0.5 \ 
          
           --conf spark.shuffle.memoryFraction=0.3 \

写在最后的话

根据实践经验来看，大部分Spark作业经过本次基础篇所讲解的开发调优与资源调优之后，一般都能以较高的性能运行了，足以满足我们的需求。但是在不同的生产环境和项目背景下，可能会遇到其他更加棘手的问题（比如各种数据倾斜），也可能会遇到更高的性能要求。为了应对这些挑战，需要使用更高级的技巧来处理这类问题。在后续的《Spark性能优化指南——高级篇》中，我们会详细讲解数据倾斜调优以及Shuffle调优。

你可能感兴趣的:(Spark性能优化指南——基础篇)

RocketMQ开发实战篇 Jeremy_1022 RocketMQ rocketmq
一、生产者开发指南1.JavaAPI使用详解在使用RocketMQ进行消息生产时，首先需要引入相关的依赖。在Maven项目中，可以在pom.xml文件中添加以下依赖：org.apache.rocketmqrocketmq-client4.9.0接下来，创建一个简单的生产者示例：importorg.apache.rocketmq.client.producer.DefaultMQProducer;i
《SQL应用场景解析：如何通过SQL解决实际业务问题》
新手程序员如何用三个月成为SQL高手？万字自学指南带你弯道超车在数据为王的时代，掌握SQL已成为职场新人的必修课。你可能不知道，仅用三个月系统学习，一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是典型例子，通过本文的学习路线，他不仅成功转行数据分析师，薪资更是翻了两倍。本文将为你揭秘这条高效的学习路径，让你少走90%的弯路。[]()一、为什么每个职场新人都需要SQL这把
Zookeeper性能优化与调优技巧精讲 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Zookeeper性能优化与调优技巧精讲1.背景介绍1.1什么是Zookeeper?ApacheZooKeeper是一个开源的分布式协调服务,为分布式应用程序提供高可用性和强一致性的协调服务。它主要用于解决分布式环境中的数据管理问题,如统一命名服务、配置管理、分布式锁、集群管理等。ZooKeeper的设计目标是构建一个简单且高效的核心,以确保最大程度的可靠性和可扩展性。1.2Zookeeper的应
从零开始：基于LLM大模型构建智能应用程序的完整指南 AI天才研究院 ChatGPT 人工智能
目录从零开始：基于LLM大模型构建智能应用程序的完整指南什么是LLM大模型如何利用LLM大模型构建智能应用程序1.收集和准备数据2.构建LLM大模型3.集成和部署4.监测和维护使用特定于私有领域的数据增强LLM检索增强生成(RAG)数据预处理、分块和检索技术零射击与少量射击提示和指导LLM大模型使用LLM进行推荐和聚类任务改善组织内的搜索体验考虑以上所有解锁的利基应用程序参考最近，围绕大型语言模型
深度掌握 ReactJS 高级概念：前端开发者必备前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读这篇文章汇总了ReactJS中值得深入研究的高级概念。读完后，不仅在前端面试中能更胸有成竹，还能自行开发一个类似ReactJS的UI库。目录Rendering的含义与过程Re-rendering发生的机制及原因VirtualDOM的原理Reconciliation算法的运行方式ReactJS的性能优化方案1
JavaScript性能优化实战仰望丨苍穹前端：技巧与实践 javascript 性能优化前端
深入探讨JavaScript性能瓶颈，分享优化技巧与最佳实践：性能瓶颈DOM操作开销大：DOM操作往往是JavaScript性能的一个关键瓶颈。每次对DOM进行访问、修改或创建，都可能触发浏览器的重排（reflow）和重绘（repaint）操作。例如频繁地使用innerHTML修改元素内容，或者大量地动态创建DOM节点，都会导致性能问题。全局作用域查找慢：在JavaScript中，变量的查找是从当
JavaScript性能优化实战：从瓶颈分析到高效编码策略 AAEllisonPang Java 数据库
一、性能瓶颈分析：从问题出发1.1常见性能问题类型渲染阻塞：同步脚本加载导致DOMContentLoaded延迟内存泄漏：未解绑的事件监听、闭包引用残留重复计算：高频触发的回调函数无节制运算布局抖动：强制同步布局（ForcedSynchronousLayout）网络瓶颈：未优化的资源加载策略典型案例：某电商网站商品筛选功能，用户选择规格时界面卡顿。经分析发现每次选择都会触发全量DOM重新渲染，导致
53. HarmonyOS NEXT 登录模块开发教程（七）：性能优化与最佳实践 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT登录模块开发教程（七）：性能优化与最佳实践效果预览1.引言在前六篇教程中，我们介绍了HarmonyOSNEXT登录模块的整体架构、模态窗口的实现原理、一键登录页面的实现、短信验证码登录的实现、状态管理和数据绑定机制、安全性考虑以及UI设
Java后端服务接口性能优化常用技巧南波塞文 Java 基础 MySQL 数据库 java 性能优化
接口性能优化常用技巧前言1.数据库索引2.慢SQL优化3.异步执行4.批量处理5.数据预加载6.池化技术（多线程）8.事件回调机制9.串行改为并行调用10.深度分页问题前言对于高标准程序员来说提供高性能的服务接口是我们所追求的目标，以下梳理了一些提升接口性能的技术方案，希望对大家有所帮助。1.数据库索引当接口响应慢时，我们可能会去排查是否是数据库查询慢了，进而会去关注数据库查询优化，而索引优化是代
React 如何实现组件懒加载以及懒加载的底层机制乐闻x React 最佳学习手册 react.js 前端前端框架性能优化
前言在现代前端开发中，性能优化始终是一个核心课题。React作为当下流行的前端库之一，提供了一些非常有用的工具和技术来提升应用的性能，其中懒加载（LazyLoading）就是一项不可忽视的重要技术。通过懒加载，我们可以有效地减少初始页面加载时间，提高应用的响应速度，从而显著改善用户体验。那么，React的懒加载是如何实现的呢？它的底层原理和运行流程又是什么？本文将通过通俗易懂的方式，带你深入解析R
KICK第四讲Linux 系统下安装 GCC 编译器全指南浅梦ChienMong linux 运维服务器
Linux系统下安装GCC编译器全指南GCC（GNUCompilerCollection）是Linux系统下最常用的编译器之一，支持C/C++、Java等多种编程语言。本文将介绍不同Linux发行版下的安装方法，帮助开发者快速配置开发环境。一、使用包管理器快速安装（推荐）大多数Linux发行版通过官方仓库提供GCC，适合新手快速部署。Debian/Ubuntu系列（apt-get）打开终端，更新软
新手PCB打样避坑指南：如何选择高性价比厂商 lboyj 人工智能大数据
在电子硬件开发中，PCB打样是验证设计可行性的关键一步。然而，面对市场上数百家PCB厂商，新手往往陷入“选厂难”的困境：既要保证质量，又要控制成本，还要兼顾交期。本文将从核心需求出发，结合行业口碑与技术实测，深度解析猎板PCB等优质厂商的优势，助你快速锁定匹配项目需求的合作伙伴。一、新手选厂的核心考量：从“踩雷”到“精准匹配”1.**工艺能力：决定设计落地的天花板**新手常误以为“低价=划算”，却
NPM安装与配置全流程详解（2025最新版） ╰つ゛木槿 web前端 npm 前端 node.js
写目录一、环境准备与Node.js安装1.下载Node.js（含NPM）2.验证安装二、NPM核心配置优化1.全局模块与缓存路径设置2.镜像加速3.代理配置（企业网络适用）三、NPM基础操作指南1.项目初始化2.包管理命令3.依赖锁定与版本管理四、进阶配置与工具1.权限问题解决2.缓存清理3.替代工具推荐五、常见问题排查1.安装失败场景2.脚本执行权限（Windows）六、最佳实践建议一、环境准备
Java 数据结构指南：二叉树、二叉查找树、平衡树与红黑树秋‍. JAVA 数据结构算法 java 树
1.什么是二叉树？1.1二叉树的基本概念二叉树（BinaryTree）是每个节点最多有两个子节点的树形结构。每个节点包含：数据（value）左子节点（left）右子节点（right）二叉树的Java实现：classTreeNode{intvalue;TreeNodeleft;TreeNoderight;publicTreeNode(intvalue){this.value=value;this.l
Pandas真实案例进阶：从数据清洗到高性能分析的完整指南 Eqwaak00 Pandas python 开发语言科技 pandas
案例背景：电商用户行为分析假设某电商平台提供以下数据集（模拟数据包含100万条记录），需完成用户行为分析：user_logs.csv：用户浏览、加购、下单日志user_profiles.csv：用户地域、设备信息product_info.csv：商品类目、价格数据一、数据加载与内存优化1.1智能数据类型转换#列类型预设字典dtype_dict={'user_id':'category','even
轻量级多模型部署实践：Ollama 与 vLLM 快速构建高效 AI 工作流20250306 Narutolxy 智浪初航人工智能
轻量级多模型部署实践：Ollama与vLLM快速构建高效AI工作流本文将详细介绍如何在MacOS与Ubuntu环境下使用Ollama与vLLM进行轻量级多模型部署，包括模型并行推理、安全与性能优化的实践经验，帮助初学者快速上手。一、Ollama部署与优化最佳实践MacOS快速部署安装Ollama（如已安装可跳过）使用Homebrew快速安装Ollama：brewinstallollama模型拉取与
Python 网络编程实战：5分钟实现多线程下载工具与 Web 服务器吴师兄大模型 python Web服务器多线程下载工具网络编程人工智能开发语言 PYTHON
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Vue3的Hook指南 Hopebearer_ Vue3 vue.js 前端 javascript
文章目录一、什么是Hook？1.技术本质2.与工具函数的区别二、Hook存在的意义1.解决传统模式的三大痛点2.核心优势矩阵三、开发实践指南1.基础创建模式2.组件内使用四、最佳实践1.复杂Hook结构2.类型安全增强五、应用场景1.状态共享方案2.跨组件通信六、性能优化策略1.副作用管理2.惰性加载Hook七、调试技巧1.开发工具追踪2.控制台检查八、应用案例1.数据可视化Hook2.微前端状态
vue2 中 watch 监听属性 Hopebearer_ Vue2 vue.js javascript 前端 vue2 前端框架
文章目录vue2中watch监听属性1.简介2.基本语法1.函数式写法2.对象式写法3.示例1.基础用法2.深度监听对象属性3.立即执行watcher4.性能优化5.实际应用场景1.数据变化时执行异步操作2.复杂计算和数据同步3.监听对象或数组的变化4.执行副作用操作5.表单验证6.数据缓存和更新7.与第三方库集成8.路由变化监听6.总结vue2中watch监听属性1.简介watch是Vue2中的
UniApp生命周期完全指南」：从应用启动到页面卸载，全过程详细解读「UniApp新手教程」：学会应用、页面与组件生命周期，开发更高效的跨平台应用 UniApp生命周期最全解析！手把手带你构建一个高南北极之间小程序 uni-app 前端 javascript vue.js 微信小程序小程序 uniapp
博客正文UniApp生命周期新手教程：从应用到组件，轻松掌握每个环节UniApp的生命周期函数是每个开发者必须掌握的重要知识点，它不仅帮助我们管理页面和数据，还可以提升应用的性能和用户体验。这篇文章将详细讲解UniApp的应用生命周期、页面生命周期和组件生命周期，并通过代码示例，带你逐步理解如何在实际开发中灵活运用这些生命周期函数。目录什么是生命周期？应用生命周期onLaunchonShowonH
ClickHouse优化技巧实战指南：从原理到案例解析 AAEllisonPang Clickhouse clickhouse
目录ClickHouse优化核心思想表结构设计优化查询性能优化技巧数据写入优化方案系统配置调优实战高可用与集群优化真实案例解析总结与建议1.ClickHouse优化核心思想ClickHouse作为OLAP领域的明星引擎，其优化需遵循列式存储特性，把握以下原则：批量操作优于单行处理预计算替代实时计算数据有序存储提升检索效率利用硬件资源最大化吞吐量2.表结构设计优化2.1分区键选择选择低基数且高频过滤
【AI】从头到脚详解如何创建部署Azure Web App的OpenAI项目小涵 Azure云企业实战指南本地离线DeepSeek AI方案部署实战教程【完全版】人工智能 azure web app AI docker python
【AI】从头到脚详解如何创建部署AzureWebApp的OpenAI项目在AzureWeb应用上，您可以使用Python的OpenAI包方便快捷地调用官方API，上传您的训练数据，并利用他们的算法进行处理。本教程提供了一个逐步指南，帮助您在AzureWeb应用上部署您的OpenAI项目，涵盖了从资源设置到解决常见问题的所有内容。推荐超级课程：本地离线DeepSeekAI方案部署实战教程【完全版】D
uniapp，自绘仪表盘组件（基础篇）智驾 uniapp项目实战 uni-app 仪表
文章目录一、为什么需要自绘仪表盘？二、准备知识三、实现基础仪表盘1.组件模板结构2.核心绘制逻辑3.样式优化四、使用示例五、核心实现原理六、扩展方向七、常见问题一、为什么需要自绘仪表盘？在物联网、数据监控等场景中，仪表盘是常见的数据可视化组件。uniapp的组件市场虽然有许多现成方案，但自绘组件具有以下优势：完全掌控视觉效果无依赖零冗余高性能Canvas渲染轻松适配多端二、准备知识基础Canvas
使用 Math.NET 进行数值计算的指南墨瑾轩一起学学C#【一】.net 决策树算法
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣使用Math.NET进行数值计算的指南️‍♂️数值计算的魅力：从基础到进阶引言在科学计算、工程设计甚至是金融分析等领域，数值计算都是不可或缺的一环。Math.NETNumerics作为.NET平台上的一款强大而全面的数值计算库，提供了包括线性代数、概率统计、信
67-OpenCVSharp 创建实现Halcon的tile_images_offset算子（用于图像拼接，对每张图像设置偏移量）搬码驿站 #opencv 计算机视觉人工智能算法图像处理
以下是基于OpenCvSharp实现的Halcontile_images_offset算子的高性能函数。该函数不仅支持图像拼接，还允许对每张图像设置偏移量（offset），以灵活布局图像。代码中包含了详细注释和性能优化策略。为了优化运行时间和性能，我们可以从以下几个方面对代码进行改进：并行处理：利用多核CPU的能力，通过Parallel.For或其他并行技术加速图像复制操作。减少边界检查开销：在确
【敏捷】罗恩·杰弗里斯用户故事3C原则：用卡片、对话与确认构建敏捷需求的黄金三角田辛 | 田豆芽 DevOps 项目管理 3C原则敏捷需求罗恩·杰弗里斯黄金三角
在敏捷开发领域，用户故事常被视为“需求的最小单位”，但如何让这些故事真正成为团队协作的指南针？今天，我们以一杯咖啡的时间，深入探讨罗恩·杰弗里斯提出的用户故事3C原则——卡片（Card）、对话（Conversation）、确认（Confirmation）。这不仅是一套方法论，更是一把打开高效协作之门的钥匙。一、3C原则的本质：从“纸面需求”到“动态共识”卡片（Card）：需求的灵魂容器卡片不是简单
适合机器学习的Linux系统推荐及基本配置指南金外飞176 信息分享机器学习 linux 人工智能
适合机器学习的Linux系统推荐及基本配置指南在机器学习领域，选择一个合适的Linux发行版至关重要。它不仅影响开发效率，还可能影响模型训练的性能。经过广泛调研和用户反馈，Ubuntu脱颖而出，成为众多机器学习爱好者的首选。下面将详细介绍为何推荐Ubuntu以及其基本配置需求。一、推荐Ubuntu的理由1.用户友好的界面和强大的社区支持Ubuntu提供了直观的图形用户界面，对于初次接触Linux的
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
本地部署时，如何通过硬件加速（如 CUDA、TensorRT）提升 DeepSeek 的推理性能？不同显卡型号的兼容性如何测试？百态老人人工智能科技算法 vscode
本地部署DeepSeek模型的硬件加速优化与显卡兼容性测试指南一、硬件加速技术实现路径CUDA基础环境搭建版本匹配原则：根据显卡架构选择CUDA版本（如NVIDIARTX50系列需CUDA12+，V100需CUDA11.x），并通过nvcc--version验证安装。GPU加速验证：运行以下代码检查硬件加速状态：importtensorflowastfprint("可用GPU数量：",len(tf
【JVM实践】（6）full gc分析与实战 xiyubaby.17 jvm
FullGC全解析教程，涵盖触发机制、问题诊断、调优策略和实战案例：FullGC终极指南：深度解析与调优实践[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nsRlZAi8-1741613536305)(https://plumbr.io/wp-content/uploads/2016/01/g1-06-full-collection.png)]一、核心概念体系1.1
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。