zhuiqiuuuu

spark 数据倾斜

一. 数据倾斜的现象

1、spark中一个stage的执行时间受限于最后那个执行完的task，因此运行缓慢的任务会拖累整个程序的运行速度（分布式程序运行的速度是由最慢的那个task决定的）比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。

　　2、原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。（过多的数据在同一个task中执行，将会把executor撑爆，造成OOM，程序终止运行）这种情况比较少见。

一个理想的分布式程序：

发生数据倾斜时，任务的执行速度由最大的那个任务决定：

二. 数据倾斜的原因，如何定位导致数据倾斜的代码

数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时，可能就是你的代码中使用了这些算子中的某一个所导致的。

数据问题

key本身分布不均匀(包括大量的key为空)
key的设置不合理

spark使用问题

shuffle时的并发度不够
计算方式有误

如何定位导致数据倾斜的代码

某个task执行特别慢的情况

　　首先要看的，就是数据倾斜发生在第几个stage中。

　　如果是用yarn-client模式提交，那么本地是直接可以看到log的，可以在log中找到当前运行到了第几个stage；如果是用yarn-cluster模式提交，则可以通过Spark Web UI来查看当前运行到了第几个stage。此外，无论是使用yarn-client模式还是yarn-cluster模式，我们都可以在Spark Web UI上深入看一下当前这个stage各个task分配的数据量，从而进一步确定是不是task分配的数据不均匀导致了数据倾斜。

　　比如下图中，倒数第三列显示了每个task的运行时间。明显可以看到，有的task运行特别快，只需要几秒钟就可以运行完；而有的task运行特别慢，需要几分钟才能运行完，此时单从运行时间上看就已经能够确定发生数据倾斜了。此外，倒数第一列显示了每个task处理的数据量，明显可以看到，运行时间特别短的task只需要处理几百KB的数据即可，而运行时间特别长的task需要处理几千KB的数据，处理的数据量差了10倍。此时更加能够确定是发生了数据倾斜。

知道数据倾斜发生在哪一个stage之后，接着我们就需要根据stage划分原理，推算出来发生倾斜的那个stage对应代码中的哪一部分，这部分代码中肯定会有一个shuffle类算子。精准推算stage与代码的对应关系，需要对Spark的源码有深入的理解，这里我们可以介绍一个相对简单实用的推算方法：只要看到Spark代码中出现了一个shuffle类算子或者是Spark SQL的SQL语句中出现了会导致shuffle的语句（比如group by语句），那么就可以判定，以那个地方为界限划分出了前后两个stage。

　　这里我们就以Spark最基础的入门程序——单词计数来举例，如何用最简单的方法大致推算出一个stage对应的代码。如下示例，在整个代码中，只有一个reduceByKey是会发生shuffle的算子，因此就可以认为，以这个算子为界限，会划分出前后两个stage。

　　1、stage0，主要是执行从textFile到map操作，以及执行shuffle write操作。shuffle write操作，我们可以简单理解为对pairs RDD中的数据进行分区操作，每个task处理的数据中，相同的key会写入同一个磁盘文件内。
　　2、stage1，主要是执行从reduceByKey到collect操作，stage1的各个task一开始运行，就会首先执行shuffle read操作。执行shuffle read操作的task，会从stage0的各个task所在节点拉取属于自己处理的那些key，然后对同一个key进行全局性的聚合或join等操作，在这里就是对key的value值进行累加。stage1在执行完reduceByKey算子之后，就计算出了最终的wordCounts RDD，然后会执行collect算子，将所有数据拉取到Driver上，供我们遍历和打印输出。

[python]  view plain  copy
val conf = new SparkConf()  
val sc = new SparkContext(conf)  
  
val lines = sc.textFile("hdfs://...")  
val words = lines.flatMap(_.split(" "))  
val pairs = words.map((_, 1))  
val wordCounts = pairs.reduceByKey(_ + _)  
  
wordCounts.collect().foreach(println(_))  

通过对单词计数程序的分析，希望能够让大家了解最基本的stage划分的原理，以及stage划分后shuffle操作是如何在两个stage的边界处执行的。然后我们就知道如何快速定位出发生数据倾斜的stage对应代码的哪一个部分了。比如我们在Spark Web UI或者本地log中发现，stage1的某几个task执行得特别慢，判定stage1出现了数据倾斜，那么就可以回到代码中定位出stage1主要包括了reduceByKey这个shuffle类算子，此时基本就可以确定是由educeByKey算子导致的数据倾斜问题。比如某个单词出现了100万次，其他单词才出现10次，那么stage1的某个task就要处理100万数据，整个stage的速度就会被这个task拖慢。

某个task莫名其妙内存溢出的情况

　　这种情况下去定位出问题的代码就比较容易了。我们建议直接看yarn-client模式下本地log的异常栈，或者是通过YARN查看yarn-cluster模式下的log中的异常栈。一般来说，通过异常栈信息就可以定位到你的代码中哪一行发生了内存溢出。然后在那行代码附近找找，一般也会有shuffle类算子，此时很可能就是这个算子导致了数据倾斜。

　　但是大家要注意的是，不能单纯靠偶然的内存溢出就判定发生了数据倾斜。因为自己编写的代码的bug，以及偶然出现的数据异常，也可能会导致内存溢出。因此还是要按照上面所讲的方法，通过Spark Web UI查看报错的那个stage的各个task的运行时间以及分配的数据量，才能确定是否是由于数据倾斜才导致了这次内存溢出。

查看导致数据倾斜的key的数据分布情况

　　知道了数据倾斜发生在哪里之后，通常需要分析一下那个执行了shuffle操作并且导致了数据倾斜的RDD/Hive表，查看一下其中key的分布情况。这主要是为之后选择哪一种技术方案提供依据。针对不同的key分布与不同的shuffle算子组合起来的各种情况，可能需要选择不同的技术方案来解决。

　　此时根据你执行操作的情况不同，可以有很多种查看key分布的方式：

　　1、如果是Spark SQL中的group by、join语句导致的数据倾斜，那么就查询一下SQL中使用的表的key分布情况。
　　2、如果是对Spark RDD执行shuffle算子导致的数据倾斜，那么可以在Spark作业中加入查看key分布的代码，比如RDD.countByKey()。然后对统计出来的各个key出现的次数，collect/take到客户端打印一下，就可以看到key的分布情况。

　　举例来说，对于上面所说的单词计数程序，如果确定了是stage1的reduceByKey算子导致了数据倾斜，那么就应该看看进行reduceByKey操作的RDD中的key分布情况，在这个例子中指的就是pairs RDD。如下示例，我们可以先对pairs采样10%的样本数据，然后使用countByKey算子统计出每个key出现的次数，最后在客户端遍历和打印样本数据中各个key的出现次数。

[python]  view plain  copy
val sampledPairs = pairs.sample(false, 0.1)  
val sampledWordCounts = sampledPairs.countByKey()  
sampledWordCounts.foreach(println(_))  

三、数据倾斜发生的原理

　　数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。

　　因此出现数据倾斜的时候，Spark作业看起来会运行得非常缓慢，甚至可能因为某个task处理的数据量过大导致内存溢出。

　　下图就是一个很清晰的例子：hello这个key，在三个节点上对应了总共7条数据，这些数据都会被拉取到同一个task中进行处理；而world和you这两个key分别才对应1条数据，所以另外两个task只要分别处理1条数据即可。此时第一个task的运行时间可能是另外两个task的7倍，而整个stage的运行速度也由运行最慢的那个task所决定。

三. 数据倾斜的后果

spark中一个stage的执行时间受限于最后那个执行完的task，因此运行缓慢的任务会拖累整个程序的运行速度（分布式程序运行的速度是由最慢的那个task决定的）。
过多的数据在同一个task中执行，将会把executor撑爆，造成OOM，程序终止运行。

四. 数据问题造成的数据倾斜

发现数据倾斜的时候，不要急于提高executor的资源，修改参数或是修改程序，首先要检查数据本身，是否存在异常数据。

找出异常的key

如果任务长时间卡在最后最后1个(几个)任务，首先要对key进行抽样分析，判断是哪些key造成的。

选取key，对数据进行抽样，统计出现的次数，根据出现次数大小排序取出前几个

df.select("key").sample(false,0.1).(k=>(k,1)).reduceBykey(_+_).map(k=>(k._2,k._1)).sortByKey(false).take(10)

如果发现多数数据分布都较为平均，而个别数据比其他数据大上若干个数量级，则说明发生了数据倾斜。

经过分析，倾斜的数据主要有以下三种情况:

null（空值）或是一些无意义的信息()之类的,大多是这个原因引起。
无效数据，大量重复的测试数据或是对结果影响不大的有效数据。
有效数据，业务导致的正常数据分布。（小表Broadcast,大表mapPartition 代替map）

解决办法

第1，2种情况，直接对数据进行过滤即可。

第3种情况则需要进行一些特殊操作，常见的有以下几种做法。

隔离执行，将异常的key过滤出来单独处理，最后与正常数据的处理结果进行union操作。
对key先添加随机值，进行操作后，去掉随机值，再进行一次操作。
使用reduceByKey 代替 groupByKey
使用map join。

举例：

如果使用reduceByKey因为数据倾斜造成运行失败的问题。具体操作如下：

将原始的 key 转化为 key + 随机值(例如Random.nextInt)
对数据进行 reduceByKey(func)
将 key + 随机值 转成 key
再对数据进行 reduceByKey(func)

tip1: 如果此时依旧存在问题，建议筛选出倾斜的数据单独处理。最后将这份数据与正常的数据进行union即可。

tips2: 单独处理异常数据时，可以配合使用Map Join解决。

数据倾斜的解决方案

解决方案一：使用Hive ETL预处理数据

　　方案适用场景：导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个key对应了100万数据，其他key才对应了10条数据），而且业务场景需要频繁使用Spark对Hive表执行某个分析操作，那么比较适合使用这种技术方案。

　　方案实现思路：此时可以评估一下，是否可以通过Hive来进行数据预处理（即通过Hive ETL预先对数据按照key进行聚合，或者是预先和其他表进行join），然后在Spark作业中针对的数据源就不是原来的Hive表了，而是预处理后的Hive表。此时由于数据已经预先进行过聚合或join操作了，那么在Spark作业中也就不需要使用原先的shuffle类算子执行这类操作了。

　　方案实现原理：这种方案从根源上解决了数据倾斜，因为彻底避免了在Spark中执行shuffle类算子，那么肯定就不会有数据倾斜的问题了。但是这里也要提醒一下大家，这种方式属于治标不治本。因为毕竟数据本身就存在分布不均匀的问题，所以Hive ETL中进行group by或者join等shuffle操作时，还是会出现数据倾斜，导致Hive ETL的速度很慢。我们只是把数据倾斜的发生提前到了Hive ETL中，避免Spark程序发生数据倾斜而已。

　　方案优点：实现起来简单便捷，效果还非常好，完全规避掉了数据倾斜，Spark作业的性能会大幅度提升。

　　方案缺点：治标不治本，Hive ETL中还是会发生数据倾斜。

　　方案实践经验：在一些Java系统与Spark结合使用的项目中，会出现Java代码频繁调用Spark作业的场景，而且对Spark作业的执行性能要求很高，就比较适合使用这种方案。将数据倾斜提前到上游的Hive ETL，每天仅执行一次，只有那一次是比较慢的，而之后每次Java调用Spark作业时，执行速度都会很快，能够提供更好的用户体验。

　　项目实践经验：在美团·点评的交互式用户行为分析系统中使用了这种方案，该系统主要是允许用户通过Java Web系统提交数据分析统计任务，后端通过Java提交Spark作业进行数据分析统计。要求Spark作业速度必须要快，尽量在10分钟以内，否则速度太慢，用户体验会很差。所以我们将有些Spark作业的shuffle操作提前到了Hive ETL中，从而让Spark直接使用预处理的Hive中间表，尽可能地减少Spark的shuffle操作，大幅度提升了性能，将部分作业的性能提升了6倍以上。

解决方案二：过滤少数导致倾斜的key

　　方案适用场景：如果发现导致倾斜的key就少数几个，而且对计算本身的影响并不大的话，那么很适合使用这种方案。比如99%的key就对应10条数据，但是只有一个key对应了100万数据，从而导致了数据倾斜。

　　方案实现思路：如果我们判断那少数几个数据量特别多的key，对作业的执行和计算结果不是特别重要的话，那么干脆就直接过滤掉那少数几个key。比如，在Spark SQL中可以使用where子句过滤掉这些key或者在Spark Core中对RDD执行filter算子过滤掉这些key。如果需要每次作业执行时，动态判定哪些key的数据量最多然后再进行过滤，那么可以使用sample算子对RDD进行采样，然后计算出每个key的数量，取数据量最多的key过滤掉即可。

　　方案实现原理：将导致数据倾斜的key给过滤掉之后，这些key就不会参与计算了，自然不可能产生数据倾斜。

　　方案优点：实现简单，而且效果也很好，可以完全规避掉数据倾斜。

　　方案缺点：适用场景不多，大多数情况下，导致倾斜的key还是很多的，并不是只有少数几个。

　　方案实践经验：在项目中我们也采用过这种方案解决数据倾斜。有一次发现某一天Spark作业在运行的时候突然OOM了，追查之后发现，是Hive表中的某一个key在那天数据异常，导致数据量暴增。因此就采取每次执行前先进行采样，计算出样本中数据量最大的几个key之后，直接在程序中将那些key给过滤掉。

解决方案三：提高shuffle操作的并行度

　　方案适用场景：如果我们必须要对数据倾斜迎难而上，那么建议优先使用这种方案，因为这是处理数据倾斜最简单的一种方案。

　　方案实现思路：在对RDD执行shuffle算子时，给shuffle算子传入一个参数，比如reduceByKey(1000)，该参数就设置了这个shuffle算子执行时shuffle read task的数量。对于Spark SQL中的shuffle类语句，比如group by、join等，需要设置一个参数，即spark.sql.shuffle.partitions，该参数代表了shuffle read task的并行度，该值默认是200，对于很多场景来说都有点过小。

　　方案实现原理：增加shuffle read task的数量，可以让原本分配给一个task的多个key分配给多个task，从而让每个task处理比原来更少的数据。举例来说，如果原本有5个key，每个key对应10条数据，这5个key都是分配给一个task的，那么这个task就要处理50条数据。而增加了shuffle read task以后，每个task就分配到一个key，即每个task就处理10条数据，那么自然每个task的执行时间都会变短了。具体原理如下图所示。

　　方案优点：实现起来比较简单，可以有效缓解和减轻数据倾斜的影响。

　　方案缺点：只是缓解了数据倾斜而已，没有彻底根除问题，根据实践经验来看，其效果有限。

　　方案实践经验：该方案通常无法彻底解决数据倾斜，因为如果出现一些极端情况，比如某个key对应的数据量有100万，那么无论你的task数量增加到多少，这个对应着100万数据的key肯定还是会分配到一个task中去处理，因此注定还是会发生数据倾斜的。所以这种方案只能说是在发现数据倾斜时尝试使用的第一种手段，尝试去用嘴简单的方法缓解数据倾斜而已，或者是和其他方案结合起来使用。

解决方案四：两阶段聚合（局部聚合+全局聚合）

　　方案适用场景：对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时，比较适用这种方案。

　　方案实现思路：这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据，执行reduceByKey等聚合操作，进行局部聚合，那么局部聚合结果，就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了，比如(hello, 4)。

　　方案实现原理：将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果。具体原理见下图。

　　方案优点：对于聚合类的shuffle操作导致的数据倾斜，效果是非常不错的。通常都可以解决掉数据倾斜，或者至少是大幅度缓解数据倾斜，将Spark作业的性能提升数倍以上。

　　方案缺点：仅仅适用于聚合类的shuffle操作，适用范围相对较窄。如果是join类的shuffle操作，还得用其他的解决方案。

[python]  view plain  copy
// 第一步，给RDD中的每个key都打上一个随机前缀。  
JavaPairRDD randomPrefixRdd = rdd.mapToPair(  
        new PairFunction, String, Long>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2 call(Tuple2 tuple)  
                    throws Exception {  
                Random random = new Random();  
                int prefix = random.nextInt(10);  
                return new Tuple2(prefix + "_" + tuple._1, tuple._2);  
            }  
        });  
  
// 第二步，对打上随机前缀的key进行局部聚合。  
JavaPairRDD localAggrRdd = randomPrefixRdd.reduceByKey(  
        new Function2() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Long call(Long v1, Long v2) throws Exception {  
                return v1 + v2;  
            }  
        });  
  
// 第三步，去除RDD中每个key的随机前缀。  
JavaPairRDD removedRandomPrefixRdd = localAggrRdd.mapToPair(  
        new PairFunction, Long, Long>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2 call(Tuple2 tuple)  
                    throws Exception {  
                long originalKey = Long.valueOf(tuple._1.split("_")[1]);  
                return new Tuple2(originalKey, tuple._2);  
            }  
        });  
  
// 第四步，对去除了随机前缀的RDD进行全局聚合。  
JavaPairRDD globalAggrRdd = removedRandomPrefixRdd.reduceByKey(  
        new Function2() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Long call(Long v1, Long v2) throws Exception {  
                return v1 + v2;  
            }  
        });  

解决方案五：将reduce join转为map join

　　方案适用场景：在对RDD使用join类操作，或者是在Spark SQL中使用join语句时，而且join操作中的一个RDD或表的数据量比较小（比如几百M或者一两G），比较适用此方案。

　　方案实现思路：不使用join算子进行连接操作，而使用Broadcast变量与map类算子实现join操作，进而完全规避掉shuffle类的操作，彻底避免数据倾斜的发生和出现。将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量；接着对另外一个RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD的全量数据，与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用你需要的方式连接起来。

　　方案实现原理：普通的join是会走shuffle过程的，而一旦shuffle，就相当于会将相同key的数据拉取到一个shuffle read task中再进行join，此时就是reduce join。但是如果一个RDD是比较小的，则可以采用广播小RDD全量数据+map算子来实现与join同样的效果，也就是map join，此时就不会发生shuffle操作，也就不会发生数据倾斜。具体原理如下图所示。

　　方案优点：对join操作导致的数据倾斜，效果非常好，因为根本就不会发生shuffle，也就根本不会发生数据倾斜。

　　方案缺点：适用场景较少，因为这个方案只适用于一个大表和一个小表的情况。毕竟我们需要将小表进行广播，此时会比较消耗内存资源，driver和每个Executor内存中都会驻留一份小RDD的全量数据。如果我们广播出去的RDD数据比较大，比如10G以上，那么就可能发生内存溢出了。因此并不适合两个都是大表的情况。

[python]  view plain  copy
// 首先将数据量比较小的RDD的数据，collect到Driver中来。  
List> rdd1Data = rdd1.collect()  
// 然后使用Spark的广播功能，将小RDD的数据转换成广播变量，这样每个Executor就只有一份RDD的数据。  
// 可以尽可能节省内存空间，并且减少网络传输性能开销。  
final Broadcast>> rdd1DataBroadcast = sc.broadcast(rdd1Data);  
  
// 对另外一个RDD执行map类操作，而不再是join类操作。  
JavaPairRDD> joinedRdd = rdd2.mapToPair(  
        new PairFunction, String, Tuple2>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2> call(Tuple2 tuple)  
                    throws Exception {  
                // 在算子函数中，通过广播变量，获取到本地Executor中的rdd1数据。  
                List> rdd1Data = rdd1DataBroadcast.value();  
                // 可以将rdd1的数据转换为一个Map，便于后面进行join操作。  
                Map rdd1DataMap = new HashMap();  
                for(Tuple2 data : rdd1Data) {  
                    rdd1DataMap.put(data._1, data._2);  
                }  
                // 获取当前RDD数据的key以及value。  
                String key = tuple._1;  
                String value = tuple._2;  
                // 从rdd1数据Map中，根据key获取到可以join到的数据。  
                Row rdd1Value = rdd1DataMap.get(key);  
                return new Tuple2(key, new Tuple2(value, rdd1Value));  
            }  
        });  
  
// 这里得提示一下。  
// 上面的做法，仅仅适用于rdd1中的key没有重复，全部是唯一的场景。  
// 如果rdd1中有多个相同的key，那么就得用flatMap类的操作，在进行join的时候不能用map，而是得遍历rdd1所有数据进行join。  
// rdd2中每条数据都可能会返回多条join后的数据。  

解决方案六：采样倾斜key并分拆join操作

　　方案适用场景：两个RDD/Hive表进行join的时候，如果数据量都比较大，无法采用“解决方案五”，那么此时可以看一下两个RDD/Hive表中的key分布情况。如果出现数据倾斜，是因为其中某一个RDD/Hive表中的少数几个key的数据量过大，而另一个RDD/Hive表中的所有key都分布比较均匀，那么采用这个解决方案是比较合适的。

　　方案实现思路：

　　1、对包含少数几个数据量过大的key的那个RDD，通过sample算子采样出一份样本来，然后统计一下每个key的数量，计算出来数据量最大的是哪几个key。
　　2、然后将这几个key对应的数据从原来的RDD中拆分出来，形成一个单独的RDD，并给每个key都打上n以内的随机数作为前缀，而不会导致倾斜的大部分key形成另外一个RDD。
　　3、接着将需要join的另一个RDD，也过滤出来那几个倾斜key对应的数据并形成一个单独的RDD，将每条数据膨胀成n条数据，这n条数据都按顺序附加一个0~n的前缀，不会导致倾斜的大部分key也形成另外一个RDD。
　　4、再将附加了随机前缀的独立RDD与另一个膨胀n倍的独立RDD进行join，此时就可以将原先相同的key打散成n份，分散到多个task中去进行join了。
　　5、而另外两个普通的RDD就照常join即可。
　　6、最后将两次join的结果使用union算子合并起来即可，就是最终的join结果。

　　方案实现原理：对于join导致的数据倾斜，如果只是某几个key导致了倾斜，可以将少数几个key分拆成独立RDD，并附加随机前缀打散成n份去进行join，此时这几个key对应的数据就不会集中在少数几个task上，而是分散到多个task进行join了。具体原理见下图。

　　方案优点：对于join导致的数据倾斜，如果只是某几个key导致了倾斜，采用该方式可以用最有效的方式打散key进行join。而且只需要针对少数倾斜key对应的数据进行扩容n倍，不需要对全量数据进行扩容。避免了占用过多内存。

　　方案缺点：如果导致倾斜的key特别多的话，比如成千上万个key都导致数据倾斜，那么这种方式也不适合。

[python]  view plain  copy
// 首先从包含了少数几个导致数据倾斜key的rdd1中，采样10%的样本数据。  
JavaPairRDD sampledRDD = rdd1.sample(false, 0.1);  
  
// 对样本数据RDD统计出每个key的出现次数，并按出现次数降序排序。  
// 对降序排序后的数据，取出top 1或者top 100的数据，也就是key最多的前n个数据。  
// 具体取出多少个数据量最多的key，由大家自己决定，我们这里就取1个作为示范。  
JavaPairRDD mappedSampledRDD = sampledRDD.mapToPair(  
        new PairFunction, Long, Long>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2 call(Tuple2 tuple)  
                    throws Exception {  
                return new Tuple2(tuple._1, 1L);  
            }       
        });  
JavaPairRDD countedSampledRDD = mappedSampledRDD.reduceByKey(  
        new Function2() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Long call(Long v1, Long v2) throws Exception {  
                return v1 + v2;  
            }  
        });  
JavaPairRDD reversedSampledRDD = countedSampledRDD.mapToPair(   
        new PairFunction, Long, Long>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2 call(Tuple2 tuple)  
                    throws Exception {  
                return new Tuple2(tuple._2, tuple._1);  
            }  
        });  
final Long skewedUserid = reversedSampledRDD.sortByKey(false).take(1).get(0)._2;  
  
// 从rdd1中分拆出导致数据倾斜的key，形成独立的RDD。  
JavaPairRDD skewedRDD = rdd1.filter(  
        new Function, Boolean>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Boolean call(Tuple2 tuple) throws Exception {  
                return tuple._1.equals(skewedUserid);  
            }  
        });  
// 从rdd1中分拆出不导致数据倾斜的普通key，形成独立的RDD。  
JavaPairRDD commonRDD = rdd1.filter(  
        new Function, Boolean>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Boolean call(Tuple2 tuple) throws Exception {  
                return !tuple._1.equals(skewedUserid);  
            }   
        });  
  
// rdd2，就是那个所有key的分布相对较为均匀的rdd。  
// 这里将rdd2中，前面获取到的key对应的数据，过滤出来，分拆成单独的rdd，并对rdd中的数据使用flatMap算子都扩容100倍。  
// 对扩容的每条数据，都打上0～100的前缀。  
JavaPairRDD skewedRdd2 = rdd2.filter(  
         new Function, Boolean>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Boolean call(Tuple2 tuple) throws Exception {  
                return tuple._1.equals(skewedUserid);  
            }  
        }).flatMapToPair(new PairFlatMapFunction, String, Row>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Iterable> call(  
                    Tuple2 tuple) throws Exception {  
                Random random = new Random();  
                List> list = new ArrayList>();  
                for(int i = 0; i < 100; i++) {  
                    list.add(new Tuple2(i + "_" + tuple._1, tuple._2));  
                }  
                return list;  
            }  
  
        });  
  
// 将rdd1中分拆出来的导致倾斜的key的独立rdd，每条数据都打上100以内的随机前缀。  
// 然后将这个rdd1中分拆出来的独立rdd，与上面rdd2中分拆出来的独立rdd，进行join。  
JavaPairRDD> joinedRDD1 = skewedRDD.mapToPair(  
        new PairFunction, String, String>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2 call(Tuple2 tuple)  
                    throws Exception {  
                Random random = new Random();  
                int prefix = random.nextInt(100);  
                return new Tuple2(prefix + "_" + tuple._1, tuple._2);  
            }  
        })  
        .join(skewedUserid2infoRDD)  
        .mapToPair(new PairFunction>, Long, Tuple2>() {  
                        private static final long serialVersionUID = 1L;  
                        @Override  
                        public Tuple2> call(  
                            Tuple2> tuple)  
                            throws Exception {  
                            long key = Long.valueOf(tuple._1.split("_")[1]);  
                            return new Tuple2>(key, tuple._2);  
                        }  
                    });  
  
// 将rdd1中分拆出来的包含普通key的独立rdd，直接与rdd2进行join。  
JavaPairRDD> joinedRDD2 = commonRDD.join(rdd2);  
  
// 将倾斜key join后的结果与普通key join后的结果，uinon起来。  
// 就是最终的join结果。  
JavaPairRDD> joinedRDD = joinedRDD1.union(joinedRDD2);  

解决方案七：使用随机前缀和扩容RDD进行join

　　方案适用场景：如果在进行join操作时，RDD中有大量的key导致数据倾斜，那么进行分拆key也没什么意义，此时就只能使用最后一种方案来解决问题了。

　　方案实现思路：

　　1、该方案的实现思路基本和“解决方案六”类似，首先查看RDD/Hive表中的数据分布情况，找到那个造成数据倾斜的RDD/Hive表，比如有多个key都对应了超过1万条数据。
　　2、然后将该RDD的每条数据都打上一个n以内的随机前缀。
　　3、同时对另外一个正常的RDD进行扩容，将每条数据都扩容成n条数据，扩容出来的每条数据都依次打上一个0~n的前缀。
　　4、最后将两个处理后的RDD进行join即可。

　　方案实现原理：将原先一样的key通过附加随机前缀变成不一样的key，然后就可以将这些处理后的“不同key”分散到多个task中去处理，而不是让一个task处理大量的相同key。该方案与“解决方案六”的不同之处就在于，上一种方案是尽量只对少数倾斜key对应的数据进行特殊处理，由于处理过程需要扩容RDD，因此上一种方案扩容RDD后对内存的占用并不大；而这一种方案是针对有大量倾斜key的情况，没法将部分key拆分出来进行单独处理，因此只能对整个RDD进行数据扩容，对内存资源要求很高。

　　方案优点：对join类型的数据倾斜基本都可以处理，而且效果也相对比较显著，性能提升效果非常不错。

　　方案缺点：该方案更多的是缓解数据倾斜，而不是彻底避免数据倾斜。而且需要对整个RDD进行扩容，对内存资源要求很高。

　　方案实践经验：曾经开发一个数据需求的时候，发现一个join导致了数据倾斜。优化之前，作业的执行时间大约是60分钟左右；使用该方案优化之后，执行时间缩短到10分钟左右，性能提升了6倍。

[python]  view plain  copy
// 首先将其中一个key分布相对较为均匀的RDD膨胀100倍。  
JavaPairRDD expandedRDD = rdd1.flatMapToPair(  
        new PairFlatMapFunction, String, Row>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Iterable> call(Tuple2 tuple)  
                    throws Exception {  
                List> list = new ArrayList>();  
                for(int i = 0; i < 100; i++) {  
                    list.add(new Tuple2(0 + "_" + tuple._1, tuple._2));  
                }  
                return list;  
            }  
        });  
  
// 其次，将另一个有数据倾斜key的RDD，每条数据都打上100以内的随机前缀。  
JavaPairRDD mappedRDD = rdd2.mapToPair(  
        new PairFunction, String, String>() {  
            private static final long serialVersionUID = 1L;  
            @Override  
            public Tuple2 call(Tuple2 tuple)  
                    throws Exception {  
                Random random = new Random();  
                int prefix = random.nextInt(100);  
                return new Tuple2(prefix + "_" + tuple._1, tuple._2);  
            }  
        });  
  
// 将两个处理后的RDD进行join即可。  
JavaPairRDD> joinedRDD = mappedRDD.join(expandedRDD);  

解决方案八：多种方案组合使用

　　在实践中发现，很多情况下，如果只是处理较为简单的数据倾斜场景，那么使用上述方案中的某一种基本就可以解决。但是如果要处理一个较为复杂的数据倾斜场景，那么可能需要将多种方案组合起来使用。比如说，我们针对出现了多个数据倾斜环节的Spark作业，可以先运用解决方案一和二，预处理一部分数据，并过滤一部分数据来缓解；其次可以对某些shuffle操作提升并行度，优化其性能；最后还可以针对不同的聚合或join操作，选择一种方案来优化其性能。大家需要对这些方案的思路和原理都透彻理解之后，在实践中根据各种不同的情况，灵活运用多种方案，来解决自己的数据倾斜问题。

五. spark使用不当造成的数据倾斜

1. 提高shuffle并行度

dataFrame和sparkSql可以设置spark.sql.shuffle.partitions参数控制shuffle的并发度，默认为200。
rdd操作可以设置spark.default.parallelism控制并发度，默认参数由不同的Cluster Manager控制。

局限性: 只是让每个task执行更少的不同的key。无法解决个别key特别大的情况造成的倾斜，如果某些key的大小非常大，即使一个task单独执行它，也会受到数据倾斜的困扰。

2. 使用map join 代替reduce join

在小表不是特别大(取决于你的executor大小)的情况下使用，可以使程序避免shuffle的过程，自然也就没有数据倾斜的困扰了。

局限性: 因为是先将小数据发送到每个executor上，所以数据量不能太大。

六、使用broadcast（小表使用）和mapPartition（大表使用）减少数据传输等消耗

将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。

如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，运行时间得到大量缩短，根据不同数据可能会有几倍到数十倍的性能提升，这个过程是map-side-join。

下文将会以一个 demo 进行说明。

何时使用

在海量数据中匹配少量特定数据

原理

以前写过一篇关于spark-sql中利用broadcast join进行优化的文章，原理与那篇文章相同，这里重新画了图。

http://blog.csdn.net/lsshlsw/article/details/48694893

reduce-side-join 的缺陷在于会将key相同的数据发送到同一个partition中进行运算，大数据集的传输需要长时间的IO，同时任务并发度收到限制，还可能造成数据倾斜。

reduce-side-join 运行图如下

map-side-join 运行图如下

代码说明

数据1（个别人口信息）:

身份证 姓名 ...
110   lsw 
222   yyy

数据2（全国学生信息）:

身份证 学校名称 学号 ...         
110   s1      211
111   s2      222
112   s3      233
113   s2      244

期望得到的数据 :

身份证 姓名 学校名称
110 lsw s1

将少量的数据转化为Map进行广播，广播会将此 Map 发送到每个节点中，如果不进行广播，每个task执行时都会去获取该Map数据，造成了性能浪费。

val people_info = sc.parallelize(Array(("110","lsw"),("222","yyy"))).collectAsMap()
val people_bc = sc.broadcast(people_info)

对大数据进行遍历，使用mapPartition而不是map，因为mapPartition是在每个partition中进行操作，因此可以减少遍历时新建broadCastMap.value对象的空间消耗，同时匹配不到的数据也不会返回（）。

val res = student_all.mapPartitions(iter =>{
    val stuMap = people_bc.value
    val arrayBuffer = ArrayBuffer[(String,String,String)]()
    iter.foreach{case (idCard,school,sno) =>{
        if(stuMap.contains(idCard)){
        arrayBuffer.+= ((idCard, stuMap.getOrElse(idCard,""),school))
    }
    }}
    arrayBuffer.iterator
})

也可以使用 for 的守卫机制来实现上述代码

val res1 = student_all.mapPartitions(iter => {
    val stuMap = people_bc.value
    for{
        (idCard, school, sno) <- iter
        if(stuMap.contains(idCard))
        } yield (idCard, stuMap.getOrElse(idCard,""),school)
})

完整代码

import org.apache.spark.{SparkContext, SparkConf}
import scala.collection.mutable.ArrayBuffer

object joinTest extends App{

  val conf = new SparkConf().setMaster("local[2]").setAppName("test")
  val sc = new SparkContext(conf)

  /**
   * map-side-join
   * 取出小表中出现的用户与大表关联后取出所需要的信息
   * */
  //部分人信息(身份证,姓名)
  val people_info = sc.parallelize(Array(("110","lsw"),("222","yyy"))).collectAsMap()
  //全国的学生详细信息(身份证,学校名称,学号...)
  val student_all = sc.parallelize(Array(("110","s1","211"),
                                              ("111","s2","222"),
                                              ("112","s3","233"),
                                              ("113","s2","244")))

  //将需要关联的小表进行关联
  val people_bc = sc.broadcast(people_info)

  /**
   * 使用mapPartition而不是用map，减少创建broadCastMap.value的空间消耗
   * 同时匹配不到的数据也不需要返回（）
   * */
  val res = student_all.mapPartitions(iter =>{
    val stuMap = people_bc.value
    val arrayBuffer = ArrayBuffer[(String,String,String)]()
    iter.foreach{case (idCard,school,sno) =>{
      if(stuMap.contains(idCard)){
        arrayBuffer.+= ((idCard, stuMap.getOrElse(idCard,""),school))
      }
    }}
    arrayBuffer.iterator
  })

  /**
   * 使用另一种方式实现
   * 使用for的守卫
   * */
  val res1 = student_all.mapPartitions(iter => {
    val stuMap = people_bc.value
    for{
      (idCard, school, sno) <- iter
      if(stuMap.contains(idCard))
    } yield (idCard, stuMap.getOrElse(idCard,""),school)
  })

  res.foreach(println)

你可能感兴趣的:(spark,缓存,spark数据倾斜)

【前端】面试八股文——输入URL到页面展示的过程帅比九日面试八股文前端面试 javascript
【前端】面试八股文——输入URL到页面展示的过程1.DNS解析当用户在浏览器中输入URL并按下回车时，首先需要将域名转换为IP地址，这个过程称为DNS（域名系统）解析。具体步骤如下：浏览器缓存：浏览器首先检查自身缓存中是否有该域名的IP地址。操作系统缓存：如果浏览器缓存中没有找到，浏览器会向操作系统请求DNS信息。路由器缓存：如果操作系统缓存也没有找到，操作系统会向本地网络中的路由器请求DNS信息
【八股文】从浏览器输入一个url到服务器的流程白衣神棍八股文 web
1.url解析与DNS解析浏览器解析用户输入的URL，提取协议（HTTP\HTTPS）、域名、端口及路径等信息浏览器首先检查本地DNS缓存和系统DNS缓存，若未命中，查询本地hosts文件最后递归查询向本地DNS服务器发起请求，获取域名对应的IP地址这里我想插入一段，讲讲本地DNS缓存、系统DNS缓存、Hosts文件、DNS服务器几者之间的关系首先，不要觉得很复杂，其实本质就是为了根据域名拿IP地
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
思途CMS高并发、高性能、高可用架构设计 php
一、整体架构概述思途CMS采用分层架构设计，整体架构分为客户层、接入层、站点层、数据存储层和缓存层。各层之间通过松耦合的方式协同工作，确保系统在高并发场景下的高性能和高可用性。通过分布式部署、负载均衡、多级缓存等技术手段，思途CMS能够有效应对大规模用户访问，保障系统的稳定性和响应速度。二、各层技术特点及实现方式客户层1.1CDN加速思途CMS支持与主流CDN服务商（如阿里云CDN、腾讯云CDN等
数据库 + Spring Boot + Vue 全栈交互逻辑详解代码CC Java项目-开发 spring boot vue.js mysql 数据库开发语言
目录整体架构概述技术栈说明数据库设计规范SpringBoot后端架构Vue前端架构完整交互流程关键技术实现细节安全与性能优化异常处理机制整体架构概述graphTDA[Vue前端]-->|HTTP请求|B(SpringBoot后端)B-->|JDBC/ORM|C[(数据库)]C-->|返回数据|BB-->|JSON响应|AA-->|状态管理|D[VuexStore]B-->|缓存|E[Redis]B
第十三章 Java多线程——阻塞队列龙少丶 java java 开发语言
13.1阻塞队列的由来我们假设一种场景，生产者一直生产资源，消费者一直消费资源，资源存储在一个缓存池中，生产者将生产的资源存进缓存池中，消费者从缓存池中拿到资源进行消费，这就是大名鼎鼎的生产者-消费者模式。该模式能够简化开发过程，一方面消除了生产者与消费者类之间的代码依赖性，另方面将生产数据的过程与使用数据的过程解耦简单化负载。我们⾃⼰coding实现这个模式的时候，因为需要让多个线程操作共享变量
http 从请求到响应的过程中发生了什么沃野_juededa http 网络协议网络
‌DNS域名解析‌：当用户在浏览器地址栏输入网址时，浏览器首先会尝试从自身的DNS缓存中查找域名的IP地址。如果缓存中没有找到，浏览器会向系统DNS缓存、hosts文件以及本地DNS服务器发起查询请求，最终获取到域名的IP地址‌。‌TCP三次握手‌：浏览器与服务器建立TCP连接，这个过程称为三次握手。服务器监听端口，客户端发送SYN包请求连接，服务器响应SYN+ACK包，客户端再次发送ACK包确认
单例模式 (Singleton Pattern) 直隶码农二十三种设计模式单例模式 c++设计模式
单例模式(SingletonPattern)是一种创建型设计模式，确保一个类只有一个实例，并提供一个全局访问点。一、基础1.意图确保一个类只有一个实例。提供一个全局访问点。2.适用场景一个类只需要一个实例来协调系统行为时，例如数据库连接池，线程池、缓存、日志对象等。需要控制实例数目，节省系统资源，避免重复创建和浪费，同时保证数据的一致性和正确性。3.结构一个静态成员变量一个私有构造函数一个静态方法
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
react加antd封装表格单、多选组件，支持跨页选择缓存 Cirrod react.js 缓存 javascript
页面效果子组件importReact,{useState,useEffect,forwardRef,useImperativeHandle}from'react';import{Modal,Input,Table,Pagination,Avatar,Select}from'antd';import{UserOutlined}from'@ant-design/icons';importtype{Ta
HarmonyNext实战：基于ArkTS的高性能网络请求与缓存优化案例详解 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能网络请求与缓存优化案例详解在现代移动应用开发中，网络请求是不可避免的核心功能之一。然而，频繁的网络请求不仅会增加服务器负担，还会影响应用的性能和用户体验。HarmonyOSNext提供了强大的网络请求框架和缓存机制，帮助开发者优化网络请求性能。本文将深入探讨如何在HarmonyOSNext中使用ArkTS实现高性能网络请求与缓存优化。通过一个完整的
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
pyspark 遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\ 2pi spark python
Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_22732/1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\pyspark\sql\data
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
libilibi项目优化（1）使用Redis实现缓存 Nijika... libilibi项目优化缓存 redis 数据库 java 后端 spring
第一版获取视频信息使用旁路缓存当视频信息存在缓存中时（命中），直接从缓存中获取。不存在缓存中时，先从数据库中查出对应的信息，写入缓存后再放回数据。//获取视频详细信息@RequestMapping("/getVideoInfo")publicResponseVOgetVideoInfo(@NotEmptyStringvideoId){//旁路缓存模式，先从缓存中拿VideoInfovideoInf
Java常用集合与映射的线程安全问题深度解析 misschen888 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Java常用集合与映射的线程安全问题深度解析 longdong7889 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Java常用集合与映射的线程安全问题深度解析 jiajia651304 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Spring Boot实战：MySQL与Redis数据一致性深度解析与代码实战算法探险家 spring boot mysql redis
SpringBoot实战：MySQL与Redis数据一致性深度解析与代码实战一、数据一致性问题概述二、常见解决方案三、选择合适的解决方案四、总结在SpringBoot开发中，MySQL作为关系型数据库，提供了强大的数据存储和查询能力；而Redis作为内存数据库，以其高速读写性能成为缓存层的首选。然而，当这两者共同服务于一个系统时，如何确保它们之间的数据一致性，成为了一个不可忽视的问题。本文将深入探
Spring Boot 整合 Redis 使用教程小小鸭程序员 spring java spring boot mysql redis
Redis是一种高性能的键值存储数据库，常用于缓存、会话管理和消息队列等场景。SpringBoot通过SpringDataRedis提供了简洁的整合方式。1.环境准备1.1添加依赖在pom.xml中添加Redis依赖（SpringBoot3.x）：org.springframework.bootspring-boot-starter-data-redisredis.clientsjedis2.配置
蓝桥杯Python赛道备赛——Day7：动态规划（基础） SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就蓝桥杯中所涉及的动态规划基础问题进行讲解，包括：递推、记忆化搜索、最长公共子序列（LCS）和最长上升子序列（LIS）。每一种动态规划问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法动态规划（基础）一、递推（迭代法）二、记忆化搜索（递归+缓存）三、最长公共子序列（LCS）四、最长上升子序列（LIS）一、递推（迭代法）定义
Redis系列：深入理解缓存穿透、缓存击穿、缓存雪崩及其解决方案菜就多练少说 Redis 缓存 redis 数据库
在使用Redis作为缓存系统时，我们经常会遇到“缓存穿透”、“缓存击穿”和“缓存雪崩”等问题，这些问题一旦出现，会严重影响应用性能甚至造成服务不可用。因此，理解这些问题的产生原因和解决方案非常重要。本文将全面讲解缓存穿透、缓存击穿、缓存雪崩的具体概念、产生原因、以及对应的解决策略，帮助开发人员高效、安全地使用Redis。一、缓存穿透（CachePenetration）（一）什么是缓存穿透？缓存穿透
Android Fresco 框架扩展模块源码深度剖析(四) &有梦想的咸鱼& Anddroid Fresco原理分析 Android开发大全 android
一、引言在Android开发领域，图片处理一直是一个重要且具有挑战性的任务。Fresco作为Facebook开源的强大图片加载框架，在图片的加载、缓存和显示等方面已经提供了非常完善的功能。然而，为了满足不同开发者多样化的需求，Fresco设计了丰富的扩展模块，这些扩展模块允许开发者根据自身项目的特点对框架进行定制和扩展。本文将深入剖析Fresco框架的扩展模块，从源码级别进行详细分析，帮助开发者更
C/C++高效编译工具ccache 工头阿乐 C/C++c语言 c++java
C/C++文章目录C/C++前言一、引入ccache二、ccache基本原理三、安装前言在处理一些规模相对较大的工程时，编译花费的时间可能会很长。有时候我们会经常一遍一遍地编译相同的程序，此时，有了ccache情况就好多了。它将在第一遍编译时多花几秒钟，但接下来就会使编译成倍（5-10倍）的提速。ccache的基本原理是通过将头文件高速缓存到源文件之中而改进了构建性能，因而通过减少每一步编译时添加
【重回基础】理解CPU Cache及缓存一致性MESI Patrick_Lam 重回基础 CPU Cache MESI 缓存一致性
文章目录一、前言二、为何需要CPUCache三、L1、L2、L3Cache三级缓存结构四、CacheLine：与内存数据交换的最小单位五、MEIS：缓存一致性5.1底层操作5.2MESI协议参考一、前言原打算重新学习一下volatile的实现原理，其中涉及到指令调度重排和数据可见性保证，这两者的理解离不开对CPUCache的掌握，因此，先重温一下CPUCache，便有了本文。二、为何需要CPUCa
CPU多级缓存 MESI－CPU缓存一致性协议以及乱序执行优化 H_Ystar Java并发基础
一、CPU的多级缓存1.为什么需要CPU缓存在一个典型的系统中，可能会有几个缓存共享主存，每个相应的CPU会发出读写请求，CPU的频率太快了，快的主存跟不上，这样主存常常需要等待主存，而缓存的目的是为了减少CPU读写共享主存的次数，解决CPU和主存速度不匹配的问题。2.CPU缓存有什么意义时间局部性：如果某个数据被访问，那么不久的将来它有可能会再次被访问。空间局部性：如果某个数据被访问，那么与它相
JavaScript 性能优化实战：优化 DOM 操作提升交互响应 deying0865423 javascript 开发语言 ecmascript
目录一、理解DOM操作的性能损耗二、减少DOM操作次数（一）批量操作DOM（二）缓存DOM查询结果三、优化DOM查询（一）使用更高效的查询方法（二）利用事件委托四、减少回流与重绘（一）批量修改样式（二）使用requestAnimationFrame在现代Web应用开发中，JavaScript与DOM（文档对象模型）的交互极为频繁。无论是创建动态界面、响应用户操作，还是更新页面内容，DOM操作都扮演
java的WeakHashMap可以用来做缓存使用？强软弱虚四种引用对比爱的叹息 Java 基础整理 java 缓存 jvm
在Java中，引用（Reference）机制用于管理对象的生命周期和垃圾回收。Java提供了四种类型的引用：强引用（StrongReference）、软引用（SoftReference）、弱引用（WeakReference）和虚引用（PhantomReference）。WeakHashMap使用弱引用来存储键，从而在键不再被强引用引用时自动移除对应的条目。下面是WeakHashMap的使用方法以及
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu