猫猫爱吃小鱼粮

Flink Shuffle、Spark Shuffle、Mr Shuffle 对比

总结：

1、Flink Shuffle

Pipelined Shuffle：上游 Subtask 所在 TaskManager 直接通过网络推给下游 Subtask 的 TaskManager；

Blocking Shuffle：
Hash Shuffle-将数据按照下游每个消费者一个文件的形式组织；
Sort-Merge Shuffle-将上游所有的结果写入同一个文件，文件内部再按照下游消费者的 ID 进行排序并维护索引，下游读取数据时，按照索引来读取大文件中的某一段；

Hybrid Shuffle：支持以内存或文件的方式存储上游产出的结果数据，原则是优先内存，内存满了后 spill 到文件，无论是在内存还是文件中，所有数据在产出后即对下游可见。

2、Spark Shuffle

Shuffle Write：对Map结果进行聚合、排序、分区输出；
Shuffle Read：拉取Map结果进行聚合、排序；

3、MapReduce shuffle

Map计算后：对Map的结果进行分区、溢写、排序、合并输出到文件中；
Reduce计算前：拉取Map输出的结果文件中属于自己分区的数据，进行合并排序；

一、Flink Shuffle 详解

0、总结

Pipelined Shuffle：上游 Subtask 所在 TaskManager 直接通过网络推给下游 Subtask 的 TaskManager；

Blocking Shuffle：

**Hash Shuffle：**将数据按照下游每个消费者一个文件的形式组织；

**Sort-Merge Shuffle：**将上游所有的结果写入同一个文件，文件内部再按照下游消费者的 ID 进行排序并维护索引，下游读取数据时，按照索引来读取大文件中的某一段；

**Hybrid Shuffle：**支持以内存或文件的方式存储上游产出的结果数据，原则是优先内存，内存满了后 spill 到文件，无论是在内存还是文件中，所有数据在产出后即对下游可见。

1、概述

数据分治的核心：Shuffle；

计算分治的核心：调度器；

2、流计算的 Pipelined Shuffle

1）概述

Flink 流计算的 Shuffle，所有 Task 同时在运行，上下游 Task 通过网络流式地传输中间结果，不需要落盘，这种 Shuffle 被称为 Pipelined Shuffle。

2）算子

DataStream 的 keyBy 或 rescale等分区算子；

SQL 中的 Group By；

3）WebUI

在可视化的 DAG 上就是上下游划分到不同的两个节点，两者以一条边相连，边的类型有 HASH、BROADCAST、REBALANCE 等。

4）核心

逻辑上的 Partition 有多种算法，区别仅在于产出的结果如何划分给不同的下游 Subtask；

将中间结果提供给不同的下游 Subtask 读取，Partition 算法决定如何划分出 Subpartition，而 Shuffle 决定如何将 Subpartition 传递给 InputGate。

**Pipelined Shuffle：**上游 Subtask 所在 TaskManager 直接通过网络推给下游 Subtask 的 TaskManager。

Flink 在 TaskManager 里内嵌了基于 Netty 的 Shuffle Service，计算得出的中间数据会存到 TaskManager 的缓存池中，由 Netty 去定时轮询发送给下游。

3、批计算的 Blocking Shuffle

1）概述

批计算的上下游 Subtask 通常不会同时调度起来，所以上游产出数据首先需要落盘存储，等下游调度起来再去读取，这种方式被称为 Blocking Shuffle。

Blocking Shuffle 有 Hash Shuffle 和 Sort-Merge Shuffle 两种常见策略。

2）Hash Shuffle

Hash Shuffle 是将数据按照下游每个消费者一个文件的形式组织，当并行度高时会产生大量的文件，容易耗光操作系统的文件描述符，并产生大量随机 IO 对 HDD 磁盘不友好，此外每个文件需要一个独立 Buffer 占内存过多。

3）Sort-Merge Shuffle

Sort-Merge Shuffle 是将上游所有的结果写入同一个文件，文件内部再按照下游消费者的 ID 进行排序并维护索引，下游有读取数据请求时，则按照索引来读取大文件中的某一段。

4、流批一体的 Hybrid Shuffle

1）概述

目前的 Hybrid Shuffle 只针对批场景有效。

Hybird Shuffle 支持以内存（Pipelined Shuffle 风格）或文件（Blocking Shuffle 风格）的方式存储上游产出的结果数据，原则是优先内存，内存满了后 spill 到文件。

无论是在内存或者文件中，所有数据在产出后即对下游可见，因此可以同时支持流式的消费或批式的消费。

2）Blocking Shuffle 问题

排斥上下游同时运行，因为上游计算结束之前，下游是没办法访问到其不完整的结果数据的，即使调度下游 Subtask 也只会让其空跑。

流批一体优化：

如果在执行上游作业时，集群有空余资源能跑下游作业，可以尽量 fallback 回 Pipelined Shuffle，用空间换时间，让作业更快完成。

3）案例

背景：以 WordCount 作业为例，假设一共有 2 个 Map 和 2 个 Reduce，但现在计算资源只有 3 个 slot，采用不同的 Shuffle 有以下效果

Blocking Shuffle: 先调度 2 个 Map，再调度 2 个 Reduce，有 1 个 slot 被浪费。
Pipelined Shuffle: 要求 4 个 slot，因此作业无法运行。
Hybird Shuffle: 先调度 2 个 Map 和 1 个 Reduce，剩余一个 Reduce 等三者任意一个完成后再调度。

Map 产出的 Subpartition 1 被下游的 Reduce 1 流式读取，因此数据很可能是缓存在内存中；而 Subpartition 2 由于消费者 Reduce 2 还未运行，所以数据可能会在内存满之后 spill 到磁盘，等 Reduce 2 启动后再读取。

二、Spark Shuffle 详解

0、总结

**Shuffle Write：**对Map结果进行聚合、排序、分区输出；

**Shuffle Read：**拉取MapTask的结果进行聚合、排序；

1、概述

Spark Shuffle 是发生在宽依赖(Shuffle Dependency)的情况下，上游 Stage 和下游 Stage 之间传递数据的一种机制。

Shuffle 解决的是如何将数据重新组织，使其能够在上游和下游 task 之间进行传递和计算。

2、难点

需要计算（如聚合、排序）

数据量很大

3、分类

Spark Shuffle 分为 Shuffle Write 和 Shuffle Read 两个部分。

Shuffle Write：解决上游 Stage 输出数据的分区问题；

Shuffle Read：解决下游Stage从上游Stage获取数据、重新组织、并为后续操作提供数据的问题；

4、Shuffle Write

1）概述

Shuffle Write 阶段，数据操作需要分区、聚合和排序，不同的数据操作所需要的功能不同，有些数据操作只需要一到两个功能。

Shuffle Write有一个总体的设计框架，即 “map()输出->数据聚合（combine）->排序（sort）->分区”。

2）不需要聚合（combine）和排序（sort）

只需将数据分区，输出每条数据并通过hash取模（hashcode(key)%numPartitions）计算其分区id，然后按照分区 id 输入到不同的buffer 中，每当 buffer 填满时就溢写到磁盘分区文件中。

使用 buffer 是为了减少磁盘 I/O 次数，用缓冲提高效率，这种 Shuffle Write 叫做 BypassMergeSortShuffleWriter。

优点：

速度快，不需要聚合和排序操作，直接按照分区输出

缺点：

资源消耗高，每个分区都需要一个 buffer 和分区文件，不适合过大的分区数

场景：

map 端不需要聚合 (combine)、Key 不需要排序且分区个数较少 (spark.Shuffle.sort.bypassMergeThreshold，默认值为200)

例如，groupByKey(100)，partitionBy(100)，sortByKey(100) 等。

3）不需要聚合（combine），但需要排序（sort）

在计算出分区 id 后，会把数据放到一个 Array 中，会让 Array 的 Key 变成分区 id+Key 的形式，在 Spark Shuffle 中，这个 Array 叫PartitionedPairBuffer。

然后按照分区 id+Key 做排序，如果在接收数据过程中 buffer 满了，会先扩容，如果还存不下，会将当前 buffer 排序后溢写到磁盘，清空 buffer 继续写。

等数据输出完后，再将 Array 和磁盘的数据做全局排序，得到一个大的排序的分区文件，这个 Shuffle 模式叫做SortShuffleWrite。

优点：

可以按照分区 id+Key 排序，并且 buffer 有扩容和溢写的功能，最后会整合到一个分区文件中，减少了磁盘I/O

缺点：

排序提高了计算时延

场景：

map 端不需要聚合（combine）、Key 需要排序、分区个数无限制

注意：

目前 Spark 没有提供这种排序类型的数据操作，sortByKey 操作虽然需要按 Key 排序，但排序过程在 Shuffle Read 端完成即可，不需要在 Shuffle Write 端排序。

BypassMergeSortShuffleWriter 的问题是分区过多 (>200) 会导致 buffer 过大、建立和打开文件数过多，可以将 SortShuffleWrite 中的"按照分区id+Key排序"改为“只按分区id排序”，就可以支持第一种情况中分区数过多的问题，例如 groupByKey(300)、partitionBy(300)、sortByKey(300)。

4）需要聚合（combine），需要或者不需要按Key进行排序（sort）

在数据聚合阶段，Spark Shuffle 会创建一个 Map 结构来聚合数据，Map 的数据格式是<(PID, K), V>，每次来数据时会按照分区id+Key来给数据做聚合，每来一条新数据就以 Map 的旧数据去更新 Map 的值。

数据聚合后，会通过 Array 将数据排序，如果需要按照 Key 排序，就按照分区id+Key来排序；如果不需要按照Key排序，那么只按照分区id排序。

如果Map放不下，会先扩容一倍，如果还放不下，就把Map中的数据排序后溢写到磁盘，并清空Map继续聚合，这个操作可以重复多次，当数据处理完后，会把Map数据和磁盘中的数据再次聚合(merge)，最后得到一个聚合与排序后的分区文件。

优点：

只需要一个Map结构就可以支持map()端的combine功能，Map具有扩容和spill到磁盘的功能，支持小规模到大规模数据的聚合，也适用于分区个数很大的情况。

在聚合后使用Array排序，可以灵活支持不同的排序需求。

缺点：

在内存中聚合，内存消耗较大，需要额外的数组进行排序，如果有数据spill到磁盘上，还需要再次进行聚合。

注意：

Spark在Shuffle Write中，使用一个经过特殊设计和优化的Map，命名为PartitionedAppendOnlyMap，可以同时支持聚合和排序操作，相当于Map和Array的合体。

场景：

适合 map 端聚合（combine）、需要或者不需要按 Key 排序、分区个数无限制，如reduceByKey()、aggregateByKey()等。

5）总结

Shuffle Write 框架执行的3个步骤是"数据聚合→排序→分区"。

如果应用中的数据操作不需要聚合，也不需要排序，而且分区个数很少，可以直接输出，即BypassMergeSortShuffleWriter。
为克服BypassMergeSortShuffleWriter打开文件过多、buffer分配过多的缺点，也为了支持需要按Key排序的操作，Spark提供了SortShuffleWriter，基于Array排序的方法，以分区id或分区id+Key排序，只输出单一的分区文件即可。
为支持map()端combine操作，Spark提供了基于Map的SortShuffleWriter，将Array替换为类似HashMap的操作来支持聚合操作，在聚合后根据partitionId或分区id+Key对record排序，并输出分区文件。

5、Shuffle Read

1）概述

Shuffle Read 需要 “跨节点数据获取->聚合->排序”

Reduce Task从各个Map Task端获取属于该分区的数据，然后使用Map边获取数据边聚合，聚合完成后，放到Array中根据Key排序，最后将结果输出或者传递给下一个操作。

不需要聚合或排序的算子可以省下这些功能。

2）不需要聚合（combine）和排序（sort）

只需把各个Map Task获取的数据输出到buffer即可。

优点：

逻辑和实现简单，内存消耗小

缺点：

不支持聚合、排序等复杂功能

场景：

既不需要聚合也不需要排序的应用，如partitionBy()等。

3）不需要聚合（combine），需要按Key排序

把数据从Map Task端获取后，将buffer中的数据输出到一个Array中，使用Shuffle Write的PartitionedPairBuffer排序，保留了分区id，即使一个Reduce Task中的分区都是相同的。

当内存无法存下数据时，PartitionedPairBuffer会尝试扩容，若内存仍不够，就会在排序后将数据溢写到磁盘中，当所有数据都接收到后，再将buffer中的数据和磁盘中的数据做merge sort。

优点：

只需要一个Array就可以按照Key排序

Array大小可控，可以扩容和spill到磁盘，不受数据规模限制

缺点：

排序增加计算时延

场景：

适合reduce端不需要聚合，但需要按Key进行排序的操作，如sortByKey()、sortBy()等。

4）需要聚合（combine）不需要或者需要按Key进行排序（sort）

获取数据后会建立一个Map来对数据做聚合（ExternalAppendOnlyMap）聚合操作和Shuffle Write一致，用旧值和新数据更新新值。

聚合操作后，如果需要排序，就建立一个Array并排序，排序后将结果输出或者传递给下一步操作。

如果Map放不下，会先扩容一倍，如果还不够，会在排序后溢写到磁盘，数据都处理完后再将内存和磁盘的数据做聚合、排序，再将数据交给下一步操作。

优点：

只需要一个Map和一个Array就可以支持reduce端的聚合和排序功能

Map 具有扩容和spill到磁盘的功能，支持小规模到大规模数据的聚合，边获取数据边聚合，效率较高

缺点：

需要在内存中聚合，内存消耗较大，如果有数据spill到磁盘上，还需要再次聚合

经过HashMap聚合后的数据仍然需要拷贝到Array中排序，内存消耗较大

场景：

适合reduce端需要聚合、不需要或需要按Key排序的操作，如reduceByKey()、aggregateByKey()等。

5）总结

Shuffle Read框架执行的3个步骤是 “数据获取→聚合→排序输出”

对于需要按Key进行排序的操作，Spark 使用基于Array的方法来对Key进行排序。
对于需要聚合的操作，Spark提供了基于HashMap的聚合方法，可以再次使用Array来支持按照Key排序。

6、为高效聚合和排序所设计的数据结构

1）概述

为提高Shuffle的聚合与排序性能，Spark Shuffle设计了三种数据结构，基本思想都是在内存中对record进行聚合和排序，如果存放不下，则进行扩容，如果还存放不下，就将数据排序后spill到磁盘，最后将磁盘和内存中的数据聚合、排序，得到最终结果。

2）特征

Shuffle Write/Read过程中使用数据结构的两个特征：

一是只需要支持record的插入和更新操作，不需要支持删除操作，可以对数据结构进行优化，减少内存消耗；

二是只有内存放不下时才需要spill到磁盘，数据结构的设计以内存为主，磁盘为辅；

3）AppendOnlyMap

AppendOnlyMap是一个只支持record添加和对Value更新的HashMap。

与Java HashMap采用“数组+链表”实现不同，AppendOnlyMap只使用数组来存储元素，根据元素的Hash值确定存储位置，如果存储元素时发生Hash值冲突，则使用二次地址探测法（Quadratic probing）来解决Hash值冲突。

对于每个新来的〈K，V〉record，先使用Hash（K）计算其存放位置，如果存放位置为空，就把record存放到该位置。如果该位置已经被占用，就使用二次探测法来找下一个空闲位置。

**举例：**对于新来的〈K6，V6〉record，第1次找到的位置Hash（K6）已被K2占用，按照二次探测法向后递增1个record位置，也就是Hash（K6）+1×2，发现位置已被K3占用，然后向后递增4个record位置（指数递增，Hash（K6）+2×2），发现位置没有被占用，放进去即可。

**扩容：**AppendOnlyMap使用数组实现的问题是，如果插入record太多，很快会被填满，Spark的解决方案是，如果AppendOnlyMap的利用率达到70%，就扩张一倍，扩张意味着原来的Hash失效，因此对所有Key进行rehash，重新排列每个Key的位置。

**排序：**由于AppendOnlyMap采用数组作为底层存储结构，支持快速排序等排序算法，先将数组中所有的〈K，V〉record转移到数组的前端，用begin和end来标示起始位置，然后调用排序算法对[begin，end]中的record排序，对于需要按Key排序的操作，如sortByKey，可以按照Key值排序；对于其他操作，只按照Key的Hash值排序即可。

4）ExternalAppendOnlyMap

1.ExternalAppendOnlyMap

a) AppendOnlyMap

优点：将聚合和排序功能结合在一起

缺点：只能使用内存，难以适用于内存空间不足的情况

方案：

Spark基于AppendOnlyMap设计实现了基于内存+磁盘的ExternalAppendOnlyMap，用于Shuffle Read端大规模数据聚合。

b）ExternalAppendOnlyMap

工作原理：

先持有一个AppendOnlyMap来不断接收和聚合新来的record，AppendOnlyMap快被装满时检查内存剩余空间是否可以扩展，可直接在内存中扩展，不可对AppendOnlyMap中的record进行排序，然后将record都spill到磁盘上。

因为record不断到来，可能会多次填满AppendOnlyMap，所以spill过程可以出现多次，最终形成多个spill文件。

等record都处理完，此时AppendOnlyMap中可能还留存聚合后的record，磁盘上也有多个spill文件。

ExternalAppendOnlyMap的最后一步是将内存中AppendOnlyMap的数据与磁盘上spill文件中的数据进行全局聚合，得到最终结果。

核心问题：

i）如何获知当前AppendOnlyMap的大小？因为AppendOnlyMap中不断添加和更新record，其大小是动态变化的，什么时候会超过内存界限是难以确定的。

ii）如何设计spill的文件结构，使得可以支持高效的全局聚合？

iii）怎样全局聚合？

AppendOnlyMap的大小估计

难点：

已知AppendOnlyMap中持有的数组的长度和大小，但数组里面存放的是Key和Value的引用，并不是实际对象（object）大小，而且Value会不断被更新，实际大小不断变化，想准确得到AppendOnlyMap的大小比较困难。

简单的解决方法

每次插入record或对现有record的Value更新后，扫描AppendOnlyMap中存放的record，计算每个record实际对象大小并相加，但这非常耗时，一般AppendOnlyMap会插入几万甚至几百万个record，如果每个record进入AppendOnlyMap都计算一遍，开销很大。

Spark设计的增量式的高效估算算法

在每个record插入或更新时，根据历史统计值和当前变化量直接估算当前AppendOnlyMap的大小，算法的复杂度是O(1)，开销很小。

在record插入和聚合过程中会定期对当前AppendOnlyMap中的record抽样，然后精确计算record的总大小、总个数、更新个数及平均值等，并作为历史统计值。

进行抽样是因为AppendOnlyMap中的record可能有上万个，难以对每个都精确计算，之后，每当有record插入或更新时，会根据历史统计值和历史平均的变化值，增量估算AppendOnlyMap的总大小，抽样也会定期进行，更新统计值以获得更高的精度。

Spill过程与排序

当AppendOnlyMap达到内存限制时，会将record排序后写入磁盘中，排序是为了方便下一步全局聚合（聚合内存和磁盘上的record）时可以采用更高效的merge-sort（外部排序+聚合）。

根据什么对record排序？

大部分操作，如groupByKey()，并没有定义Key的排序方法，也不需要输出结果是按照Key排序的，在这种情况下，Spark采用按照Key的Hash值排序的方法，既可以进行merge-sort，又不要求操作定义Key排序的方法，这种方法的问题是会出现Hash值冲突，也就是不同的Key具有相同的Hash值，为了解决这个问题，Spark在merge-sort的同时会比较Key的Hash值是否相等，以及Key的实际值是否相等。

由于最终的spill文件和内存中的AppendOnlyMap都是经过部分聚合后的结果，可能存在相同Key的record，还需要一个全局聚合阶段将AppendOnlyMap中的record与spill文件中的record聚合，得到最终聚合后的结果。

方案：

全局聚合的方法是建立一个最小堆或最大堆，每次从各个spill文件中读取前几个具有相同Key（或者相同Key的Hash值）的record，然后与AppendOnlyMap中的record进行聚合，并输出聚合后的结果。

举例：

在全局聚合时，Spark分别从4个spill文件中提取第1个〈K，V〉record，与还留在AppendOnlyMap中的第1个record组成最小堆，然后不断从最小堆中提取具有相同Key的record进行聚合merge，然后，Spark继续读取spill文件及AppendOnlyMap中的record填充最小堆，直到所有record处理完成，由于每个spill文件中的record是经过排序的，按顺序读取和聚合可以保证对每个record得到全局聚合的结果。

总结：

ExternalAppendOnlyMap是一个高性能的HashMap，只支持数据插入和更新，但可以同时利用内存和磁盘对大规模数据进行聚合和排序，满足了Shuffle Read阶段数据聚合、排序的需求。

2.PartitionedAppendOnlyMap

PartitionedAppendOnlyMap用于在Shuffle Write端对record聚合combine，PartitionedAppendOnlyMap的功能和实现与ExternalAppendOnlyMap的功能和实现基本一致。

唯一区别是PartitionedAppendOnlyMap中的Key是"PartitionId+Key"，既可以根据partitionId排序（面向不需要按Key排序的操作），也可以根据partitionId+Key排序（面向需要按Key排序的操作），从而在Shuffle Write阶段进行聚合、排序和分区。

3.PartitionedPairBuffer

PartitionedPairBuffer本质上是一个基于内存+磁盘的Array，随着数据添加，不断扩容，当到达内存限制时，就将Array中的数据按照partitionId或partitionId+Key排序，然后spill到磁盘上，该过程可以进行多次，最后对内存和磁盘上的数据进行全局排序，输出或者提供给下一个操作。

三、MapReduce shuffle 详解

0、总结

Map计算后：对Map的结果进行分区、溢写、排序、合并输出到文件中；

Reduce计算前：拉取Map输出的结果文件中属于自己分区的数据，进行合并排序；

1、MapReduce 计算模型

MapReduce 计算模型由三个阶段构成：Map、shuffle、Reduce。

Map：将原始数据转化为键值对；

Reduce：将具有相同key值的value处理后再输出新的键值对作为最终结果；

Shuffle：对Map的输出进行排序与分割，然后交给对应的Reduce，以便Reduce可以并行处理Map的结果；

Shuffle过程包含在Map和Reduce两端，即Map shuffle和Reduce shuffle。

2、Map shuffle

对Map的结果，分区、排序、分割，然后将属于同一分区的输出合并在一起并写在磁盘上，最终得到一个分区有序的文件，分区有序的含义是map输出的键值对按分区排列，具有相同partition值的键值对存储在一起，每个分区里面的键值对又按key值升序排列。

1）Partition

map输出的每一个键值对，系统都会给定一个partition，partition值默认是通过计算key的hash值后对Reduce task的数量取模获得。

2）Collector

Map的输出结果由collector处理，每个Map任务不断地将键值对输出到在内存中构造的一个环形数据结构中，使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。

环形数据结构是字节数组叫Kvbuffer，不仅存储数据，还存储索引，放置索引的区域叫Kvmeta。

数据区域和索引数据区域在Kvbuffer中是相邻不重叠的两个区域，用一个分界点来划分两者，分界点不是亘古不变的，而是每次Spill之后都会更新一次。初始的分界点是0，数据的存储方向是向上增长，索引数据的存储方向是向下增长。

bufindex：

Kvbuffer的存放指针bufindex是向上增长，比如bufindex初始值为0，一个Int型的key写完之后，bufindex增长为4，一个Int型的value写完之后，bufindex增长为8。

Kvindex：

索引是对在kvbuffer中的键值对的索引，是个四元组，包括：value的起始位置、key的起始位置、partition值、value的长度，占用四个Int长度，Kvmeta的存放指针Kvindex每次向下跳四个“格子”，然后再向上一个格子一个格子地填充四元组的数据。

比如Kvindex初始位置是-4，当第一个键值对写完之后，(Kvindex+0)的位置存放value的起始位置、(Kvindex+1)的位置存放key的起始位置、(Kvindex+2)的位置存放partition的值、(Kvindex+3)的位置存放value的长度，然后Kvindex跳到-8位置，等第二个键值对和索引写完之后，Kvindex跳到-12位置。

Kvbuffer：

Kvbuffer的大小可以通过io.sort.mb设置，默认大小为100M，随着键值对和索引不断增加，当容量不足时，把数据从内存刷到磁盘上再接着往内存写数据，把Kvbuffer中的数据刷到磁盘上的过程就叫Spill。

Spill触发的条件：

如果把Kvbuffer用完再开始Spill，那Map任务就需要等Spill完成之后才能继续写数据；

如果Kvbuffer到达80%开始Spill，那在Spill的同时，Map任务还能继续写数据，Spill的阈值通过io.sort.spill.percent，默认是0.8。

Sort：

Spill由Spill线程承担，Spill线程从Map任务接到"命令"开始SortAndSpill，SortAndSpill先把Kvbuffer中的数据按照partition值和key两个关键字升序排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。

Spill：

Spill线程为此次Spill过程创建一个磁盘文件：从所有的本地目录中轮训查找能存储这么大空间的目录，找到之后在其中创建一个文件。

Spill线程根据排过序的Kvmeta逐个partition的把数据输入到这个文件中，一个partition对应的数据输入完成之后顺序地输入下个partition，直到把所有的partition遍历完。

Combiner：

一个partition在文件中对应的数据叫段(segment)，如果用户配置了combiner类，那么在写之前会先调用combineAndSpill()，对结果进行合并后再写出，Combiner会优化MapReduce的中间结果。

partition对应的数据在这个文件中的索引:

有一个三元组记录某个partition对应的数据在这个文件中的索引：起始位置、原始数据长度、压缩之后的数据长度，一个partition对应一个三元组。

这些索引信息存放在内存中，如果内存中放不下，后续的索引信息就需要写到磁盘文件中，文件中不仅存储了索引数据，还存储了crc32的校验数据。

索引文件和数据文件的对应关系：

分界点位置：

Map取kvbuffer中剩余空间的中间位置，用这个位置设置为新的分界点，bufindex指针移动到这个分界点，Kvindex移动到这个分界点的-16位置，然后两者就可以按照自己既定的轨迹放置数据了，当Spill完成，空间腾出之后，不需要做任何改动继续前进。

Map任务总要把输出的数据写到磁盘上，即使输出数据量很小在内存中全部能装得下，在最后也会把数据刷到磁盘上。

Merge

Map任务如果输出数据量很大，会进行多次Spill，out文件和Index文件会产生很多，分布在不同的磁盘上，最后把这些文件合并。

Merge过程怎么知道产生的Spill文件都在哪？

从所有的本地目录上扫描得到产生的Spill文件，然后把路径存储在一个数组里。

Merge过程怎么知道Spill的索引信息呢？

从所有的本地目录上扫描得到Index文件，然后把索引信息存储在一个列表里。

然后为merge过程创建一个 file.out 文件和一个叫 file.out.Index 文件存储最终的输出和索引，一个partition一个partition的进行合并输出。

对于某个partition，从索引列表中查询这个partition对应的所有索引信息，每个对应一个段插入到段列表中，也就是这个partition对应一个段列表，记录所有的Spill文件中对应的这个partition那段数据的文件名、起始位置、长度等。

然后对这个partition对应的所有的segment合并，目标是合并成一个segment，当这个partition对应多个segment时，会分批地进行合并：先从segment列表中把第一批取出来，以key为关键字放置成最小堆，然后从最小堆中每次取出最小的输出到一个临时文件中，这样就把这一批段合并成一个临时的段，把它加回到segment列表中；再从segment列表中把第二批取出来合并输出到一个临时segment，把其加入到列表中；这样往复执行，直到剩下的段是一批，输出到最终的文件中，最终的索引数据仍然输出到Index文件中。

3、Reduce shuffle

在Reduce端，shuffle主要分为复制Map输出、排序合并两个阶段。

1）Copy

Reduce任务通过HTTP向各个Map任务拉取所需要的数据，Map任务成功后，会通知父TaskTracker状态已经更新，TaskTracker进而通知JobTracker（通知在心跳机制中进行）

对于指定作业，JobTracker能记录Map输出和TaskTracker的映射关系。Reduce会定期向JobTracker获取Map的输出位置，一旦拿到输出位置，Reduce任务就会从此输出对应的TaskTracker上复制输出到本地，而不会等所有Map任务结束。

2、Merge Sort

Copy过来的数据会先放入内存缓冲区中，如果内存缓冲区中能放得下这次数据的话就直接把数据写到内存中，即内存到内存merge。

Reduce要向每个Map去拉取数据，在内存中每个Map对应一块数据，当内存缓存区中存储的Map数据占用空间达到一定程度的时候，开始启动内存中merge，把内存中的数据merge输出到磁盘上的一个文件中，即内存到磁盘merge。

在将buffer中多个map输出合并写入磁盘之前，如果设置了Combiner，则会压缩合并的map输出，Reduce的内存缓冲区可通过mapred.job.shuffle.input.buffer.percent配置，默认是JVM的heap size的70%，内存到磁盘merge的启动阈值通过mapred.job.shuffle.merge.percent配置，默认是66%。

当属于该reducer的map输出全部拷贝完成，则会在reducer上生成多个文件（如果拉取的所有map数据总量都没有超过内存缓冲区，则数据就只存在于内存中），开始执行合并操作，即磁盘到磁盘merge，Map的输出数据已经是有序的，Merge进行一次合并排序。

一般 Reduce 是边 copy 边 sort，最终 Reduce shuffle 过程会输出一个整体有序的数据块。

你可能感兴趣的:(flink,spark,mr)

Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
Git安装前的准备工作及避坑指南 zzywxc787 开发语言人工智能大数据
一、安装前的准备工作检查系统环境Windows：建议使用Windows10/11，64位系统。macOS：确保系统版本≥10.15（Catalina）。Linux：推荐Ubuntu20.04+、Debian10+或CentOS7+。卸载旧版本安装前删除旧版Git：bash#Linux/macOSsudoapt-getremovegit#Debian/Ubuntusudoyumremovegit#C
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
C#与MR的量子级交互：用代码构建会呼吸的混合现实界面，让UI消失在空气中！墨夶 C#学习资料 c#mr 交互
一、混合现实革命：MR界面设计的三大颠覆性原则1.1传统UI的终结与MR的崛起空间即界面：物理空间成为交互载体，告别屏幕束缚手势即语言：自然手势取代鼠标键盘，交互效率提升300%数据可视化革命：3D全息投影让抽象数据具象化案例：某汽车厂商用MR界面将发动机数据投影在真实引擎上，维修效率提升65%1.2C#在MR开发中的核心优势特性C#实现其他语言对比空间计算Unity+ARFoundation提供
CentOS 7 安装LibreOffice 7.4.0 过程执到金 java centos linux libreoffice
CentOS7安装LibreOffice7.4.0过程参考了多个网上的LibreOffice安装教程，或多或少都有点过时了，所以我重新整理CentOS7安装LibreOffice7.4的过程，把安装过程中遇到的问题也进行了梳理。1、检查当前操作系统环境是否已经安装了LibreOffice。libreoffice--version如果已经安装，需要把自带的LibreOffice卸载。yumremov
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
Sqlserver CTE递归--奖金池计算
最简单的递归WITHRecursiveCTE(Number)AS(--锚点成员SELECT1ASNumberUNIONALL--递归成员SELECTNumber+1FROMRecursiveCTEWHERENumber=奖金池基准THEN本月调整奖金-奖金池基准ELSE0ENDAS本月发放奖金,CASEWHEN本月调整奖金>=奖金池基准THEN奖金池基准ELSE本月调整奖金ENDAS结余奖金池,C
Django REST framework - 序列器关系 djangopython
简介数据结构而非算法是编程的核心。—RobPike关系字段用于表示模型间的关系。它们可以应用于ForeignKey、ManyToManyField和OneToOneField关系，以及反向关系和自定义关系（如GenericForeignKey）。注意：关系字段在relations.py中声明，但按照惯例，应从serializers模块导入，使用fromrest_frameworkimportser
nonorepo+turbo实现多项目管理 k0933 记录 vue.js 前端
运行命令pnpminstallpnpmrundevpnpmrunbuild:pcpnpmrunbuild:h5参考1、Monorepo多项目管理不再难！从零开始：pnpmworkspace手把手教你打造灵活、可扩展的开发环境2、monorepo的理解以及简单实现
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
Program received signal SIGSEGV问题解决 DDDDDouble 指针
关于ProgramreceivedsignalSIGSEGV问题解决前几天在写数据结构实验的时候遇到一个地方卡壳，导致几天没进展，心情弄的很烦躁项目场景：相关背景：在进行数据结构实验过程中，是采用菜单的形式进行链表的操作部分代码如下#include#includeusingnamespacestd;//菜单voidMenu_show(){coutnext=NULL;returnhead;}//链表
汽车轮速测量专用轮速传感器 EVERSPIN 汽车传感器轮速传感器
RAMSUN提供一款高度集成的主动式轮速传感器，它在一个超小型封装内集成了AMR磁传感器和高精度CMOS处理电路以及滤波电容，同时在封装体表面安装一个永磁背磁铁，因此客户不需要PCB贴片，可直接与多极磁环配合使用。基于各向异性磁阻（AMR）的工作原理，具有高灵敏度、低抖动、大的工作气隙和宽的工作温度范围等优点，可实时提供轮速、转向、工作气隙等关键信息。由于具有极低的jitter，因此非常适合于间接
医疗软件市场：信息化建设提速，国内医疗软件服务需求不断攀升嘉讯科技HIS系统人工智能数据库大数据智慧医疗科技
一、行业概览医疗软件，作为现代医疗体系的数字化支柱，巧妙融合了计算机软硬件技术与网络通信技术等尖端科技。它不仅对医院内部的人流、物流、财流实施综合管理，还深入医疗活动的每一个细微环节，对数据进行全方位采集、存储、处理与传输。这些被精心加工的信息，为医院的整体运营提供了坚实的自动化管理基础与多元化服务支撑。在医疗软件的广阔领域里，医院信息系统（HIS系统）、电子病历系统（EMR系统）、检验检查系统（
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
4_Flink CEP frimiku flink 大数据云计算
FlinkCEP1、何为CEP？CEP，全称为复杂事件处理（ComplexEventProcessing），是一种用于实时监测和分析数据流的技术。CEP详细讲解：CEP是基于动态环境的事件流的分析技术，事件是状态变化（持续生成数据）的。通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的【时序关系和聚合关系】制定检测规则，持续地从事件流中查询出【符合规则要求】的事件序列，最终分析得到更复
linux部署jar项目报错_linux服务器部署jar包以及shell脚本的书写 weixin_39933356 linux部署jar项目报错
背景：记录在linux环境下部署jar程序的过程1部署过程记录1.1程序结构这里的main函数就在DemRest2.java文件中。为了部署方便，要做到以下两点：1在导出的jar包中不包含依赖的jar文件2程序用到的配置文件可以让用户进行自定义，不将其放在jar包中。1.2导出jar包这里导出普通的jar包即可。为了方便传输，只导出必须的程序文件。在jar包导出后，进入导出的jar包中，将配置文件
SAP-ABAP：SAP全模块的架构化解析，涵盖核心功能、行业方案及技术平台爱喝水的鱼丶运维 SAP ABAP 服务器 ERP
一、核心业务模块（Logistics&Operations）模块代号核心功能典型流程关键事务码物料管理MM采购/库存/发票校验采购到付款(P2P)ME21N（采购订单）,MI31（库存盘点）销售与分销SD订单/定价/发货/开票订单到现金(OTC)VA01（销售订单）,VF01（开票）生产计划PPMRP/工艺路线/成本核算计划到生产(P2P)MD04（MRP清单）,COOIS（生产订单监控）质量管理
时序数据库IoTDB可实现的基本操作及命令汇总时序数据说时序数据库 iotdb 数据库物联网大数据开源
一、数据写入、删除与导出1.1数据写入在物联网场景下，元件产生的数据通常会自动写入。但有时，需要修改过去的数据，可以使用INSERT语句插入修改后的值，覆盖原数据。‌示例‌：INSERTINTOroot.BHSFC.Q1.W003(timestamp,speed)VALUES(1657472400000,2);1.2数据删除1.2.1SQL语句删除‌删除整个时间序列‌：DELETEFROMroot
npm run dev报错突然暴富的我 || 比较富的我 npm 前端 node.js
1.引言1.1什么是npmrundevnpmrundev是一个在Node.js项目中常用的命令，它允许开发者运行一个预定义的脚本，通常用于启动开发服务器或者执行开发环境的构建任务。这个命令是通过package.json文件中的scripts部分定义的，例如："scripts":{"dev":"nodemonapp.js"}在这个例子中，dev脚本使用nodemon工具来监控app.js文件的更改，
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本数据增强-同义词替换、随机交换、随机插入、随机删除
根据zhangy代码改写，主要针对千言问题匹配进行文本数据增强。依赖安装pipinstalljiebapipinstallsynonymseda.pyimportjiebaimportsynonymsimportrandomfromrandomimportshufflerandom.seed(2019)#停用词列表，默认使用哈工大停用词表f=open('stopwords/hit_stopword
rollupOptions 详细讲解，如何优化性能东心十 vue.js
RollupOptions详细讲解与性能优化Rollup是一个JavaScript模块打包器，特别适合用于库和应用的打包。rollupOptions是在使用Vite、WMR等构建工具时配置Rollup的选项对象。下面我将详细讲解rollupOptions的各个配置项以及如何优化打包性能。核心配置项详解输入(input)javascriptrollupOptions:{input:‘src/main
07-Seq2Seq英译法案例郜太素自然语言处理人工智能 nlp 自然语言处理 word2vec 机器翻译分类
Seq2Seq英译法案例1任务目的：目的:给定一段英文，翻译为法文典型的文本分类（token分类）任务:每个时间步去预测应该属于哪个法文单词2数据格式注意：两列数据，第一列是英文文本，第二列是法文文本，中间用制表符号"\t"隔开iamfrombrazil.jeviensdubresil.iamfromfrance.jeviensdefrance.iamfromrussia.jeviensderus
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
memory_info：Flutter 插件助力鸿蒙生态，精准获取设备内存信息 harmonyos
memory_info：Flutter插件助力鸿蒙生态，精准获取设备内存信息帮助您获取设备内存信息（ram&rom）本项目作者：王阳科/坚果您可以使用这个Flutter插件来更改应用程序图标上的角标作者仓库：https://github.com/MrOlolo/memory_info/tree/master/memory_info在数字化浪潮的推动下，跨平台开发框架如Flutter凭借其高效、便捷
python中random中uniform怎么用_Python中的random.uniform()函数教程与实例解析 weixin_39763640
random.uniform()函数教程与实例解析1.uniform()函数说明random.uniform(x,y)方法将随机生成一个实数，它在[x,y]范围内。2.uniform()的语法与参数2.1语法#_*_coding:utf-8_*_importrandomrandom.uniform(x,y)或#_*_coding:utf-8_*_fromrandomimportuniformuni
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f