Collector源码分析

java.util.stream.Collector是一个接口,作为stream对象collect(Collector collector)方法的参数,本身十分重要。jdk8提供了很多返回Collector对象的静态方法,例如Collectors.toList(),Collectors.toSet()等等。

Collector具有以下特点:

1. Collector是一个接口,它是一个可变的汇聚操作,将输入元素累计到一个可变的结果容器中(即容器中元素是可以变化的);(可选地)它会在所有元素处理完之后,将累积的结果转化为一个最终的表示;它支持串行与并行两种方式执行。

2. Collectors本身提供了关于Collector的常见具体实现,如Collectors.toList(),Collectors.toSet()静态方法等等。Collectors本身是一个工厂。

3. Collector由4个函数组成,用于将条目累加到一个可变的结果容器中,而且(可选地)对结果执行一个最终转换。

a. Supplier supplier()函数,它创建并返回一个新的可变的结果容器。

b. BiConsumer accumulator()函数,将一个新的数据元素(注:流里的元素)合并到一个结果容器(supplier()函数返回的Supplier对象创建的)中。

c. BinaryOperator combiner()函数,将两个结果容器合并成一个结果容器。它接收两个部分结果并且合并它们,用于并行流中。对于并行流,假设有4个线程执行,会生成4个部分结果,combiner函数会将这4个个线程产生的4个部分结果容器合并,合并成新的结果容器并返回或者合并进原有的某个结果容器(注:因为结果容器是可变的)并返回。

d. Function finisher() ,执行最终的转换,将中间的累积类型A转换成最终的结果类型R。

上述4个函数作用总结:创建一个新的结果容器,不断往结果容器中添加元素,将并行流多个线程产生的多个结果容器中元素合并到一起,可选地将一个结果类型转化成另一个结果类型。上述每个函数都返回一个函数式接口。

4. 使用collector进行汇聚操作的串行实现:会创建一个单个的结果容器(使用supplier创建),然后对每个输入元素调用accumulator一次。并行实现:会将输入进行分区,分成多块,针对每个分区都会创建一个结果容器,然后accumulate每个分区的内容到该分区对应的子结果容器中。然后会用combiner将所有子结果合并成一个合并的结果。即:串行根本用不到combiner(),并行流中才会用到。

5.为了确保串行与并行操作结果的等价性,Collector函数需要满足两个条件:identity(同一性)与associativity(结合性)。

identity:对任何部分的累积的结果a,其中a是任何一条线上(并行流多个线程的任何一个线程)调用了accumulator(),combiner()的部分的累积的结果。必须满足:a == combiner.apply(a, supplier.get())。即:中间结果a和空的容器合并,得到的还是a。

associativity:单线程和多线程执行,得到的结果是等价的。

你可能感兴趣的:(Collector源码分析)