流是什么
它允许你以声明性方式处理数据集合(通过查询语句来表达,而不是临时编写一个实现)。可以把它们看成遍历数据集的高级迭代器。此外,流还可以透明地并行处理。下面的讨论,将会使用到这样一个例子:一个 menu,它只是一个列表:
List menu = Arrays.asList(
new Dish("pork", false, 800, Dish.Type.MEAT),
new Dish("beef", false, 700, Dish.Type.MEAT),
new Dish("chicken", false, 400, Dish.Type.MEAT),
new Dish("french fries", true, 530, Dish.Type.OTHER),
new Dish("rice", true, 350, Dish.Type.OTHER),
new Dish("season fruit", true, 120, Dish.Type.OTHER),
new Dish("pizza", true, 550, Dish.Type.OTHER),
new Dish("prawns", false, 300, Dish.Type.FISH),
new Dish("salmon", false, 450, Dish.Type.FISH)
);
Dish 类的定义是:
public class Dish {
private final String name;
private final boolean vegetarian;
private final int calories;
private final Type type;
public Dish(String name, boolean vegetarian, int calories, Type type) {
this.name = name;
this.vegetarian = vegetarian;
this.calories = calories;
this.type = type;
}
public String getName() {
return name;
}
public boolean isVegetarian() {
return vegetarian;
}
public int getCalories() {
return calories;
}
public Type getType() {
return type;
}
@Override
public String toString() {
return name;
}
public enum Type { MEAT, FISH, OTHER }
}
流简介
Java 8中的集合支持一个新的stream方法,它会返回一个流(接口定义在java.util.stream.Stream 里)。
那么,流到底是什么呢?简短的定义就是“从支持数据处理操作的源生成的元素序列”。
元素序列 —— 就像集合一样,流也提供了一个接口,可以访问特定元素类型的一组有序值。因为集合是数据结构,所以它的主要目的是以特定的时间/空间复杂度存储和访问元素(如 ArrayList 与 LinkedList)。但流的目的在于表达计算,比如前面见到的 filter、sorted 和 map。集合讲的是数据,流讲的是计算。
源 —— 流会使用一个提供数据的源,如集合、数组或输入/输出资源。请注意,从有序集合生成流时会保留原有的顺序。由列表生成的流,其元素顺序与列表一致。
数据处理操作 —— 流的数据处理功能支持类似于数据库的操作,以及函数式编程语言中的常用操作,如 filter、map、reduce、find、match、sort 等。流操作可以顺序执行,也可并行执行。
此外,流操作有两个重要的特点。
流水线 —— 很多流操作本身会返回一个流,这样多个操作就可以链接起来,形成一个大的流水线。流水线的操作可以看作对数据源进行数据库式查询。
内部迭代 —— 与使用迭代器显式迭代的集合不同,流的迭代操作是在背后进行的。
流与集合
Java 8中的集合支持一个新的stream方法,它会返回一个流(接口定义在*java.util.stream.Stream里)。
那么,流到底是什么呢?简短的定义就是“从支持数据处理操作的源生成的元素序列”。
元素序列 —— 就像集合一样,流也提供了一个接口,可以访问特定元素类型的一组有序值。因为集合是数据结构,所以它的主要目的是以特定的时间/空间复杂度存储和访问元素(如 ArrayList 与LinkedList)。但流的目的在于表达计算,比如前面见到的 filter、sorted 和 map。集合讲的是数据,流讲的是计算。
源 —— 流会使用一个提供数据的源,如集合、数组或输入/输出资源。请注意,从有序集合生成流时会保留原有的顺序。由列表生成的流,其元素顺序与列表一致。
数据处理操作 —— 流的数据处理功能支持类似于数据库的操作,以及函数式编程语言中的常用操作,如 filter、map、reduce、find、match、sort 等。流操作可以顺序执行,也可并行执行。
此外,流操作有两个重要的特点。流水线 —— 很多流操作本身会返回一个流,这样多个操作就可以链接起来,形成一个大的流水线。流水线的操作可以看作对数据源进行数据库式查询。
内部迭代 —— 与使用迭代器显式迭代的集合不同,流的迭代操作是在背后进行的。
流与集合
Java 现有的集合概念和新的流概念都提供了接口,来配合代表元素型有序值的数据接口。所谓有序,就是说我们一般是按顺序取用值,而不是随机取用的。
只能遍历一次
和迭代器类似,流只能遍历一次。遍历完之后,我们就说这个流已经被消费掉了。你可以从原始数据源那里获得一个新的流来重新遍历一遍,就像迭代器一样。例如,以下代码会抛出一个异常,说流已经被消费掉了:
List title = Arrays.asList("Java8", "In", "Action");
Stream s = title.stream();
s.forEach(System.out::println); ←─打印标题中的每个单词
s.forEach(System.out::println); ←─java.lang.IllegalStateException:流已被操作或关闭
外部迭代与内部迭代
使用 Collection 接口需要用户去做迭代(比如用 for-each),这称为外部迭代。相反,Streams 库使用内部迭代——它帮你把迭代做了,还把得到的流值存在了某个地方,你只要给出一个函数说要干什么就可以了。下面的代码列表说明了这种区别:
集合:用 for-each 循环外部迭代
List names = new ArrayList<>();
for(Dish d: menu){ ←─显式顺序迭代菜单列表
names.add(d.getName()); ←─提取名称并将其添加到累加器
}
集合:用背后的迭代器做外部迭代
List names = new ArrayList<>();
Iterator iterator = menu.iterator();
while(iterator.hasNext()) { ←─显式迭代
Dish d = iterator.next();
names.add(d.getName());
}
流:内部迭代
List names = menu.stream()
.map(Dish::getName) ←─用getName 方法参数化map,提取菜名
.collect(toList()); ←─开始执行操作流水线;没有迭代!
流操作
java.util.stream.Stream 中的 Stream 接口定义了许多操作。它们可以分为两大类。
- filter、map 和 limit 可以连成一条流水线;
- collect 触发流水线执行并关闭它。
可以连接起来的流操作称为 中间操作,关闭流的操作称为 终端操作。
中间操作
诸如 filter 或 sorted 等中间操作会返回另一个流。这让多个操作可以连接起来形成一个查询。重要的是,除非流水线上触发一个终端操作,否则中间操作不会执行任何处理。在终端操作时一次性全部处理。
终端操作
终端操作会从流的流水线生成结果。其结果是任何不是流的值,比如 List、Integer,甚至 void。
使用流
总而言之,流的使用一般包括三件事:
- 一个数据源(如集合)来执行一个查询;
- 一个中间操作链,形成一条流的流水线;
- 一个终端操作,执行流水线,并能生成结果。
流的流水线背后的理念类似于构建器模式。在构建器模式中有一个调用链用来设置一套配置(对流来说这就是一个中间操作链),接着是调用 built 方法(对流来说就是终端操作)。
表1:中间操作
操作 | 类型 | 返回类型 | 操作参数 |
---|---|---|---|
filter | 中间 | Stream |
Predicate |
map | 中间 | Stream |
Function |
limit | 中间 | Stream |
|
sorted | 中间 | Stream |
Comparator |
distinct | 中间 | Stream |
表2:终端操作
操作 | 类型 | 目的 |
---|---|---|
forEach | 终端 | 消费流中的每个元素并对其应用 Lambda。这一操作返回 void。 |
count | 终端 | 返回流中元素的个数。这一操作返回 long 。 |
collection | 终端 | 把流归约成一个集合,比如 List、Map 甚至是 Integer。 |
小结
总结一下一些关键概念。
- 流是“从支持数据处理操作的源生成的一系列元素”。
- 流利用内部迭代:迭代通过 filter、map、sorted 等操作被抽象掉了。
- 流操作有两类:中间操作和终端操作。
- filter 和 map 等中间操作会返回一个流,并可以链接在一起。可以用它们来设置一条流水线,但并不会生成任何结果。
- forEach 和 count 等终端操作会返回一个非流的值,并处理流水线以返驾结果。
- 流中的元素是按需计算的。