Java8 Stream

Stream 概述

  • Stream 是一个可以对序列中的每个元素执行流操作的一个元素序列
  • Stream 包含中间和最终两种形式的操作,中间操作返回的还是一个 Stream,因此可以使用链式调用,最终操作返回的是 void 或一个非 Stream 的结果
  • 下面代码中:filter、map、sorted 是中间操作,forEach 是最终操作
List myList =
    Arrays.asList("a1", "a2", "b1", "c2", "c1");

myList
    .stream()
    .filter(s -> s.startsWith("c"))
    .map(String::toUpperCase)
    .sorted()
    .forEach(System.out::println);

// C1
// C2
  • java Collection 接口中新增了 stream() 方法和 parallelStream() 方法,这些方法可以创建一个顺序的 stream 或者并发的 stream(parallelStream),并发的 stream 适合在多线程中使用

Stream 创建

  • List 对象调用 stream() 方法返回一个对象流
Arrays.asList("a1", "a2", "a3")
    .stream()
    .findFirst()
    .ifPresent(System.out::println);  // a1
  • 也可以使用 Stream.of 方法来创建 Stream
Stream.of("a1", "a2", "a3")
    .findFirst()
    .ifPresent(System.out::println);  // a1
  • IntStream、LongStream、DoubleStream 这些流能够处理基本数据类型如:int、long、double
  • 比如:IntStream 可以使用 range() 方法能够替换掉传统的 for 循环
IntStream.range(1, 4)
    .forEach(System.out::println);

// 1
// 2
// 3
  • 基本类型流比常规对象流类型多了许多聚合方法,如:sum()、average()等
Arrays.stream(new int[] {1, 2, 3})
    .map(n -> 2 * n + 1)
    .average()
    .ifPresent(System.out::println);  // 5.0
  • 可以通过常规对象流的 mapToInt() 、mapToLong()、mapToDouble() 方法完成基本类型之间的相互转化
IntStream.range(1, 4)
    .mapToObj(i -> "a" + i)
    .forEach(System.out::println);
  • 下面例子 double Stream 先被映射成 int stream,然后又被映射成 String 类型对象流
Stream.of(1.0, 2.0, 3.0)
    .mapToInt(Double::intValue)
    .mapToObj(i -> "a" + i)
    .forEach(System.out::println);

// a1
// a2
// a3

处理顺序

  • Laziness(延迟加载)是中间操作的一个重要特性,只有最终操作时中间操作才会被执行,如下面例子
Stream.of("d2", "a2", "b1", "b3", "c")
    .filter(s -> {
        System.out.println("filter: " + s);
        return true;
    });
  • 上面代码需要最终操作 forEach 才会执行
Stream.of("d2", "a2", "b1", "b3", "c")
    .filter(s -> {
        System.out.println("filter: " + s);
        return true;
    })
    .forEach(s -> System.out.println("forEach: " + s));
    
//执行结果如下:
//filter:  d2
//forEach: d2
//filter:  a2
//forEach: a2
//filter:  b1
//forEach: b1
//filter:  b3
//forEach: b3
//filter:  c
//forEach: c
  • 每一个元素沿着链条垂直移动,第一个字符串 "d2" 执行完 filter 和 forEach 后才第二个元素,下面代码中,anyMatch 匹配到 A2 时立马返回为真,所以不会继续验证下一个元素 "b1"
Stream.of("d2", "a2", "b1", "b3", "c")
    .map(s -> {
        System.out.println("map: " + s);
        return s.toUpperCase();
    })
    .anyMatch(s -> {最终操作
        System.out.println("anyMatch: " + s);
        return s.startsWith("A");
    });

// map:      d2
// anyMatch: D2
// map:      a2
// anyMatch: A2

执行效率与 Stream 执行链顺序的关系

  • 下面代码由两个中间操作 map 和 filter 以及一个最终操作 forEach 构成,我们观察这些动作是如何执行的
Stream.of("d2", "a2", "b1", "b3", "c")
    .map(s -> {
        System.out.println("map: " + s);
        return s.toUpperCase();
    })
    .filter(s -> {
        System.out.println("filter: " + s);
        return s.startsWith("A");
    })
    .forEach(s -> System.out.println("forEach: " + s));

// map:     d2
// filter:  D2
// map:     a2
// filter:  A2
// forEach: A2
// map:     b1
// filter:  B1
// map:     b3
// filter:  B3
// map:     c
// filter:  C
  • 上面代码:map 和 filter 被执行了 5 次,但 forEach 只执行了一次,可以修改操作顺序(如:将 filter 操作移动到操作链头部)来降低执行次数
  • 修改后 map 只执行了 1 次,在数据量较大时会有很大的效率提升
Stream.of("d2", "a2", "b1", "b3", "c")
    .filter(s -> {
        System.out.println("filter: " + s);
        return s.startsWith("a");
    })
    .map(s -> {
        System.out.println("map: " + s);
        return s.toUpperCase();
    })
    .forEach(s -> System.out.println("forEach: " + s));

// filter:  d2
// filter:  a2
// map:     a2
// forEach: A2
// filter:  b1中间操作
// filter:  b3
// filter:  c
  • 有一些特殊的中间操作不会按流顺序执行,例如 sort 操作,它是一种特殊的中间操作,在对集合元素进行排序的过程中需要保存元素状态,是一种有状态的操作(stateful operation),在执行排序操作时(sorting 操作对集合进行水平操作),上面例子中 sorted 执行了8次,可以通过对链重排序方式,提升 stream 的执行效率
Stream.of("d2", "a2", "b1", "b3", "c")
    .sorted((s1, s2) -> {
        System.out.printf("sort: %s; %s\n", s1, s2);
        return s1.compareTo(s2);
    })
    .filter(s -> {
        System.out.println("filter: " + s);
        return s.startsWith("a");
    })
    .map(s -> {
        System.out.println("map: " + s);
        return s.toUpperCase();
    })
    .forEach(s -> System.out.println("forEach: " + s));
   
//执行结果如下: 
//sort:    a2; d2
//sort:    b1; a2
//sort:    b1; d2
//sort:    b1; a2
//sort:    b3; b1
//sort:    b3; d2
//sort:    c; b3
//sort:    c; d2
//filter:  a2
//map:     a2
//forEach: A2
//filter:  b1
//filter:  b3
//filter:  c
//filter:  d2
  • 下面代码修改链顺序后由于有 filter 操作的过滤,导致 sorted 只有一个输入集元素,在大量数据下能提高效率
Stream.of("d2", "a2", "b1", "b3", "c")
    .filter(s -> {
        System.out.println("filter: " + s);
        return s.startsWith("a");
    })
    .sorted((s1, s2) -> {
        System.out.printf("sort: %s; %s\n", s1, s2);
        return s1.compareTo(s2);
    })
    .map(s -> {
        System.out.println("map: " + s);
        return s.toUpperCase();
    })
    .forEach(s -> System.out.println("forEach: " + s));

// filter:  d2
// filter:  a2
// filter:  b1
// filter:  b3
// filter:  c
// map:     a2
// forEach: A2

流复用

  • Stream 当你执行完任何一个最终操作时,流就被关闭了
Stream stream =
    Stream.of("d2", "a2", "b1", "b3", "c")
        .filter(s -> s.startsWith("a"));

stream.anyMatch(s -> true);    // ok
stream.noneMatch(s -> true);   // exception
  • 可以通过 Lambda 表达式创建 Supplier 接口实例,通过 get 方法创建一个 Stream,来实现流复用
Supplier> streamSupplier =
    () -> Stream.of("d2", "a2", "b1", "b3", "c")
            .filter(s -> s.startsWith("a"));

streamSupplier.get().anyMatch(s -> true);   // ok
streamSupplier.get().noneMatch(s -> true);  // ok

Collect(收集)

  • 假设存在如下用户类
class Person {
    String name;
    int age;

    Person(String name, int age) {
        this.name = name;
        this.age = age;
    }

    @Override
    public String toString() {
        return name;
    }
}

List persons =
    Arrays.asList(
        new Person("Max", 18),
        new Person("Peter", 23),
        new Person("Pamela", 23),
        new Person("David", 12));
  • Collect 可以把 Stream 中的元素转换为另一种形式,如:list、set、map
  • Collect 使用 Collector 作为参数,Collector 包含四种不同操作:
    • supplier(初始构造器)
    • accaumulator(累加器)
    • combiner(组合器)
    • finisher(终结者)
  • 这听起来很复杂,Java8 通过 Collectors 类内置了各种复杂的收集操作,因此对于大部分操作来说不需要自己去实现 Collector 类
  • 例如下面代码将 Stream 转化为 List,如果想转换为 Set 的话,只需要用 Collectors.toSet() 就可以了
Map> personsByAge = persons
    .stream()
    .collect(Collectors.groupingBy(p -> p.age));

personsByAge
    .forEach((age, p) -> System.out.format("age %s: %s\n", age, p));

// age 18: [Max]
// age 23: [Peter, Pamela]
// age 12: [David]
  • 下面例子将用户按年龄分组
Map> personsByAge = persons
    .stream()
    .collect(Collectors.groupingBy(p -> p.age));

personsByAge
    .forEach((age, p) -> System.out.format("age %s: %s\n", age, p));

// age 18: [Max]
// age 23: [Peter, Pamela]
// age 12: [David]
  • Collectors 类功能繁多,你可以通过 Collectors 对 Stream 元素进行汇聚,如计算平均年龄
Double averageAge = persons
    .stream()
    .collect(Collectors.averagingInt(p -> p.age));

System.out.println(averageAge);     // 19.0
  • 可以通过 summarizing collectors 返回一个内置的统计对象,通过这个对象获取更全面的统计信息,比如用户年级中最大值、最小值、平均值等
IntSummaryStatistics ageSummary =
    persons
        .stream()
        .collect(Collectors.summarizingInt(p -> p.age));

System.out.println(ageSummary);
// IntSummaryStatistics{count=4, sum=76, min=12, average=19.000000, max=23}
  • 或者将用户名连接成一个字符串,join collector三个参数分别表示连接符、字符串前缀、字符串后缀
String phrase = persons
    .stream()
    .filter(p -> p.age >= 18)
    .map(p -> p.name)
    .collect(Collectors.joining(" and ", "In Germany ", " are of legal age."));

System.out.println(phrase);
// In Germany Max and Peter and Pamela are of legal age.
  • 可以将 Stream 转换为 map,必须指定 map 的 key 和 value 如何映射,需要注意的是 key 的值必须是唯一的,否则会抛出 IllegalStateException,但可通过合并函数绕过这个异常
Map map = persons
    .stream()
    .collect(Collectors.toMap(
        p -> p.age,
        p -> p.name,
        (name1, name2) -> name1 + ";" + name2));

System.out.println(map);
// {18=Max, 23=Peter;Pamela, 12=David}
  • 自定义 Collector,实现的功能是将 Stream 中所有用户的用户名变成大写并用 “|” 符号连接成一个字符串,可以通过 Collector.of() 创建一个 collector
  • 由于 String 是不可变对象,所以需要一个辅助类 StringJoiner 帮助 collect 构造字符串,supplier 创建了一个包含分隔符的 StringJoiner 对象,accumulator 将用户名转换为大写并添加到 supplier 创建的 StringJoiner 中,combiner 将两个 StringJoiners 对象连接成一个,最后一步的 finisher 从 StringJoiner 中构建出所希望的 String 对象
Collector personNameCollector =
    Collector.of(
        () -> new StringJoiner(" | "),          // supplier
        (j, p) -> j.add(p.name.toUpperCase()),  // accumulator
        (j1, j2) -> j1.merge(j2),               // combiner
        StringJoiner::toString);                // finisher

String names = persons
    .stream()
    .collect(personNameCollector);

System.out.println(names);  // MAX | PETER | PAMELA | DAVID

FlatMap

  • 虽然我们可以使用 map 方法将 stream 中一种对象转化成另外一种对象,但 map 使用场景有限制,只能将一种对象映射为另外一种已存在的对象,是否能将一个对象映射为多种对象,或者映射成一个根本不存在的对象呢?这就是 flatMap 方法的作用
  • FlatMap 方法可以将一个 Stream 中的每个元素转换为另一个 Stream 中的另一种元素,因此可以将 Stream 种每个对象改造成零、一个或多个
  • 假设有以下类
class Foo {
    String name;
    List bars = new ArrayList<>();

    Foo(String name) {
        this.name = name;
    }
}

class Bar {
    String name;

    Bar(String name) {
        this.name = name;
    }
}
  • 通过流实例化一队对象
List foos = new ArrayList<>();

// create foos
IntStream
    .range(1, 4)
    .forEach(i -> foos.add(new Foo("Foo" + i)));

// create bars
foos.forEach(f ->
    IntStream
        .range(1, 4)
        .forEach(i -> f.bars.add(new Bar("Bar" + i + " <- " + f.name))));
  • 完成上述操作后我们得到三个 foos,每个 foos 包含三个 bars,下面代码将三个对象的 Stream 转化为一个包含九个对象的 Stream
foos.stream()
    .flatMap(f -> f.bars.stream())
    .forEach(b -> System.out.println(b.name));

// Bar1 <- Foo1
// Bar2 <- Foo1
// Bar3 <- Foo1
// Bar1 <- Foo2
// Bar2 <- Foo2
// Bar3 <- Foo2
// Bar1 <- Foo3
// Bar2 <- Foo3
// Bar3 <- Foo3
  • 上述代码可以简化成一个管道流
IntStream.range(1, 4)
    .mapToObj(i -> new Foo("Foo" + i))
    .peek(f -> IntStream.range(1, 4)
        .mapToObj(i -> new Bar("Bar" + i + " <- " f.name))
        .forEach(f.bars::add))
    .flatMap(f -> f.bars.stream())
    .forEach(b -> System.out.println(b.name));

Reduce(减少)

  • reduce 操作可以将 Stream 中所有元素组合组合起来得到一个元素,Java8 支持三种不同的 reduce 方法
  • 第一种从 Stream 元素序列中提取一个特定的元素,下面代码从用户列表中选择年纪最大的用户操作,下面代码接收一个二元累加器计算函数
persons
    .stream()
    .reduce((p1, p2) -> p1.age > p2.age ? p1 : p2)
    .ifPresent(System.out::println);    // Pamela
  • 第二种 reduce 接收一个标识值和一个二元操作累加器,这个 reduce 方法把 Stream 中所有用户的名字和年龄汇总到一个新的用户
Person result =
    persons
        .stream()
        .reduce(new Person("", 0), (p1, p2) -> {
            p1.age += p2.age;
            p1.name += p2.name;
            return p1;
        });

System.out.format("name=%s; age=%s", result.name, result.age);
// name=MaxPeterPamelaDavid; age=76
  • 第三种 reduce 接收三个参数:一个标识值,一个二元操作累加器,一个二元组合方法
Integer ageSum = persons
    .stream()
    .reduce(0, (sum, p) -> sum += p.age, (sum1, sum2) -> sum1 + sum2);

System.out.println(ageSum);  // 76

Parallel Streams(并行流)

  • 为了提高大量输入时的执行效率,Stream 可以采用并行或放行执行,通过 ForkJoinPool.commonPool() 方法获取一个可用的 ForkJoinPool,这个 ForkJoinPool 使用5个线程
ForkJoinPool commonPool = ForkJoinPool.commonPool();
System.out.println(commonPool.getParallelism());    // 3
  • 可通过 jvm 配置修改
-Djava.util.concurrent.ForkJoinPool.common.parallelism=5
  • Collections 中包含 parallelStream() 方法,通过这个方法能够为 Collections 中的元素创建并行流,另外也可以调用 stream 的 parallel() 方法将一个顺序流转换为并行流的拷贝
  • 并行流的执行动作,输出中我们可以看到 parallel stream 使用 ForkJoinPool 提供的可用线程来执行并行流
Arrays.asList("a1", "a2", "b1", "c2", "c1")
    .parallelStream()
    .filter(s -> {
        System.out.format("filter: %s [%s]\n",
            s, Thread.currentThread().getName());
        return true;
    })
    .map(s -> {
        System.out.format("map: %s [%s]\n",
            s, Thread.currentThread().getName());
        return s.toUpperCase();
    })
    .forEach(s -> System.out.format("forEach: %s [%s]\n",
        s, Thread.currentThread().getName()));

//filter:  b1 [main]
//filter:  a2 [ForkJoinPool.commonPool-worker-1]
//map:     a2 [ForkJoinPool.commonPool-worker-1]
//filter:  c2 [ForkJoinPool.commonPool-worker-3]
//map:     c2 [ForkJoinPool.commonPool-worker-3]
//filter:  c1 [ForkJoinPool.commonPool-worker-2]
//map:     c1 [ForkJoinPool.commonPool-worker-2]
//forEach: C2 [ForkJoinPool.commonPool-worker-3]
//forEach: A2 [ForkJoinPool.commonPool-worker-1]
//map:     b1 [main]
//forEach: B1 [main]
//filter:  a1 [ForkJoinPool.commonPool-worker-3]
//map:     a1 [ForkJoinPool.commonPool-worker-3]
//forEach: A1 [ForkJoinPool.commonPool-worker-3]
//forEach: C1 [ForkJoinPool.commonPool-worker-2]
  • sort 操作只能在主线程中顺序执行,可以使用 Arrays.parallelSort() 方法来并行执行
  • parallel streams 可以带来较大的性能提升,但对于 reduce、collect(组合操作) 需要额外的计算,这时并不如顺序流好用
Arrays.asList("a1", "a2", "b1", "c2", "c1")
    .parallelStream()
    .filter(s -> {
        System.out.format("filter: %s [%s]\n",
            s, Thread.currentThread().getName());
        return true;
    })
    .map(s -> {
        System.out.format("map: %s [%s]\n",
            s, Thread.currentThread().getName());
        return s.toUpperCase();
    })
    .sorted((s1, s2) -> {
        System.out.format("sort: %s <> %s [%s]\n",
            s1, s2, Thread.currentThread().getName());
        return s1.compareTo(s2);
    })
    .forEach(s -> System.out.format("forEach: %s [%s]\n",
        s, Thread.currentThread().getName()));

//filter:  c2 [ForkJoinPool.commonPool-worker-3]
//filter:  c1 [ForkJoinPool.commonPool-worker-2]
//map:     c1 [ForkJoinPool.commonPool-worker-2]
//filter:  a2 [ForkJoinPool.commonPool-worker-1]
//map:     a2 [ForkJoinPool.commonPool-worker-1]
//filter:  b1 [main]
//map:     b1 [main]
//filter:  a1 [ForkJoinPool.commonPool-worker-2]
//map:     a1 [ForkJoinPool.commonPool-worker-2]
//map:     c2 [ForkJoinPool.commonPool-worker-3]
//sort:    A2 <> A1 [main]
//sort:    B1 <> A2 [main]
//sort:    C2 <> B1 [main]
//sort:    C1 <> C2 [main]
//sort:    C1 <> B1 [main]
//sort:    C1 <> C2 [main]
//forEach: A1 [ForkJoinPool.commonPool-worker-1]
//forEach: C2 [ForkJoinPool.commonPool-worker-3]
//forEach: B1 [main]
//forEach: A2 [ForkJoinPool.commonPool-worker-2]
//forEach: C1 [ForkJoinPool.commonPool-worker-1]

Stream 常用方法概述:

  • stream:为集合创建顺序流
  • parallelStream:为集合创建并行流
  • forEach:迭代流中的每个数据
  • map:映射每个元素到对应结果
  • collect:将元素映射为另一种形式

---- 待完善 ----

你可能感兴趣的:(Java8 Stream)