中国好人1

flink窗口和时间

概要

基于flink 1.9.1版本和blink palner。

窗口分类

window (窗口)

对流中所有事件聚合是不可能的，因为通常流是无效的。所以需要window来划定范围。window是一种可以把无限数据切割为有限数据块的手段

根据类型，window有2种：

基于时间驱动的 time window，比如最近30s内。
基于数据驱动的 count window，比如最近100个元素。

根据是否重叠，窗口分如下2种：

tumbling windows。滚动窗口，窗口之间不重叠，比如统计5分钟内的数据，窗口大小为5分钟。
sliding windows。滑动窗口，窗口之间会重叠。比如每10秒统计最近20秒内的数据，窗口大小为20秒，每次窗口开始时间滑动10s。

使用例子：

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;

public class WordCountStreamJava {
    public static void main(String args[]) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource text = env.socketTextStream("10.10.40.33", 8000);

        DataStream> words = text.flatMap(new FlatMapFunction>() {
            @Override
            public void flatMap(String value, Collector> out) throws Exception {
                String[] split = value.split("\\s+");
                for (String word : split) {
                    out.collect(new Tuple2<>(word, 1));
                }
            }
        });

        // 时间窗口，timeWindow没有第2个参数，表示滚动窗口。
        words.keyBy(0).timeWindow(Time.seconds(5)).sum(1).print();

        // 数据窗口
        words.keyBy(0).countWindow(10).sum(1).print();

        // 如果没有执行keyBy，需要使用timeWindowAll。
        words.timeWindowAll(Time.seconds(5)).sum(1).print();

        env.execute("window");
    }
}

window 聚合方式

增量聚合

窗口中每进入一条数据，就进行一次计算。reduce, aggregate、sum、min、max等函数都是增量聚合。

全量聚合

等属于窗口的数据到齐，才开始进行聚合计算。如何窗口计算涉及到数据排序，必须使用全量聚合。主要的函数有，apply(windowFunction)和processWindowFunction

使用实例：

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

public class WordCountStreamJava {
    public static void main(String args[]) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource text = env.socketTextStream("10.10.40.33", 8000);

        DataStream> words = text.flatMap(new FlatMapFunction>() {
            @Override
            public void flatMap(String value, Collector> out) throws Exception {
                String[] split = value.split("\\s+");
                for (String word : split) {
                    out.collect(new Tuple2<>(word, 1));
                }
            }
        });

        // 全量聚合。
        words.keyBy(0).timeWindow(Time.seconds(5))
                .apply(new WindowFunction, Object, Tuple, TimeWindow>() {
                    // 参数说明
                    // window 表示当前窗口
                    // input 是这一个窗口内全部数据的迭代器
                    // out 表示收集的数据
                    // tuple 表示聚合的key
                    @Override
                    public void apply(Tuple tuple, TimeWindow window, Iterable> input, Collector