flink 窗口和水位线

一、窗口


        1、什么是窗口?

        我们的flink主要是用来处理无界数据流,一种方式就是将我们的无界数据流切割成有限的“数据块”进行处理,这就是我们的窗口(window)。

        2、窗口分类

滚动窗口、滑动窗口、会话窗口

滚动窗口:timeWindow(Time.seconds(3))   count-tumbling-window

滑动窗口:timeWindow(Time.seconds(5),Time.seconds(3))        count-sliding-window

      3、窗口能解决什么问题(为什么使用窗口)

        首先flink是一个实现了流批一体的计算框架,当我们使用批处理时我们引入了窗口计算,实现我们的批处理。

     4、滚动窗口(每个区消费总额Top3的公司)

public class CityShopNameTopN {

    public static void main(String[] args) throws Exception{

        // TODO: 2022/9/2创建Flink流式处理环境
        StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment();

        // TODO: 2022/9/2 设置并行度
        environment.setParallelism(1);

        String uu = UUID.randomUUID().toString().substring(0, 6).replace("-", "");

        String groupId = "ware_goods_group"+uu;

        FlinkKafkaConsumer kafkaSource = MyKafkaUtil.getKafkaSource("dwd_foo_order_detail",groupId);
        DataStreamSource order_detail = environment.addSource(kafkaSource);
        SingleOutputStreamOperator map1 = order_detail.map(d -> JSON.parseObject(d));
//水位线

        SingleOutputStreamOperator watermarks = map1.assignTimestampsAndWatermarks(
                WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3))
                .withTimestampAssigner(new SerializableTimestampAssigner() {

                    @Override
                    public long extractTimestamp(JSONObject element, long recordTimestamp) {
                        long time = 0;
                        try {
                            time = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(element.getString("createTime")).getTime();
                        } catch (ParseException e) {
                            e.printStackTrace();
                        }
                        return time;
                    }
                }));

        SingleOutputStreamOperator> map = watermarks.map(new MapFunction>() {
            @Override
            public Tuple3 map(JSONObject value) throws Exception {
                String goodsNum = value.getString("goodsNum");
                String goodsPrice = value.getString("goodsPrice");
                return new Tuple3<>(value.getString("regionName"), value.getString("cityName"), Integer.valueOf(goodsNum) * Double.valueOf(goodsPrice));
            }
        });
        SingleOutputStreamOperator> process = map.keyBy(data -> data.f0 + "," + data.f1).sum(2).keyBy(data -> data.f0 + "," + data.f1)
                .window(TumblingProcessingTimeWindows.of(Time.seconds(1))).process(new ProcessWindowFunction, Tuple3, String, TimeWindow>() {
                    @Override
                    public void process(String s, Context context, Iterable> iterable, Collector> collector) throws Exception {
                        ArrayList> list = new ArrayList<>();
                        for (Tuple3 value : iterable) {
                            list.add(value);
                        }
                        list.sort(new Comparator>() {
                            @Override
                            public int compare(Tuple3 o1, Tuple3 o2) {
                                return (int) (o2.f2 - o1.f2);
                            }
                        });
                        for (int i = 0; i < list.size() && i < 3; i++) {
                            collector.collect(list.get(i));
                        }
                    }
                });


        process.print();
        //落地
         process.addSink(new SinkPG());

         这个指标中我们使用的是滚动窗口,(由于数据过少)采用了每一秒把进来的数据进行一次计算,当然这样是不合乎常规的,比如我们需要统计一天的销售额,我们可以使用TumblingProcessingTimeWindows.of(Time.days(1))来给他一个一天的窗口。 

 二、watermark(水位线)


        1、什么是watermark(水位线的机制)?

        watermark本质就是一个时间戳。实际上就是在原有的结束时间上再多等一个最大允许的数据延迟时间或者乱序时间,一旦有事件时间在这个多等时间刻度线后的消息事件达到就立刻触发窗口计算。

        2、 水位线能解决什么问题(为什么使用水位线)

        水位线是事件时间的进展,它是整个应用的全局逻辑时钟。水位线生成之后,会随着数据在任务间流动,从而给每个任务指明当前的事件时间;当然水位线的时间也不是越大越好,如果过大也会降低、影响我们的实时性;如果在我们的一个最大延迟时间数据还未到,我们可以定义一个测输出流标签,把迟到的数据放到我们的标签

         3、统计url的访问量

public class Test{
    public static void main(String[] args) throws Exception {
        //流式环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //设置全局并行度
        env.setParallelism(1);
        //设置水位线生成间隔
        env.getConfig().setAutoWatermarkInterval(100);
        SingleOutputStreamOperator eventStream = env.socketTextStream("hadoop103", 9999).map(
                new MapFunction() {
                    @Override
                    public Event map(String value) throws Exception {
                        String[] split = value.split(",");
                        return new Event(split[0].trim(), split[1].trim(), Long.valueOf(split[2].trim()));
                    }
                }
        ).returns(new TypeHint() {
        }).assignTimestampsAndWatermarks(WatermarkStrategy
                .forBoundedOutOfOrderness(Duration.ofSeconds(2))
                .withTimestampAssigner(new SerializableTimestampAssigner() {
                    @Override
                    public long extractTimestamp(Event element, long recordTimestamp) {
                        return element.timestamp;
                    }
                }));

        eventStream.print("  input  ");

        //定义输出标签
        OutputTag later = new OutputTag("later") {
        };

        //统计 url 访问量


        SingleOutputStreamOperator result = eventStream.keyBy(data -> data.url)
                .window(TumblingEventTimeWindows.of(Time.seconds(10)))

                .allowedLateness(Time.minutes(1)) //1 min 延迟
                //迟到数据输出到册数出列
                .sideOutputLateData(later)
                .aggregate(new UrlCountViewExample.UrlViewCountAgg(), new UrlCountViewExample.UrlViewCountResult());


        result.print("  result  ");
        //侧输出流
        result.getSideOutput(later).print("later datas");

        env.execute();
    }

         统计访问量我们给了一分钟等待迟到数据如果还未到达我们就定义一个标签,把迟到数据放到测输出流以便后边的计算。

        三、总结 

        在一般情况下,watermark和我们的windowCEP是结合使用的,首先设置一个好的水位线,能够最大限度的保证数据完整性以及处理计算,水位线设计可以从(1、设计时间语义时尽量选用数据原有的时间,这样能够更有利于体现用户想要的效果;2、为了保证数据完整性,我们可以设置一个乱序时间,当乱序时间还未到达我们可以采用手动allowedLateness方法,可以延迟时间,尽量让迟到的数据全部获取到,这个方法的使用是:在我们设置的水位线乱序时间数据还未达到,我们可以使用这个方法延迟窗口关闭的时间,保证数据的完整性。3、当然还有我们的一个兜底方法就是设置一个侧输出流标签,将没有获取到的迟到数据进行侧输出)。

你可能感兴趣的:(flink)