大小宝

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据

1、Watermark 使用分析

对于解决乱序数据问题，需要EventTime 和 Watermarks结合使用。
由【15】Flink 之 Time & EventTime & Watermarks可知，Watermarks有两种生成方式，其中With Periodic Watermarks较为常用，采用该方式进行分析。
需要实现接口AssignerWithPeriodicWatermarks，下面是官网使用方法代码示例：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第1张图片

其中：

extractTimestamp 方法是从数据本身中提取EventTime
getCurrentWatermar 方法是获取当前水位线
maxOutOfOrderness 表示是允许数据的最大乱序时间

2、实现watermark

2.1、程序功能

从socket 模拟接收数据，然后使用map 进行处理，后面再调用assignTimestampsAndWatermarks 方法抽取timestamp 并生成watermark。最后再调用window打印信息来验证window 被触发的时机。

2.2、程序说明

接收socket 数据

//  连接socket获取输入的数据
DataStream<String> text = env.socketTextStream("master", port, "\n");

将每行数据按照逗号分隔，每行数据调用map 转换成tuple类型。其中tuple中的第一个元素代表具体的数据，第二个元素代表数据的eventtime

//  解析输入的数据
//  输入：0001,1559703420000
//  其中，0001 代表具体的数据，1559703420000 代表数据的 EventTime
//  输出：(0001,1559703420000)
DataStream<Tuple2<String, Long>> inputMap = text.map(
   new MapFunction<String, Tuple2<String, Long>>() {
       @Override
       public Tuple2<String, Long> map(String value) throws Exception {
           String[] arr = value.split(",");
           return new Tuple2<>(arr[0], Long.parseLong(arr[1]));
       }
   });

抽取timestamp ，生成watermar ，允许的最大乱序时间是10s ，并打印
（key,eventtime,currentMaxTimestamp,watermark）等信息

inputMap.assignTimestampsAndWatermarks(
new AssignerWithPeriodicWatermarks<Tuple2<String, Long>>() {

    Long currentMaxTimestamp = 0L;     //   当前最大时间戳
    final Long maxOutOfOrderness = 10000L;// 最大允许数据的乱序时间是10s

    SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS");

    /**
     * 定义生成watermark的逻辑
     * 默认100ms被调用一次
     * getCurrentWatermark()方法是获取当前水位线
     */
    @Nullable
    @Override
    public Watermark getCurrentWatermark() {
        return new Watermark(currentMaxTimestamp - maxOutOfOrderness);
    }

    //  定义如何提取timestamp
    @Override
    public long extractTimestamp(Tuple2<String, Long> element, long previousElementTimestamp) {
        long timestamp = element.f1;   //   获取时间戳
        currentMaxTimestamp = Math.max(timestamp, currentMaxTimestamp);   //  求当前最大时间戳
        long id = Thread.currentThread().getId();
        System.out.println("currentThreadId:"+id+",key:"+
                element.f0+",eventtime:["+element.f1+" | "+
                sdf.format(element.f1)+"],currentMaxTimestamp:["+currentMaxTimestamp+" | "+
                sdf.format(currentMaxTimestamp)+"],watermark:["+getCurrentWatermark().getTimestamp()+" | "+
                sdf.format(getCurrentWatermark().getTimestamp())+"]");
        return timestamp;
    }
});

分组聚合，window 窗口大小为3 秒，输出（key，窗口内元素个数，窗口内最早元素的时间，窗口内最晚元素的时间，窗口自身开始时间，窗口自身结束时间）

waterMarkStream.keyBy(0)
 //  设置窗口 3 秒一个
 .window(TumblingEventTimeWindows.of(Time.seconds(3)))   //按照消息的EventTime分配窗口，和调用TimeWindow效果一样
 .apply(new WindowFunction<Tuple2<String, Long>, String, Tuple, TimeWindow>() {
     @Override
     public void apply(Tuple tuple, TimeWindow window,
                       Iterable<Tuple2<String, Long>> input, Collector<String> out)
             throws Exception {
         String key = tuple.toString();     //   数据值，如输入数据中的 1
         List<Long> arrarList = new ArrayList<Long>();   //  包含是数据数组
         Iterator<Tuple2<String, Long>> it = input.iterator();
         while (it.hasNext()) {
             Tuple2<String, Long> next = it.next();
             arrarList.add(next.f1);
         }
         Collections.sort(arrarList);
	String  result = .....			// 拼装打印结果字符串
	....
         out.collect(result);
     }
 });

2.3、运行数据查看watermark

通过查看watermark 和timestamp 的时间，通过数据的输出来确定window 的触发条件。
通过ncat开启socket的9003端口，发送一条数据，数据格式为：key,timestamp。其中，key代表实际具体数据的值，timestamp代表时间戳，即事件产生事件 Event Time。

输出结果为：

时间戳1559370982000对应的时间为2019-06-01 14:36:22.000，讲数据输入关系通过表格进行呈现便于查看，如下：

此时，wartermark 的时间秒为，已经落后于currentMaxTimestamp10 秒。我们继续输入一条数据：

控制台打印输出内容为：

此时，并没有触发windows窗口执行输出，数据结果表格如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第2张图片

第二条数据输入的时间是26秒，再输入一条42秒的数据，如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第3张图片

输出内容和表格整理数据如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第4张图片

此时，仍未触发window执行，由第三条数据内容可知，此时的 watermark 的时间已经上升到了等于等一条数据的 Event Time 了。继续输入一条33秒的数据，输入如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第5张图片

控制台输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第6张图片

此时，watermar 的时间秒数为23秒，已经超过第一条数据的Event Time时间11秒，但是windows仍然没有执行输出，再继续数据一条增加1秒的数据，即输入一条34秒的数据，如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第7张图片

控制台输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第8张图片

此时，在输入34秒数据的时候触发执行了window，window的触发机制如下：
先是按照自然时间将window划分，在程序中设置了window执行窗口大小为3秒，即每3秒划分一个窗口，对于1分钟的时间会按以下方式对window进行划分，区间形式为左闭右开：

window 划分机制
[ 00:00:00,00:00:03 )
[ 00:00:03,00:00:06 )
[ 00:00:06,00:00:09 )
…
[ 00:00:18,00:00:21 )
[ 00:00:21,00:00:24 )
[ 00:00:24,00:00:27 )
…
[ 00:00:57,00:01:00 )
…

window 的大小是由程序中定义的，定义如下：

//  设置窗口 3 秒一个
 .window(TumblingEventTimeWindows.of(Time.seconds(3)))   //按照消息的EventTime分配窗口

输入的数据中的时间是数据本身的产生时间，即 Event Time，根据数据的时间会被划分到不同的 window 窗口中，如果当 window 窗口中有数据，并且满足 window 的触发条件时，则会执行 window 操作，对该 window 中的数据进行处理，但是最终决定 window 是否触发，是由数据的 Event Time 所属的 window 中的 window_end_time 决定的。
通过上述数据可知，最后一条数据达到后，watermark 水位线上升到了 24 秒，同时结合 window 划分机制可知，第一条数据所在的 window 区间是 [ 00:00:00,00:00:03 )，所以 window 就被触发执行了。
可以通过继续输入数据验证 window 触发机制，输入数据如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第9张图片

输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第10张图片

此时，watermark 时间虽然已经达到了第二条数据的时间，但是由于其没有达到第二条数据所在window 的结束时间，所以window 并没有被触发。那么，第二条数据所在的window时间是: [ 00:00:24,00:00:27 ) 。
通过上述结论，需要再次输入一条大于27秒的数据，第二条数据所在的 window 才会触发执行，输入数据如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第11张图片

输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第13张图片

$\color{red}{通过上述测试，可得 window 触发条件：}$

1. watermark 时间 >= window_end_time
2. 在[window_start_time,window_end_time)区间中有数据存在，注意是左闭右开的区间

同时满足了以上2 个条件，window 才会触发。

2、watermark + window 处理乱序数据

上面的测试，数据都是按照时间顺序递增的，现在，我们输入一些乱序的（late）数据，看看watermark 结合window 机制，是如何处理乱序的。
输入两行数据：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第14张图片

输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第16张图片

通过输入的39秒和31秒的两条乱序数据可知，虽然输入了一个31秒的数据，但是currentMaxTimestamp 和watermark都没变。此时，结合上一节归纳的 window 触发机制：

watermark 时间>= window_end_time

在[window_start_time,window_end_time)中有数据存在

watermark 时间（14:36:29） < window_end_time（14:36:33），因此不能触发window。
此时，再次输入一条43秒的数据，使得水位线 watermark 可以上升到 33 秒，从而触发 window 执行，输入如下：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第17张图片

输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第19张图片

由上输出数据表格可以看到，窗口中有 2 个数据，14:36:31 和14:36:32，但是没有14:36:33 的数据，原因是窗口是一个前闭后开的区间，14:36:31 的数据是属于 [ 14:36:33 , 14:36:36 ) 的窗口的。
通过实验结果表明，对于out-of-order 的乱序数据，Flink 可以通过watermark 机制结合window的操作，来处理一定范围内的乱序数据。

4、late element(延迟数据)的处理

水位线 watermark 设置了允许最大乱序时间，即数据可以晚到的时间，如果在 watermark 设置的时间内数据还是没有能够到达，则为late element(延迟数据)，针对延迟数据通常有三种处理方法。

4.1、丢弃数据（默认）

输入一个乱序很多的（其实只要Event Time < watermark 时间）数据来测试下：
输入【两条数据】：

输出：

输出数据表格：

Attention: 此时的 watermark 值是 1559371773000，即 2019-06-01 14:49:33.000
下面再输入几组 eventtime < watermark 的时间的数据
输入【三条数据】：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第20张图片

输出：

此时并没有触发window。因为输入的数据所在的窗口已经执行过了，flink 默认对这些迟到的数据的处理方案就是丢弃。

4.2、allowedLateness 指定允许数据延迟的时间

在某些情况下，希望对迟到的数据再提供一个宽容的时间。也就是说，水位线 watermark 提供了一个允许数据最大乱序时间，如果在这个时间内，乱序数据还没有能够到达的话，可以再提供一个时间，如果这个时间内数据到了也是可以的。Flink 提供了allowedLateness 方法可以实现对迟到的数据设置一个延迟时间，在指定延迟时间内到达的数据还是可以触发window 执行的。
采用allowedLateness 需要对代码进行修改：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第21张图片

DataStream<String> window = waterMarkStream.keyBy(0)
                //  设置窗口 3 秒一个
    .window(TumblingEventTimeWindows.of(Time.seconds(3)))   //按照消息的EventTime分配窗口，和调用TimeWindow效果一样
    .allowedLateness(Time.seconds(2))//允许数据迟到2秒
                ...

输入【两条数据】：

输出：

输出数据表格：

结果同上，正常触发 window 执行。
此时 watermark 是 2019-06-01 14:49:33.000
那么现在再输入几条 eventtime < watermark 的数据验证一下效果。
输入【三条数据】：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第22张图片

输出：

从输出可以看到，后面输入的 30、31、32 秒的三条数据，每条都触发了 window 执行操作。
输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第24张图片

再输入一条数据，把 watermark 调整到14:36:34。
输入：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第25张图片

输出：

输出数据表格：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第27张图片

此时，把 watermark 上升到了34秒，再输入几条 eventtime < watermark 的数据验证一下效果
输入：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第28张图片

输出：

输入的三行数据都触发了window 的执行。
再输入一条数据，把 watermark 调整到 35 秒。
输入：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第30张图片

输出：

此时，watermark 上升到了 35 秒，再输入几条 eventtime < watermark 的数据验证一下效果。
输入：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第32张图片

输出：

此时，发现这几条数据都没有触发window。
分析：

当 watemark 等于14:49:33 的时候，正好是 window_end_time，所以会触发 [14:49:30 , 14:49:33) 的 window 执行。
当窗口执行过后，我们输入 [14:49:30 , 14:49:33) window 内的数据会发现 window 是可以被触发的。
当watemark 提升到 14:49:34 的时候，输入 [14:49::30 , 14:49:33) window 内的数据会发现window 也是可以被触发的。
当watemark 提升到 14:49:35 的时候，输入 [14:49::30 , 14:49:33) window 内的数据会发现 window 不会被触发了。

由于在前面程序中设置了allowedLateness(Time.seconds(2))，可以允许延迟在2s 内的数据继续触发window 执行。

总结：
对于此窗口而言，允许2 秒的迟到数据，即第一次触发是在 watermark >=window_end_time 时，第二次（或多次）触发的条件是 watermark < window_end_time + allowedLateness 时间内，这个窗口有 late 数据到达时。

解释：

当 watermark 等于 14:49:34 的时候，输入 eventtime 为 14:49:30、14:49:31、14:49:32 的数据的时候，是可以触发的，因为这些数据的 window_end_time 都是 14:49:33，也就是 14:49:34 < 14:49:33+2 为 true。
当 watermark 等于 14:49:35 的时候，再次输入 eventtime 为 14:49:30、14:49:31、14:49:32 的数据的时候，这些数据的window_end_time 都是14:49:33，此时，14:49:35 < 14:49:33+2 为 false 。所以最终这些数据迟到的时间太久了，就不会再触发window 执行。

4.3、sideOutputLateData 收集迟到的数据

通过sideOutputLateData 可以把迟到的数据统一收集，统一存储，方便后期排查问题。采用sideOutputLateData 需要修改代码：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第34张图片

//保存被丢弃的数据
OutputTag<Tuple2<String, Long>> outputTag = new OutputTag<Tuple2<String, Long>>("late-data"){};
//注意，由于getSideOutput方法是SingleOutputStreamOperator子类中的特有方法，所以这里的类型，不能使用它的父类dataStream。
SingleOutputStreamOperator<String> window = waterMarkStream.keyBy(0)
        .window(TumblingEventTimeWindows.of(Time.seconds(3)))//按照消息的EventTime分配窗口，和调用TimeWindow效果一样
        //.allowedLateness(Time.seconds(2))//允许数据迟到2秒
        .sideOutputLateData(outputTag)
        .apply(new WindowFunction<Tuple2<String, Long>, String, Tuple, TimeWindow>() {
            /**
             * 对window内的数据进行排序，保证数据的顺序
             * @param tuple
             * @param window
             * @param input
             * @param out
             * @throws Exception
             */
            @Override
            public void apply(Tuple tuple, TimeWindow window, Iterable<Tuple2<String, Long>> input, Collector<String> out) throws Exception {
                String key = tuple.toString();
                List<Long> arrarList = new ArrayList<Long>();
                Iterator<Tuple2<String, Long>> it = input.iterator();
                while (it.hasNext()) {
                    Tuple2<String, Long> next = it.next();
                    arrarList.add(next.f1);
                }
                Collections.sort(arrarList);
                SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS");
                String result = key + "," + arrarList.size() + "," + sdf.format(arrarList.get(0)) + "," + sdf.format(arrarList.get(arrarList.size() - 1))
                        + "," + sdf.format(window.getStart()) + "," + sdf.format(window.getEnd());
                out.collect(result);
            }
        });

//把迟到的数据暂时打印到控制台，实际中可以保存到其他存储介质中
DataStream<Tuple2<String, Long>> sideOutput = window.getSideOutput(outputTag);
 ...

输入：

输出：

此时，window 被触发执行了，此时 watermark 是 14:49:33 ，输入几个 eventtime < watermark 的数据测试一下.
输入：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第35张图片

输出：

此时，针对这几条迟到的数据，都通过sideOutputLateData 保存到了outputTag 中。

5、在多并行度下使用 watermark

以上实现的 watermark 的前提均是通过全局设置了并行度为1，即：

env.setParallelism(1);

如果这里设置的并行度不为1，或者没有设置并行度的情况下，则情况就会不同，如将并行度改为4：

env.setParallelism(8);

通过线程 id 观察程序执行情况：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第37张图片

输入【7条数据】：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第38张图片

输出：

通过控制台打印输出可知，此时并没有触发 window 。因为，这 7 条数据都是被不同的线程处理的。每个线程都有一个watermark 。在多并行度的情况下，watermark 对齐会取所有 channel 最小的 watermark 。
但是现在设置了 8 个并行度，这 7 条数据都被不同的线程所处理，到现在还没获取到最小的 watermark，所以window 无法被触发执行。多并行度下 watermark 机制如下图所示：

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据_第39张图片

下面把代码中的并行度调整为2：

env.setParallelism(2);

输入如下内容：

输出：

此时会发现，当第三条数据输入完以后， [14:49:30 , 14:49:33) 这个 window 被触发了。前两条数据输入之后，获取到的最小 watermark 是 14:49:20，这个时候对应的window 中没有数据。第三条数据输入之后，获取到的最小 watermark 是14:49:30，这个时候对应的窗口就是 [14:49:30 , 14:49:33)，所以就触发执行。

下一篇：【17】Flink 之并行度（Parallel）及设置

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

【16】Flink 之 EventTime 和 Watermark 结合使用解决乱序数据

1、Watermark 使用分析

2、实现watermark

2.1、程序功能

2.2、程序说明

2.3、运行数据查看watermark

2、watermark + window 处理乱序数据

4、late element(延迟数据)的处理

4.1、丢弃数据（默认）

4.2、allowedLateness 指定允许数据延迟的时间

4.3、sideOutputLateData 收集迟到的数据

5、在多并行度下使用 watermark

你可能感兴趣的:(Flink)