一个电商平台,要统计双十一每分钟内成交额,你认为是哪个时间比较好?
(EventTime) 下单支付时间是2021-11-11 00:00:10
(IngestionTime ) 进入Flink时间2021-11-11 00:01:15(网络拥堵、延迟)
(ProcessingTime)进入窗口时间2021-11-11 00:04:30(网络拥堵、延迟)
一般我们都是用EventTime事件时间进行处理统计数据,但数据由于网络问题延迟、乱序到达会导致窗口计算数据不准确。
需求:
比如时间窗是 [12:01:01,12:01:10 ) ,但是有数据延迟到达当 12:01:10 秒数据到达的时候,不立刻触发窗口计算而是等一定的时间,等迟到的数据来后再关闭窗口进行计算。
Watermark 设置太小会影响数据准确性,设置太大会影响数据的实时性,更加会加重Flink作业的负担
需要经过测试,和业务相关联,得出一个较合适的值即可
Watermaker = 当前计算窗口最大的事件时间 - 允许乱序延迟的时间
watermark之前是按照窗口的关闭时间点计算的 [12:01:01,12:01:10 )
watermark之后,触发计算的时机
触发计算后,其他窗口内数据再到达也被丢弃
数据流中的事件是有序
数据流中的事件是无序
案例剖析:
window大小为10s,窗口是W1 [23:12:00~23:12:10) 、 W2[23:12:10~23:12:20)
下面是数据的event time
数据A 23:12:07
数据B 23:12:11
数据C 23:12:08
数据D 23:12:17
数据E 23:12:09
没加入watermark,由上到下进入flink
数据B到了之后,W1就进行了窗口计算,数据只有A
数据C 迟到了3秒,到了之后,由于W1已经计算了,所以就丢失了数据C
加入watermark, 允许5秒延迟乱序,由上到下进入flink
数据A到达
watermark = 12:07 - 5 = 12:02 < 12:10 ,所以不触发W1计算, A属于W1
数据B到达
watermark = max{ 12:11, 12:07} - 5 = 12:06 < 12:10 ,所以不触发W1计算, B属于W2
数据C到达
watermark = max{12:08, 12:11, 12:07} - 5 = 12:06 < 12:10 ,所以不触发W1计算, C属于W1
数据D到达
watermark = max{12:17, 12:08, 12:11, 12:07} - 5 = 12:12 > 23:12:10 , 触发W1计算, D属于W2
数据E到达
watermark = max{12:09, 12:17, 12:08, 12:11, 12:07} - 5 = 12:12 > 23:12:10 , 之前已触发W1计算, 所以丢失了E数据
Watermaker 计算 = 当前计算窗口最大的事件时间 - 允许乱序延迟的时间
什么时候触发W1窗口计算
Watermaker >= Window EndTime窗口结束时间
当前计算窗口最大的事件时间 - 允许乱序延迟的时间 >= Window EndTime窗口结束时间
需求:
时间工具类
/**
* date 转 字符串
*
* @param time
* @return
*/
public static String format(long timestamp) {
DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss");
ZoneId zoneId = ZoneId.systemDefault();
String timeStr = formatter.format(new Date(timestamp).toInstant().atZone(zoneId));
return timeStr;
}
/**
* 字符串 转 date
*
* @param time
* @return
*/
public static Date strToDate(String time) {
DateTimeFormatter formatter = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss");
LocalDateTime localDateTime = LocalDateTime.parse(time, formatter);
return Date.from(localDateTime.atZone(ZoneId.systemDefault()).toInstant());
}
watermark代码示例:
构建执行任务环境以及任务的启动的入口, 存储全局相关的参数
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
DataStream<String> ds = env.socketTextStream("127.0.0.1",8888);
DataStream<Tuple3<String, String,Integer>> flatMapDS = ds.flatMap(new FlatMapFunction<String, Tuple3<String, String, Integer>>() {
@Override
public void flatMap(String value, Collector<Tuple3<String, String,Integer>> out) throws Exception {
String[] arr = value.split(",");
out.collect(Tuple3.of(arr[0], arr[1],Integer.parseInt(arr[2])));
}
});
SingleOutputStreamOperator<Tuple3<String, String,Integer>> watermakerDS = flatMapDS.assignTimestampsAndWatermarks(WatermarkStrategy
//指定最大允许的延迟/乱序 时间
.<Tuple3<String, String,Integer>>forBoundedOutOfOrderness(Duration.ofSeconds(3))
.withTimestampAssigner(
(event, timestamp) -> {
//指定POJO的事件时间列
return TimeUtil.strToDate(event.f1).getTime();
}
));
SingleOutputStreamOperator<String> sumDS = watermakerDS.keyBy(new KeySelector<Tuple3<String, String,Integer>, String>() {
@Override
public String getKey(Tuple3<String, String,Integer> value) throws Exception {
return value.f0;
}
}).window(TumblingEventTimeWindows.of(Time.seconds(10))).apply(new WindowFunction<Tuple3<String, String,Integer>, String, String, TimeWindow>() {
@Override
public void apply(String key, TimeWindow window, Iterable<Tuple3<String, String,Integer>> input, Collector<String> out) throws Exception {
//存放窗口的数据的事件时间
List<String> eventTimeList = new ArrayList<>();
int total = 0;
for (Tuple3<String, String,Integer> order : input) {
eventTimeList.add(order.f1);
total = total+order.f2;
}
String outStr = String.format("分组key:%s,聚合值:%s,窗口开始结束:[%s~%s),窗口所有事件时间:%s", key,total, TimeUtil.format(window.getStart()),TimeUtil.format(window.getEnd()), eventTimeList);
out.collect(outStr);
}
});
sumDS.print();
env.execute("watermark job");
测试数据:
窗口 [00:00:00 ~ 00:00:10) | [00:00:10 ~ 00:00:20)
窗口时间:10s
并行度调整为1
触发窗口计算条件
lining,2021-11-11 00:00:07,200
lining,2021-11-11 00:00:11,200
lining,2021-11-11 00:00:08,200
nike,2021-11-11 00:00:13,200
lining,2021-11-11 00:00:13,200
lining,2021-11-11 00:00:17,200
lining,2021-11-11 00:00:09,200
lining,2021-11-11 00:00:20,200
lining,2021-11-11 00:00:22,200
lining,2021-11-11 00:00:23,200
//分组 开窗
SingleOutputStreamOperator<String> sumDS = watermarkDS.keyBy(new KeySelector<Tuple3<String, String, Integer>, String>() {
@Override
public String getKey(Tuple3<String, String, Integer> value) throws Exception {
return value.f0;
}
})
//开窗
.window(TumblingEventTimeWindows.of(Time.seconds(10)))
//允许 1分钟
.allowedLateness(Time.minutes(1))
//聚合, 方便调试拿到窗口全部数据,全窗口函数
.apply();
sumDS.print();
超过了watermark的等待后,还有延迟数据到达怎么办?
watermark先输出,然后配置allowedLateness 再延长时间,然后到了后更新之前的窗口数据
数据超过了allowedLateness 后,就丢失了吗?用侧输出流 SideOutput
OutputTag<Tuple3<String, String,Integer>> lateData = new OutputTag<Tuple3<String, String,Integer>>("lateData"){};
.window(TumblingEventTimeWindows.of(Time.seconds(10)))
//允许 1分钟
.allowedLateness(Time.minutes(1))
//最后的兜底容忍
.sideOutputLateData(lateData)
//不会更新之前的窗口数据,需要代码单独写逻辑处理更新之前的数据,也可以积累后批处理
sumDS.getSideOutput(lateData).print("late data");
数据有乱序延迟,如何保证在需要的窗口内获得指定的数据?
那么为什么不直接把window设置大一点呢?或者把watermark加大点? 而使用allowedLateness
应用场景?
Flink 默认的处理方式直接丢弃迟到的数据
sideOutPut还可以进行分流功能
DataStream没有getSideOutput方法,SingleOutputStreamOperator才有
Watermark新接口-->WatermarkStrategy,TimestampAssigner 和 WatermarkGenerator 因为其对时间戳和 watermark 等重点的抽象和分离很清晰,并且还统一了周期性和标记形式的 watermark 生成方式
新接口之前是用AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks ,现在可以弃用了