Flink WaterMark机制白话分析

最近遇见一个流处理的数据严重迟到乱序的场景,基于Saprk Streaming开发的统计用户页面停留时间。使用的思想是:迟到数据的时间补偿机制。由于Spark不支持乱序的支持,所以自行实现了一个容器保存一定量的历史数据,最后对迟到的数据插到历史容器中,对插入数据的位置进行局部计算求补偿时间最后添加到累计停留时间中,大概这个思想。有时间会分享出来。这个场景要我想起了Flink对乱序支持的机制,因为又看了看Flink的WaterMark,将自己的理解记录下来,方便日后需要时候翻出来看看。


情况1:


Flink WaterMark机制白话分析_第1张图片


情况2:


Flink WaterMark机制白话分析_第2张图片

结论:

Flink WaterMark机制白话分析_第3张图片

补充:说实话看了很多有关Flink Watermark的博文,可能个人能力薄弱理解能力差的原因吧,看的不是很清晰很直观。我把我个人觉着看过的觉着不错的博文写在下方:

http://aitozi.com/2017/09/10/flink-watermark/

https://zhuanlan.zhihu.com/p/20585530



你可能感兴趣的:(Flink WaterMark机制白话分析)