阿里实时任务计算blink调优技巧

watermark

实时计算可以基于时间属性对数据进行窗口聚合。基于的Event Time时间属性的窗口函数作业中,数据源表的声明中需要使用Watermark方法。

Watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性,Watermark的定义是数据源表DDL定义的一部分。Flink提供了如下语法定义Watermark。

Watermark 是插入到数据流中的一种特殊的数据,watermark 上带了一个时间戳,其含义是:在这个之后不会收到小于或等于该时间戳的数据。假设数据的乱序程度是1分钟,也就是说等1分钟之后,绝大部分迟到的数据都到了,那么我们就可以定义 watermark 计算方式为偏移1分钟。

总结:
WaterMark的含义是所有时间 t’< t 的事件都已经发生。假如watermark t已经生效,那么后续eventTime小于t的记录都会被丢掉(暂时blink的做法是丢弃这些来的更晚的数据,以后会给用户配置,让更晚的数据也能继续update)。
针对乱序的的流,watermark 至关重要,这样即使一些事件延迟到达,也不至于过于影响window窗口的计算的正确性。
一个物理算子节点在运行时会有多条输入流,算子的watermark取所有流的watermark的最小值。
WATERMARK [watermarkName] FOR AS withOffset(, offset)
通常一条记录中的某个字段就代表了该记录的发生时间。例如,表中rowtime字段的类型为TIMESTAMP,1501750584000(2017-08-03 08:56:24.000)。定义一个基于该rowtime列,偏移4秒的Watermark的示例如下。

WATERMARK FOR rowtime AS withOffset(rowtime, 4000)
这条数据的Watermark时间为 1501750584000 - 4000 = 1501750580000(2017-08-03 08:56:20.000)。这条数据的Watermark时间含义:时间戳小于1501750580000(2017-08-03 08:56:20.000)的数据已经全部

你可能感兴趣的:(flink,flink,大数据,spark)