flink从1.12版本开始水位线分配做了不小的改动,以前的老代码需要改变,今天通过阅读源码,正好做个整理。
首先现在的版本默认情况下使用event time。如果你想用process time请用:
.window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
目前的版本WatermarkStrategy接口用来分配事件时间,和水位线,基本上是水位线和事件时间的入口类了,这个接口内置了很多已经被实现的策略,甚至我们拿来直接用,基本不用自己实现,当然了你也可以自己实现这个接口,去实现createTimestampAssigner,createWatermarkGenerator这两个方法。
这篇文章有几个目的:1.让你彻底明白水位线 2.学会用最新的api来生成水位线
本文章基于1.13版本
窗口的分配基于时间,flink的时间有以下三种
- event time:流数据元素本身携带了时间戳
- processing time:指的是流数据使用算子的时间,也就是被算子处理的时间
- ingestion time:值得是事件到达 flink source的事件
event time:使用数据元素携带的时间,首先数据有可能乱序到达,也就是存在时间延迟的可能性,因此如想结果准确,那么必然要增加延迟时间,如此一来就会增加处理延迟,这是最大的缺点。优点语义清晰更接近业务层实际场景。使用过程中要考虑对延迟到来的元素如何处理。 常见的处理方式:a.直接丢弃 2.siding 分流后续自己处理。c.给窗口设置一个延迟时间(治标不治本)一般生产环境会采用2和3联合处理
使用算子处理的时候该元素所在计算机的时间, 也就是说只考虑数据被真实处理的事件,不考虑数据什么时候产生的,只要该数据在某个事件段内到达了算子就会被flink自动划分窗口, 因此这是flink根据系统事件自动化分的,也不存在数据延迟的问题,更不存在水位线,这是一种高效率的处理方式。而且不需要设置水位线策略,代码也更加简洁。只需要在window指定即可:window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
指的是事件到达flink source的时间,这是一个折中方案,效率低于processing time 高于event tion。 其水位线设置代码也更简洁一些。
流处理中,时间就是一个基石,我们已经知道时间分为事件时间,处理时间和接入时间这三类。那么水位线和时间有什么关系呢?思考一个问题,在流处理中我们一般是按照时间窗口来进行计算的。那么时间窗口是怎么触发的呢? 你有没有想过这个问题。而水位线就是为了触发计算而存在的。水位线其实就是携带自增时间的流数据,它和真正的数据(指事件),掺杂在一起随着数据流而流动。
对初学者来说恐怕很难很难理解水位线是怎么传播的,以及怎么工作的。这一小节我们来谈谈水位线的传播。 我们来看一句代码:ds.flatMap().keyBy(),假设ds是携带水位线的数据流,且ds有两个分区,且携带三个不同的key,在keyBy之后会出现三个分区。此时数据流动如下:
上图介绍的是数据传输,放心我没有跑题,请确保明白了上图所示。我们接着再来说水位线。通过上图我们知道了,上下游算子数据传输其实就是上下游task线程数据的传输 , 我们说过水位线是和数据掺杂在一起的,这就意味着水位线传输也是通过socket传输的。task其实就是真正进行数据处理的线程 , 所谓的窗口触发,其实就是说task开始从上游往下游依次执行, 所以说一个窗口数据的处理,从上游到下游会经过很多的task。 那么task是怎么知道该执行了?抛开flink, 你仔细想想如果你写一个五分钟后执行的线程你会怎么写?答案很简单啊,首先定义一个五分钟之后的时间戳,然后判断当前时间是否大于你定义的时间,是的话就启动线程。flink也是这样啊,相对而言flink 中task的执行一定也要有一个触发时间,问题是触发时间是哪里来的呢?带着这个问题请往下看。
上面已经说了 keyBytask-01接收的数据和水位线分别来自maptask-01和maptask-02, 接下来研究的就是keyBytask-01的触发时间怎么来的。 首先肯定和水位线有关啊, 我们看到keyBytask-01拿到了maptask-01和maptask-02流数据中的水位线,然后取出最小的那个水位线时间去更新自己的触发时间。数据一直流动,触发时间一直更新。 这个触发时间flink称为 算子时钟,这个时钟其实就是task线程级别的时钟,由每个task线程维护,本质上就是task线程的一个时间变量。 当我们调用window划分时间的时候,flink会基于自然时间划分窗口,每个窗口都有start_time 和end_time.
然后根据流数据中的event_time为 当前数据分配所属窗口。
当算子时钟 >end_time的时候,并且窗口中的数据数量大于零的时候触发计算。
你看懂了上面的基本明白了七七八八,甚至应付面试已经不成问题了。但是我还想多说点,上面说到了算子时钟,算子时钟存在于每一个task线程中, 且会随着下游socket链接传递给下游的task,也就是说对于下游的数据来说,算子时钟就是真正的水位线了。对于我们生成的水位线其实在第一个算子处理之后就不存在了(严格来说是被转换成算子时钟), 在第一个算子中,该算子对应的每个task都有一个时钟,该时钟被水位线更新,并被传递到下游算子最为下游数据的水位线。
这个部分按理说应该在 2.22 之前讲解的,但是为了方便理解整体逻辑,所以放在了这里。上面已经说了 keyBytask-01接收的数据和水位线分别来自maptask-01和maptask-02。 maptask-01 和maptask-o2其实对应的就是数据的两个分区。 对于keyBytask-01来收其消费的数据其实来自 maptask-01 和maptask-o2对应的两个分区(虽然本质上是maptask处理后的数据分区数据), keyBytask-01会维护一个列表,这个列表对应的就是maptask-o1,maptask-o2当前的水位线,这就是分区水位线partition watermark。 keyBytask-01遍历该列表取出最小的水位下那作为算子时钟。 列表中的值其实就是maptask遇到的水位线, 每个task对应一个水位线,在本例子中该列表就有两个水位线,一个是maptask-01对应的值,另一个是maptask-02对应的值,该值会随着数据的流动被更新,每次遇到新的水位线的时候都会和当前值比较,如果新遇到的水位下那比当前值大的话就更新列表中的水位线。 说白了, keyBytask-01维护的partition watermark 就对应着maptask-01和maptask-02 的处理进度。 假设这两个水位线的值分别为 {t1 , t2 }, 那就说明对maptask-01来说 所有事件时间小于t1的事件都已经被maptask-01接收了,同理对maptask-02来说 所有事件时间小于t2的事件都已经被maptask-02接收了. 我们再假设 t1 < t2, 那么keyBytask-01会遍历partition watermark 取出最小的值 t1作为算子时钟,然后将t1最为新的水位线转发给keyBy下游的算子, 此时对keyBy算子来水意味着所有事件时间小于t1的数据都被keyBy接收了。
其实,正常来说,processing time和ingestion time 都可以不设置水位线,而如果要使用event time 一般都要设置水位线的。
我个人觉得你一定要理解啊, 水位线是为了触发窗口计算而存在的,如果你根本不涉及到窗口计算,那么设置水位线屁用没有。
本小节不涉及代码,因为不同版本的水位线设置代码略有不同,这里讲一下思路。
1.提取时间
不是说数据里已经有时间戳了吗,为什么这里还要“提取”呢?这是因为原始的时间戳只是流数据数据对象的一个字段,如果不提取出来并明确把它分配给数据,Flink 是无法知道数据真正产生的时间的,也就是说你得让flink知道你用的哪个时间。
2.指定一个水位线生成策略
水位线的生成很好理解,就是将生成的水位线发送到数据流中,使得水位线随着数据流一起流动。水位线的生成和事件中的时间息息相关。
1.直接在source端生成(只在event time模式下可用)
此方式一般用于自定义source的时候,在获取数据的方法类用context直接提取时间,以及生成水位线。 下面伪代码,真正有用的是:collectWithTimestamp 和emitWatermark
public class Device{
public String deviceId;
public long deviceTime;
}
public class MySource extends RichSourceFunction{
@Override
public void run(SourceContext ctx) throws Exception{
while(某条件){
Device device = getDevice();
ctx.collectWithTimestamp(device,device.deviceTime);//提取时间
ctx.emitWatermark(new Watermark(device.deviceTime));//生成水位线
}
}
}
2.在接收到source之后统一分配
KeyedStream, String> ds =...;
ds .assignTimestampsAndWatermarks(
WatermarkStrategy
.forGenerator(WatermarkGeneratorSupplier generatorSupplier)//生成水位线
.withTimestampAssigner(SerializableTimestampAssigner timestampAssigner)//提取时间
);
forGenerator中接受一个水位线生成器具,你自己实现即可。withTimestampAssigner就很简单了,
可以直接用lambda表达式提取时间即可
上面是部分理解到核心逻辑即可,下面会讲解代码的,不要急。
所以核心逻辑:1.提取时间 2.生成水位线
KeyedStream, String> ds =...;
ds .assignTimestampsAndWatermarks(
WatermarkStrategy
.forGenerator(WatermarkGeneratorSupplier generatorSupplier)//生成水位线
.withTimestampAssigner(SerializableTimestampAssigner timestampAssigner)//提取时间
);
withTimestampAssigner接受一个时间提取器SerializableTimestampAssigner,这个很简单,比如
class MySerializableTimestampAssigner implements SerializableTimestampAssigner >{
@Override
public long extractTimestamp(Tuple2 element, long recordTimestamp) {
return element.f1;//提取时间
}
}
forGenerator参数是一个WatermarkGeneratorSupplier,实现如下:
class MyWatermarkGenerator implements WatermarkGeneratorSupplier>{
@Override
public WatermarkGenerator> createWatermarkGenerator(Context context) {
return new WatermarkGenerator>() {
@Override
public void onEvent(Tuple2 event, long eventTimestamp, WatermarkOutput output) {
//每个事件调用一次
}
@Override
public void onPeriodicEmit(WatermarkOutput output) {
//间隔一定周期调用一次
}
} ;
}
}
这个接口对于新手其实也不好理解。在这里我想多说几句。
flink的水位线也是一种流数据,它和流数据一起移动,
只不过水位线数据不参与逻辑计算
只是作为触发标志而存在。
所以说水位线是不参与逻辑计算的流数据,
它由flink调用WatermarkGenerator去生成并塞入流数据中,
这个行为对我们来说是不可见的。 那么这就很好理解了。
1.onEvent:这个方法的意思是我们可以根据event的特性再加上一些逻辑去生成我们想要的水位线,此时根本不需要onPeriodicEmit方法了,在这种情况下水位线的生成可以说由我们完全控制了,比如当遇到某些特殊的event的时候去生成水位线,那么就可以在这个方法中去分析event,判断是否需要发出水位线。 再看参数eventTimestamp,这个参数其实就是TimestampAssigner分配的事件的时间,根据这个时间我们可以自定义一些生成水位线的方式。此时需要注意,因为生成水位线和eventTimestamp有关,而且水位线又是必须递增的,所以你要判断下。
2.onPeriodicEmit
这个方法很好理解啊,就是周期生成递增的水位线,你甚至可以字节用系统时间简单发出水位线,顾名思义此方法被周期性调用,而onEvent是每来一个元素都会调用的。
再来看参数WatermarkOutput ,这个参数可以发出水位线,就是一个普通对象,包含一个发送方法,方法接受一个水位线对象而已。 我们观察到无论是
onEvent还是onPeriodicEmit都有这个参数也就是说它们都可以发出水位线。
这两个方法很灵活,你可以用enEvent发出水位线也可以用onPeriodicEmit发出水位线那。但是记住enEvent这是每个元素都会调用一次的方法,而onPeriodicEmit是被周期性调用的方法,所以主意啊enEvent可能会发出更多的水位线从而影响性能。 更多时候二者是结合使用的,比如onEvent只是做一些时间处理,存为类变量,而 onPeriodicEmit用于发出水位线。
我们来看一个flink提供的内部的自增的周期性水位线的例子:
public class BoundedOutOfOrdernessWatermarks implements WatermarkGenerator {
@Override
public void onEvent(T event, long eventTimestamp, WatermarkOutput output) {
maxTimestamp = Math.max(maxTimestamp, eventTimestamp);
}
@Override
public void onPeriodicEmit(WatermarkOutput output) {
output.emitWatermark(new Watermark(maxTimestamp - outOfOrdernessMillis - 1));
}
}
这个例子展示了结合onEvent和onPeriodicEmit这两个方法生成水位线的方法。
onPeriodicEmit调用的周期可以再evn中设置:env.getConfig().setAutoWatermarkInterval(10)
import org.apache.flink.api.common.eventtime.*;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
;
//生成水位线有两处位置1.在source内部生成 2.在source到来之后生成,下面展示的是在source后面生成
public class waterMarkDemo {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.getConfig().setAutoWatermarkInterval(1000);//水位线周期,毫秒,即onPeriodicEmit调用的周期
KeyedStream, String> ds = env.fromElements(
Tuple2.of("a", 1660819010000L),
Tuple2.of("b", 1660819020000L),
Tuple2.of("a", 1660819030000L),
Tuple2.of("b", 1660819040000L),
Tuple2.of("c", 1660819050000L)
).assignTimestampsAndWatermarks(WatermarkStrategy.>forGenerator(new MyWatermarkGenerator())
.withTimestampAssigner(
new MySerializableTimestampAssigner()
)
).keyBy(new KeySelector, String>() {
@Override
public String getKey(Tuple2 value) throws Exception {
return value.f0;
}
});
ds.print();
env.execute();
}
}
class MyWatermarkGenerator implements WatermarkGeneratorSupplier> {
private long maxTimestamp;
private final long outOfOrdernessMillis = 60*1000;//一分钟 毫秒
@Override
public WatermarkGenerator> createWatermarkGenerator(Context context) {
return new WatermarkGenerator>() {
@Override
public void onEvent(Tuple2 event, long eventTimestamp, WatermarkOutput output) {
maxTimestamp = Math.max(maxTimestamp, eventTimestamp);//eventTimestamp是 提取的flink事件时间
}
@Override
public void onPeriodicEmit(WatermarkOutput output) {
output.emitWatermark(new Watermark(maxTimestamp - outOfOrdernessMillis));
}
};
}
}
class MySerializableTimestampAssigner implements SerializableTimestampAssigner> {
@Override
public long extractTimestamp(Tuple2 element, long recordTimestamp) {
return element.f1;//提取时间
}
@Public
public interface WatermarkStrategy
extends TimestampAssignerSupplier, WatermarkGeneratorSupplier {
@Override
WatermarkGenerator createWatermarkGenerator(WatermarkGeneratorSupplier.Context context);
@Override
default TimestampAssigner createTimestampAssigner(
TimestampAssignerSupplier.Context context) {
// By default, this is {@link RecordTimestampAssigner},
// for cases where records come out of a source with valid timestamps, for example from
// Kafka.
return new RecordTimestampAssigner<>();
}
default WatermarkStrategy withTimestampAssigner(
TimestampAssignerSupplier timestampAssigner) {
checkNotNull(timestampAssigner, "timestampAssigner");
return new WatermarkStrategyWithTimestampAssigner<>(this, timestampAssigner);
}
default WatermarkStrategy withTimestampAssigner(
SerializableTimestampAssigner timestampAssigner) {
checkNotNull(timestampAssigner, "timestampAssigner");
return new WatermarkStrategyWithTimestampAssigner<>(
this, TimestampAssignerSupplier.of(timestampAssigner));
}
default WatermarkStrategy withIdleness(Duration idleTimeout) {
checkNotNull(idleTimeout, "idleTimeout");
checkArgument(
!(idleTimeout.isZero() || idleTimeout.isNegative()),
"idleTimeout must be greater than zero");
return new WatermarkStrategyWithIdleness<>(this, idleTimeout);
}
static WatermarkStrategy forMonotonousTimestamps() {
return (ctx) -> new AscendingTimestampsWatermarks<>();
}
static WatermarkStrategy forBoundedOutOfOrderness(Duration maxOutOfOrderness) {
return (ctx) -> new BoundedOutOfOrdernessWatermarks<>(maxOutOfOrderness);
}
static WatermarkStrategy forGenerator(WatermarkGeneratorSupplier generatorSupplier) {
return generatorSupplier::createWatermarkGenerator;
}
static WatermarkStrategy noWatermarks() {
return (ctx) -> new NoWatermarksGenerator<>();
}
}
基本上讲解的差不多了,上面都搞明白的话应付开发完全不成问题,另外仔细看WatermarkStrategy源码,发现forMonotonousTimestamps和forBoundedOutOfOrderness这两个水位线可以拿来直接用,就像下面这样:
ds.assignTimestampsAndWatermarks(WatermarkStrategy.>forMonotonousTimestamps()
.withTimestampAssigner(new SerializableTimestampAssigner>() {
@Override
public long extractTimestamp(Tuple2 element, long recordTimestamp) {
return element.f1;
}
})
)
forMonotonousTimestamps和forBoundedOutOfOrderness都是自增周期性水位线,有兴趣的可以点开源码,你会发现其实现方式基本雷同,甚至和我上面自定义的水位线很相似。forBoundedOutOfOrderness和forMonotonousTimestamps唯一的区别就是forBoundedOutOfOrderness允许一个窗口闭合的延迟时间,简单说就是数据最大允许迟到多久。