flink reduce详解

背景:
flink有两种reduce的方式,一种是正常的reduce,一种是windows窗口的reduce,本文主要介绍两种reduce方式的区别
1、正常的reduce
1.1 代码示例

val resultResult = inputstream
      .keyBy(_.sensor_id)
      .reduce(new ReduceFunction[SensorReading] {
        override def reduce(t: SensorReading, t1: SensorReading): SensorReading = {
          new SensorReading(t.sensor_id,t.timestamp,t.temperature + t1.temperature)
        }
      })

从代码中可以看到reduce是跟在keyBy后面的,这时作用于reduce的类是一个KeyStream的类,reduce会保存之前计算的结果,然后和新的数据进行累加,所以每次输出的都是历史所有的数据的总和。
在上面的override def reduce(t: SensorReading, t1: SensorReading)中,第一个参数t是保存的历史数据,t1是最新的数据。

2、window的reduce
2.1 代码示例

 val resultResult = inputstream
      .assignTimestampsAndWatermarks(new SensorReadingWatermark())
      .keyBy(_.sensor_id)
      .timeWindow(Time.seconds(5))
      .trigger(new SensorTrigger())
      .reduce(new ReduceFunction[SensorReading] {
        override def reduce(t: SensorReading, t1: SensorReading): SensorReading = {
          new SensorReading(t.sensor_id,t.timestamp,t.temperature + t1.temperature)
        }
      })

在该示例中,reduce是跟在窗口算子的后面的,这时作用于reduce的类是一个WindowedStream。
既然是针对WindowedStream的操作,很显然,每次reduce的操作都是针对同一个窗口内同一个key的数据进行计算,每个窗口计算完成后,才会把数据发出来。
通过debug源码,数据的流转计算过程如下:
flink reduce详解_第1张图片
可以看到,在WindowOperator类中的processElement函数中添加数据状态的时候就进行了reduce的操作,并不是等到整个窗口触发的时候才进行数据计算。等到整个窗口触发的时候,才把reduce计算的结果发送出去。
在上面的reduce(t: SensorReading, t1: SensorReading)函数中,第一个参数t就是同一个窗口内同一个key值的历史信息,第二个参数t1是同一个窗口内同一个key值的最新一条数据。

3、总结
1、keyBy算子之后的reduce,其实计算的是历史以来所有数据的和,每过来一条数据,就输出一次结果。
2、window算子之后的reduce,其实计算的是window窗口内的数据和,每次窗口触发的时候,才会输出一次结果。

你可能感兴趣的:(Flink,flink,window)