Flink总结-Windows窗口

Windows是处理无穷无尽的流计算的核心。

stream
       .keyBy(...)               <-  keyed versus non-keyed windows
       .window(...)              <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/fold/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

Non-Keyed Windows

stream
       .windowAll(...)           <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/fold/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

方括号[]中的是可选项。窗口相关的函数使的flink允许你自有定义的。

Window Lifecycle

概括来说 ,当第一个属于这个窗口的元素到达窗口时窗口就被建立了,当时间(event时间或者processing时间)超过了(窗口结束时间+允许的最大延迟时间)窗口就会完整的移除 。Flink只保证会移除基于时间的窗口,比如 global window(参考Widow Assigners)。比如,5分钟为为周期基于事件时间的不重叠窗口(tumbling翻滚窗口)策略以及允许最小1分钟延迟。如果它的时间是Flink窗口时间在12:00和12:05之间,第一个消息到来的时候timestamp刚好落在这个区间,当水位线到达12:06的时候,这个窗口将会移除。

另外,每个窗口可以有一个Trigger(参考Trigger)和一个function(ProcessWindowFunction,ReduceFunction,AggregateFunction or FoldFunction)(参考Window Function)。Function有一个计算窗口内容的方法applied,Trigger可以指定一个condition条件在什么时候可以确定function运行applied方法。一个Trigger的策略有点类似“当窗口中的元素个数大于4个”或者“当水位线超过了窗口的结束点”。一个trigger也可以决定清洗一个窗口的内容在开始创建和结束的任意时间内。清洗只会关联window里面的元素,不会关联window元数据。这就意味着,新数据可以持续添加到窗口中。

除了以上,你可以指定Evictor (参考Evictor章节),它可以清除窗口内的数据在triger发生之后并且function applied发生的前面或者后面。

Keyed vs Non-Keyed Windows

第一件事需要明确的是你的stream需要keyed或者不需要。这个必须要窗口定义前确定。使用keyBy(...)将会把你的无尽的stream切割成逻辑的keyed stream。比如 keyBy(...)没有被调用,你的stream将不会keyed。

在已经keyed stream中,你写进来的事件任意属性attribute可以使用key。由于使用了keyed stream可以允许你的windowd 计算在并行的多任务的模式下运行,每一个逻辑的keyed stream可以相互独立的运行而相互没有影响。所有具有相同key的元素会被发射到相同的并行任务上执行。

如果在non-keyed streams中,你原有的stream不会分割成不同的逻辑stream并且所有的window逻辑只会执行在一个单独的任务上使用并发度为1。(也就说所有的数据会汇总到一个task上执行)
PS:最大并行度=container个数 * 每个container上最大slot数

Window Assigners

你可能感兴趣的:(Flink总结-Windows窗口)