纯净天空7

Flink 窗口计算

一、概述

窗⼝计算是流计算的核⼼，窗⼝将流数据切分成有限⼤⼩的“buckets”，我们可以对这个“buckets”中的有限数据做运算。

在Flink中整体将窗⼝计算按分为两⼤类：keyedstream窗⼝、datastream窗⼝,以下是代码结构：

`keyedStream`

stream
.keyBy(…) <--------------- keyed versus non-keyed windows
.window(…) <---------------必须指定: “window assigner”
[.trigger(…)] <--------------- 可选: “trigger” (else default trigger) 决定了窗⼝何时触发计算
[.evictor(…)] <--------------- 可选: “evictor” (else no evictor) 剔除器，剔除窗⼝内的元素
[.allowedLateness(…)] <---------------可选: “lateness” (else zero) 是否允许有迟到
[.sideOutputLateData(…)] <--------------- 可选: “output tag” (else no side output for latedata)
.reduce/aggregate/fold/apply() <--------------- 必须: “Window Function” 对窗⼝的数据做运算
[.getSideOutput(…)] <---------------可选: “output tag” 获取迟到的数据

Non-Keyed Windows

stream

.windowAll(…) <--------------- 必须指定: “window assigner”

☆.`Window Lifecycle`

当有第⼀个元素落⼊到窗⼝中的时候窗⼝就被 创建，当时间(⽔位线)越过窗⼝的EndTime的时候，该窗⼝认定为是就绪状态，可以应⽤WindowFunction对窗⼝中的元素进⾏运算。当前的时间(⽔位线)越过了窗⼝的EndTime+allowed lateness时间，该窗⼝会被删除。

只有time-based windows 才有⽣命周期的概念，因为Flink还有⼀种类型的窗⼝global window不是基于时间的，因此没有⽣命周期的概念。
每⼀种窗⼝都有⼀个Trigger和function与之绑定，function的作⽤是⽤于对窗⼝中的内容实现运算。⽽Trigger决定了窗⼝什么时候是就绪的，因为只有就绪的窗⼝才会运⽤function做运算。除了指定以上的策略以外，我们还可以指定 Evictor ，该 Evictor 可以在窗⼝就绪以后且在function运⾏之前或者之后删除窗⼝中的元素。

Keyed vs Non-Keyed Windows:

Keyed Windows:在某⼀个时刻，会触发多个window任务，取决于Key的种类。
Non-Keyed Windows：因为没有key概念，所以任意时刻只有⼀个window任务执⾏。

二、Window Assigners

窗口分配器

Window Assigner定义了如何将元素分配给窗⼝，这是通过在 window(...) / windowAll() 指定⼀个Window Assigner实现。

Window Assigner负责将接收的数据分配给1~N窗⼝，Flink中预定义了⼀些Window Assigner分如下：

tumbling windows , sliding windows , session windows 和 global windows.
⽤户可以同过实现WindowAssigner类⾃定义窗⼝。除了global windows 以外其它窗⼝都是基于时间TimeWindow.Timebased窗⼝都有 start timestamp （包含）和end timestamp (排除)属性描述⼀个窗⼝的⼤⼩。

①.Tumbling Windows

滚动窗口

package com.baizhi.window

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time

object Tumbling {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)

    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(0)
      //设置一个滚动窗口 周期长度为 5秒
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .reduce((y,z)=>(y._1,y._2+z._2))
      .print()
    env.execute("Tumbling Processing Time Window Word Count")

  }
}

②.Sliding Windows

滑动窗口

package com.baizhi.window

import org.apache.flink.api.common.functions.AggregateFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.{SlidingProcessingTimeWindows, TumblingProcessingTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time

object Sliding {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)

    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(0)
      //设置一个滑动窗口
      .window(SlidingProcessingTimeWindows.of(Time.seconds(4),Time.seconds(2)))
      //自定义一个聚合规则
      .aggregate(new MydefinedSlidingAggregateFunction)
      .print()

    env.execute("Sliding Processing Time Window Word Count")

  }

}
//自定义一个聚合函数
class MydefinedSlidingAggregateFunction extends AggregateFunction[(String,Int),(String,Int),(String,Int)]{
  override def createAccumulator(): (String, Int) = {
    //创建一个累加器
    ("",0)
  }
  override def add(in: (String, Int), acc: (String, Int)): (String, Int) = {
    //求和
    (in._1,in._2+acc._2)
  }
  override def getResult(acc: (String, Int)): (String, Int) = {
    acc
  }
  override def merge(acc: (String, Int), acc1: (String, Int)): (String, Int) = {
    (acc._1,acc._2+acc1._2)
  }
}

③.Session Windows

会话窗⼝分配器按活动会话对元素进⾏分组。与滚动窗⼝和滑动窗⼝相⽐，会话窗⼝不重叠且没有固定的开始和结束时间。相反，当会话窗⼝在⼀定时间段内未接收到元素时（即，发⽣不活动间隙时），它将关闭。

package com.baizhi.window

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.AggregateFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.WindowFunction
import org.apache.flink.streaming.api.windowing.assigners.{ProcessingTimeSessionWindows, SlidingProcessingTimeWindows, TumblingProcessingTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object Session {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)

    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1)
      //设置一个session，间隔时间为5S
      .window(ProcessingTimeSessionWindows.withGap(Time.seconds(5)))
      //自定义一个聚合规则 ,此算子不支持 位置的聚合
      .apply(new MydefinedWindowsFunction)
      .print()
    env.execute("Session Processing Time Window Word Count")
  }
}


//自定义一个聚合函数
class MydefinedWindowsFunction extends WindowFunction[(String,Int),(String,Int),String,TimeWindow]{
  override def apply(key: String, window: TimeWindow, input: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
    //定义一个时间格式
    val sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")
    //解析时间格式
    val stTime = sdf.format(window.getStart)
    val edTime = sdf.format(window.getEnd)
    //获取总值
    val count = input.map(_._2).sum
    //输出
    out.collect(s"$key \t $stTime \t $edTime \t",count)
  }
}

④.Global Windows

global window不是基于时间的

全局窗⼝分配器将具有相同键的所有元素分配给同⼀单个全局窗⼝。仅当您指定了触发器时，此窗⼝⽅案才有⽤。否则，将不会执⾏任何计算，因为全局窗⼝没有可以处理聚合元素的⾃然终点。

package com.baizhi.window

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.AggregateFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.WindowFunction
import org.apache.flink.streaming.api.windowing.assigners.{GlobalWindows, SlidingProcessingTimeWindows, TumblingProcessingTimeWindows, WindowAssigner}
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.triggers.CountTrigger
import org.apache.flink.streaming.api.windowing.windows.GlobalWindow
import org.apache.flink.util.Collector

object Global {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)

    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1)
      //设置一个Global窗口
      .window(GlobalWindows.create())
    //定义一个触发器 触发数量为3
      .trigger(CountTrigger.of(3))
      //自定义一个聚合规则
      .apply(new MydefinedGlobalFunction)
      .print()
    env.execute("Global Processing Time Window Word Count")
  }
}

//自定义一个聚合函数
class MydefinedGlobalFunction extends WindowFunction[(String,Int),(String,Int),String,GlobalWindow]{
  override def apply(key: String, window: GlobalWindow, input: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {

    out.collect(key,input.map(_._2).sum)
  }
}

三、Window Functions

定义窗⼝分配器后，我们需要指定要在每个窗⼝上执⾏的计算。这是Window Function的职责，⼀旦系统确定窗⼝已准备好进⾏处理，就可以处理每个窗⼝的元素。

窗⼝函数可以是ReduceFunction，AggregateFunction，FoldFunction、ProcessWindowFunction或WindowFunction（古董）之⼀。

其中ReduceFunction和AggregateFunction在运⾏效率上⽐ProcessWindowFunction要⾼，因为前俩个⽅法执⾏的是增量计算，只要有数据抵达窗⼝，系统就会调⽤ReduceFunction，AggregateFunction实现增量计算；
ProcessWindowFunction在窗⼝触发之前会⼀直缓存接收数据，只有当窗⼝就绪的时候才会对窗⼝中的元素做批量计算，但是该⽅法可以获取窗⼝的元数据信息。但是可以通过将ProcessWindowFunction与ReduceFunction，AggregateFunction或FoldFunction结合使⽤来获得窗⼝元素的增量聚合以及ProcessWindowFunction接收的其他窗⼝元数据，从⽽减轻这种情况。

①.ReduceFunction

package com.baizhi.windowfunction

import org.apache.flink.api.common.functions.{AggregateFunction, ReduceFunction}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.{SlidingProcessingTimeWindows, TumblingProcessingTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time

object ReduceFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(0)
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      //自定义一个聚合规则
      .reduce(new UserDefinedReduceFunction)
      .print()

    env.execute("Sliding Processing Time Window Word Count")

  }

}
//自定义一个聚合函数
class UserDefinedReduceFunction extends ReduceFunction[(String,Int)]{
  override def reduce(t: (String, Int), t1: (String, Int)): (String, Int) = {
    println("----执行一次reduce算子----")
    (t._1,t._2+t1._2)
  }
}

②.AggregateFunction

package com.baizhi.windowfunction

import org.apache.flink.api.common.functions.AggregateFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time

object AggregateFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(0)
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .aggregate(new UserDefinedAggregateFunction)
      .print()

    env.execute("Tumbling Processing Time Window Word Count")

  }
}


//自定义一个类
class UserDefinedAggregateFunction extends AggregateFunction[(String,Int),(String,Int),(String,Int)]{
  override def createAccumulator(): (String, Int) = {
    ("",0)
  }
  override def add(in: (String, Int), acc: (String, Int)): (String, Int) = {
    println("合并一次")
    (in._1,in._2+acc._2)
  }
  override def getResult(acc: (String, Int)): (String, Int) = {
    //返回
    acc
  }
  override def merge(acc: (String, Int), acc1: (String, Int)): (String, Int) = {
    (acc._1,acc._2+acc1._2)
  }
}

③.FoldFunction

FoldFunction不可以⽤在Session Window中

package com.baizhi.windowfunction

import org.apache.flink.api.common.functions.{AggregateFunction, FoldFunction}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time

object FoldFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(0)
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .fold(("",0),new UserDefinedFoldFunction)
      .print()
    env.execute("Tumbling Processing Time Window Word Count")
  }
}

//自定义一个类
class UserDefinedFoldFunction extends FoldFunction[(String,Int),(String,Int)]{
  //t 累加器 o输入
  override def fold(t: (String, Int), o: (String, Int)): (String, Int) = {
    println("调用一次")
    (o._1,t._2+o._2)
  }
}

④.ProcessWindowFunction

package com.baizhi.windowfunction

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.{AggregateFunction, FoldFunction}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.ProcessWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object ProcessWindowFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1) //对于process算子,不能使用位置
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .process(new UserDefinedProcessFunction)
      .print()

    env.execute("Tumbling Processing Time Window Word Count")

  }
}

//自定义一个类
//这种处理类型，会对数据进行缓存，直到窗口就绪才进行计算
class UserDefinedProcessFunction extends ProcessWindowFunction[(String,Int),(String,Int),String,TimeWindow]{
  override def process(key: String, context: Context, elements: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
      //从上下文中获取元数据信息
    val mess = context.window
    val sdf = new SimpleDateFormat("HH:mm:ss")
    val start: Long = mess.getStart
    val end: Long = mess.getEnd
    val sum: Int = elements.map(_._2).sum
    //从迭代器中获取当前值
    println("调用一次")
    //输出
    out.collect(key+"\t OP:"+sdf.format(start)+"\t ED:"+sdf.format(end),sum)

  }
}

⑤.混合使用

package com.baizhi.windowfunction

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.{AggregateFunction, FoldFunction, ReduceFunction}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.ProcessWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object ReduceAndProcessWindowFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1) //对于process算子,不能使用位置
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .reduce(new UserDefinedReduceFunction2,new UserDefinedProcessFunction2)
      .print()

    env.execute("Tumbling Processing Time Window Word Count")

  }
}
//自定义一个类
//这种处理类型，会对数据进行缓存，直到窗口就绪才进行计算
class UserDefinedProcessFunction2 extends ProcessWindowFunction[(String,Int),(String,Int),String,TimeWindow]{
  override def process(key: String, context: Context, elements: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
      //从上下文中获取元数据信息
    val mess = context.window
    val sdf = new SimpleDateFormat("HH:mm:ss")
    val start: Long = mess.getStart
    val end: Long = mess.getEnd
    val sum: Int = elements.map(_._2).sum
    //从迭代器中获取当前值
    val list = elements.toList
    println("PRO~~~"+list.mkString("|"))
    //输出
    out.collect(key+"\t OP:"+sdf.format(start)+"\t ED:"+sdf.format(end),sum)
  }
}
//自定义一个聚合函数
class UserDefinedReduceFunction2 extends ReduceFunction[(String,Int)]{
  override def reduce(t: (String, Int), t1: (String, Int)): (String, Int) = {
    println("----执行一次reduce算子----"+t._1)
    (t._1,t._2+t1._2)
  }

}

⑥.process 可以获取状态

package com.baizhi.windowfunction

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.{AggregateFunction, FoldFunction, ReduceFunction}
import org.apache.flink.api.common.state.ReducingStateDescriptor
import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.ProcessWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object AdvanceStateProcessWindowFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1) //对于process算子,不能使用位置
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .reduce(new UserDefinedReduceFunction3,new UserDefinedProcessFunction3)
      .print()

    env.execute("Tumbling Processing Time Window Word Count")

  }
}

//自定义一个类
//这种处理类型，会对数据进行缓存，直到窗口就绪才进行计算
class UserDefinedProcessFunction3 extends ProcessWindowFunction[(String,Int),(String,Int),String,TimeWindow]{
  //定义一全数据状态描述器
  var stateDes:ReducingStateDescriptor[(String,Int)] = _
  //定义一个当前状态的描述器
  var stateDesOwn:ReducingStateDescriptor[(String,Int)]=_

  //初始化一个状态描述器
  override def open(parameters: Configuration): Unit = {
    //创建两个状态描述器
    this.stateDes = new ReducingStateDescriptor[(String, Int)]("setatDes", new ReduceFunction[(String, Int)] {
      override def reduce(t: (String, Int), t1: (String, Int)): (String, Int) = {
        (t._1, t._2 + t1._2)
      }
    }, createTypeInformation[(String, Int)])

    this.stateDesOwn = new ReducingStateDescriptor[(String, Int)]("stateDesOwn", new ReduceFunction[(String, Int)] {
      override def reduce(t: (String, Int), t1: (String, Int)): (String, Int) = {
        (t._1, t._2 + t1._2)
      }
    }, createTypeInformation[(String, Int)])
  }

    override def process(key: String, context: Context, elements: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
      //从上下文中获取元数据信息
    val mess = context.window
    val sdf = new SimpleDateFormat("HH:mm:ss")
    val start: Long = mess.getStart
    val end: Long = mess.getEnd
    val sum: Int = elements.map(_._2).sum

    //从迭代器中获取当前值
    val list = elements.toList
    println("PRO~~~"+list.mkString("|"))
    //从状态描述器中获取状态
    //总值状态
   val account = context.globalState.getReducingState(stateDes)
    //更新状态
    account.add(key,sum)
    //当前窗口状态
    val acc = context.windowState.getReducingState(stateDesOwn)
    acc.add(key,sum)
    //测试展示状态
    println("GLOBAL-----"+account.get()+"\t WINDOW-----"+acc.get())
    //输出
    out.collect(key+"\t OP:"+sdf.format(start)+"\t ED:"+sdf.format(end),sum)
  }
}

//自定义一个聚合函数
class UserDefinedReduceFunction3 extends ReduceFunction[(String,Int)]{
  override def reduce(t: (String, Int), t1: (String, Int)): (String, Int) = {
    println("----执行一次reduce算子----"+t._1)
    (t._1,t._2+t1._2)
  }
}

⑦.Legacy Function

过期的函数

package com.baizhi.windowfunction

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.{AggregateFunction, FoldFunction}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{ProcessWindowFunction, WindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object LegacyWindowFunction {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    //测试使用
    println("====STREAM START====")
    //处理
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1) //对于process算子,不能使用位置
      //设置一个滚动窗口
      .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
      .apply(new UserDefinedWindowFunctionx)
      .print()

    env.execute("Tumbling Processing Time Window Word Count")

  }
}

//自定义一个类
//这种处理类型，会对数据进行缓存，直到窗口就绪才进行计算
class UserDefinedWindowFunctionx extends WindowFunction[(String,Int),(String,Int),String,TimeWindow]{
  override def apply(key: String, window: TimeWindow, input: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
    //定义一个时间格式
    val sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")
    //解析时间格式
    val stTime = sdf.format(window.getStart)
    val edTime = sdf.format(window.getEnd)
    //获取总值
    val count = input.map(_._2).sum
    println("调用~")
    //输出
    out.collect(s"$key \t $stTime \t $edTime \t",count)
  }
}

四、触发器 Trigger

Trigger决定了什么时候窗⼝准备就绪了，⼀旦窗⼝准备就绪就可以使⽤WindowFunction进⾏计算。每⼀个 WindowAssigner 都会有⼀个默认的Trigger。如果默认的Trigger不满⾜⽤户的需求⽤户可以⾃定义Trigger。

触发器接⼝具有五种⽅法，这些⽅法允许触发器对不同事件做出反应:

public abstract TriggerResult onElement(…) --------------> 只要有元素落⼊到当前窗⼝，就会调⽤该⽅法

public abstract TriggerResult onProcessingTime(…) --------------> processing-time 定时器回调函数（基于处理时间）

public abstract TriggerResult onEventTime(…) --------------> event-time 定时器回调函数 (基于事件时间)

public void onMerge(…) --------------> 当多个窗⼝合并到⼀个窗⼝的时候，调⽤该⽅法，例 SessionWindow

public abstract void clear(…) --------------> 当窗⼝被删除后执⾏所需的任何操作

返回值：

CONTINUE --------------> 不触发，也不删除元素

FIRE_AND_PURGE --------------> 触发窗⼝，窗⼝出发后删除窗⼝中的元素

FIRE --------------> 触发窗⼝，但是保留窗⼝元素

PURGE --------------> 不触发窗⼝，丢弃窗⼝，并且删除窗⼝的元素

①.DeltaTrigger

增量触发器 最新的值 - 历史状态值之和 > 阈值触发

package com.baizhi.trigger

import java.lang

import org.apache.flink.api.common.typeutils.{TypeSerializer, TypeSerializerSnapshot}
import org.apache.flink.core.memory.{DataInputView, DataOutputView}
import org.apache.flink.streaming.api.functions.windowing.delta.DeltaFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{ProcessAllWindowFunction, ProcessWindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.{GlobalWindows, TumblingProcessingTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.triggers.{CountTrigger, DeltaTrigger}
import org.apache.flink.streaming.api.windowing.windows.{GlobalWindow, TimeWindow}
import org.apache.flink.util.Collector

object GlobalDetlaTrigger {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    println("====START====")
    //处理 1 zs 3000.0
    stream.map(_.split("\\s+")).
      map(x=>(x(0)+":"+x(1),x(2).toDouble))
      .keyBy(_._1)
      //设置一个全局窗口
      .window(GlobalWindows.create())
      //设置一个触发器
      .trigger(DeltaTrigger.of(500.0,new DeltaFunction[(String,Double)] {
        override def getDelta(oldDataPoint: (String,Double), newDataPoint: (String,Double)): Double = {
          //旧值减去新值
          newDataPoint._2-oldDataPoint._2
        }
      },createTypeInformation[(String,Double)].createSerializer(env.getConfig)))
        .process(new UserSuperProcessFunction)
        .print()
    env.execute("Global Processing Time Window Word Count")
  }
}

class UserSuperProcessFunction extends ProcessWindowFunction[(String,Double),(String,Double),String,GlobalWindow]{
  override def process(key: String, context: Context, elements: Iterable[(String, Double)], out: Collector[(String, Double)]): Unit = {
    val list = elements.toList
    println(list.mkString("|"))
    out.collect(key,elements.map(_._2.toDouble).sum)
  }
}

②.自定义触发器

package com.baizhi.trigger

import org.apache.flink.api.common.state.ValueStateDescriptor
import org.apache.flink.streaming.api.windowing.triggers.{Trigger, TriggerResult}
import org.apache.flink.streaming.api.windowing.windows.GlobalWindow
import org.apache.flink.streaming.api.scala._

class UserDefinedCountTrigger(count:Int) extends Trigger[(String,Int),GlobalWindow]{
  //定义一个状态描述器
  private val valueDes = new ValueStateDescriptor[Int]("TestTrigger",createTypeInformation[Int])

  override def onElement(element: (String,Int), timestamp: Long, window: GlobalWindow, ctx: Trigger.TriggerContext): TriggerResult = {
    //获取当前数值状态
      val countState = ctx.getPartitionedState(valueDes)
    //更新状态
    countState.update(countState.value()+1)
    println("当前状态"+countState.value())
    //如果当前状态的数值小于最大数量限制，则继续
    if(countState.value()<count){
      return TriggerResult.CONTINUE
    }else{
      //触发并清除状态 同时清空窗口元素
      countState.clear()
      TriggerResult.FIRE_AND_PURGE
    }
  }
  override def onProcessingTime(time: Long, window: GlobalWindow, ctx: Trigger.TriggerContext): TriggerResult = {
    TriggerResult.CONTINUE
  }
  override def onEventTime(time: Long, window: GlobalWindow, ctx: Trigger.TriggerContext): TriggerResult = {
    TriggerResult.CONTINUE
  }
  override def clear(window: GlobalWindow, ctx: Trigger.TriggerContext): Unit = {
    TriggerResult.PURGE
  }
}

测试：

package com.baizhi.trigger

import java.lang

import org.apache.flink.api.common.typeutils.{TypeSerializer, TypeSerializerSnapshot}
import org.apache.flink.core.memory.{DataInputView, DataOutputView}
import org.apache.flink.streaming.api.functions.windowing.delta.DeltaFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{ProcessAllWindowFunction, ProcessWindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.{GlobalWindows, TumblingProcessingTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.triggers.{CountTrigger, DeltaTrigger}
import org.apache.flink.streaming.api.windowing.windows.{GlobalWindow, TimeWindow}
import org.apache.flink.util.Collector

object GlobalCountTrigger {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //获取输入源
    val stream: DataStream[String] = env.socketTextStream("hbase",9999)
    println("====START====")
    //处理 1 zs 3000.0
    stream.flatMap(_.split("\\s+"))
      .map(x=>(x,1))
      .keyBy(_._1)
      //设置一个滚动窗口
      .window(GlobalWindows.create())
      //设置一个触发器
      .trigger(new UserDefinedCountTrigger(3))
        .process(new UserSuperProcessFunctiona)
        .print()
    env.execute("Global Processing Time Window Word Count")
  }
}

class UserSuperProcessFunctiona extends ProcessWindowFunction[(String,Int),(String,Int),String,GlobalWindow]{
  override def process(key: String, context: Context, elements: Iterable[(String, Int)], out: Collector[(String, Int)]): Unit = {
    val list = elements.toList
    println(list.mkString("|"))
    out.collect(key,elements.map(_._2).sum)
  }
}

五、剔除器 Evictor

Flink的窗⼝模型允许除了WindowAssigner和Trigger之外还指定⼀个可选的Evictor。可以使⽤evictor（…）⽅法来完成此操作。Evictors可以在触发器触发后，应⽤Window Function之前或之后从窗⼝中删除元素。

void evictBefore ----------> 在调⽤windowing function之前被调⽤

void evictAfter ----------> 在调⽤ windowing function之后调⽤

①.CountEvictor

package com.baizhi.evictor

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{AllWindowFunction, WindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.evictors.CountEvictor
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object CountEvictorTest {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置程序并行度
    env.setParallelism(1)

    //获取输入
    val stream = env.socketTextStream("hbase",9999)
    //用于测试
    println("=====·S·T·A·R·T·=====")
    stream
        .flatMap(_.split("\\s+"))
      //指定窗口大小
      .windowAll(TumblingProcessingTimeWindows.of(Time.seconds(2)))
    //指定剔除内容
      .evictor(CountEvictor.of(3))
      .apply(new EvictorWindowFunction)
        .print("拦截后元素")

    env.execute("Evictor Test")

  }
}


class EvictorWindowFunction extends AllWindowFunction[String,String,TimeWindow]{
  override def apply(window: TimeWindow, input: Iterable[String], out: Collector[String]): Unit = {
    val sdf = new SimpleDateFormat("HH:mm:ss")
    //获取前后时间
    val start = window.getStart
    val end = window.getEnd

    val str = sdf.format(start)
    val str1 = sdf.format(end)
    val list = input.toList

    println("前置时间:"+str+"当前元素:"+list.mkString("|")+"后方时间:"+str1)
    out.collect(list.mkString("|"))
  }
}

②.DeltaEvictor

采⽤DeltaFunction和阈值，计算窗⼝缓冲区中最后⼀个元素与其余每个元素之间的增量，并删除增量⼤于或等于阈值的元素

package com.baizhi.evictor

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.functions.windowing.delta.DeltaFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{AllWindowFunction, ProcessAllWindowFunction, ProcessWindowFunction, WindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.{ProcessingTimeSessionWindows, TumblingProcessingTimeWindows, WindowAssigner}
import org.apache.flink.streaming.api.windowing.evictors.{CountEvictor, DeltaEvictor}
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object DeltaEvictorTest {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置程序并行度
    env.setParallelism(1)

    //获取输入
    val stream = env.socketTextStream("hbase",9999)
    //用于测试
    println("=====·S·T·A·R·T·=====")
    stream
        .map(_.split("\\s+"))
      .map(x=>(x(0),x(1).toDouble))
      .keyBy(_._1)
      //指定窗口大小
      .window(ProcessingTimeSessionWindows.withGap(Time.seconds(3)))
    //指定剔除内容
      .evictor(DeltaEvictor.of(3,new DeltaFunction[(String,Double)]{
        override def getDelta(oldDataPoint: (String,Double), newDataPoint: (String,Double)): Double = {
          newDataPoint._2-oldDataPoint._2
        }
      }))
      .process(new DeltaEvictorWindowFunction)
        .print("拦截后元素")

    env.execute("Evictor Test")

  }
}


class DeltaEvictorWindowFunction extends ProcessWindowFunction[(String,Double),(String,Double),String,TimeWindow]{

  override def process(key: String, context: Context, elements: Iterable[(String, Double)], out: Collector[(String, Double)]): Unit = {
    var window =  context.window
    val sdf = new SimpleDateFormat("HH:mm:ss")
    //获取前后时间
    val start = window.getStart
    val end = window.getEnd

    val str = sdf.format(start)
    val str1 = sdf.format(end)
    println("前置时间:"+str+"当前元素:\t"+elements.toList.mkString("|")+"\t后方时间:"+str1)
  }
}

③.TimeEvictor

以毫秒为单位的间隔作为参数，对于给定的窗⼝，它将在其元素中找到最⼤时间戳max_ts，并删除所有时间戳⼩于max_ts-interval的元素。

只要最新的⼀段时间间隔的数据

定义一个获取水位线和当前时间戳的方法

package com.baizhi.eventTime

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks
import org.apache.flink.streaming.api.watermark.Watermark

class UserDefinedAssignerTimeStampAndWaterMaker extends AssignerWithPeriodicWatermarks[(String,Long)]{
  //定义参数 1.最大时间 2.允许乱序时间 单位毫秒
  var maxSystemTimeStamp:Long = 0L
  var allowOrderness:Long = 2000L

  //获取当前水位线
  override def getCurrentWatermark: Watermark = {
    new Watermark(maxSystemTimeStamp-allowOrderness)
  }
  //获取时间戳,提取事件时间
  override def extractTimestamp(element: (String, Long), previousElementTimestamp: Long): Long = {
    val sdf = new SimpleDateFormat("HH:mm:ss")
    maxSystemTimeStamp = Math.max(element._2,maxSystemTimeStamp)
    println(element._1+"\t当前事件时间:"+sdf.format(element._2)+"\t"+"当前水位线"+sdf.format(maxSystemTimeStamp-allowOrderness))
    element._2
  }
}

测试

package com.baizhi.evictor

import java.text.SimpleDateFormat

import com.baizhi.eventTime.UserDefinedAssignerTimeStampAndWaterMaker
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.windowing.delta.DeltaFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{AllWindowFunction, ProcessAllWindowFunction, ProcessWindowFunction, WindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.{GlobalWindows, ProcessingTimeSessionWindows, TumblingEventTimeWindows, TumblingProcessingTimeWindows, WindowAssigner}
import org.apache.flink.streaming.api.windowing.evictors.{CountEvictor, DeltaEvictor, TimeEvictor}
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.triggers.CountTrigger
import org.apache.flink.streaming.api.windowing.windows.{GlobalWindow, TimeWindow}
import org.apache.flink.util.Collector

object TimeEvictorTest2 {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置程序并行度
    env.setParallelism(1)
    //设置流时间特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置自动水位线间隔
    env.getConfig.setAutoWatermarkInterval(1000)

    //获取输入
    val stream = env.socketTextStream("hbase",9999)
    //用于测试
    println("=====·S·T·A·R·T·=====")
    stream
      .map(_.split("\\s+"))
      .map(x=>(x(0),x(1).toLong))
      .assignTimestampsAndWatermarks(new UserDefinedAssignerTimeStampAndWaterMaker)
      .keyBy(_._1)
      //指定窗口大小
      .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    //指定剔除内容
      .evictor(TimeEvictor.of(Time.milliseconds(1000)))
      .process(new TimeEvictorWindowFunction)
        .print("拦截后元素")

    env.execute("Evictor Test")

  }
}


class TimeEvictorWindowFunction extends ProcessWindowFunction[(String,Long),(String,Long),String,TimeWindow]{

  override def process(key: String, context: Context, elements: Iterable[(String, Long)], out: Collector[(String, Long)]): Unit = {
    var window =  context.window
    val sdf = new SimpleDateFormat("HH:mm:ss")
    //获取前后时间
    val start = window.maxTimestamp()

    val str = sdf.format(start)

    println("前置时间:"+str+"当前元素:\t"+elements.toList.mkString("|")+"\t")
    out.collect(key,elements.map(x=>x._2).toList.sum)
  }
}

④.自定义剔除器

package com.baizhi.evictor;

import org.apache.flink.streaming.api.windowing.evictors.Evictor;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.streaming.runtime.operators.windowing.TimestampedValue;

import java.util.Iterator;

public class MyDefinedKeyWordEvictor implements Evictor<String, TimeWindow> {
    //定义一个窗口前执行的参数
    Boolean isBefore = true;
    //定义一个参数接收关键字
    String word = null;

    //定义一个构造
    public MyDefinedKeyWordEvictor(String word) {
        this.word = word;
    }

    public MyDefinedKeyWordEvictor(Boolean isBefore, String word) {
        this.isBefore = isBefore;
        this.word = word;
    }

    @Override
    public void evictBefore(Iterable<TimestampedValue<String>> elements, int size, TimeWindow window, EvictorContext evictorContext) {
        if(isBefore){
            evict(elements,size,evictorContext);
        }
    }

    @Override
    public void evictAfter(Iterable<TimestampedValue<String>> elements, int size, TimeWindow window, EvictorContext evictorContext) {
         if(!isBefore){
             evict(elements,size,evictorContext);
         }
    }

    //定义一个执行的函数
    private void evict(Iterable<TimestampedValue<String>> elements, int size,EvictorContext evictorContext){
        if(word!=null){
            //迭代遍历这个迭代器中的元素

            for(Iterator<TimestampedValue<String>> iterator = elements.iterator();iterator.hasNext();){
                //取元素
                TimestampedValue<String> getWord = iterator.next();
                //如果这个元素中包含此关键字，剔除
                if(getWord.getValue().contains(word)){
                    iterator.remove();
                }
            }
        }
    }
}

测试

package com.baizhi.evictor

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.{AllWindowFunction, WindowFunction}
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows
import org.apache.flink.streaming.api.windowing.evictors.CountEvictor
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object KeyWordEvictorTest {
  def main(args: Array[String]): Unit = {
    //获取执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置程序并行度
    env.setParallelism(1)

    //获取输入
    val stream = env.socketTextStream("hbase",9999)
    //用于测试
    println("=====·S·T·A·R·T·=====")
    stream
        .flatMap(_.split("\\s+"))
      //指定窗口大小
      .windowAll(TumblingProcessingTimeWindows.of(Time.seconds(2)))
    //指定剔除内容
      .evictor(new MyDefinedKeyWordEvictor("zyl"))
      .apply(new EvictorWindowFunction)
        .print("拦截后元素")

    env.execute("Evictor Test")

  }
}
class EvictorWindowFunction extends AllWindowFunction[String,String,TimeWindow]{

  override def apply(window: TimeWindow, input: Iterable[String], out: Collector[String]): Unit = {
    val sdf = new SimpleDateFormat("HH:mm:ss")
    //获取前后时间
    val start = window.getStart
    val end = window.getEnd

    val str = sdf.format(start)
    val str1 = sdf.format(end)
    val list = input.toList

    println("前置时间:"+str+"当前元素:"+list.mkString("|")+"后方时间:"+str1)
    out.collect(list.mkString("|"))
  }
}

六、Event-Time Window

如果Flink⼦使⽤的时候不做特殊设定，默认使⽤的是ProcessingTime。其中和ProcessingTime类似IngestionTime都是由系统⾃动产⽣，不同的是IngestionTime是由DataSource源产⽣⽽ProcessingTime由计算算⼦产生。

Flink中⽀持基于EventTime语义的窗⼝计算，Flink会使⽤Watermarker机制去衡量事件时间推进进度。Watermarker会在做为数据流的⼀部分随着数据⽽流动。Watermarker包含有⼀个时间t，这就表明流中不会再有事件时间t'<=t的元素存在

Watermarker(t)= Max event time seen by Procee Node - MaxAllowOrderless(最大允许乱序时间)

定义一个计算时间戳和水位线的类

package com.baizhi.eventTime

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks
import org.apache.flink.streaming.api.watermark.Watermark

class UserDefinedAssignerTimeStampAndWaterMaker extends AssignerWithPeriodicWatermarks[(String,Long)]{
  //定义参数 1.最大时间 2.允许乱序时间 单位毫秒
  var maxSystemTimeStamp:Long = 0L
  var allowOrderness:Long = 2000L

  //获取当前水位线
  override def getCurrentWatermark: Watermark = {
    new Watermark(maxSystemTimeStamp-allowOrderness)
  }
  //获取时间戳,提取事件时间
  override def extractTimestamp(element: (String, Long), previousElementTimestamp: Long): Long = {
    val sdf = new SimpleDateFormat("HH:mm:ss")
    maxSystemTimeStamp = Math.max(element._2,maxSystemTimeStamp)
    println(element._1+"\t当前事件时间:"+sdf.format(element._2)+"\t"+"当前水位线"+sdf.format(maxSystemTimeStamp-allowOrderness))
    element._2
  }
}

测试

package com.baizhi.eventTime

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.ProcessAllWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object EventTimeTest {
  def main(args: Array[String]): Unit = {
    //获取刘执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置并行度
    env.setParallelism(1)
    //设置流时间的特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置事件处理频率
    env.getConfig.setAutoWatermarkInterval(1000)
    //获取输入流
    val stream = env.socketTextStream("hbase",9999)
    //测试提示
    println("===·S·T·A·R·T·===")
    //处理流
    stream.map(_.split("\\s+"))
      .map(x=>(x(0),x(1).toLong))
      .assignTimestampsAndWatermarks(new UserDefinedAssignerTimeStampAndWaterMaker)
      //设置事件窗口大小
      .windowAll(TumblingEventTimeWindows.of(Time.seconds(2)))
      .process(new EventTimePrcessAllWindowFunction)
      .print("输出")
    env.execute("Event Time")
  }
}

class EventTimePrcessAllWindowFunction extends ProcessAllWindowFunction[(String,Long),(String,Long),TimeWindow]{
  override def process(context: Context, elements: Iterable[(String, Long)], out: Collector[(String, Long)]): Unit = {
  val start = context.window.getStart
    val end = context.window.getEnd
    val sdf = new SimpleDateFormat("HH:mm:ss")
    val str = sdf.format(start)
    val str1 = sdf.format(end)

  println("这里是处理函数,窗口前置时间"+str+"\t窗口元素"+elements.mkString("|")+"\t窗口结束时间:"+str1)
  }
}

注意当流中存在多个Watermarker的时候，取最⼩值作为⽔位线。

①.迟到数据

在Flink中，⽔位线⼀旦没过窗⼝的EndTime，这个时候如果还有数据落⼊到已经被⽔位线淹没的窗⼝，被定义该数据为迟到的数据。这些数据在Spark是没法进⾏任何处理的。在Flink中⽤户可以定义窗⼝元素的迟到时间t’。

如果Watermarker时间t < 窗⼝EndTime t'' + t' 则该数据还可以参与窗⼝计算。
如果Watermarker时间t >= 窗⼝EndTime t'' + t' 则该数据默认情况下Flink会丢弃。当然⽤户可以将toolate数据通过side out输出获取

package com.baizhi.eventTime

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.ProcessAllWindowFunction
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

object LaterDataTest {
  def main(args: Array[String]): Unit = {
    //获取刘执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置并行度
    env.setParallelism(1)
    //设置流时间的特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置事件处理频率
    env.getConfig.setAutoWatermarkInterval(1000)
    //获取输入流 a 1584196410000
    val stream = env.socketTextStream("hbase",9999)
    //测试提示
    println("===·S·T·A·R·T·===")
    val tag = new OutputTag[(String, Long)]("超级迟到数据")
    //处理流
    var result =stream.map(_.split("\\s+"))
      .map(x=>(x(0),x(1).toLong))
      .assignTimestampsAndWatermarks(new UserDefinedAssignerTimeStampAndWaterMaker)
      //设置事件窗口大小
      .windowAll(TumblingEventTimeWindows.of(Time.seconds(2)))
      //设置迟到时间
      .allowedLateness(Time.seconds(2))
      //设置远超迟到时间数据的边输出
      .sideOutputLateData(tag)
      .process(new EventTimePrcessAllWindowFunctionb)
    result.print("正常的数据")
    result.getSideOutput(tag).printToErr("超级迟到的数据")
    env.execute("Event Time")
  }
}

class EventTimePrcessAllWindowFunctionb extends ProcessAllWindowFunction[(String,Long),String,TimeWindow]{
  override def process(context: Context, elements: Iterable[(String, Long)], out: Collector[String]): Unit = {
  val start = context.window.getStart
    val end = context.window.getEnd
    val sdf = new SimpleDateFormat("HH:mm:ss")
    val str = sdf.format(start)
    val str1 = sdf.format(end)

  println("这里是处理函数,窗口前置时间"+str+"\t窗口元素"+elements.mkString("|")+"\t窗口结束时间:"+str1)
    out.collect(elements.mkString("|"))
  }
}

七、Join

Window Join

窗⼝join将共享相同key并位于同⼀窗⼝中的两个流的元素联接在⼀起。可以使⽤窗⼝分配器定义这些窗⼝，并根据两个流中的元素对其进⾏评估。然后将双⽅的元素传递到⽤户定义的JoinFunction或FlatJoinFunction，在此⽤户可以发出满⾜联接条件的结果。

stream.join(otherStream)
.where()
.equalTo()
.window()
.apply()

创建两个流的元素的成对组合的⾏为就像⼀个内部联接，这意味着如果⼀个流中的元素没有与另⼀流中要连接的元素对应的元素，则不会发出该元素。

那些确实加⼊的元素将以最⼤的时间戳（仍位于相应窗⼝中）作为时间戳。例如，以[5，10）为边界的窗⼝将导致连接的元素具有9作为其时间戳。

事先定义一个获取水位线与时间查戳的类

package com.baizhi.join

import java.text.SimpleDateFormat

import org.apache.flink.runtime.dispatcher.SessionDispatcherFactory
import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks
import org.apache.flink.streaming.api.watermark.Watermark

class JoinEventTimeWater extends AssignerWithPeriodicWatermarks[(String,String,Long)]{
  //设置当前时间戳
  var maxSeenTimeStamp:Long = 0L
  //设置最大允许乱序时间
  var allowOrderness:Long = 2000L

  //获取当前水位线
  override def getCurrentWatermark: Watermark = {
    new Watermark(maxSeenTimeStamp-allowOrderness)
  }

  //获取最大时间戳，并返回当前元素时间戳
  override def extractTimestamp(element: (String, String, Long), previousElementTimestamp: Long): Long = {
      val sdf = new SimpleDateFormat("HH:mm:ss")
      //获取最大时间戳
    maxSeenTimeStamp =  Math.max(maxSeenTimeStamp,element._3)
    println("当前元素:"+(element._1,element._2)+"当前事件时间:"+sdf.format(element._3)+"\t"+"当前水位线"+sdf.format(maxSeenTimeStamp-allowOrderness))
    element._3
  }
}

①.Tumbling Window Join

package com.baizhi.join

import org.apache.flink.api.common.functions.JoinFunction
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time

object TumbingWindowJoin {
  def main(args: Array[String]): Unit = {
    //获取流执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置并行度
    env.setParallelism(1)
    //设置流时间特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置水位线创建自动频率
    env.getConfig.setAutoWatermarkInterval(1000) //1s
    //获取输入流
    var stream1 = env.socketTextStream("hbase",9999)
    var stream2 = env.socketTextStream("hbase",8888)
    //用于测试
    println("===·S·T·A·R·T·===")
    //处理流1  1 zs 1584196410000
    val storm1 = stream1.map(_.split("\\s+"))
      .map(x => (x(0), x(1), x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)

    //处理流2 1 4000 1584196410000
  val storm2 =   stream2.map(_.split("\\s+"))
      .map(x=>(x(0),x(1),x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)

    //连接流
    storm1.join(storm2)
      .where(x=>x._1)
      .equalTo(y=>y._1)
      .window(TumblingEventTimeWindows.of(Time.seconds(2)))
      .apply(new JoinFunction[(String,String,Long),(String,String,Long),(String,String,String)] {
        override def join(first: (String, String, Long), second: (String, String, Long)): (String, String, String) = {
          (first._1,first._2,second._2)
        }
      })
      .print("输出")

      env.execute("Tumbling Event Time Window Join")
  }
}

②.Sliding Window Join

package com.baizhi.join

import org.apache.flink.api.common.functions.JoinFunction
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.{SlidingEventTimeWindows, TumblingEventTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time

object SlidingWindowJoin {
  def main(args: Array[String]): Unit = {
    //获取流执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置并行度
    env.setParallelism(1)
    //设置流时间特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置水位线创建自动频率
    env.getConfig.setAutoWatermarkInterval(1000) //1s
    //获取输入流
    var stream1 = env.socketTextStream("hbase",9999)
    var stream2 = env.socketTextStream("hbase",8888)
    //用于测试
    println("===·S·T·A·R·T·===")
    //处理流1  1 zs 1584196410000
    val storm1 = stream1.map(_.split("\\s+"))
      .map(x => (x(0), x(1), x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)

    //处理流2 1 4000 1584196410000
  val storm2 =   stream2.map(_.split("\\s+"))
      .map(x=>(x(0),x(1),x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)

    //连接流
    storm1.join(storm2)
      .where(x=>x._1)
      .equalTo(y=>y._1)
      .window(SlidingEventTimeWindows.of(Time.seconds(4),Time.seconds(2)))
      .apply(new JoinFunction[(String,String,Long),(String,String,Long),(String,String,String)] {
        override def join(first: (String, String, Long), second: (String, String, Long)): (String, String, String) = {
          (first._1,first._2,second._2)
        }
      })
      .print("输出")

      env.execute("Sliding Event Time Window Join")
  }
}

③.Session Window Join

package com.baizhi.join

import org.apache.flink.api.common.functions.JoinFunction
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.{EventTimeSessionWindows, SlidingEventTimeWindows}
import org.apache.flink.streaming.api.windowing.time.Time

object SessionWindowJoin {
  def main(args: Array[String]): Unit = {
    //获取流执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置并行度
    env.setParallelism(1)
    //设置流时间特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置水位线创建自动频率
    env.getConfig.setAutoWatermarkInterval(1000) //1s
    //获取输入流
    var stream1 = env.socketTextStream("hbase",9999)
    var stream2 = env.socketTextStream("hbase",8888)
    //用于测试
    println("===·S·T·A·R·T·===")
    //处理流1  1 zs 1584196410000
    val storm1 = stream1.map(_.split("\\s+"))
      .map(x => (x(0), x(1), x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)

    //处理流2 1 4000 1584196410000
  val storm2 =   stream2.map(_.split("\\s+"))
      .map(x=>(x(0),x(1),x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)

    //连接流
    storm1.join(storm2)
      .where(x=>x._1)
      .equalTo(y=>y._1)
      .window(EventTimeSessionWindows.withGap(Time.seconds(2)))
      .apply(new JoinFunction[(String,String,Long),(String,String,Long),(String,String,String)] {
        override def join(first: (String, String, Long), second: (String, String, Long)): (String, String, String) = {
          (first._1,first._2,second._2)
        }
      })
      .print("输出")

      env.execute("Session Event Time Window Join")
  }
}

④.Interval Join(区间join)

间隔连接使⽤公共key连接两个流（现在将它们分别称为A和B）的元素，并且流B的元素时间位于流A的元素时间戳的间隔之中，则A和B的元素就可以join

b.timestamp ∈ [a.timestamp + lowerBound; a.timestamp + upperBound]

package com.baizhi.join

import java.text.SimpleDateFormat

import org.apache.flink.api.common.functions.JoinFunction
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.co.ProcessJoinFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.assigners.SlidingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.util.Collector

object IntervalWindowJoin {
  def main(args: Array[String]): Unit = {
    //获取流执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //设置并行度
    env.setParallelism(1)
    //设置流时间特性
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //设置水位线创建自动频率
    env.getConfig.setAutoWatermarkInterval(1000) //1s
    //获取输入流
    var stream1 = env.socketTextStream("hbase",9999)
    var stream2 = env.socketTextStream("hbase",8888)
    //用于测试
    println("===·S·T·A·R·T·===")
    //处理流1  1 zs 1584196410000
    val storm1 = stream1.map(_.split("\\s+"))
      .map(x => (x(0), x(1), x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)
      .keyBy(_._1)

    //处理流2 1 apple 1584196410000
  val storm2 =   stream2.map(_.split("\\s+"))
      .map(x=>(x(0),x(1),x(2).toLong))
      .assignTimestampsAndWatermarks(new JoinEventTimeWater)
      .keyBy(_._1)

    //连接流
    storm1.intervalJoin(storm2)
      //设置边界
        .between(Time.seconds(0),Time.seconds(2))
      //  .lowerBoundExclusive()//排除下边界
      //  .upperBoundExclusive()//排除上边界
        .process(new ProcessJoinFunction[(String,String,Long),(String,String,Long),String]{
          override def processElement(left: (String, String, Long), right: (String, String, Long), ctx: ProcessJoinFunction[(String, String, Long), (String, String, Long), String]#Context, out: Collector[String]): Unit = {
            val lefte = ctx.getLeftTimestamp
            val righte = ctx.getRightTimestamp
            val timestamp = ctx.getTimestamp
            val sdf = new SimpleDateFormat("HH:mm:ss")
            println("左方元素时间戳是"+sdf.format(lefte)+"\t右边元素时间戳是"+sdf.format(righte)+"\t当前时间戳是"+sdf.format(timestamp))
             out.collect(left._1+"\t"+left._2+"\t"+right._2+"\t")
          }
        })
        .print("输出---->")

      env.execute("Interval Event Time Window Join")
  }
}

你可能感兴趣的:(Flink)

Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
Flink MongoDB CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink mongodb 大数据
一、MongoDB数据库核心配置1.环境准备与集群要求MongoDBCDC依赖ChangeStreams特性，需满足以下条件：版本要求：MongoDB≥3.6集群模式：副本集（ReplicaSet）或分片集群（ShardedCluster）存储引擎：WiredTiger（默认自3.2版本起）副本集协议：pv1（MongoDB4.0+默认）验证集群配置：#连接MongoDBshellmongo--h
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
Flink TiDB CDC 环境配置与验证
一、TiDB数据库核心配置1.启用TiCDC服务确保TiDB集群已部署TiCDC组件（版本需兼容FlinkCDC3.0.1），并启动同步服务：#示例：启动TiCDC捕获changefeedcdcclichangefeedcreate\--pd="localhost:2379"\--sink-uri="blackhole://"\--changefeed-id="flink-cdc-demo"2.验
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗，可以上生产环境吗智海观潮 Flink flink cdc oracle flink 数据同步大数据
众所周知，FlinkCDC是一个流数据集成工具，支持多种数据源的实时数据同步，包括大家所熟知的MySQL，MongoDB等。原本是作为Flink的子项目运行，后来捐献给Apache基金会，底层实现比较依赖于Flink生态。具体到数据同步底层实现则相对比较依赖于Debezium。对于Oracle实时数据同步有需求的用户来说，经常会有疑问，比如FlinkCDC支持Oracle实时数据同步吗，可以应用到
Flink Oracle CDC 环境配置与验证
一、Oracle数据库核心配置详解1.启用归档日志（ArchivingLog）OracleCDC依赖归档日志获取增量变更数据，需按以下步骤启用：非CDB数据库配置：--以DBA身份连接数据库CONNECTsys/passwordASSYSDBA;--配置归档目标路径和大小ALTERSYSTEMSETdb_recovery_file_dest_size=10G;ALTERSYSTEMSETdb_re
flink读取kafka的数据处理完毕写入redis JinVijay flink kafka redis flink
/**从Kafka读取数据处理完毕写入Redis*/publicclassKafkaToRedis{publicstaticvoidmain(String[]args)throwsException{StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();//开启checkpointing
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
4_Flink CEP frimiku flink 大数据云计算
FlinkCEP1、何为CEP？CEP，全称为复杂事件处理（ComplexEventProcessing），是一种用于实时监测和分析数据流的技术。CEP详细讲解：CEP是基于动态环境的事件流的分析技术，事件是状态变化（持续生成数据）的。通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的【时序关系和聚合关系】制定检测规则，持续地从事件流中查询出【符合规则要求】的事件序列，最终分析得到更复
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
Beam2.61.0版本消费kafka重复问题排查隔壁寝室老吴 kafka linq 分布式
1.问题出现过程在测试环境测试flink的job的任务消费kafka的情况，通过往job任务发送一条消息，然后flinkwebui上消费出现了两条。然后通过重启JobManager和TaskManager后，任务从checkpoint恢复后就会出现重复消费。当任务不从checkpoint恢复的时候，任务不会出现重复消费的情况。由此可见是beam从checkpoint恢复的时候出现了重复消费的问题。
Flink CDC同步Oracle无主键表 Zzz...209 java flink oracle
FlinkCDC同步Oracle无主键表问题背景问题解决问题背景FlinkCDC是一种很强大且实用的实时数据同步工具，官网如下。链接:link但是在实际使用过程中还是会有些不足之处，比如说同步Oracle数据库中无主键以及唯一键的表时，关于目标端的幂等性时无法保证的。问题解决在Oracle数据库中，表中有一个伪列ROWID，而在CDC同步过来的数据中是不包含此列的。修改源码如下，使之携带ROWID
Flink Oracle CDC Connector详解 24k小善 flink java 大数据
1.FlinkOracleCDCConnector核心功能功能模块描述实时数据捕获实时捕捉Oracle数据库中的DML操作（INSERT,UPDATE,DELETE）。Schema变更支持支持部分DDL操作的检测（如表结构变更）。端到端一致性确保数据从Oracle到Flink的传输过程中的完整性和一致性。可扩展性支持高吞吐量和大规模数据处理需求。容错机制具备断点续传能力，确保在中断后能够从上次的位
Apache Flink深度解析：现代流处理引擎暴躁哥大数据技术 apache flink 大数据
好的，我来帮您写一篇关于Flink技术的详细介绍博客：ApacheFlink深度解析：现代流处理引擎一、Flink简介ApacheFlink是一个开源的分布式流处理和批处理统一计算引擎。它提供了数据流上的状态计算、精确一次性语义保证、高吞吐、低延迟等特性，能够运行在所有常见的集群环境中。1.1核心特性统一的流批处理精确一次性语义事件时间处理有状态计算高吞吐和低延迟高可用性配置内存管理二、Flink
Flink SQL Connector Kafka 核心参数全解析与实战指南 Edingbrugh.南空 kafka flink 大数据 flink sql kafka
FlinkSQLConnectorKafka是连接FlinkSQL与Kafka的核心组件，通过将Kafka主题抽象为表结构，允许用户使用标准SQL语句完成数据读写操作。本文基于ApacheFlink官方文档（2.0版本），系统梳理从表定义、参数配置到实战调优的全流程指南，帮助开发者高效构建实时数据管道。一、依赖配置与环境准备1.1Maven依赖引入在FlinkSQL项目中使用Kafka连接器需添加
Flink部署与应用——Flink集群模式黄雪超从0开始学Flink flink 大数据
Flink集群模式在大数据处理领域，ApacheFlink凭借其卓越的流批一体化处理能力，成为众多企业的首选框架。而Flink集群模式的选择与运用，对于充分发挥Flink的性能优势、满足不同业务场景的需求至关重要。接下来，我们将深入探讨Flink的多种集群模式，剖析其特点、适用场景及相互间的差异。集群部署模式对比Flink的集群部署模式可依据两个关键维度进行分类：一是集群的生命周期和资源隔离方式；
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
69、Flink 的 DataStream Connector 之 Kafka 连接器详解猫猫爱吃小鱼粮 Flink-1.19 从0到精通 flink kafka 大数据
1.概述Flink提供了Kafka连接器使用精确一次（Exactly-once）的语义在Kafkatopic中读取和写入数据。目前还没有Flink1.19可用的连接器。2.KafkaSourcea）使用方法KafkaSource提供了构建类来创建KafkaSource的实例。以下代码片段展示了如何构建KafkaSource来消费“input-topic”最早位点的数据，使用消费组“my-group
Flink SourceFunction深度解析：数据输入的起点与奥秘 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理流程中，StreamGraph构建起了作业执行的逻辑框架，而数据的源头则始于SourceFunction。作为Flink数据输入的关键组件，SourceFunction负责从外部数据源读取数据，并将其转换为Flink作业能够处理的格式。深入理解SourceFunction的原理与实现，对于构建高效、稳定的数据处理链路至关重要。接下来，我们将结合有道云笔记内容，对FlinkSo
【Flink实战】 Flink SQL 中处理字符串 `‘NULL‘` 并转换为 `BIGINT` roman_日积跬步-终至千里 #flink 实战 sql flink 数据库
文章目录一、问题描述解决方案解释一、问题描述当我们尝试将字符串'NULL'直接转换为BIGINT时，会遇到NumberFormatException，因为'NULL'不是一个有效的数字字符串。为了避免这种错误，我们需要在转换之前进行检查。解决方案我们可以使用CASE语句来实现条件转换。具体步骤如下：使用CASE语句进行条件判断：检查字符串是否为'NULL'，如果是'NULL'，则返回0；否则，将字
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

Flink 窗口计算