有状态计算是指在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或者算子计算结果使用。
状态数据可以维系在本地存储中(Flink的堆内存或者堆外存),也可以借助第三方的存储,例如Flink已经实现的RocksDB,或者自定义其他存储。
state 可以理解为Flink上下文中可以access的一个内存数据库(相比于无状态计算,需要实现同样功能需要借助外部数据库,如Redis),通过存取更新状态,从而实现有状态地算子运算。
案例:
在Flink中需要通过创建StateDescriptor来获取相应State的操作类。StateDescriptor主要定义了状态的名称、状态中数据的类型参数信息以及状态自定义函数。每种Managed Keyed State有相应的StateDescriptor,例如ValueStateDescriptor、ListStateDescriptor、ReducingState-Descriptor、FoldingStateDescriptor、MapStateDescriptor等
其中获取状态的方式是在RichFunction的Open方法中,以ValueState为例:
private var leastValueState: ValueState[Long] = _
override def open(parameters: Configuration): Unit = {
//创建ValueStateDescriptor,定义状态名称为leastValue,并指定数据类型
val leastValueStateDescriptor = new ValueStateDescriptor[Long]("leastValue", classOf[Long])
//通过getRuntimeContext.getState获取State
leastValueState = getRuntimeContext.getState(leastValueStateDescriptor)
}
意思是:
(1)keyed state 和 Key以及具体的Operator 绑定。
(2)Operator State 只和Operator算子有关。
Managed State 直接将状态管理交给Flink,checkpoint时存储的是bytes数据。
托管的好处是,Flink可以更好的支持状态数据的重平衡以及更加完善的内存管理。
状态名 | 解释 | 获取值 | 更新值 |
---|---|---|---|
ValueState[T] | 与Key对应的单个值状态 | T .value() | .update(T) |
ListState[T] | 与Key对应的列表的状态 | get(i) | .add .addAll .update |
ReducingState[T] | 单个聚合值的状态, 每次调用add 方法添加值的时候,会调用reduceFunction,最后合并到一个单一的状态值。 |
T get() | add(T) |
AggregatingState[IN,OUT] | 与ReducingState唯一的区别是,输入输出类型可以不同。 | OUT get() | add(IN |
MapState[UK,UV] | 定义与Key对应的键值对的状态 | get(UK) | .put .putAll .entries() .keys() .values() |
对于任何类型Keyed State都可以设定状态的生命周期(TTL),以确保能够在规定时间内及时地清理状态数据。状态生命周期功能可以通过StateTtlConfig配置,然后将StateTtlConfig配置传入StateDescriptor中的enableTimeToLive方法中即可。
//创建StateTtlConfig
val stateTtlConfig = StateTtlConfig
//指定TTL时长为10s
.newBuilder(Time.seconds(10))
//指定TTL刷新时只对创建和写入操作有效
.setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
//指定状态可见性为永远不反悔过期数据
.setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
.build
//创建ValueStateDescriptor
val valueStateDescriptor = new ValueStateDescriptor[String]("valueState", classOf[Long])
//指定创建好的stateTtlConfig
valueStateDescriptor.enableTimeToLive(stateTtlConfig)
应用场景,例如:
统计算子输入数据量
维护Topics分区和Offsets偏移量
案例,统计算子输入数据量:
class numberRecordsCount extends FlatMapFunction[(String, Long), (String,
Long)] with ListCheckpointed[Long] {
//定义算子中接入的numberRecords数量
private var numberRecords: Long = 0L
override def flatMap(t: (String, Long), collector: Collector[(String, Long)]): Unit = {
//接入一条记录则进行统计,并输出
numberRecords += 1
collector.collect(t._1, numberRecords)
}
override def snapshotState(checkpointId: Long, ts: Long): util.List[Long] = {
//Snapshot状态的过程中将numberRecords写入
Collections.singletonList(numberRecords)
}
override def restoreState(list: util.List[Long]): Unit = {
numberRecords = 0L
for (count <- list) {
//从状态中恢复numberRecords数据
numberRecords += count }}}