键State和操作State (Keyed State and Operator State)
Flink中有两种基本的状态:键状态(Keyed State)和操作状态( Operator State)。
键状态(Keyed State)
键状态(Keyed State)是与键相关的,只能在KeyedStream
的函数和操作符中使用。
可以把键状态(Keyed State)理解成已经分区的操作状态(Operator State)或者分片,每个键只有一个状态分区。每个键状态(Keyed State)在逻辑上绑定到
键状态(Keyed State)
进一步组合成所谓的键组(Key Groups)
,键组(Key Groups)
是Flink重新分配键状态(Keyed State)
的原子单元;键组(Key Groups)
的数量与定义的最大并行度完全相同。在执行过程中,每个键操作符的并行实例都使用一个或多个键组的键。
操作符状态(Operator State)
对于操作符状态(Operator State),每个操作符状态(Operator State)都绑定一个并行操作符实例。 Kafka Connector是在Flink中使用操作符状态(Operator State)一个很好的例子。Kafka消费者的每个并行实例都维护一个topic分区和偏移量(offset)的映射作为其操作符状态(Operator State)。
当并行度发生改变时,操作符状态(Operator State)接口支持在并行操作符实例之间重新分布状态。
原始和管理状态(Raw and Managed State)
键状态(Keyed State)和操作符状态(Operator State)有两种形式:管理状态和原始状态。
管理状态(Managed State)
表示在Flink运行时约束的数据结构,比如内部的哈希表
或者RocksDB
。例如:ValueState
, ListState
。Flink在运行时对状态进行编码,并将其写入检查点(checkpoint)。
原始状态(Raw State)
是状态操作符保存在自己的数据结构中。当触发检查点时,它们只将字节序列写入检查点。Flink不知道状态的数据结构,只看到原始字节。
所有datastream函数都可以使用管理状态,但是原始状态接口只能在实现操作符时使用。 建议使用管理状态(而不是原始状态),因为使用管理状态,Flink能够在并行度改变时自动重新分发状态,并且更好的内存管理。
注意:如果您的管理状态需要自定义序列化逻辑,请参阅 corresponding guide ,以确保未来的兼容性。Flink的默认序列化不需要特殊处理。
使用管理键状态(Using Managed Keyed State)
管理键状态接口提供对不同类型状态的访问,这些状态的作用域都是当前输入元素的键。这意味着这种类型的状态只能在KeyedStream
上使用,可以通过stream.keyBy(…)
创建。
我们首先看一下Flink中不同类型的可用状态,然后了解如何在程序中使用它们。可用状态为:
ValueState
: 保存一个可以修改和获取的值(如前所述,该值的作用域为input元素的key,因此操作的每个键可能都有一个值)。修改值可以使用update(T)
,获取值可以使用T value()
。ListState
: 存储一个元素列表。可以追加元素,并且可以从当前存储的所有元素中获取一个可迭代(Iterable)的元素。添加元素使用add(T)
或addAll(List
,获取元素可以使用) Iterable
。还可以使用get() update(list
修改并覆盖现有列表。) ReducingState
: 存储一个值,该值表示添加到该状态所有值的聚合。类似于ListState
,添加元素使用add(T)
通过ReduceFunction
聚合。
-AggregatingStateReducingState
相反,聚合类型添加到该状态的元素可以有不同类型。与ListState
相同,但是使用add(IN)
添加元素使用指定的AggregateFunction
进行聚合。
- FoldingState
: 存储一个值,该值表示添加到该状态的所有值的聚合。与ReducingState
相反,聚合类型添加到该状态的元素可以有不同类型。类似于ListState,但是使用add(T)
添加元素使用指定的FoldFunction
被折叠成一个聚合。
- MapState
: 保存了一个映射列表。可以在状态中添加键-值对,并可以从当前存储的所有map中获取一个可迭代的元素。使用put(UK, UV)
或putAll(Map
添加映射。获取值可以使用) get(UK)
。获取mappings, keys和values的可迭代数据可以分别使用entry()、keys()和values()。
所有类型的状态都有一个clear()方法,用于清除当前活动键(即输入元素的键)的状态。
注意,FoldingState
和FoldingStateDescriptor
在Flink 1.4中已经被弃用,将来会被完全删除。请使用AggregatingState
和AggregatingStateDescriptor
。
注意,第一,这些状态对象仅可以与状态进行交互。状态不仅可以存储在内部,也可以存储在磁盘或其他地方。第二,从状态获得的值取决于输入元素的键。因此,如果键不同,那么在一次函数调用中获得的值可能与另一次调用中的值不同。
要获得状态句柄,必须创建StateDescriptor
。它保存了状态的名称(在下面可以看到可以创建多个状态,必须具有惟一的名称,以便可以引用它们),状态保存的值的类型,可能还有用户指定的函数,如ReduceFunction
。根据要检索的状态类型,可以创建ValueStateDescriptor、ListStateDescriptor、ReducingStateDescriptor、FoldingStateDescriptor或MapStateDescriptor
。
使用RuntimeContext
访问状态,因此只能在rich函数中访问。有关这方面的信息,请参阅这里,稍后将看到一个示例。在RichFunction
中可用的RuntimeContext
有以下几种访问状态的方法:
- ValueState
getState(ValueStateDescriptor ) - ReducingState
getReducingState(ReducingStateDescriptor ) - ListState
getListState(ListStateDescriptor ) - AggregatingState
getAggregatingState(AggregatingStateDescriptor ) - FoldingState
getFoldingState(FoldingStateDescriptor ) - MapState
getMapState(MapStateDescriptor )
这是一个FlatMapFunction的例子,展示了所有元素如何组合在一起:
class CountWindowAverage extends RichFlatMapFunction[(Long, Long), (Long, Long)] {
private var sum: ValueState[(Long, Long)] = _
override def flatMap(input: (Long, Long), out: Collector[(Long, Long)]): Unit = {
// access the state value
val tmpCurrentSum = sum.value
// If it hasn't been used before, it will be null
val currentSum = if (tmpCurrentSum != null) {
tmpCurrentSum
} else {
(0L, 0L)
}
// update the count
val newSum = (currentSum._1 + 1, currentSum._2 + input._2)
// update the state
sum.update(newSum)
// if the count reaches 2, emit the average and clear the state
if (newSum._1 >= 2) {
out.collect((input._1, newSum._2 / newSum._1))
sum.clear()
}
}
override def open(parameters: Configuration): Unit = {
sum = getRuntimeContext.getState(
new ValueStateDescriptor[(Long, Long)]("average", createTypeInformation[(Long, Long)])
)
}
}
object ExampleCountWindowAverage extends App {
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.fromCollection(List(
(1L, 3L),
(1L, 5L),
(1L, 7L),
(1L, 4L),
(1L, 2L)
)).keyBy(_._1)
.flatMap(new CountWindowAverage())
.print()
// the printed output will be (1,4) and (1,5)
env.execute("ExampleManagedState")
}
这个例子实现了一个简单的计数窗口。我们按第一个字段键元组(在本例中所有的键都是1)。该函数在ValueState
中存储计数和一个正在运行的和。一旦计数达到2,它将发出平均值并清除状态,以便我们从0开始。注意,如果在第一个字段中有不同值的元组,那么对于每个不同的输入键,将保持不同的状态值。
状态生存时间(State Time-To-Live (TTL))
可以将生存时间(TTL)分配给任何类型的键状态。如果已配置TTL且状态值已过期,将以最佳方式清理存储值,下面将对此进行更详细的讨论。
所有状态集合类型每个条目都支持TTLs。这意味着列表元素和映射项可以独立过期。
为了使用状态TTL,首先必须构建一个StateTtlConfig
配置对象。然后TTL可以通过传递配置在任何状态描述符中启用:
import org.apache.flink.api.common.state.StateTtlConfig
import org.apache.flink.api.common.state.ValueStateDescriptor
import org.apache.flink.api.common.time.Time
val ttlConfig = StateTtlConfig
.newBuilder(Time.seconds(1))
.setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
.setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
.build
val stateDescriptor = new ValueStateDescriptor[String]("text state", classOf[String])
stateDescriptor.enableTimeToLive(ttlConfig)
配置有几个选项需要考虑:
newBuilder方法
的第一个参数是必选的,用于设置生存时长的值。
更新类型在状态TTL刷新时配置(默认情况下为OnCreateAndWrite):
- StateTtlConfig.UpdateType.OnCreateAndWrite - 只有在创建和写入时访问
- StateTtlConfig.UpdateType.OnReadAndWrite - 在读取时访问
状态可见性配置如果未清除过期值,则在读取访问时是否返回过期值(默认情况下,NeverReturnExpired):
- StateTtlConfig.StateVisibility.NeverReturnExpired - 过期的值永远不会返回
- StateTtlConfig.StateVisibility.ReturnExpiredIfNotCleanedUp - 如果仍然可用返回
在NeverReturnExpired
的情况下,过期状态的行为就像不再存在一样,即使仍然需要删除。该选项对于数据在TTL之后对于不可读访问的用例非常有用,例如,处理敏感资料的应用。
另一个选项ReturnExpiredIfNotCleanedUp
允许在清理之前返回过期状态。
说明
状态后端存储最后一次修改的时间戳和值,这意味着启用该特性会增加状态存储的消耗。堆状态后端(Heap state backend)使用Java对象的状态对象引用和内存中的原始long值。RocksDB状态后端为每个存储值、列表项或映射项添加8字节。
目前只支持处理时间的TTLs。
- 试图恢复状态(以前在没有TTL的情况下配置的状态),使用启用TTL的描述符或反之,将导致兼容性失败和statmigrationexception异常。
- 只有当值序列化能够处理空值时,TTL的映射状态当前才支持空值。如果序列化器不支持null值,可以使用NullableSerializer对其进行包装,代价是在序列化形式中增加一个字节。
过期状态的清理(Cleanup of Expired State)
目前,过期值只有在显式读取时才会被删除,例如,通过调用valuestat .value()。
**注意: **这意味着默认情况下,如果未读取过期状态就不会删除它,这可能导致状态不断增长。这可能会在未来的版本中改变。
此外,可以在获取完整状态快照时激活清理,将减少其大小。当前实现不会清理本地状态,但从上一个快照恢复时,它不会包含已删除的过期状态。可以在StateTtlConfig中配置:
val ttlConfig = StateTtlConfig
.newBuilder(Time.seconds(1))
.cleanupFullSnapshot
.build
此选项不适用于RocksDB状态后端中的增量检查点。
以后还会添加更多的策略在后台自动清理过期状态。
在Scala DataStream API中声明(State in the Scala DataStream API)
除了上面描述的接口之外,Scala API还为KeyedStream上具有单个ValueState的有状态map()或flatMap()函数提供了快捷方式。用户函数在一个选项中获取ValueState的当前值,并且必须返回一个更新后的值,该值将用于更新状态。
val stream: DataStream[(String, Int)] = ...
val counts: DataStream[(String, Int)] = stream
.keyBy(_._1)
.mapWithState((in: (String, Int), count: Option[Int]) =>
count match {
case Some(c) => ( (in._1, c), Some(c + in._2) )
case None => ( (in._1, 0), Some(in._2) )
})
使用管理操作符状态(Using Managed Operator State)
要使用托管理操作符状态,有状态函数可以实现更通用的CheckpointedFunction
接口,也可以实现listcheckpoint
接口。
CheckpointedFunction
CheckpointedFunction接口通过不同的重新分配方案提供对非键状态的访问。它需要实现两种方法:
void snapshotState(FunctionSnapshotContext context) throws Exception;
void initializeState(FunctionInitializationContext context) throws Exception;
每当必须执行检查点时,都会调用snapshotState()
。对应的initializeState()
在每次初始化用户定义的函数时调用,可以是在函数第一次初始化时调用,也可以是在函数实际从较早的检查点恢复时调用。因此,initializeState()
不仅是初始化不同类型状态的地方,也包括状态恢复逻辑。
目前,支持List样式的管理操作符状态。状态是一个可序列化对象的列表,彼此独立,因此在重新扫描时有资格进行重新分发。换句话说,这些对象是可以重新分布非键状态的最佳粒度。根据状态访问方法的不同,定义了以下重分发方案:
**Even-split redistribution: ** 每个操作符返回一个状态元素列表。整个状态在逻辑上是串联所有列表。在恢复/重新分发时,该列表被平均地分成尽可能多的并行操作符子列表。每个操作符获取一个子列表,该子列表可以是空的,也可以包含一个或多个元素。例如,如果并行度为1,则操作符的检查点状态包含元素element1和element2。当并行度增加到2时,element1可能会出现在运算符实例0中,而element2会出现在运算符实例1中。
Union redistribution: 每个操作符返回一个状态元素列表。整个状态在逻辑上是串联所有列表。在恢复/重新分发时,每个操作符都获得状态元素的完整列表。
下面是一个有状态SinkFunction
的例子,它使用CheckpointedFunction
将元素发送到外部之前缓冲它们。它演示了基本的均分重分发列表状态:
class BufferingSink(threshold: Int = 0)
extends SinkFunction[(String, Int)]
with CheckpointedFunction {
@transient
private var checkpointedState: ListState[(String, Int)] = _
private val bufferedElements = ListBuffer[(String, Int)]()
override def invoke(value: (String, Int)): Unit = {
bufferedElements += value
if (bufferedElements.size == threshold) {
for (element <- bufferedElements) {
// send it to the sink
}
bufferedElements.clear()
}
}
override def snapshotState(context: FunctionSnapshotContext): Unit = {
checkpointedState.clear()
for (element <- bufferedElements) {
checkpointedState.add(element)
}
}
override def initializeState(context: FunctionInitializationContext): Unit = {
val descriptor = new ListStateDescriptor[(String, Int)](
"buffered-elements",
TypeInformation.of(new TypeHint[(String, Int)]() {})
)
checkpointedState = context.getOperatorStateStore.getListState(descriptor)
if(context.isRestored) {
for(element <- checkpointedState.get()) {
bufferedElements += element
}
}
}
}
initializeState方法以FunctionInitializationContext作为参数。用于初始化非键状态“containers”。这是ListState类型的容器,其中非键状态对象将在检查点上存储。
注意状态是如何初始化的,类似于键状态,使用一个StateDescriptor
,其中包含状态名和关于状态持有的值的类型的信息:
val descriptor = new ListStateDescriptor[(String, Long)](
"buffered-elements",
TypeInformation.of(new TypeHint[(String, Long)]() {})
)
checkpointedState = context.getOperatorStateStore.getListState(descriptor)
状态访问方法的命名约定包含其重新分布模式及其状态结构。例如,要在还原时使用具有union重分发方案的list state,使用getUnionListState(descriptor)
访问状态。如果方法名不包含重分发模式,例如getListState(descriptor)
,它仅仅意味着将使用基本的均分重分发模式。
在初始化容器之后,我们使用上下文的isrestore()
方法检查失败后是否正在恢复。如果是true,即正在恢复,则应用恢复逻辑。
如修改后的BufferingSink
代码所示,状态初始化期间恢复的数据保存在一个ListState
变量中,以备将来在snapshotState()中使用。在那里,ListState将清除前一个检查点包含的所有对象,然后被我们想要检查的新选项填满。
另外,键状态也可以在initializeState()
方法中初始化。可以使用FunctionInitializationContext
来完成。
ListCheckpointed
ListCheckpointed接口是CheckpointedFunction的一个更有限的变体,它只支持列表样式的状态,在恢复时使用均分重分发方案。它还需要实现两种方法:
List snapshotState(long checkpointId, long timestamp) throws Exception;
void restoreState(List state) throws Exception;
在snapshotState()
上,操作应该向检查点返回一个对象列表,而restoreState()
必须在恢复时处理这个列表。如果状态不可重分区,则始终可以在snapshotState()
中返回Collections.singletonList(MY_STATE)
。
有状态的源函数(Stateful Source Functions)
与其他操作符相比,有状态源需要更多的关注。为了更新状态和输出集合的原子性(用于故障/恢复上的精确一次语义),用户需要从源上下文获取一个锁。
Scala
class CounterSource
extends RichParallelSourceFunction[Long]
with ListCheckpointed[Long] {
@volatile
private var isRunning = true
private var offset = 0L
override def run(ctx: SourceFunction.SourceContext[Long]): Unit = {
val lock = ctx.getCheckpointLock
while (isRunning) {
// output and state update are atomic
lock.synchronized({
ctx.collect(offset)
offset += 1
})
}
}
override def cancel(): Unit = isRunning = false
override def restoreState(state: util.List[Long]): Unit =
for (s <- state) {
offset = s
}
override def snapshotState(checkpointId: Long, timestamp: Long): util.List[Long] =
Collections.singletonList(offset)
}
当Flink完全确认检查点时,一些操作可能需要这些信息来与外部世界进行通信。在本例中,请参见org.apache.flink.runtime.state.CheckpointListener
接口。