正好最近公司有个需求,要用到flink的状态计算,需求是这样的,收集数据库新增的数据。
听起来很简单对吧?起初我也这么认为,现在发现,这尼玛就是变相的动态读取啊。
因为数据是一直在增加的,你需要记录这次收集的结果,用于下一次的运算,所以要用到状态计算。
废话不多说,直接上干货。
关于什么是有状态的flink计算,官方给出的回答是这样的:在flink程序内部存储计算产生的中间结果,并提供给Function或算子计算结果使用。
了解了定义,我们接下来进入主题。
1.状态类型
在Flink中根据数据集是否根据Key进行分区,将状态分为Keyde state和Operator State两种类型。
(1)Keyed State
表示和key相关的一种state,只能用于KeyedStream类型数据集对应的Functions和Operators之上。Keyed State是Operator State的特例,区别在于Keyed State事先按照key对数据集进行了分区,每个Key State仅对应一个Operator和Key的组合。Keyed State 可以通过Key Groups进行管理,主要用于当算子并行度发生变化时,自动重新分布Keyed State数据。在系统运行过程种,一个Keyed算子实例可能运行一个或者多个Key Groups 的 keys。
(2)Operator State
2.Managed Keyed State
(1)Stateful Function定义
接下来通过完整的实例来说明如何在RichFlatmapFunction中使用ValueState,完成对介入数据最小值的获取。
StreamExecutionEnvironment env = StreamExecutionEnvironment .getExecutionEnvironment; //创建元素数据集 DataStream<int,long> inputStream = env.fromElements((2,21L),(4,1L),(5,4L)); inputStream.keyBy(“1”).flatMap{ //定义和创建RichFlatMapFunction,第一个参数位输入数据类型,第二个参数位输出数据类型 new RichFlatMapFunction
3.Managed Operator State
Operator State是一种non-keyed state,与并行的操作算子实际相关联,例如在Kafka Connector中,每个Kafka消费端算子实例都对应到Kafka的一个分区中,维护Topic分区和Offsets偏移量作为算子的Operator State。在Flink中可以实现CheckpointedFunction或者ListCheckpointed两个接口来定义操作Managed Operator State的函数。
(1)通过CheckpointedFunction接口操作Operator State
CheckpointedFunction接口定义:
public interface CheckpointedFunction{ //触发checkpoint调用 void snapshotState(FunctionSnapshotContext context)throws Exception; //每次自定义函数初始化时,调用 void initializeState(FunctionInitializationContext context)throws Exception; }
在每个算子中Managed Operator State都是以List形式存储,算子和算子之间的状态数据相互独立,List存储比较适合状态数据的重新分布,Flink目前支持对Managed OperatorState两种重分布的策略,分别是Even-split Redistribution和Union Redistribution。
可以通过实现FlatMapFunction和CheckpointedFunction完成对输入数据中每个key的数据元素数量和算子的元素数量的统计。
在initializeState()方法中分别简历keyedState和operator State两种状态,存储基于Key相关的状态值以及基于算子的状态值。
private class CheckpointCount(int numElements)extends FlatMapFunction
可以从上述代码看到,在snapshotState()方法中清理掉上一次checkpoint中存储的operatorState的数据,然后再添加并更新本次算子中需要checkpoint的operatorCount状态变量。当重启时会调用initializeState方法,重新恢复keyedState和OperatorState,其中operatorCount数据可以从最新的operatorState中恢复。
(2)通过ListCheckpointed接口定义Operator State
ListCheckpointed接口和CheckpointedFunction接口相比再灵活性上相对较弱一点,只能支持List类型的状态,并且在数据恢复时仅支持even-redistribution策略。
需要实现以下两个方法来操作Operator State:
ListsnapshotState(long checkpointId,long timestamp) throws Exception; void restoreState(List state) throws Exception;
其中snapshotState方法定义数据元素List存储到checkpoints的逻辑,restoreState方法则定义从checkpoints中恢复状态的逻辑。
class numberRecordsCount extends FlatMapFunction(Map(String,long),Map(String,long))with ListCheckpointed{ private long numberRecords =0L; @Override flatMap(Tuple2(String,long)t,Collector collector){ //接入一条记录则进行统计,并输出 numberRecords +=1; collector.collect(t.f0,numberRecords); } @Override snapshotState(long checkpointId){ Collections.singletonList(numberRecords); } @Override restoreState(List<long> list){ numberRecords =0L; for(count <list){ //从状态中恢复numberRecords数据 numberRecords +=count } } }