流如何关联维表-FlinkStreamSQL代码流程解析

因公司产品需要用到Flink和动态维表关联的功能。但Flink目前截至1.8版本还不支持这种维表的join操作,需要在阿里给Flink贡献的 Flink Aysnc I/O 功能上再做封装,则在GitHub上找到了FlinkStreamSQL开源项目,并记录下了代码阅读记录。

核心方法

其实很简单使用Apache Calcite把SQL抽象成语法树,如果遇到join语句就把这个语句拆出来,专门做处理,使用Flink底层api生成新的DataStream,然后在做join,这样就变成流与流之间Flink语法支持的join了。

  • 维表的数据量不大,可以全部加载到内存中。

  • 维表的数据量比较大加入LRU缓存,异步记载并部分加载到内存中。

  • 还可以不用缓存纯异步生成DataStream

异步调用官方图:


image.png

代码阅读流程图

本地模式SQL解析流程.jpg

运行模式支持

目前开源的支持本地测试,Standalone、yarn和yarnPer模式


ClusterMode分类.jpg

你可能感兴趣的:(流如何关联维表-FlinkStreamSQL代码流程解析)