pekingK

Flink详述双流 Join 3 种解决方案 + 2 种优化方案

1.前言

这一期的面试题主要是介绍 Flink 面试中的高频面试题，Flink 流 Join 相关内容，相信大家在面试中遇到的太多了，本节包含的主要内容如下：

Join 的应用场景
为什么流式计算中提到 Join 小伙伴萌就怕呢？
带大家看一遍本文思路
Flink Join 解决方案：Flink Window Join
Flink Join 解决方案：Flink Interval Join
Flink Join 解决方案：Flink Regular Join
上述 3 种解决方案各有优劣，有没有什么共性的问题可以优化？
Flink Join 优化方案：同 key 共享 State
Flink Join 优化方案：外存 State 之 Redis

下面的答案都是博主收集小伙伴萌的答案 + 博主自己的理解进行的一个总结。

2.Join 的应用场景

关于 Join 的场景就太多太多了，在离线数仓开发中，Join 是最常用的算子之一了。

比如：

几乎所有公司的 APP 都会涉及到的曝光关联点击；两条流数据之间的维度拼接；将表打宽等等
电商场景中的退单的订单关联下单的订单分析退单的单的特点等

3.为什么流式计算中提到 Join 小伙伴萌就怕呢？

很多离线数仓的小伙伴会说，Join 这玩意非常简单啊，Hive SQL 简简单单的写个关联 SQL 就行啊。

是的，在批式计算中，Join 的左右表都是 "全集"，所以在全集上面做关联操作是非常简单的，比如目前离线中的技术方案有 sort-merge、hash join 等，这些方案都非常成熟了，哪怕博主自己写个 Java 代码也能实现一个极简版本的批 Join。

但是，在流式计算中，左右表的数据都是无界的，而且是实时到来的。这就会引起流式计算中的 2 个问题 + 大数据中的 2 个核心问题（我们以 A left join B 举例）：

流式计算中的 2 个问题：

流式数据到达计算引擎的时间不一定：比如 A 流的数据先到了，A 流不知道 B 流对应同 key 的数据什么时候到，没法关联（数据质量问题）
流式数据不知何时、下发怎样的数据：A 流的数据到达后，如果 B 流的数据永远不到，那么 A 流的数据在什么时候以及是否要填充一个 null 值下发下去（数据时效问题）

从上面两个问题也可以得出大数据中的 2 个核心问题：

数据质量问题
数据时效性问题

注意：

博主将上文中的批式计算中的 "全集" 用引号括了起来，是因为离线这个全集也不是真正的全集。

以天分区表为例，我们在离线计算中常常会遇到数据漂移问题，那么在做数据关联时，由于数据漂移的问题也可能导致有些数据关联不上，所以这个全集也是有数据质量问题的！

而实时计算中，数据流都是无界的，反而不会存在这种数据质量问题！

这里只是给大家引出博主的这个观点，大家不必细究细节，因为即使批式计算中有少量的数据漂移问题，这点误差基本对业务也没有什么影响。

针对上面的几个问题，博主结合小伙伴萌的意见得出以下的解决方案。

4.带大家看一遍本文思路

我们在看解决方案之前看一下博主下文在阐述每一种解决方案时的讲述思路。

解决方案说明：说明每一种解决方案的思路以及这个解决方案是怎么解决上一节说的流式计算的问题的
解决方案 Flink API：说明每一种解决方案，哪种 Flink API 支持以及 Flink API 的使用方法、案例
解决方案的特点：然后说明每一种解决方案在数据质量、时效性上面的特点
解决方案的适用场景：举例说明给每一种解决方案的适用场景

5.Flink Join 解决方案：Flink Window Join

5.1.解决方案说明

Flink Window Join。就是将两条流的数据从无界数据变为有界数据，即划分出时间窗口，然后将同一时间窗口内的两条流的数据做 Join（这里的时间窗口支持 Tumbling、Sliding、Session）。

那么该方案怎么解决第 3 节说的两个问题呢？

1、 流式数据到达计算引擎的时间不一定：数据已经被划分为窗口，无界数据变为有界数据，就和离线批处理的方式一样了，两个窗口的数据简单的进行关联即可

2、流式数据不知何时、下发怎样的数据：窗口结束就把数据下发下去，关联到的数据就下发 [A, B]，没有关联到的数据取决于是否是 outer join 然后进行数据下发

5.2.解决方案 Flink API

上面这种解决方案目前支持 Flink DataStream API、SQL API 两种。案例如下：

DataStream API：

flinkEnv.env()
    // A 流
    .addSource(new SourceFunction