Learning Apache Flink(BASIC)

本文是参考Apache Flink v1.3官方文档

1. Dataflows

Flink的程序包括两部分，streams和transformations。stream指的就是流数据，transformation指的是以stream作为输入和输出的操作。当程序执行的时候，Flink会将程序映射为一个streaming dataflows，如下所示

2. Parallel Dataflows

Flink的程序内部是分布式并行执行的，所以在真正的执行过程中，每个stream会有多个stream partitions，每个操作或者说transformation算子会有多个operator subtasks，如下所示

3. Tasks and Operator Chains

在分布式并发执行的情况下，Task是由chains operator subtasks构成，并且每个task是一个线程。例如下图，首先source和map构成了一个chains operator，在并发过程中每个source和map算子又会分别产生两个subtask，即source[1],map[1]和source[2],map[2]。那么source[1],map[1]就叫做一个chains operator subtasks，也就是说source[1],map[1]会在一个线程中执行，source[2],map[2]在另一个线程中执行。同样，keyBy().window().apply()[1]也算是一个chains operator subtasks，所以keyBy().window().apply()[1]操作也会在一个独立的线程中执行。那么下图相当于有5个task，因此需要5个线程来执行这个streaming parallel dataflows。

4. Job Managers, Task Managers

JobManagers负责调度task，管理checkpoints等工作。
TaskManagers也叫做workers，是主要负责执行dataflow。类似于strom中worker的作用。每个TaskManager就是一个JVM进程。

5. Task Slots

每个TaskManager就是一个JVM进程，一个TaskManager中会启动多个独立的线程，每个线程执行一个task。为了管理TaskManager中可以使用的线程数（线程数决定了这个TaskManager中task的并发度），引入了Task Slot的概念。Task Slot是一个逻辑概念，用来执行“one pipeline of parallel task”。可以理解为，每个task slot中执行一个task。也就是说一个TaskManager中定义的task slot的数量就是这个TaskManager可以使用的线程数，每个线程负责执行一个task。

在Flink中的task slot概念类似于storm中executor的概念(storm基本概念请参考《Topology的并行度设置》)，但是区别在于storm的executor中只能执行相同bolt或者spout的任务，而task slot中执行的是“pipeline task”，例如keyBy的结果可以直接作为window算子的输入，减少了线程间的数据交换，序列化反序列化等操作提高了资源利用率。

假设集群中有2个TaskManagers每个配置3个slot，将一个程序MapFunction的并行度设置为4，ReduceFunction的并行度设置为3，会得到如下所示的资源分配图，Flink中所谓的pipeline可以理解为将任务“纵向”分割，即每个task slot中会执行整个Source - Map - Reduce过程，而storm中每个executor是“横向”分割，executor中要么都执行Map任务要么都执行Reduce任务。