Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager)和分发器(Dispatcher)。因为Flink是用Java和Scala实现的,所以所有组件都会运行在Java虚拟机上。每个组件的职责如下:
(1)作业管理器(JobManager)
控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager所控制执行。JobManager会先接收到要执行的应用程序,这个应用程序包括:作业图(JobGraph)、逻辑数据流图(Logical DataFlow Graph)以及打包的所有类、库和其它资源jar包。JobManager会把JobGraph转换成一个物理层面的数据流图。这个图被叫作执行图(ExecutionGraph),其包含了所有可以并发执行的任务。JobManager会向资源管理器(ResourceManager)请求执行任务必要的资源,也就是任务管理器(TaskManager)上的插槽(slot)。一旦它获取到了足够的资源,就会将执行图发到真正运行它们的TaskManager上。而在运行过程中,JobManager会负责所有需要中央协调的操作,比如说检查点(checkpoints)的协调。
(2)资源管理器(ResourceManager)
主要负责管理任务管理器(TaskManager)的插槽(slot),TaskManager插槽是Flink中定义的处理资源单元。Flink为不同的环境和资源管理工具提供了不同的ResourceManager。比如:Yarn、Mesos、K8s以及Standlone部署。当JobManager申请slot资源时,ResourceManager会将有空闲slot的TaskManager分配给JobManager。如果ResourceManager没有足够的slot满足JobManager的请求,它也可以向资源平台发起会话,以提供启动TaskManager进行的容器。另外,ResourceManager还负责kill空闲的TaskManager,释放计算资源。
(3)任务管理器(TaskManager)
Flink中的工作进程。通常在Flink中会有多个TaskManager运行,每一个TaskManager都包含了一定数量的slot。slot的数量限制了TaskManager能够执行的任务数量。启动之后,TaskManager会向ResourceManager注册它的slot:收到ResourceManager的指令后,TaskManager就会将一个或者多个slot提供给JobManager调用。JobManager就可以向slot中分配任务(task)来执行。在执行过程中,一个TaskManager可以跟其它运行同一应用程序的TaskManager交换数据。
(4)分发器(Dispatcher)
可以跨作业运行,它为应用提交提供了REST接口。当一个应用被提交执行时,Dispatcher就会启动,并将应用移交给一个JobManager。由于是REST接口,所以Dispatcher可以作为集群的一个HTTP接入点,这样就能够不受防火墙阻挡。Dispatcher也会启动一个Web UI,方便用来展示和监控作业执行的信息。Dispatcher在架构中可能并不是必须的,这取决于应用提交运行的方式。
当一个应用提交执行时,Flink的各个中间是如何交互协作的:
上图是从一个较为高层级的视角,来看应用中各组件的交互协作。如果部署的集群环境不同(例如Yarn、Mesos、Kubernetes、Standalone等),其中一些步骤可以被省略,或是有些组件会运行在同一个JVM进程中。
具体地,如果将Flink集群部署到Yarn上,那么就会有如下的提交流程:
① Flink任务提交后,Client向HDFS上传Flink的jar包和配置;
② Client向Yarn的ResourceManager提交任务。
③ ResourceManager分配Container资源给对应的NodeManager,以启动ApplicationMaster.。ApplicationMaster启动后加载Flink的jar包和配置构建环境,然后启动JobManager。
④ ApplicationMaster向ResourceManager申请资源启动TaskManager。
⑤ResourceManager分配Container资源后,由ApplicationMaster通知Container资源所在节点的NodeManager启动TaskManager。
⑥NodeManager加载Flink的jar包和配置构建环境并启动TaskManager。TaskManager启动后向JobManager发送心跳包,并等待JobManager向其分配任务。
客户端虽然不是运行时(runtime)和作业执行时的一部分,但它是被用作准备和提交 DataFlow(JobGraph) 到 JobManager 的。提交完成之后,客户端可以断开连接,也可以保持连接来接收进度报告。客户端既可以作为触发执行的 Java / Scala 程序的一部分,也可以在命令行进程中运行./bin/flink run …。
当Flink集群启动后,首先会启动一个JobManager和一个或多个的TaskManager(通过jps命令即可查看)。由Client提交任务给JobManager,JobManager再调度任务到各个TaskManager去执行。然后,TaskManager将心跳和统计信息汇报给JobManager。TaskManager之间以流的形式进行数据的传输。上述三者均为独立的JVM进程。
Client是提交Job的客户端,可以运行在任何机器上(与JobManager连通即可)。提交job后,Client可以结束进程(Streaming的任务),也可以不结束并等待结果返回。
JobManager主要负责调度job并协调Task做checkpoint,职责上很像Storm的Nimnus。从Client处接收到job和jar包等资源后,会生成优化后的执行计划,并以task的单元调度到各个TaskManager去执行。
TaskManager在启动的时候就设置好了slot,每个slot能启动一个task,task为线程。从JobManager处接收需要部署的task,部署启动后,与自己的上游建立Netty连接,接收数据并处理。
每个 worker(TaskManager)都是一个 JVM 进程,并且可以在不同的线程中执行一个或多个 subtasks。为了控制 TaskManager接收 task 的数量,TaskManager拥有所谓的 task slots (至少一个)。
每个task slots代表TaskManager的一份固定资源子集。例如,具有三个slots的 TaskManager 会将其管理的内存资源分成三等份给每个 slot。 划分资源意味着 subtask 之间不会竞争资源,但是也意味着它们只拥有固定的资源。注意这里并没有 CPU 隔离,当前 slots之间只是划分任务的内存资源。
通过调整 slot 的数量,用户可以决定 subtasks 的隔离方式。每个 TaskManager 有一个 slot 意味着每组 task 在一个单独的 JVM 中运行(例如,在一个单独的容器中启动)。拥有多个 slots 意味着多个 subtasks 共享同一个 JVM。 Tasks 在同一个 JVM 中共享 TCP 连接(通过多路复用技术)和心跳信息(heartbeat messages)。它们还可能共享数据集和数据结构,从而降低每个task的开销。
默认情况下,Flink允许subtasks共享slots,即使它们是不同tasks的subtasks,只要它们来自同一个job。因此,一个slot可能会负责这个job的整个管道(pipeline)。允许slot sharing 有两个好处:
① Flink集群需要与job中使用的最高并行度一样多的slots。这样不需要计算作业总共包含多少个tasks(具有不同并行度)。
② 更好的资源利用率。在没有slot sharing的情况下,简单的subtasks(source/map())将会占用和复杂的subtasks(window)一样多的资源。通过slot sharing,将示例中的并行度从2增加到6可以充分利用slot的资源,同时确保繁重的subtask在TaskManagers之间公平地获取资源。
Slot是静态的概念,是指TaskManager具有并发执行的能力,可通过参数taskmanager.numberOfTaskSlots进行配置。而并行度parallelism是动态的概念,即TaskManager运行程序时实际使用的并发能力,可通过参数parallelism.default进行配置。
也就是说,假设一共有3个TaskManager,每一个TaskManager中分配3个slot,也就是每个TaskManager可以接收3个task,一共9个slot。如果设置parallelism.default=1,即运行程序默认的并行度为1,9个slot只用了一个,有8个空闲。因此,设置合适的并行度才能提高效率。
APIs 还包含了resource group机制,它可以用来防止不必要的slot sharing。
根据经验,合理的slots数量应该和CPU核数相同。在使用超线程(hyper-threading)时,每个slot将会占用2个或更多的硬件线程上下文(hardware thread contexts)。
所有的Flink程序都是由三部分组成的:Source、Transformation和Sink。
Source负责读取数据源,Transformation利用各种算子进行处理加工,Sink负责输出。
在运行时,Flink上运行的程序会被映射成逻辑数据流(DataFlow),它包含了这三部分。每一个DataFlow以一个或多个Source开始,以一个或多个Sink结束。DataFlow类似于任意的有向无环图(DAG)。在大部分情况下,程序中的转换运算(Transformation)跟DataFlow中的算子(operator)是一一对应的关系,但有时候,一个Transformation可能对应多个operator。
由Flink程序直接映射成的数据流图是StreamGraph,也被称为逻辑流图,因为它们表示的是计算逻辑的高级视图。为了执行一个流处理程序,Flink需要将StreamGraph转换为物理数据流图(也称执行图),详细说明如下:
Flink中的执行图可以分为四层:StreamGraph->JobGraph->ExecutionGraph->物理执行图。
StreamGraph:是根据用户通过Stream API编写的代码生成的最初的图。用来表示程序的拓扑结构。
JobGraph:StreamGraph经过优化后生成了JobGraph,JobGraph是提交给JobManager的数据结构。主要的优化为:将多个符合条件的节点chain在一起作为一个节点,这样可以减少数据在节点之间流动所需要的序列化、反序列化和传输消耗。
ExecutionGraph:JobManager根据JobGraph生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本,是调度层最核心的数据结构。
物理执行图:JobManager根据ExecutionGraph对job进行调度后,在每个TaskManager上部署task后形成的图,即为物理执行图,并不是一个具体的数据结构。
Flink程序的执行具有并行、分布式的特性。在执行过程中,一个流(stream)包含一个或多个分区(stream partition),而每一个算子(operator)可以包含一个或多个子任务(operator subtask),这些子任务在不同的线程、不同的物理机或者不同的容器中彼此互不依赖地执行。
一个特定算子的子任务(subtask)的个数被称之为其并行度(parallelism)。一般情况下,一个流程序的并行度,可以认为就是拥有最大并行度算子的并行度。一个程序中,不同的算法可能具有不同的并行度。
Stream在算子之间传输数据的形式可以是one-to-one(forwarding)的模式,也可以是redistributing的模式,具体是哪一种形式,取决于算子的种类。
One-to-one(类似于spark中的窄依赖):stream(比如在source和map operator之间)维护着分区以及元素的顺序。那意味着map算子的子任务看到的元素的个数以及顺序跟source算子的子任务产生的元素的个数、顺序相同,map、filter和flatmap等算子都是one-to-one的对应关系。
Redistributing(类似于spark中的宽依赖):stream(map()跟keyBy/window之间或者keyBy/window跟sink之间)的分区会发生变化。每一个算子的子任务根据所选择的transformation发送数据到不同的目标任务。例如,keyBy()基于hashCode重分区、broadcast和rebalance会随机重新分区,这些算子都会引起redistribute过程,而redistribute过程就类似于spark中的shuffle过程。
相同的并行度的one-to-one操作,Flink装相连的算子链接在一起形成一个task,原来的算子成为里面的一部分。将算子链接成task是非常有效的优化:它能减少线程之间的切换和基于缓存区的数据交换,在减少时延的同时提升吞吐量。链接的行为可以在编程API中进行指定。