flink词汇表

状态后端在检查点期间存储其快照的位置(JobManager 的 Java 堆或文件系统)。

Flink 应用集群是一个专用的 Flink 集群, 只从一个 Flink 执行 Flink 作业 应用程序。Flink 的生命周期 集群绑定了 Flink 应用的生命周期。

Flink 作业集群是一个专用的 Flink 集群,它只 执行单个 Flink 作业。Flink 集群的生存期与 Flink Job 的生存期绑定。

由(通常)一个 JobManager 和一个或多个 Flink TaskManager 进程组成的分布式系统。

事件#

事件是关于域状态更改的语句,由 应用。事件可以是流或批处理应用程序的输入和/或输出。 事件是特殊类型的记录。

执行图#

请参阅物理图

功能#

函数由用户实现并封装 Flink 程序的应用逻辑。大多数函数都由相应的运算符包装。

实例#

术语实例用于描述运行时特定类型(通常是 Operator 或 Function)的特定实例。由于 Apache Flink 主要是用 Java,这对应于 Java 中 Instance 或 Object 的定义。在 Apache 的上下文中 Flink,术语并行实例也经常被用来强调多个实例 相同的 Operator 或 Function 类型并行运行。

Flink 应用程序是提交一个或多个 Flink 的 Java 应用程序来自方法(或通过其他方式)的作业。提交 作业通常是通过调用执行环境来完成的。main()execute()

应用程序的作业可以提交到长时间运行的 Flink 会话集群,连接到专用的 Flink 应用程序 集群,或 Flink 作业 集群。

Flink 作业是通过调用 Flink 应用程序创建和提交的逻辑图(通常也称为数据流图)的运行时表示。execute()

工作图表#

请参阅逻辑图

JobManager 是 Flink 集群的编排器。它包含三个不同的 组件:Flink Resource Manager、Flink Dispatcher 和每个正在运行的 Flink Job 一个 Flink JobMaster。

JobMasters 是在 JobManager 中运行的组件之一。JobMaster 是 负责监督单个作业任务的执行。

逻辑图#

逻辑图是有向图,其中节点是运算符,边定义运算符的输入/输出关系并对应 到数据流或数据集。通过提交作业创建逻辑图 从 Flink 应用程序。

逻辑图通常也称为数据流图

托管状态#

托管状态描述已向框架注册的应用程序状态。为 托管状态,Apache Flink 将负责持久性和重新缩放等问题。

算子#

逻辑图的节点。Operator 执行某个操作,即 通常由 Function 执行。源和接收器是数据的特殊运算符 引入和数据出口。

经营链#

一个运营商链由两个或多个连续的运营商组成,没有任何运营商 在两者之间重新分区。同一运营商链中的运营商将记录转发给彼此 直接,无需经过序列化或 Flink 的网络堆栈。

分区#

分区是整个数据流或数据集的独立子集。数据流或 通过将每条记录分配给一个或多个分区,将数据集划分为多个分区。 数据流或数据集的分区由 Tasks 在运行时使用。一个 改变数据流或数据集分区方式的转换通常称为 重新分区。

物理图#

物理图是转换逻辑图以在 分布式运行时。节点是 Tasks,边缘表示输入/输出关系 或数据流或数据集的分区。

记录#

记录是数据集或数据流的构成元素。运算符和函数接收记录作为输入,并发出记录作为输出。

(运行时)执行模式#

DataStream API 程序可以在以下两种执行模式之一中执行:或 。有关详细信息,请参阅执行模式。BATCHSTREAMING

一个长时间运行的 Flink 集群,它接受多个 Flink 作业 执行。此 Flink 集群的生命周期不绑定任何 Flink 作业的生命周期。 以前,Flink 会话集群在会话模式下也称为 Flink 集群。与 Flink Application Cluster 相比。

状态后端#

对于流处理程序,Flink 作业的状态后端决定了其状态如何存储在每个 TaskManager(TaskManager 的 Java 堆或(嵌入式) RocksDB)。

子任务#

子任务是负责处理 数据流。术语“子任务”强调同一操作员或操作员链有多个并行任务。

表格程序#

使用 Flink 的关系 API(Table API 或 SQL)声明的管道的通用术语。

任务#

物理图的节点。任务是基本的工作单元,由 Flink 的运行时。任务只封装一个 Operator 或 Operator Chain 的一个并行实例。

TaskManager 是 Flink 集群的 worker 进程。任务是 计划到 TaskManager 执行。它们相互通信以交换数据 后续任务。

转型#

转换应用于一个或多个数据流或数据集,并生成一个或多个 输出数据流或数据集。转换可能会更改 基于每条记录,但也可能只更改其分区或执行聚合。虽然 Operator 和 Functions 是 Flink API 的“物理”部分, 转换只是一个 API 概念。具体来说,大多数转换是 由某些运营商实现。

想贡献翻译吗?

你可能感兴趣的:(flink)