第二章是关于 Flink 的基础内容。主要包括 Apache Flink 框架概述;Flink 数据流处理和批处理的基本概念;Flink 编程模型;Table 以及 SQL 的简单介绍。本章节核心在于 Flink 的基本原理以及编程模式,不涉及环境搭建以及项目开发。
Apache Flink 是一个开源的分布式流式处理框架,旨在处理实时大规模数据流。它提供了高吞吐量、低延迟的数据处理能力,适用于处理无界数据流,同时也支持批处理任务。Flink 的设计目标是在分布式环境中实现容错性、高可用性和高性能的流式数据处理。
Flink 的主要特点包括:
以上图片来自官网截图
特点 | 描述 |
---|---|
Correctness guarantees 正确性保证 | 状态一致性;事件时间处理;成熟的迟到数据处理 |
Layered APIs 分层 AP I | 基于流 / 批数据的SQL;DataStream API & DataSet API;处理方法ProcessFunction (Time & State) |
Operational focus 聚焦运维 | 灵活部署;高可用;保存点 |
Scalability 大规模计算 | 水平扩展架构;支持超大状态;增量检查点机制 |
Performance 性能卓越 | 低延迟;高吞吐;内存计算 |
Apache Flink 的工作原理涉及多个关键组件和步骤,以下是 Flink 的基本工作流程:
作业提交:
作业图构建:
任务划分与调度:
任务执行:
状态管理:
检查点(Checkpoint):
容错与故障恢复:
数据源与连接器:
任务完成与结果输出:
在自然环境中,数据的产生原本就是流式的。无论是来自 Web 服务器的事件数据,证券交易所的交易数据,还是来自工厂车间机器上的传感器数据,其数据都是流式的。但是当你分析数据时,可以围绕有界流(bounded)或 无界流(unbounded)两种模型来组织处理数据,当然,选择不同的模型,程序的执行和处理方式也都会不同。
批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。
流处理 正相反,其涉及无界数据流。至少理论上来说,它的数据输入永远不会结束,因此程序必须持续不断地对到达的数据进行处理。
在 Flink 中,应用程序由用户自定义算子转换而来的流式 data flows 所组成。这些流式 data flows 形成了有向图,以一个或多个源(source)开始,并以一个或多个汇(sink)结束。
事实上,第一章中提到过,Flink 的一个优点在于 流批一体,结合上面的代码可以看出,Flink 处理流数据或批数据的方法基本是一致的。所谓的流处理以及批处理更加强调的是处理的数据特点:有界数据流(批处理)、无界数据流(流处理)。
Apache Flink 提供了两种主要的编程模式:批处理模式(Batch Processing)和流处理模式(Stream Processing)。这两种模式在 Flink 中有不同的 API 和用法。
在批处理模式下,Flink 处理有界的数据集,类似于传统的批处理作业。主要的 API 是 DataSet API。
ExecutionEnvironment
创建一个批处理的执行环境。readTextFile
、fromCollection
等方法读取有界的数据集。map
、filter
、reduce
等,来对数据进行处理。writeAsText
、writeToSocket
等方法将结果输出。// 注意:以下的代码都属于是伪代码,不能够直接执行。
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet<String> input = env.readTextFile("path/to/input");
DataSet<Integer> result = input
.map(s -> Integer.parseInt(s))
.filter(i -> i % 2 == 0)
.reduce((i1, i2) -> i1 + i2);
result.writeAsText("path/to/output");
env.execute("Batch Processing Job");
在流处理模式下,Flink 处理无界的数据流,支持实时数据处理。主要的 API 是 DataStream API。
StreamExecutionEnvironment
创建一个流处理的执行环境。addSource
、socketTextStream
等方法定义数据源。map
、filter
、keyBy
、window
等,来对数据进行处理。print
、writeToSocket
、addSink
等方法将结果输出。// 注意:以下的代码都属于是伪代码,不能够直接执行。
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<String> input = env.socketTextStream("localhost", 9999);
DataStream<Integer> result = input
.map(s -> Integer.parseInt(s))
.filter(i -> i % 2 == 0)
.keyBy(i -> i % 5)
.timeWindow(Time.seconds(10))
.sum("value");
result.print();
env.execute("Stream Processing Job");
在这两种模式下,Flink 提供了类似的操作符,但是在流处理模式下,还引入了一些用于处理无界数据流的新概念,如窗口操作和事件时间处理。用户可以根据任务需求选择合适的编程模式。此外,Flink 还提供了 Table API 和 SQL API,使得用户可以使用类似 SQL 的语法进行数据处理。
Apache Flink Table API 是一个基于关系型查询的 API,允许用户使用类似 SQL 的语法对数据进行查询和转换。Table API 提供了一种更高层次、更声明式的方式来定义数据处理逻辑,而不需要显式地编写低级的转换和函数。
以下是 Flink Table API 的一些关键特点和用法:
声明式查询语法:
集成 SQL:
数据源和目的地:
流处理和批处理一致性:
内置函数和操作符:
集成现有代码:
下面是一个简单的示例,演示如何使用 Flink Table API 对流数据进行查询:
// 注意:以下的代码都属于是伪代码,不能够直接执行。
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
// 创建一个DataStream
DataStream<MyEvent> inputStream = env.addSource(new MyEventSource());
// 将DataStream注册为表
Table myTable = tableEnv.fromDataStream(inputStream, "timestamp, user, product");
// 使用Table API进行查询
Table resultTable = myTable
.groupBy("user")
.select("user, product.count as itemCount");
// 将结果输出到Sink
tableEnv.toRetractStream(resultTable, Row.class).print();
env.execute("Table API Example");
这个示例演示了如何使用 Table API 对流数据进行分组、聚合,并输出结果。 Table API 提供了更高层次的抽象,使得开发者能够以一种更直观的方式进行数据处理。
以上的代码主要意图在于简单描述编程模型,均不能正常执行,后面的章节我们以示例的方式详细介绍。
第二章节仍然是准备过程,相关的知识储备非常重要,不一定要求能背诵,但是略微了解、有点印象对于接下来的进一步学习很有作用。此外也是面试官喜欢问的问题。原因很简单,面试官无法让你现场秀一段代码,但是可以通过询问这些问题看看应聘者的基础是否扎实。一般通过这一关以后,才会继续问项目开发相关的内容,让应聘者描述一下自己负责的项目以及主要的架构与技术等等。
Smileyan
2023.11.25 0:45