Flink官方文档:https://flink.apache.org/
Flink官方中文文档:https://apachecn.github.io/flink-doc-zh
Flink 主页在其顶部展示了该项目的理念:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。
具体来说,Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。
Flink的优点有
Flink的应用场景
无界数据流:有定义流的开始,但没有定义流的结束。无界数据流会源源不断的产生数据,且无界流的数据需要持续处理。无界流处理通常被称为流处理
有界数据流:有定义流的开始,也有定义流的结束。有界流可以等待所有数据到达后再进行计算,且可以进行排序,有界流处理通常被称为批处理。
DataStream:流处理,用于处理无界数据流。
DataSet:批处理,用于处理有界数据流。
有状态计算:是指在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果使用。状态数据可以存储在Flink自己的存储介质中。
需求:统计一段文字中,每个单词出现的频次。
1.17.0
org.apache.flink
flink-streaming-java
${flink.version}
org.apache.flink
flink-clients
${flink.version}
批处理基本思路:先逐行读入文件数据,然后将每一行文字拆分成单词;接着按照单词分组,统计每组数据的个数,就是对应单词的频次。
在项目根目录创建 input 文件夹,并在下面创建文件 words.txt ,并输入一些文本。
新建Java类BatchWordCount。
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.operators.FlatMapOperator;
import org.apache.flink.api.java.operators.UnsortedGrouping;
import org.apache.flink.api.java.tuple.Tuple2;
/**
* DataSet API 实现 WordCCount (不推荐)
*/
public class BatchWordCount {
public static void main(String[] args) throws Exception {
// 1. 创建批式执行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
// 2. 从文件读取数据 按行读取(存储的元素就是每行的文本)
DataSource lineDS = env.readTextFile("input/words.txt");
// 3. 转换数据格式
FlatMapOperator> wordAndOne = lineDS.flatMap((FlatMapFunction>) (line, out) -> {
String[] words = line.split(" ");
for (String word : words) {
// 转换成 二元组 ( word , 1 ) 并通过 采集器 向下游发送数据
out.collect(Tuple2.of(word,1L));
}
});
// 4. 按照 word 进行分组
UnsortedGrouping> wordAndOneUG = wordAndOne.groupBy(0);
// 5. 分组内聚合统计
AggregateOperator> sum = wordAndOneUG.sum(1);
// 6.打印结果
sum.print();
}
}
输出结果:
(flink,1)
(world,1)
(hello,3)
(java,1)
DataStream API更加强大,可以直接处理批处理和流处理的所有场景,也是官方推荐的方式。
新建Java类StreamWordCount 。
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
public class StreamWordCount {
public static void main(String[] args) throws Exception {
// 1.创建流式执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 2. 从文件读取数据 按行读取(存储的元素就是每行的文本)
DataStreamSource lineStream = env.readTextFile("input/words.txt");
// 3. 转换、分组、求和,得到统计结果
SingleOutputStreamOperator> sum = lineStream.flatMap((FlatMapFunction>) (line, out) -> {
String[] words = line.split(" ");
for (String word : words) {
// 转换成 二元组 ( word , 1 ) 并通过 采集器 向下游发送数据
out.collect(Tuple2.of(word, 1L));
}
}).keyBy(data -> data.f0).sum(1);
// 4.打印
sum.print();
// 5.执行
env.execute();
}
}
以上代码会报错
这是因为Flink还具有一个类型提取系统,可以分析函数的输入和返回类型,自动获取类型信息,从而获得对应的序列化器和反序列化器。但是,由于Java中泛型擦除的存在,在某些特殊情况下(比如Lambda表达式中),自动提取的信息是不够精细的——只告诉Flink当前的元素由“船头、船身、船尾”构成,根本无法重建出“大船”的模样;这时就需要显式地提供类型信息,才能使应用程序正常工作或提高其性能。
因为对于flatMap里传入的Lambda表达式,系统只能推断出返回的是Tuple2类型,而无法得到Tuple2
。只有显式地告诉系统当前的返回类型,才能正确地解析出完整数据。
则需要改成以下,或者使用匿名内部类实现。
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
/**
* DataStream API 实现 WordCCount
*/
public class StreamWordCount {
public static void main(String[] args) throws Exception {
// 1.创建流式执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 2. 从文件读取数据 按行读取(存储的元素就是每行的文本)
DataStreamSource lineStream = env.readTextFile("input/words.txt");
// 3. 转换、分组、求和,得到统计结果
SingleOutputStreamOperator> sum = lineStream.flatMap((FlatMapFunction>) (line, out) -> {
String[] words = line.split(" ");
for (String word : words) {
out.collect(Tuple2.of(word, 1L));
}
}).returns(Types.TUPLE(Types.STRING, Types.LONG))
.keyBy(data -> data.f0)
.sum(1);
// 4.打印
sum.print();
// 5.执行
env.execute();
}
}
输出结果:
2> (java,1)
7> (flink,1)
3> (hello,1)
3> (hello,2)
3> (hello,3)
5> (world,1)
通过结果也能体现“流”的概念,数据来一条处理一条,hello这个单词累加的过程,从2到3,就是有状态计算的体现。其中结果前的数字是并行线程编号。
主要观察与批处理程序BatchWordCount的不同:
在实际的生产环境中,真正的数据流其实是无界的,有开始却没有结束,这就要求我们需要持续地处理捕获的数据。为了模拟这种场景,可以监听socket端口,然后向该端口不断的发送数据。
在服务器上安装netcat,用于开启Socket隧道,让flink连接。
[root@VM-12-13-centos ~]# yum install -y netcat
配置并使环境变量生效
export NETCAT_HOME=/usr/local/netcat
export PATH=$PATH:$NETCAT_HOME/bin
新建Java类SocketStreamWordCount ,代码如下:
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;
/**
* DataStream 实现 wordCount : 读Socket(无界流)
*/
public class SocketStreamWordCount {
public static void main(String[] args) throws Exception {
// 创建流式执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 2. 读取文本流:socketTextStream(hostname,port);
DataStreamSource lineStream = env.socketTextStream("服务器ip", 8877);
System.out.println(lineStream);
// 3. 转换、分组、求和,得到统计结果
SingleOutputStreamOperator> sum = lineStream.flatMap((String line, Collector> out) -> {
String[] words = line.split(" ");
for (String word : words) {
out.collect(Tuple2.of(word, 1L));
}
}).returns(Types.TUPLE(Types.STRING, Types.LONG))
.keyBy(data -> data.f0)
.sum(1);
// 4. 打印
sum.print();
// 5.执行
env.execute();
}
}
启动。
启动Socket隧道,并设置通信端口8877
[root@VM-12-13-centos ~]# nc -lk 8877
开启 监听模式,用于指定nc将处于监听模式。通常 这样代表着为一个 服务等待客户端来链接指定的端口。(记得开放对应端口)
注意:要先启动端口,后启动StreamWordCount程序,否则会报超时连接异常。
程序启动之后没有任何输出、也不会退出。这是正常的,因为Flink的流处理是事件驱动的,当前程序会一直处于监听状态,只有接收到数据才会执行任务、输出统计结果。
往命令行输入一些内容,例如:
[root@VM-12-13-centos ~]# nc -lk 8877
hello eason
hello flink
控制台则会输出:
6> (eason,1)
3> (hello,1)
7> (flink,1)
3> (hello,2)
Flink入门就先写到这。