任错错

JavaFlink原理、实战、源码分析（二）原理部分

JavaFlink原理、实战、源码分析（一）https://blog.csdn.net/qq_36250202/article/details/112978869

JavaFlink原理、实战、源码分析（三）https://blog.csdn.net/qq_36250202/article/details/115732840

第五章 Flink 流处理 API

5.1 Environment

5.1.2 createLocalEnvironment

5.1.3 createRemoteEnvironment

5.2 Source

5.2.1 从集合读取数据

5.3 Transform

5.3.1

map

5.3.2 KeyBy

5.3.3 滚动聚合算子（Rolling Aggregation）

5.3.4Reduce

5.3.5Split 和 Select（Select只能搭配Split使用）

5.3.6 Connect 和 CoMap（只能是两条流）

5.3.7 Union（联合多条流）

5.4 支持的数据类型

5.4.1 基础数据类型

5.4.2 Java 和 Scala 元组（Tuples）

5.4.3 Scala 样例类（case classes）

5.4.4 Java 简单对象（POJOs）

5.4.5 其它（Arrays, Lists, Maps, Enums, 等等）

5.5 实现 UDF 函数——更细粒度的控制流

5.5.1 函数类（Function Classes）

5.5.2 匿名函数（Lambda Functions）

5.5.3 富函数（Rich Functions）

5.5.4数据的重分区

5.6 Sink

5.6.1 Kafka

5.6.2 Redis（略）

5.6.3 Elasticsearch （略）

5.6.4 JDBC 自定义 sink

第六章 Flink 中的 Window

6.1 Window

6.1.1 Window 概述

6.1.2 Window 类型

6.2 Window API

6.2.1 窗口分配器（window assigner）

6.2.2创建不同类型的窗口

6.2.3 window function

6.2.4 其它可选 API

第七章时间语义与 Wartermark

7.1 Flink 中的时间语义

7.2 EventTime 的引入

7.3 Watermark

watermark 的特点

watermark 的传递

7.3.2 Watermark 的引入

watermark 的设定

MyAssigner 有两种类型

JavaFlink原理、实战、源码分析（一）JavaFlink原理、实战、源码分析（一）原理部分_任错错的博客-CSDN博客

JavaFlink原理、实战、源码分析（三）JavaFlink原理、实战、源码分析（三）原理部分_任错错的博客-CSDN博客

第五章 Flink 流处理 API

5.1 Environment

创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境，也就是说，getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境，是最常用的一种创建执行环境的方式。

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

StreamExecutionEnvironment env =StreamExecutionEnvironment.getExecutionEnvironment();

如果没有设置并行度，会以 flink-conf.yaml 中的配置为准，默认是 1。

5.1.2 createLocalEnvironment

返回本地执行环境，需要在调用时指定默认的并行度。

LocalStreamEnvironment env = StreamExecutionEnvironment.createLocalEnvironment(1);

5.1.3 createRemoteEnvironment

StreamExecutionEnvironment env = 
StreamExecutionEnvironment.createRemoteEnvironment("jobmanage-hostname", 6123,"YOURPATH//WordCount.jar");

5.2 Source

5.2.1 从集合读取数据

 // 创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从集合中读取数据
        DataStream dataStream = env.fromCollection(Arrays.asList(
                new SensorReading("sensor_1", 1547718199L, 35.8),
                new SensorReading("sensor_6", 1547718201L, 15.4),
                new SensorReading("sensor_7", 1547718202L, 6.7),
                new SensorReading("sensor_10", 1547718205L, 38.1)
        ));

        DataStream integerDataStream = env.fromElements(1, 2, 4, 67, 189);

        // 打印输出
        dataStream.print("data");
        integerDataStream.print("int");

        // 执行
        env.execute();

5.2.2 从文件读取数据

 public static void main(String[] args) throws Exception {
        ExecutionEnvironment env =ExecutionEnvironment.getExecutionEnvironment();

        // 从文件中读取数据
        String inputPath = "D:\\javaFlink\\src\\main\\resources\\hello.txt";
        DataSet inputDataSet = env.readTextFile(inputPath);
        DataSet> wordCountDataSet = inputDataSet.flatMap(new MyFlatMapper())
                .groupBy(0)
                .sum(1);
        wordCountDataSet.print();
        
    }

5.2.3 以 kafka 消息队列的数据作为来源

需要引入 kafka 连接器的依赖：

pom.xml


   org.apache.flink
   flink-connector-kafka-0.11_2.12
   1.10.1

具体代码如下：

 public static void main(String[] args) throws Exception{
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        Properties properties = new Properties();
        //Kafka服务端的主机名和端口号
        properties.setProperty("bootstrap.servers", "locahost:9092");
        // 制定consumer group
        properties.setProperty("group.id", "consumer-group");
        // key序列化
        properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        // value序列化
        properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        //latest 表示从最新的数据消费，也就是新产生的数据.
        properties.setProperty("auto.offset.reset", "latest");

        // 从文件读取数据
        DataStream dataStream = env.addSource( new FlinkKafkaConsumer011("sensor", new SimpleStringSchema(), properties));

        // 打印输出
        dataStream.print();

        env.execute();
    }

5.2.4 自定义 Source

除了以上的 source 数据来源，我们还可以自定义 source。需要做的，只是传入一个 SourceFunction 就可以。具体调用如下：

DataStream dataStream = env.addSource( new MySensor());

我们希望可以随机生成传感器数据，MySensorSource 具体的代码实现如下：

// 实现自定义的SourceFunction
    public static class MySensorSource implements SourceFunction{
        // 定义一个标识位，用来控制数据的产生
        private boolean running = true;

        @Override
        public void run(SourceContext ctx) throws Exception {
            // 定义一个随机数发生器
            Random random = new Random();

            // 设置10个传感器的初始温度
            HashMap sensorTempMap = new HashMap<>();
            for( int i = 0; i < 10; i++ ){
                sensorTempMap.put("sensor_" + (i+1), 60 + random.nextGaussian() * 20);
            }

            while (running){
                for( String sensorId: sensorTempMap.keySet() ){
                    // 在当前温度基础上随机波动
                    Double newtemp = sensorTempMap.get(sensorId) + random.nextGaussian();
                    sensorTempMap.put(sensorId, newtemp);
                    ctx.collect(new SensorReading(sensorId, System.currentTimeMillis(), newtemp));
                }
                // 控制输出频率
                Thread.sleep(1000L);
            }
        }

        @Override
        public void cancel() {
            running = false;
        }
    }

5.3 Transform

转换算子

5.3.1

map、flatMap、filter基本转换算子（简单算子）

map

flatMap（打散，来一条数据打散成多条数据）

Filter（过滤）

    public static void main(String[] args) throws Exception{
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从文件读取数据
        DataStream inputStream = env.readTextFile("E:\\尚硅谷\\Flink课程\\尚硅谷大数据技术之Flink（Java版）\\4.代码\\FlinkTutorial\\src\\main\\resources\\sensor.txt");

        // 1. map，把String转换成长度输出
        DataStream mapStream = inputStream.map(new MapFunction() {
            @Override
            public Integer map(String value) throws Exception {
                return value.length();
            }
        });

        // 2. flatmap，按逗号分字段
        DataStream flatMapStream = inputStream.flatMap(new FlatMapFunction() {
            @Override
            public void flatMap(String value, Collector out) throws Exception {
                String[] fields = value.split(",");
                for( String field: fields )
                    out.collect(field);
            }
        });

        // 3. filter, 筛选sensor_1开头的id对应的数据
        DataStream filterStream = inputStream.filter(new FilterFunction() {
            @Override
            public boolean filter(String value) throws Exception {
                return value.startsWith("sensor_1");
            }
        });

        // 打印输出
        mapStream.print("map");
        flatMapStream.print("flatMap");
        filterStream.print("filter");

        env.execute();
    }

打印输出

5.3.2 KeyBy

DataStream → KeyedStream：逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同 key 的元素，在内部以 hash 的形式实现的。（hashCode重分区）

所有相同的key一定会分到对应的分区里

5.3.3 滚动聚合算子（Rolling Aggregation）

这些算子可以针对 KeyedStream 的每一个支流做聚合。

⚫ sum()

⚫ min()

⚫ max()

⚫ minBy()

⚫ maxBy()

注：max、min只会变化当前比较字段值，其他字段值没有变化不是最新对应的，minby、maxby则都会获取比较最新值的对应字段值

public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(4);

        // 从文件读取数据
        DataStream inputStream = env.readTextFile("E:\\尚硅谷\\Flink课程\\尚硅谷大数据技术之Flink（Java版）\\4.代码\\FlinkTutorial\\src\\main\\resources\\sensor.txt");

        // 转换成SensorReading类型
//        DataStream dataStream = inputStream.map(new MapFunction() {
//            @Override
//            public SensorReading map(String value) throws Exception {
//                String[] fields = value.split(",");
//                return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
//            }
//        });

        DataStream dataStream = inputStream.map( line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        } );

        // 分组
        KeyedStream keyedStream = dataStream.keyBy("id");
        KeyedStream keyedStream1 = dataStream.keyBy(data -> data.getId());

        // KeyedStream keyedStream1 = dataStream.keyBy(SensorReading::getId);

        // 滚动聚合，取当前最大的温度值
        DataStream resultStreamMax = keyedStream.max("temperature");
        DataStream resultStreamMaxBy = keyedStream.maxBy("temperature");

        resultStreamMax.print("resultMax");
        resultStreamMaxBy.print("resultMaxBy");
        env.execute();
    }

控制台打印

5.3.4Reduce

KeyedStream → DataStream：一个分组数据流的聚合操作，合并当前的元素和上次聚合的结果，产生一个新的值，返回的流中包含每一次聚合的结果，而不是只返回最后一次聚合的最终结果。

Reduce适用于更加一般化的聚合操作场景。复杂场景，除了获取最大温度的整个传感器信息以外，还要求时间戳更新成最新的

  public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从文件读取数据
        DataStream inputStream = env.readTextFile("E:\\尚硅谷\\Flink课程\\尚硅谷大数据技术之Flink（Java版）\\4.代码\\FlinkTutorial\\src\\main\\resources\\sensor.txt");

        // 转换成SensorReading类型
        DataStream dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });

        // 分组
        KeyedStream keyedStream = dataStream.keyBy("id");

        // reduce聚合，取最大的温度值，以及当前最新的时间戳
        SingleOutputStreamOperator resultStream = keyedStream.reduce(new ReduceFunction() {
            @Override
            public SensorReading reduce(SensorReading value1, SensorReading value2) throws Exception {
                return new SensorReading(value1.getId(), value2.getTimestamp(), Math.max(value1.getTemperature(), value2.getTemperature()));
            }
        });

        keyedStream.reduce( (curState, newData) -> {
            return new SensorReading(curState.getId(), newData.getTimestamp(), Math.max(curState.getTemperature(), newData.getTemperature()));
        });

        resultStream.print();
        env.execute();
    }

txt

sensor_1,1547718199,35.8
sensor_6,1547718201,15.4
sensor_7,1547718202,6.7
sensor_10,1547718205,38.1
sensor_1,1547718207,36.3
sensor_1,1547718209,32.8
sensor_1,1547718211,37.2
sensor_1,1547718212,37.1

控制台打印输出

5.3.5Split 和 Select（Select只能搭配Split使用）

Split

DataStream → SplitStream：根据某些特征把一个 DataStream 拆分成两个或者多个 DataStream。

Select

SplitStream→DataStream：从一个 SplitStream 中获取一个或者多个DataStream。

需求：传感器数据按照温度高低（以 30 度为界），拆分成两个流。

   public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从文件读取数据
        DataStream inputStream = env.readTextFile("E:\\尚硅谷\\Flink课程\\尚硅谷大数据技术之Flink（Java版）\\4.代码\\FlinkTutorial\\src\\main\\resources\\sensor.txt");

        // 转换成SensorReading
        DataStream dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        } );

        // 1. 分流，按照温度值30度为界分为两条流
        SplitStream splitStream = dataStream.split(new OutputSelector() {
            @Override
            public Iterable select(SensorReading value) {
                //Collections.singletonList()返回的是不可变的集合，但是这个长度的集合只有1，可以减少内存空间。但是返回的值依然是Collections的内部实现类，同样没有add的方法，调用add，set方法会报错
                return (value.getTemperature() > 30) ? Collections.singletonList("high") : Collections.singletonList("low");
                //Lists.newArrayList()其实和new ArrayList()几乎一模一样, 唯一它帮你做的(其实是javac帮你做的), 就是自动推导(不是"倒")尖括号里的数据类型.
                //return (value.getTemperature() > 30) ? Lists.newArrayList("high"):Lists.newArrayList("low");
            }
        });

        DataStream highTempStream = splitStream.select("high");
        DataStream lowTempStream = splitStream.select("low");
        DataStream allTempStream = splitStream.select("high", "low");

        highTempStream.print("high");
        lowTempStream.print("low");
        allTempStream.print("all");

        env.execute();
    }

控制台打印

5.3.6 Connect 和 CoMap（只能是两条流）

DataStream,DataStream → ConnectedStreams：连接两个保持他们类型的数据流，两个数据流被 Connect 之后，只是被放在了一个同一个流中，内部依然保持各自的数据和形式不发生任何变化，两个流相互独立。

CoMap,CoFlatMap

ConnectedStreams → DataStream：作用于 ConnectedStreams 上，功能与 map和 flatMap 一样，对 ConnectedStreams 中的每一个 Stream 分别进行 map 和 flatMap处理。

public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从文件读取数据
        DataStream inputStream = env.readTextFile("E:\\尚硅谷\\Flink课程\\尚硅谷大数据技术之Flink（Java版）\\4.代码\\FlinkTutorial\\src\\main\\resources\\sensor.txt");

        // 转换成SensorReading
        DataStream dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        } );

        // 1. 分流，按照温度值30度为界分为两条流
        SplitStream splitStream = dataStream.split(new OutputSelector() {
            @Override
            public Iterable select(SensorReading value) {
                //Collections.singletonList()返回的是不可变的集合，但是这个长度的集合只有1，可以减少内存空间。但是返回的值依然是Collections的内部实现类，同样没有add的方法，调用add，set方法会报错
                return (value.getTemperature() > 30) ? Collections.singletonList("high") : Collections.singletonList("low");
                //Lists.newArrayList()其实和new ArrayList()几乎一模一样, 唯一它帮你做的(其实是javac帮你做的), 就是自动推导(不是"倒")尖括号里的数据类型.
                //return (value.getTemperature() > 30) ? Lists.newArrayList("high"):Lists.newArrayList("low");
            }
        });

        DataStream highTempStream = splitStream.select("high");
        DataStream lowTempStream = splitStream.select("low");
        DataStream allTempStream = splitStream.select("high", "low");

        // 2. 合流 connect，将高温流转换成二元组类型，与低温流连接合并之后，输出状态信息
        DataStream> warningStream = highTempStream.map(new MapFunction>() {
            @Override
            public Tuple2 map(SensorReading value) throws Exception {
                return new Tuple2<>(value.getId(), value.getTemperature());
            }
        });

        ConnectedStreams, SensorReading> connectedStreams = warningStream.connect(lowTempStream);

        DataStream