Link_999

Flink1.17学习笔记

main快捷键设置

wordcount

dataset API

package com.atguigu.wc;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.operators.FlatMapOperator;
import org.apache.flink.api.java.operators.UnsortedGrouping;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

public class wc {
    public static void main(String[] args) throws Exception {
        //创建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        //读取数据
        DataSource<String> lineDS = env.readTextFile("input/word.txt");

        //切分、转换(word, 1)
        FlatMapOperator<String, Tuple2<String, Integer>> wordAndOne = lineDS.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
            public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
                //按照空格切分单词
                String[] words = value.split(" ");
                for (String word : words) {
                    //将单词转换为（word，1）
                    Tuple2<String, Integer> wordTuple2 = Tuple2.of(word, 1);

                    //使用collector向下游发送数据
                    out.collect(wordTuple2);
                }
            }
        });

        //按照word分组
        UnsortedGrouping<Tuple2<String, Integer>> wordGroupby = wordAndOne.groupBy(0);

        //分组内聚合
        AggregateOperator<Tuple2<String, Integer>> wordsum = wordGroupby.sum(1);

        //输出
        wordsum.print();
    }
}

datastream读取文件做分词统计（有界流）
(stream环境，分组用keyby, 需要开执行）

package com.atguigu.wc;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.operators.FlatMapOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class stemingwc {
    public static void main(String[] args) throws Exception {
        //创建执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //读取数据
        final DataStreamSource<String> lineDS = env.readTextFile("input/word.txt");

        //处理数据
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordandone = lineDS.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
            public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
                //分割
                String[] words = value.split(" ");
                for (String word : words) {
                    //转换
                    Tuple2<String, Integer> wordone = Tuple2.of(word, 1);
                    //采集器向下游发送数据
                    out.collect(wordone);
                }
            }
        });

        //分组
        KeyedStream<Tuple2<String, Integer>, String> wordkeyby = wordandone.keyBy(new KeySelector<Tuple2<String, Integer>, String>() {
            public String getKey(Tuple2<String, Integer> value) throws Exception {
                return value.f0;
            }
        });

        //聚合
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordsum = wordkeyby.sum(1);

        //输出数据
        wordsum.print();

        //执行
        env.execute();
    }
}

监听安装
sudo yum install -y netcat
nc -lk 7777

package com.atguigu.wc;

import org.apache.flink.api.common.typeinfo.TypeInfo;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;


public class sockwc {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<String> socketDS = env.socketTextStream("hadoop102", 7777);

        socketDS.flatMap(
                (String value, Collector<Tuple2<String, Integer>> out) -> {
                    String[] words = value.split(" ");
                    for (String word : words) {
                        //转换
                        Tuple2<String, Integer> wordone = Tuple2.of(word, 1);
                        //采集器向下游发送数据
                        out.collect(wordone);
                    }
                }
        )
                .returns(Types.TUPLE(Types.STRING, Types.INT))
                .keyBy(value -> value.f0)
                .sum(1)
                .print();

        env.execute();
    }
}

集群搭建

tar -zxvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/module/

（1）进入conf路径，修改flink-conf.yaml文件，指定hadoop102节点服务器为JobManager 
[atguigu@hadoop102 conf]$ vim flink-conf.yaml

修改如下内容：
# JobManager节点地址.
jobmanager.rpc.address: hadoop102
jobmanager.bind-host: 0.0.0.0
rest.address: hadoop102
rest.bind-address: 0.0.0.0
# TaskManager节点地址.需要配置为当前机器名
taskmanager.bind-host: 0.0.0.0
taskmanager.host: hadoop102

（2）修改workers文件，指定hadoop102、hadoop103和hadoop104为TaskManager
[atguigu@hadoop102 conf]$ vim workers
修改如下内容：
hadoop102
hadoop103
hadoop104

（3）修改masters文件
[atguigu@hadoop102 conf]$ vim masters
修改如下内容：
hadoop102:8081

4）分发安装目录
（1）配置修改完毕后，将Flink安装目录发给另外两个节点服务器。
[atguigu@hadoop102 module]$ xsync flink-1.17.0/
（2）修改hadoop103的 taskmanager.host
[atguigu@hadoop103 conf]$ vim flink-conf.yaml
修改如下内容：
# TaskManager节点地址.需要配置为当前机器名
taskmanager.host: hadoop103
（3）修改hadoop104的 taskmanager.host
[atguigu@hadoop104 conf]$ vim flink-conf.yaml
修改如下内容：
# TaskManager节点地址.需要配置为当前机器名
taskmanager.host: hadoop104

启动集群

（1）在hadoop102节点服务器上执行start-cluster.sh启动Flink集群：
[atguigu@hadoop102 flink-1.17.0]$ bin/start-cluster.sh

关闭集群：(base) [link999@hadoop102 flink-1.17.0]$ bin/stop-cluster.sh 

（2）查看进程情况：
[atguigu@hadoop102 flink-1.17.0]$ jpsall 
=============== hadoop102 ===============
4453 StandaloneSessionClusterEntrypoint
4458 TaskManagerRunner
4533 Jps
=============== hadoop103 ===============
2872 TaskManagerRunner
2941 Jps
=============== hadoop104 ===============
2948 Jps
2876 TaskManagerRunner

向集群提交作业

命令提交
(base) [link999@hadoop102 flink-1.17.0]$ bin/flink run -m hadoop102:8081 -c com.atguigu.wc.sockwc  /opt/module/flink-1.17.0/testjar/F
linkTutorial-1.0-SNAPSHOT.jar 

bin/flink run -m host:port -c copy_reference jarpath

3、copy reference

部署模式

会话模式（session Mode），适用于单个规模小、执行时间段的大量作业；
单作业模式（Per-Job Mode），为了更好地隔离资源，提交一个作业启动一个集群，作业完成后，集群关闭，资源释放；
应用模式（Application Mode），也是单个作业单个集群，但是由jobmanager进行解析，减少了网络带宽；
它们的主要区别在于：集群的生命周期和资源的分配方式；以及main方法到底在哪里执行–客户端还是jobmanager

运行模式

standalone(了解）

由Flink管理资源，不依赖外部条件，属于会话模式；

具体步骤如下：
（0）环境准备。在hadoop102中执行以下命令启动netcat。
[atguigu@hadoop102 flink-1.17.0]$ nc -lk 7777
（1）进入到Flink的安装路径下，将应用程序的jar包放到lib/目录下。
[atguigu@hadoop102 flink-1.17.0]$ mv FlinkTutorial-1.0-SNAPSHOT.jar lib/
（2）执行以下命令，启动JobManager。
[atguigu@hadoop102 flink-1.17.0]$ bin/standalone-job.sh start --job-classname com.atguigu.wc.SocketStreamWordCount
这里我们直接指定作业入口类，脚本会到lib目录扫描所有的jar包。
（3）同样是使用bin目录下的脚本，启动TaskManager。
[atguigu@hadoop102 flink-1.17.0]$ bin/taskmanager.sh start
（4）在hadoop102上模拟发送单词数据。
[atguigu@hadoop102 ~]$ nc -lk 7777
hello
（5）在hadoop102:8081地址中观察输出数据
（6）如果希望停掉集群，同样可以使用脚本，命令如下。
[atguigu@hadoop102 flink-1.17.0]$ bin/taskmanager.sh stop
[atguigu@hadoop102 flink-1.17.0]$ bin/standalone-job.sh stop

YARN运行模式（重点）

sudo vim /etc/profile.d/my_env.sh

#FLINK_HOME
export HADOOP_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

启动hadoop集群

一、会话模式 
通过命令行提交作业
① 将FlinkTutorial-1.0-SNAPSHOT.jar任务上传至集群。
② 执行以下命令将该任务提交到已经开启的Yarn-Session中运行。
[atguigu@hadoop102 flink-1.17.0]$ bin/flink run
-c com.atguigu.wc.SocketStreamWordCount FlinkTutorial-1.0-SNAPSHOT.jar
客户端可以自行确定JobManager的地址，也可以通过-m或者-jobmanager参数指定JobManager的地址，JobManager的地址在YARN Session的启动页面中可以找到。
③ 任务提交成功后，可在YARN的Web UI界面查看运行情况。hadoop103:8088。

二、单作业模式
（1）执行命令提交作业。
[atguigu@hadoop102 flink-1.17.0]$ bin/flink run -d -t yarn-per-job -c com.atguigu.wc.SocketStreamWordCount FlinkTutorial-1.0-SNAPSHOT.jar

（3）可以使用命令行查看或取消作业，命令如下。
[atguigu@hadoop102 flink-1.17.0]$ bin/flink list -t yarn-per-job -Dyarn.application.id=application_XXXX_YY

[atguigu@hadoop102 flink-1.17.0]$ bin/flink cancel -t yarn-per-job -Dyarn.application.id=application_XXXX_YY 

三、应用模式
（1）执行命令提交作业。
[atguigu@hadoop102 flink-1.17.0]$ bin/flink run-application -t yarn-application -c com.atguigu.wc.SocketStreamWordCount FlinkTutorial-1.0-SNAPSHOT.jar 

（2）在命令行中查看或取消作业。
[atguigu@hadoop102 flink-1.17.0]$ bin/flink list -t yarn-application -Dyarn.application.id=application_XXXX_YY

[atguigu@hadoop102 flink-1.17.0]$ bin/flink cancel -t yarn-application -Dyarn.application.id=application_XXXX_YY 


上传HDFS提交
可以通过yarn.provided.lib.dirs配置选项指定位置，将flink的依赖上传到远程。
（1）上传flink的lib和plugins到HDFS上
[atguigu@hadoop102 flink-1.17.0]$ hadoop fs -mkdir /flink-dist
[atguigu@hadoop102 flink-1.17.0]$ hadoop fs -put lib/ /flink-dist
[atguigu@hadoop102 flink-1.17.0]$ hadoop fs -put plugins/ /flink-dist
（2）上传自己的jar包到HDFS
[atguigu@hadoop102 flink-1.17.0]$ hadoop fs -mkdir /flink-jars
[atguigu@hadoop102 flink-1.17.0]$ hadoop fs -put FlinkTutorial-1.0-SNAPSHOT.jar /flink-jars
（3）提交作业
[atguigu@hadoop102 flink-1.17.0]$ bin/flink run-application -t yarn-application	-Dyarn.provided.lib.dirs="hdfs://hadoop102:8020/flink-dist" -c com.atguigu.wc.SocketStreamWordCount  hdfs://hadoop102:8020/flink-jars/FlinkTutorial-1.0-SNAPSHOT.jar

历史服务器

1）创建存储目录
hadoop fs -mkdir -p /logs/flink-job
2）在 flink-config.yaml中添加如下配置
jobmanager.archive.fs.dir: hdfs://hadoop102:8020/logs/flink-job
historyserver.web.address: hadoop102
historyserver.web.port: 8082
historyserver.archive.fs.dir: hdfs://hadoop102:8020/logs/flink-job
historyserver.archive.fs.refresh-interval: 5000
3）启动历史服务器
bin/historyserver.sh start
4）停止历史服务器
bin/historyserver.sh stop
5）在浏览器地址栏输入：http://hadoop102:8082  查看已经停止的 job 的统计信息

运行时架构

并行度

设置本地运行也可以看到webUI
StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());

env.setParallelism(2);
算子也可以设置并行度

优先级：
算子>env>提交>配置文件

算子链

1、算子之间的传输关系：

一对一
重分区

2、算子串在一起的条件：

一对一
并行度相同

3、关于算子链的API：

全局禁用算子链：env.disableOperatorChaining();
某个算子不参与链化：算子A…disableOperatorChaining();
从某个算子开启新链条：算子A.startNewChain();

任务槽（task slot）

表示taskmanager拥有计算资源的一个固定大小的子集，这些资源就是用来独立执行一个子任务的。
slot的特点：
– 均分隔离内存，不隔离CPU
– 可以共享：同一个job中，不同算子的子任务才可以共享同一个slot，同一个共享组默认都是default
设置共享组：算子A.slotSharingGroup(“name”)
slot 数量与并行度的关系
–slot是一种静态的概念，表示最大的并发上限；并行度是一种动态的概念，表示实际运行占用了几个。
– slot数量>=job并行度（算子最大并行度），job才能运行。如果是yarn模式，会动态申请。
–申请的数量=job并行度/每个tm的slot数，向上取整

env

DataStream API执行模式包括：流执行模式、批执行模式和自动模式。
	流执行模式（Streaming）
这是DataStream API最经典的模式，一般用于需要持续实时处理的无界数据流。默认情况下，程序使用的就是Streaming执行模式。
	批执行模式（Batch）
专门用于批处理的执行模式。
	自动模式（AutoMatic）
在这种模式下，将由程序根据输入数据源是否有界，来自动选择执行模式。
批执行模式的使用。主要有两种方式：
（1）通过命令行配置
bin/flink run -Dexecution.runtime-mode=BATCH ...
在提交作业时，增加execution.runtime-mode参数，指定值为BATCH。
（2）通过代码配置
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

env.setRuntimeMode(RuntimeExecutionMode.BATCH);

测试数据准备

package com.atguigu.wc.bean;

import java.util.Objects;

public class WaterSensor {
    public String id;
    public Long ts;
    public Integer vc;

    // shift+insert
    public WaterSensor() {
    }

    public WaterSensor(String id, Long ts, Integer vc) {
        this.id = id;
        this.ts = ts;
        this.vc = vc;
    }

    public String getId() {
        return id;
    }

    public void setId(String id) {
        this.id = id;
    }

    public Long getTs() {
        return ts;
    }

    public void setTs(Long ts) {
        this.ts = ts;
    }

    public Integer getVc() {
        return vc;
    }

    public void setVc(Integer vc) {
        this.vc = vc;
    }

    @Override
    public String toString() {
        return "WaterSensor{" +
                "id='" + id + '\'' +
                ", ts=" + ts +
                ", vc=" + vc +
                '}';
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        WaterSensor that = (WaterSensor) o;
        return Objects.equals(id, that.id) &&
                Objects.equals(ts, that.ts) &&
                Objects.equals(vc, that.vc);
    }

    @Override
    public int hashCode() {

        return Objects.hash(id, ts, vc);
    }
}

source

从集合中读取数据

env.fromElements(1,2,3).print();

从文件中读取

读取文件，需要添加文件连接器依赖:

 <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-files</artifactId>
            <version>${flink.version}</version>
</dependency>

package com.atguigu.wc.sourcedemo;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.connector.file.src.FileSource;
import org.apache.flink.connector.file.src.reader.TextLineInputFormat;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class sourcefiledemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        FileSource<String> filesouce = FileSource.forRecordStreamFormat(
                new TextLineInputFormat(),
                new Path("input/word.txt"))
                .build();
        env.fromSource(filesouce, WatermarkStrategy.noWatermarks(), "filesource").print();

        env.execute();
    }
}

从Socket读取数据

DataStream<String> stream = env.socketTextStream("localhost", 7777);

从Kafka读取数据

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka</artifactId>
    <version>${flink.version}</version>
</dependency>

package com.atguigu.wc.sourcedemo;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class sourcekafkademo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        KafkaSource<String> kafkasouce = KafkaSource.<String>builder()
                .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092")
                .setGroupId("atguigu")
                .setTopics("topic_1")
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .setStartingOffsets(OffsetsInitializer.latest())
                .build();

        env
                .fromSource(kafkasouce, WatermarkStrategy.noWatermarks(),"kafkasource")
                .print();

        env.execute();
    }
}

kafka发送数据
kafka-console-producer.sh --bootstrap-server hadoop102:9092 --topic topic_1

kafka启动时，遇到时间加载超时

Error while executing topic command : Timed out waiting for a node assignment. Call: createTopics
[2023-06-12 20:46:07,145] ERROR org.apache.kafka.common.errors.TimeoutException: Timed out waiting for a node assignment. Call: creat
eTopics

解决：分别在3个节点的kafka/config/server.properties修改配置文件的监听映射
例：修改其中103 的节点

listeners=PLAINTEXT://hadoop103:9092

从数据生成器读取数据

<dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-datagen</artifactId>
            <version>${flink.version}</version>
        </dependency>

package com.atguigu.wc.sourcedemo;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.connector.source.util.ratelimit.RateLimiterStrategy;
import org.apache.flink.connector.datagen.source.DataGeneratorSource;
import org.apache.flink.connector.datagen.source.GeneratorFunction;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;


public class sourcegeneratordemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataGeneratorSource<String> stringDataGeneratorSource = new DataGeneratorSource<>(
                new GeneratorFunction<Long, String>() {
                    @Override
                    public String map(Long aLong) throws Exception {
                        return "number:" + aLong;
                    }
                },
//                10,
                Long.MAX_VALUE,
                RateLimiterStrategy.perSecond(5),
                Types.STRING
        );

        env
                .fromSource(stringDataGeneratorSource, WatermarkStrategy.noWatermarks(), "outDataGeneratorSource")
                .print();

        env.execute();

    }

}

transform

map

package com.atguigu.wc.transfrom;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class mapdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<WaterSensor> sourceDS = env.fromElements(
                new WaterSensor("s1", 1L, 1),
                new WaterSensor("s2", 2L, 2),
                new WaterSensor("s3", 3L, 3)
                );

        // 匿名实现类
//        SingleOutputStreamOperator map = sourceDS.map(new MapFunction() {
//            @Override
//            public String map(WaterSensor value) throws Exception {
//                return value.getId();
//            }
//        });

        // lambda表达式
//        SingleOutputStreamOperator map = sourceDS.map(Sensor -> Sensor.getId());

        // 定义一个类实现
        SingleOutputStreamOperator<String> map = sourceDS.map(new MyMapFunction());

        map.print();

        env.execute();
    }

    public static class MyMapFunction implements MapFunction<WaterSensor, String>{

        @Override
        public String map(WaterSensor value) throws Exception {
            return value.getId();
        }
    }

}

filter

package com.atguigu.wc.transfrom;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class filterdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<WaterSensor> sourceDS = env.fromElements(
                new WaterSensor("s1", 1L, 1),
                new WaterSensor("s1", 11L, 11),
                new WaterSensor("s2", 2L, 2),
                new WaterSensor("s3", 3L, 3)
                );

        SingleOutputStreamOperator<WaterSensor> filter = sourceDS.filter(new FilterFunction<WaterSensor>() {
            @Override
            public boolean filter(WaterSensor value) throws Exception {
                return value.getVc() > 1;
            }
        });

        filter.print();

        env.execute();
    }
}

flagmap

package com.atguigu.wc.transfrom;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class flagmapdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<WaterSensor> sourceDS = env.fromElements(
                new WaterSensor("s1", 1L, 1),
                new WaterSensor("s1", 11L, 11),
                new WaterSensor("s2", 2L, 2),
                new WaterSensor("s3", 3L, 3)
                );

        SingleOutputStreamOperator<String> flagmap = sourceDS.flatMap(new FlatMapFunction<WaterSensor, String>() {
            @Override
            public void flatMap(WaterSensor value, Collector<String> out) throws Exception {
                out.collect(value.getId());
                if ("s1".equals(value.getId())) {
                    out.collect("karry on");
                }
            }
        });

        flagmap.print();

        env.execute();
    }
}

keyby

package com.atguigu.wc.aggregate;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class keybydemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<WaterSensor> sourceDS = env.fromElements(
                new WaterSensor("s1", 1L, 1),
                new WaterSensor("s1", 11L, 11),
                new WaterSensor("s2", 2L, 2),
                new WaterSensor("s3", 3L, 3)
        );

        KeyedStream<WaterSensor, String> kb = sourceDS.keyBy(new KeySelector<WaterSensor, String>() {
            @Override
            public String getKey(WaterSensor value) throws Exception {
                return value.getId();
            }
        });

        kb.print();
        env.execute();
    }
}

简单聚合算子

keyby之后才能调用
对同一个key进行聚合
位置索引适用于tuple类型，pojo要用字段名

kb.max("vc").print();

kb.maxBy("vc").print();

max、maxBy的区别：
– max：只会比较字段的最大值，非比较字段保留第一次的值；
– maxBy：去比较字段的最大值，同时非比较字段取最大值这条数据

reduce

package com.atguigu.wc.aggregate;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class reducedemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<WaterSensor> sourceDS = env.fromElements(
                new WaterSensor("s1", 1L, 1),
                new WaterSensor("s1", 11L, 11),
                new WaterSensor("s2", 2L, 2),
                new WaterSensor("s3", 3L, 3)
        );

        KeyedStream<WaterSensor, String> kb = sourceDS.keyBy(new KeySelector<WaterSensor, String>() {
            @Override
            public String getKey(WaterSensor value) throws Exception {
                return value.getId();
            }
        });

        SingleOutputStreamOperator<WaterSensor> reduce = kb.reduce(new ReduceFunction<WaterSensor>() {
            @Override
            public WaterSensor reduce(WaterSensor value1, WaterSensor value2) throws Exception {
                return new WaterSensor(value1.id, value2.ts, value1.vc + value2.vc);
            }
        });

        reduce.print();
        env.execute();
    }
}

keyby之后调用
输入类型等于输出类型，类型不能变
每个key的第一条数据来的时候，不会执行reduce方法，存起来，直接输出；
reduce方法中的两个参数：
– value1：之前的计算结果，存状态
– value2：现在的数据

自定义函数

普通自定义函数

先自定义号函数后，new function调用

package com.atguigu.wc.function;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.common.functions.FilterFunction;

public class filterfunfiondemo implements FilterFunction<WaterSensor>{

    public String id;

    // alt + insert
    public filterfunfiondemo(String id) {
        this.id = id;
    }

    @Override
    public boolean filter(WaterSensor value) throws Exception {
        return this.id.equals(value.getId());
    }
}

富函数 richfunction

多了生命周期管理方法
– open()：每个子任务，在启动时，调用一次；
– close()：每个子任务，在结束时，调用一次；如果Flink程序异常挂掉，不会调用close；如果用cancel停止，会调用close；
多了一个运行时上下文
– 可以获取一些运行时的环境信息，比如子任务编号、名称等等

package com.atguigu.wc.transfrom;

import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class richfunctiondemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<Integer> source = env.fromElements(1, 2, 3, 4, 5);
        SingleOutputStreamOperator<Integer> map = source.map(new RichMapFunction<Integer, Integer>() {

            // ctrl+o
            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                System.out.print(getRuntimeContext().getIndexOfThisSubtask()+"open方法调用");
            }

            @Override
            public void close() throws Exception {
                super.close();
                System.out.print(getRuntimeContext().getIndexOfThisSubtask()+"close方法调用");
            }

            @Override
            public Integer map(Integer value) throws Exception {
                return value + 1;
            }
        });

        map.print();

        env.execute();

    }
}

分区器和分区算子

package com.atguigu.wc.partition;

import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class partitiondemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);

        DataStreamSource<String> stream = env.socketTextStream("hadoop102", 7777);

        // 随机分区
        stream.shuffle().print();

        // 轮询分区
        stream.rebalance().print();

        // 重缩放分区，局部组队，比rebalance更高效
        stream.rescale().print();

        // 广播分区，发送给下游所有子任务
        stream.broadcast().print();

        // 全局分区，全部发往第一个子任务
        stream.global().print();

        // keyby，按指定key去发送，相同key发到同一个子任务
        
        // one to one

        // 自定义分区

        env.execute();

    }
}

自定义分区

package com.atguigu.wc.partition;

import org.apache.flink.api.common.functions.Partitioner;

public class mypartitiondemo implements Partitioner<String>{
    @Override
    public int partition(String key, int numPartitions) {
        return Integer.parseInt(key) % numPartitions;
    }
}

package com.atguigu.wc.partition;

import org.apache.flink.api.common.functions.Partitioner;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class partitioncustomdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);

        DataStreamSource<String> stream = env.socketTextStream("hadoop102", 7777);

        stream.partitionCustom(new mypartitiondemo(), r -> r).print();

        env.execute();

    }
}

分流

filter过滤

package com.atguigu.wc.spilt;

import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class filterspiltdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<String> stream = env.socketTextStream("hadoop102", 7777);

        stream.filter(value -> Integer.parseInt(value) % 2 == 0).print("偶数流");
        stream.filter(value -> Integer.parseInt(value) % 2 == 1).print("奇数流");

        env.execute();
    }
}

侧输出流

WaterSensorMapfunction

package com.atguigu.wc.function;

import com.atguigu.wc.bean.WaterSensor;
import org.apache.flink.api.common.functions.MapFunction;

public class WaterSensorMapfunction implements MapFunction<String, WaterSensor>{

    @Override
    public WaterSensor map(String value) throws Exception {
        String[] datas = value.split(",");
        return new WaterSensor(datas[0], Long.valueOf(datas[1]), Integer.valueOf(datas[2]));
    }
}

sideoutputdemo

package com.atguigu.wc.spilt;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.streaming.api.datastream.SideOutputDataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.streaming.api.operators.Output;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;


public class sideoutputdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env.socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        /*
        * 使用侧输出流，分出watersencor的S1,S2的数据
        * 步骤：
        * 使用process算子
        * new OutputTag
        * 上下文调用
        * 主流和侧流输出
        * */

        // 侧输出流标签，测输出流类型
        OutputTag<WaterSensor> s1Tab = new OutputTag<>("s1", Types.POJO(WaterSensor.class));
        OutputTag<WaterSensor> s2Tab = new OutputTag<>("s2", Types.POJO(WaterSensor.class));

        SingleOutputStreamOperator<WaterSensor> process =
                stream.process(new ProcessFunction<WaterSensor, WaterSensor>() {
                                   @Override
                                   public void processElement(WaterSensor waterSensor, Context context, Collector<WaterSensor> collector) throws Exception {
                                       String id = waterSensor.getId();
                                       if ("s1".equals(id)) {

                                           /**
                                            * 上下文调用output，将数据放入侧输出流；
                                            * 第一个参数，tab对象；
                                            * 第二个参数，数据
                                            */
                                           context.output(s1Tab, waterSensor);
                                       } else if ("s2".equals(id)) {
                                           context.output(s2Tab, waterSensor);
                                       } else {
                                           // 非S1，S2的数据放到主流
                                           collector.collect(waterSensor);
                                       }
                                   }
                               }
                );

        // 打印侧输出流
        SideOutputDataStream<WaterSensor> s1 = process.getSideOutput(s1Tab);
        SideOutputDataStream<WaterSensor> s2 = process.getSideOutput(s2Tab);

        s1.printToErr("s1");
        s2.printToErr("s2");

        // 打印主流
        process.print("主流");

        env.execute();
    }
}

合流

union

package com.atguigu.wc.combine;

import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class uniondemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<Integer> source1 = env.fromElements(1, 2, 3);
        DataStreamSource<Integer> source2 = env.fromElements(11, 22, 33);
        DataStreamSource<String> source3 = env.fromElements("a", "b", "c");
        DataStreamSource<String> source4 = env.fromElements("111", "222", "333");

        source1.union(source2).union(source4.map(r -> Integer.valueOf(r))).print();
        
        source1.union(source2, source4.map(r -> Integer.valueOf(r))).print();

        env.execute();

    }
}

connect

一次只能连接2条流
流的数据类型可以不一样
连接后可以调用map、flatmap、process来处理，但是流内各处理各的

package com.atguigu.wc.combine;

import org.apache.flink.streaming.api.datastream.ConnectedStreams;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.co.CoMapFunction;

public class connectdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<Integer> source1 = env.fromElements(1, 2, 3);
        DataStreamSource<Integer> source2 = env.fromElements(11, 22, 33);
        DataStreamSource<String> source3 = env.fromElements("a", "b", "c");
        DataStreamSource<String> source4 = env.fromElements("111", "222", "333");

        ConnectedStreams<Integer, String> connect = source1.connect(source3);

        SingleOutputStreamOperator<String> result = 
                connect.map(new CoMapFunction<Integer, String, String>() {
                    
            @Override
            public String map1(Integer integer) throws Exception {
                return integer.toString();
            }

            @Override
            public String map2(String s) throws Exception {
                return s;
            }
        });

        result.print();
        env.execute();
    }
}

CoProcessFunction

package com.atguigu.wc.combine;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.ConnectedStreams;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.co.CoProcessFunction;
import org.apache.flink.util.Collector;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class connectkeybydemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);

        DataStreamSource<Tuple2<Integer, String>> source1 = env.fromElements(
                Tuple2.of(1, "a1"),
                Tuple2.of(1, "a2"),
                Tuple2.of(2, "b"),
                Tuple2.of(3, "c")
        );
        DataStreamSource<Tuple3<Integer, String, Integer>> source2 = env.fromElements(
                Tuple3.of(1, "aa1", 1),
                Tuple3.of(1, "aa2", 2),
                Tuple3.of(2, "bb", 1),
                Tuple3.of(3, "cc", 1)
        );

        // 合流
        ConnectedStreams<Tuple2<Integer, String>, Tuple3<Integer, String, Integer>> connect =
                                                                    source1.connect(source2);

        // 多并行度要先进行keyby
        ConnectedStreams<Tuple2<Integer, String>, Tuple3<Integer, String, Integer>> keyby =
                connect.keyBy(r1 -> r1.f0, r2 -> r2.f0);

        /**
         * 实现互相匹配的效果：两条流，不一定谁的数据先来
         * 1、每条数据，有数据来，存到一个变量中
         * hash
         * key = id
         * value = list
         * 2、每条流有数据来的时候，除了存变量中，不知道对方是否有匹配的数据，要去另一条流的变量中，查找是否有匹配上的
         */

        SingleOutputStreamOperator<String> process = keyby.process(new CoProcessFunction<Tuple2<Integer,
                                                        String>, Tuple3<Integer, String, Integer>, String>() {
            /**
             * 每条流都定义一个hashmap
             */
            Map<Integer, List<Tuple2<Integer, String>>> s1cache = new HashMap<>();
            Map<Integer, List<Tuple3<Integer, String, Integer>>> s2cache = new HashMap<>();

            /**
             * 第一条流的逻辑
             * @param value 第一条流的数据
             * @param context 上下文
             * @param out 采集器
             * @throws Exception
             */
            @Override
            public void processElement1(Tuple2<Integer, String> value,
                                        Context context, Collector<String> out) throws Exception {
                Integer id = value.f0;
                // 1、S1的数据来了，就存到变量中
                if (!s1cache.containsKey(id)) {
                    // 如果key不存在，说明是该key的第一条数据，初始化，put进map中
                    List<Tuple2<Integer, String>> s1Values = new ArrayList<>();
                    s1Values.add(value);
                    s1cache.put(id, s1Values);
                } else {
                    // 如果key存在，直接添加到value的list中
                    s1cache.get(id).add(value);
                }

                // 2、去s2cache中查找是否有id能匹配上的，匹配上就输出，没有就不输出
//                if (s1cache.containsKey(id)) {
//                    for (Tuple3 s2Element : s2cache.get(id)) {
//                        out.collect("s1:" + value + "<--------->s2:" + s2Element);
//                    }
//                }
            }

            /**
             * 第二条流的数据
             * @param integerStringIntegerTuple3 第二条的数据
             * @param context 上下文
             * @param out 采集器
             * @throws Exception
             */
            @Override
            public void processElement2(Tuple3<Integer, String, Integer>
                                                integerStringIntegerTuple3,
                                        Context context,
                                        Collector<String> out) throws Exception {
                Integer id = integerStringIntegerTuple3.f0;
                // 1、S1的数据来了，就存到变量中
                if (!s2cache.containsKey(id)) {
                    // 如果key不存在，说明是该key的第一条数据，初始化，put进map中
                    List<Tuple3<Integer, String, Integer>> s2Values = new ArrayList<>();
                    s2Values.add(integerStringIntegerTuple3);
                    s2cache.put(id, s2Values);
                } else {
                    // 如果key存在，直接添加到value的list中
                    s2cache.get(id).add(integerStringIntegerTuple3);
                }

                // 2、去s1cache中查找是否有id能匹配上的，匹配上就输出，没有就不输出
                if (s1cache.containsKey(id)) {
                    for (Tuple2<Integer, String> s1element : s1cache.get(id)) {
                        out.collect("s1" + s1element + "<=========>" + "s2" + integerStringIntegerTuple3);
                    }
                }
            }
        });

        process.print();
        env.execute();
    }
}

sink

输出到文件系统

package com.atguigu.wc.sink;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringEncoder;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.connector.source.util.ratelimit.RateLimiterStrategy;
import org.apache.flink.configuration.MemorySize;
import org.apache.flink.connector.datagen.source.DataGeneratorSource;
import org.apache.flink.connector.datagen.source.GeneratorFunction;
import org.apache.flink.connector.file.sink.FileSink;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.filesystem.OutputFileConfig;
import org.apache.flink.streaming.api.functions.sink.filesystem.bucketassigners.DateTimeBucketAssigner;
import org.apache.flink.streaming.api.functions.sink.filesystem.rollingpolicies.DefaultRollingPolicy;

import java.time.Duration;
import java.time.ZoneId;

public class sinkfiledemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);

        // 开启检查机制
        env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE);

        // 数据生成器
        DataGeneratorSource<String> stringDataGeneratorSource = new DataGeneratorSource<>(
                new GeneratorFunction<Long, String>() {
                    @Override
                    public String map(Long aLong) throws Exception {
                        return "number:" + aLong;
                    }
                },
//                10,
                Long.MAX_VALUE,
                RateLimiterStrategy.perSecond(5),
                Types.STRING
        );

        DataStreamSource<String> datagen = env.fromSource(stringDataGeneratorSource,
                         WatermarkStrategy.noWatermarks(), "outDataGeneratorSource");

        // 输出到文件系统
        FileSink<String> filesink = FileSink.<String>forRowFormat(new Path("F:\\尚硅谷大数据\\Flink\\FlinkTutorial\\src\\main\\java\\com\\atguigu\\wc\\sink"),
                new SimpleStringEncoder<>("UTF-8"))
                // 输出文件的配置 前缀 后缀
                .withOutputFileConfig(OutputFileConfig.builder()
                        .withPartPrefix("karryon-")
                        .withPartSuffix(".log")
                        .build())
                // 文件分桶
                .withBucketAssigner(new DateTimeBucketAssigner<>("yyyy-MM-dd HH",
                        ZoneId.systemDefault()))
                // 文件的滚动策略
                .withRollingPolicy(
                        DefaultRollingPolicy.builder()
                                .withInactivityInterval(Duration.ofMinutes(10)) // 按时间
                                .withMaxPartSize(new MemorySize(1024)) // 按大小
                                .build()
                ).build();

        datagen.sinkTo(filesink);

        env.execute();

    }
}

输出到kafka

socket --> fink --> kafka(消费者)

package com.atguigu.wc.sink;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.base.DeliveryGuarantee;
import org.apache.flink.connector.kafka.sink.KafkaRecordSerializationSchema;
import org.apache.flink.connector.kafka.sink.KafkaSink;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.kafka.clients.producer.ProducerConfig;

public class kafkasinkdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 必须要开启checkpoint，否则在精准一次无法写入kafka
        env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE);

        SingleOutputStreamOperator<String> sensorDS = env.socketTextStream("hadoop102", 7777);

        KafkaSink<String> kafkasink = KafkaSink.<String>builder()
                // 指定kafka的地址和端口
                .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092")
                // 指定序列化器，指定topic名称、具体的序列化
                .setRecordSerializer(
                        KafkaRecordSerializationSchema.<String>builder()
                                .setTopic("ws")
                                .setValueSerializationSchema(new SimpleStringSchema())
                                .build()
                )
                // 写到kafka的一致性级别：精准一次，至少一次
                .setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE)
                // 如果是精准一次，必须设置事务前缀
                .setTransactionalIdPrefix("karry-")
                // 如果是精准一次，必须设置 事务超时时间：大于checkpoint,小于max 15分钟
                .setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, 10 * 60 * 1000 + "")
                .build();

        sensorDS.sinkTo(kafkasink);

        env.execute();
    }
}

开启socket

nc -lk 7777

开启kafka消费

(base) [link999@hadoop102 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop104:9092 --topic ws

自定义序列化器

package com.atguigu.wc.sink;

import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.base.DeliveryGuarantee;
import org.apache.flink.connector.kafka.sink.KafkaRecordSerializationSchema;
import org.apache.flink.connector.kafka.sink.KafkaSink;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;

import javax.annotation.Nullable;
import java.nio.charset.StandardCharsets;

public class kafkasinkwithkeydemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 必须要开启checkpoint，否则在精准一次无法写入kafka
        env.enableCheckpointing(2000, CheckpointingMode.EXACTLY_ONCE);

        SingleOutputStreamOperator<String> sensorDS = env.socketTextStream("hadoop102", 7777);


        /**
         * 如果要指定写入kafka的key,可以自定义反序列器
         * 实现一个接口，重写序列化方法
         * 指定key，转成字节数组
         * 指定value，转成字段组
         * 返回一个producerRecord对象，把key、value放进去
         */
        KafkaSink<String> kafkasink = KafkaSink.<String>builder()
                // 指定kafka的地址和端口
                .setBootstrapServers("hadoop102:9092,hadoop103:9092,hadoop104:9092")
                // 指定序列化器，指定topic名称、具体的序列化
                .setRecordSerializer(
                        new KafkaRecordSerializationSchema<String>() {
                            @Nullable
                            @Override
                            public ProducerRecord<byte[], byte[]> serialize(String element, KafkaSinkContext context, Long timestamp) {
                                String[] datas = element.split(",");
                                byte[] key = datas[0].getBytes(StandardCharsets.UTF_8);
                                byte[] value = element.getBytes(StandardCharsets.UTF_8);
                                return new ProducerRecord<>("ws1", key, value);

                            }
                        }
                )
                // 写到kafka的一致性级别：精准一次，至少一次
                .setDeliveryGuarantee(DeliveryGuarantee.EXACTLY_ONCE)
                // 如果是精准一次，必须设置事务前缀
                .setTransactionalIdPrefix("karry-")
                // 如果是精准一次，必须设置 事务超时时间：大于checkpoint,小于max 15分钟
                .setProperty(ProducerConfig.TRANSACTION_TIMEOUT_CONFIG, 10 * 60 * 1000 + "")
                .build();

        sensorDS.sinkTo(kafkasink);

        env.execute();
    }
}

输出到JDBC

写入数据的MySQL的测试步骤如下。
（1）添加依赖
添加MySQL驱动：
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>8.0.27</version>
</dependency>

官方还未提供flink-connector-jdbc的1.17.0的正式依赖，暂时从apache snapshot仓库下载，pom文件中指定仓库路径：
<repositories>
    <repository>
        <id>apache-snapshots</id>
        <name>apache snapshots</name>
<url>https://repository.apache.org/content/repositories/snapshots/</url>
    </repository>
</repositories>

添加依赖：
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-jdbc</artifactId>
    <version>1.17-SNAPSHOT</version>
</dependency>

如果不生效，还需要修改本地maven的配置文件，mirrorOf中添加如下标红内容：
		<mirror>
            <id>aliyunmaven</id>
            <mirrorOf>*,!apache-snapshots</mirrorOf>
            <name>阿里云公共仓库</name>
            <url>https://maven.aliyun.com/repository/public</url>
       </mirror>

（2）启动MySQL，在test库下建表ws
mysql>     
CREATE TABLE `ws` (
  `id` varchar(100) NOT NULL,
  `ts` bigint(20) DEFAULT NULL,
  `vc` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

package com.atguigu.wc.sink;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.flink.connector.jdbc.JdbcConnectionOptions;
import org.apache.flink.connector.jdbc.JdbcExecutionOptions;
import org.apache.flink.connector.jdbc.JdbcSink;
import org.apache.flink.connector.jdbc.JdbcStatementBuilder;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.SinkFunction;

import java.sql.PreparedStatement;
import java.sql.SQLException;

public class mysqlsinkdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        SingleOutputStreamOperator<WaterSensor> sensorDS = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());


        /**
         * TODO 写入mysql
         * 1、只能用老的sink写法： addsink
         * 2、JDBCSink的4个参数:
         *    第一个参数： 执行的sql，一般就是 insert into
         *    第二个参数： 预编译sql， 对占位符填充值
         *    第三个参数： 执行选项 ---》 攒批、重试
         *    第四个参数： 连接选项 ---》 url、用户名、密码
         */
        SinkFunction<WaterSensor> jdbcSink = JdbcSink.sink(
                "insert into ws values(?,?,?)",
                new JdbcStatementBuilder<WaterSensor>() {
                    @Override
                    public void accept(PreparedStatement preparedStatement, WaterSensor waterSensor) throws SQLException {
                        //每收到一条WaterSensor，如何去填充占位符
                        preparedStatement.setString(1, waterSensor.getId());
                        preparedStatement.setLong(2, waterSensor.getTs());
                        preparedStatement.setInt(3, waterSensor.getVc());
                    }
                },
                JdbcExecutionOptions.builder()
                        .withMaxRetries(3) // 重试次数
                        .withBatchSize(100) // 批次的大小：条数
                        .withBatchIntervalMs(3000) // 批次的时间
                        .build(),
                new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
                        .withUrl("jdbc:mysql://hadoop102:3306/test?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8")
                        .withUsername("root")
                        .withPassword("000000")
                        .withConnectionCheckTimeoutSeconds(60) // 重试的超时时间
                        .build()
        );
        
        sensorDS.addSink(jdbcSink);
        env.execute();
    }
}

自定义sink输出

stream.addSink(new MySinkFunction<String>());

窗口

动态创建
按驱动类分：时间窗口、计数窗口
按窗口分配数据的规则分：滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）、会话窗口（Session Window）、全局窗口（Global Window）

滚动窗口

有固定的大小，均匀切片。窗口之间没有重叠，也不会有间隔，首尾相连。
适用于每个时间段做统计的场景

滑动窗口

大小固定，可以错开
两个参数：窗口大小、滑动步长
当滑动步长小于窗口大小，滑动窗口就会出现重叠
适用于更新频率高的场景

会话窗口

只能基于时间来定义
如果两个数据来的时间间隔Gap小于指定的大小size，说明保持会话，属于同一个窗口

全局窗口

全局有效，会把相同的key发往同一个窗口中

窗口分配器与窗口函数

package com.atguigu.wc.window;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.GlobalWindows;
import org.apache.flink.streaming.api.windowing.assigners.ProcessingTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.assigners.SlidingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.streaming.api.windowing.windows.Window;

public class windowapidemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        SingleOutputStreamOperator<WaterSensor> sensorDS = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        KeyedStream<WaterSensor, String> sensorkb = sensorDS.keyBy(word -> word.getId());

        // 1、窗口分配器：指定用哪一种窗口 --- 时间 or 计数 ？ 滚动、滑动、会话、全局
        // 1.1 没有keyby的窗口：窗口内所有数据进入同一个子任务，并行度只能为1
        sensorDS.windowAll();

        // 1.2 有keyby的窗口：每个key上都定义了一组窗口，各自独立地进行统计计算

        // 基于时间的
        sensorkb.window(TumblingProcessingTimeWindows.of(Time.seconds(10))); //滚定窗口，窗口长度10S
        sensorkb.window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(2))); // 滑动窗口，窗口长度10s，滑动步长2s
        sensorkb.window(ProcessingTimeSessionWindows.withGap(Time.seconds(5))); // 会话窗口，超时间隔5s

        // 基于计数的
        sensorkb.countWindow(5); // 滚动窗口，窗口长度=5个元素
        sensorkb.countWindow(5,2); // 滑动窗口，窗口长度=5个元素，滑动步长=2个元素，每经过一个步长，都有一个窗口输出
        sensorkb.window(GlobalWindows.create()); // 全局窗口，计数窗口的底层就是用的这个，需要自定义的时候才会用

        // 2、窗口函数：窗口内数据的计算逻辑
        WindowedStream<WaterSensor, String, TimeWindow> sensoraws =
                sensorkb.window(TumblingProcessingTimeWindows.of(Time.seconds(5)));

        // 增量聚合：来一条数据，计算一条数据，窗口触发的时候输出计算结果
        sensoraws.aggregate()
        sensoraws.reduce()

        // 全窗口函数：数据来了不计算，存起来，窗口触发的时候，计算并输出结果
        sensoraws.process()
        
        env.execute();
    }
}

归约函数 reduce

package com.atguigu.wc.window;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;

public class reducedemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env.socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        KeyedStream<WaterSensor, String> sensorkb = stream.keyBy(key -> key.getId());

        WindowedStream<WaterSensor, String, TimeWindow> sensorws =
                sensorkb.window(TumblingProcessingTimeWindows.of(Time.seconds(10)));

        SingleOutputStreamOperator<WaterSensor> reduce = sensorws.reduce(new ReduceFunction<WaterSensor>() {
            @Override
            public WaterSensor reduce(WaterSensor value1, WaterSensor value2) throws Exception {
                System.out.print("调用reduce方法，value1=" + value1 + ", value2=" + value2);
                return new WaterSensor(value1.getId(), value1.getTs(), value1.getVc() + value2.getVc());
            }
        });

        reduce.print();

        env.execute();

    }
}

聚合函数 aggregate

package com.atguigu.wc.window;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;

public class aggregatedemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env.socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        KeyedStream<WaterSensor, String> sensorkb = stream.keyBy(key -> key.getId());

        // 窗口分配器
        WindowedStream<WaterSensor, String, TimeWindow> sensorws =
                sensorkb.window(TumblingProcessingTimeWindows.of(Time.seconds(20)));


        // 窗口函数
        /**
         * 增量聚合 aggregate
         * 1 属于本窗口的第一条数据来，创建窗口，创建累加器
         * 2 增量聚合 来一条，调用一次add方法
         * 3 窗口输出时调用一次getresult方法
         * 4 输入 累加器 输出 数据类型可以不一样
         */
        SingleOutputStreamOperator<String> aggregate = sensorws.aggregate(new AggregateFunction<WaterSensor, Integer, String>() {
            /**
             * 第一个类型：输入类型
             * 第二个类型：累加器的类型，存储中间计算结果的类型
             * 第三个类型：输出类型
             */

            // 初始化累加器
            @Override
            public Integer createAccumulator() {
                System.out.print("创建累加器\n");
                return 0;
            }

            // 聚合逻辑
            @Override
            public Integer add(WaterSensor value, Integer accumulator) {
                System.out.print("调用add方法, value=" + value);
                return accumulator + value.getVc();
            }

            // 获取最终结果，窗口触发时输出
            @Override
            public String getResult(Integer accumulator) {
                System.out.print("\n调用getReault方法");
                return accumulator.toString();
            }

            @Override
            public Integer merge(Integer a, Integer b) {
                // 只有会话窗口才会用到
                System.out.print("调用merge方法");
                return null;
            }
        });

        aggregate.print();

        env.execute();

    }
}

全窗口函数 full window functions

package com.atguigu.wc.window;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

public class processdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env.socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        KeyedStream<WaterSensor, String> sensorkb = stream.keyBy(key -> key.getId());

        // 窗口分配器
        WindowedStream<WaterSensor, String, TimeWindow> sensorws =
                sensorkb.window(TumblingProcessingTimeWindows.of(Time.seconds(20)));

        SingleOutputStreamOperator<String> process = sensorws.process(new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() {
            /**
             *
             * @param s 分组的key
             * @param context 上下文
             * @param elements 存储的数据
             * @param out 采集器
             * @throws Exception
             */
            @Override
            public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception {
                // 上下文可以拿到window对象，还有其他
                long start = context.window().getStart();
                long end = context.window().getEnd();
                String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                long count = elements.spliterator().estimateSize();
                out.collect("key=" + s + "的窗口" + startformat + ","
                        + endformat + "包含" + count + "条数====》" + elements.toString());
            }
        });

        process.print();

        env.execute();

    }
}

增量聚合+全窗口函数

package com.atguigu.wc.window;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

public class aggregateprocessdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env.socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        KeyedStream<WaterSensor, String> sensorkb = stream.keyBy(key -> key.getId());

        // 窗口分配器
        WindowedStream<WaterSensor, String, TimeWindow> sensorws =
                sensorkb.window(TumblingProcessingTimeWindows.of(Time.seconds(20)));


        // 窗口函数
        /**
         * 增量聚合aggregate+全窗口process
         * 增量聚合，来一条处理一条，占用空间少
         * 窗口触发时，增量聚合的结果（只有一条）传递给全窗口函数，可以通过上下文实现其他功能
         * 经过全窗口函数处理包装后输出
         */
        SingleOutputStreamOperator<String> aggregateprocess = sensorws.aggregate
                (new MyAgg(), new MyProcess());

        aggregateprocess.print();

        env.execute();

    }

    public static class MyAgg implements AggregateFunction<WaterSensor, Integer, String>{

        /**
         * 第一个类型：输入类型
         * 第二个类型：累加器的类型，存储中间计算结果的类型
         * 第三个类型：输出类型
         */

        // 初始化累加器
        @Override
        public Integer createAccumulator() {
            System.out.print("创建累加器\n");
            return 0;
        }

        // 聚合逻辑
        @Override
        public Integer add(WaterSensor value, Integer accumulator) {
            System.out.print("调用add方法, value=" + value);
            return accumulator + value.getVc();
        }

        // 获取最终结果，窗口触发时输出
        @Override
        public String getResult(Integer accumulator) {
            System.out.print("\n调用getReault方法");
            return accumulator.toString();
        }

        @Override
        public Integer merge(Integer a, Integer b) {
            // 只有会话窗口才会用到
            System.out.print("调用merge方法");
            return null;
        }
    }

    public static class MyProcess extends ProcessWindowFunction<String, String, String, TimeWindow>{

        @Override
        public void process(String s, Context context, Iterable<String> elements, Collector<String> out) throws Exception {
            // 上下文可以拿到window对象，还有其他
            long start = context.window().getStart();
            long end = context.window().getEnd();
            String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
            String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

            long count = elements.spliterator().estimateSize();
            out.collect("key=" + s + "的窗口" + startformat + ","
                    + endformat + "包含" + count + "条数====》" + elements.toString());
        }
    }
}

动态获取会话间隔时间

package com.atguigu.wc.window;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.ProcessingTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.assigners.SessionWindowTimeGapExtractor;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

public class timewindowprocessdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env.socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        KeyedStream<WaterSensor, String> sensorkb = stream.keyBy(key -> key.getId());

        // 窗口分配器

                // 会话窗口，动态间隔，每条来的数据都会更新动态间隔时间
        WindowedStream<WaterSensor, String, TimeWindow> windowwithDynamicGap =
                sensorkb.window(ProcessingTimeSessionWindows.withDynamicGap(
                new SessionWindowTimeGapExtractor<WaterSensor>() {

                    @Override
                    public long extract(WaterSensor element) {
                        // 从数据中提取间隔，单位ms
                        return element.getTs() * 1000L;
                    }
                }
        ));

        SingleOutputStreamOperator<String> process = windowwithDynamicGap.process(new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() {
            /**
             *
             * @param s 分组的key
             * @param context 上下文
             * @param elements 存储的数据
             * @param out 采集器
             * @throws Exception
             */
            @Override
            public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception {
                // 上下文可以拿到window对象，还有其他
                long start = context.window().getStart();
                long end = context.window().getEnd();
                String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                long count = elements.spliterator().estimateSize();
                out.collect("key=" + s + "的窗口" + startformat + ","
                        + endformat + "包含" + count + "条数====》" + elements.toString());
            }
        });

        process.print();
        env.execute();
    }
}

其他API

触发器、移出器
以时间类型的滚动窗口为例，分析原理：
窗口是什么时候触发输出？
– 时间进展 >= 窗口的最大时间戳（end - 1ms）
窗口是怎么划分的？
– start 向下取整，去窗口长度的整数倍
– end start+窗口长度
– 窗口左闭右开，属于本窗口的最大时间戳=end-1ms
窗口的生命周期？
– 创建：属于本窗口的第一条数据来的时候，现new的，放入一个singleton单例的集合中
– 销毁（关闭）：事件进展 >= 窗口的最大时间戳（end - 1ms）+ 允许迟到的时间（默认0）

时间语义

事件时间：数据产生的时间（timestamp）
处理时间：数据真正被处理的时刻

水位线

用来衡量时间事件进展的标志，称作水位线
水位线是基于数据的时间戳生成的
水位线的时间戳必须单调递增，以确保任务的事件时间时钟一直向前推进
水位线可以设置延迟，来确保正确处理乱序数据
一个水位线watermark（t），表示当前流中事件时间已经达到了时间戳t，这代表t之前的所有数据都到齐了，之后流中不会出现时间t’ <= t的数据

有序

package com.atguigu.wc.watermark;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

public class watermarkmonodemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        // 定义watermark策略
        WatermarkStrategy<WaterSensor> myWatermarkStrategy = WatermarkStrategy
                // 升序的watermark，没有等待时间
                .<WaterSensor>forMonotonousTimestamps()
                // 指定时间戳分配器，从事件中提取
                .withTimestampAssigner(new SerializableTimestampAssigner<WaterSensor>() {

                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        System.out.println(element + " " + recordTimestamp);
                        return element.getTs() * 1000L;
                    }
                });

        SingleOutputStreamOperator<WaterSensor> waterSensorSingleOutputStreamOperator = stream.assignTimestampsAndWatermarks(myWatermarkStrategy);

        waterSensorSingleOutputStreamOperator
                .keyBy(key -> key.getId())
                // 使用事件语义的窗口
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .process(new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() {
                    /**
                     * @param s        分组的key
                     * @param context  上下文
                     * @param elements 存储的数据
                     * @param out      采集器
                     * @throws Exception
                     */
                    @Override
                    public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception {

                        long start = context.window().getStart();
                        long end = context.window().getEnd();
                        String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                        String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                        long count = elements.spliterator().estimateSize();
                        out.collect("key=" + s + "的窗口" + startformat + ","
                                + endformat + "包含" + count + "条数====》" + elements.toString());
                    }
                }).print();

        env.execute();

    }
}

乱序

package com.atguigu.wc.watermark;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class watermarkoutoforderdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<WaterSensor> stream = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        // 定义watermark策略
        WatermarkStrategy<WaterSensor> myWatermarkStrategy = WatermarkStrategy
                // 乱序的watermark，等待3秒
                .<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3))
                // 指定时间戳分配器，从事件中提取
                .withTimestampAssigner(new SerializableTimestampAssigner<WaterSensor>() {

                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        System.out.println(element + " " + recordTimestamp);
                        return element.getTs() * 1000L;
                    }
                });

        SingleOutputStreamOperator<WaterSensor> waterSensorSingleOutputStreamOperator = stream.assignTimestampsAndWatermarks(myWatermarkStrategy);

        waterSensorSingleOutputStreamOperator
                .keyBy(key -> key.getId())
                // 使用事件语义的窗口
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .process(new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() {
                    /**
                     * @param s        分组的key
                     * @param context  上下文
                     * @param elements 存储的数据
                     * @param out      采集器
                     * @throws Exception
                     */
                    @Override
                    public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception {

                        long start = context.window().getStart();
                        long end = context.window().getEnd();
                        String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                        String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                        long count = elements.spliterator().estimateSize();
                        out.collect("key=" + s + "的窗口" + startformat + ","
                                + endformat + "包含" + count + "条数====》" + elements.toString());
                    }
                }).print();

        env.execute();

    }
}

内置watermark的生成原理
1、都是周期性生成的：默认200S
2、有序流：watermark = 当前最大的事件时间 - 1ms
3、乱序流：watermark = 当前最大的事件时间 - 延迟时间 - 1ms

周期性水位线生成器

watermarkgeneratedemo

package com.atguigu.wc.watermark;

import org.apache.flink.api.common.eventtime.Watermark;
import org.apache.flink.api.common.eventtime.WatermarkGenerator;
import org.apache.flink.api.common.eventtime.WatermarkOutput;

public class watermarkgeneratedemo<T> implements WatermarkGenerator<T>{

    private long delayTs;
    private long maxTs;

    public watermarkgeneratedemo(long delayTs) {
        // 乱序等待时间
        this.delayTs = delayTs;
        // 用来保存当前为止最大的乱序时间
        this.maxTs = Long.MIN_VALUE + this.delayTs + 1;
    }

    /**
     * 每条数据来都会调用一次，用来提取最大的事件时间，保存下来
     * @param event
     * @param eventTimestamp 数据的事件时间
     * @param output
     */
    @Override
    public void onEvent(T event, long eventTimestamp, WatermarkOutput output) {
        maxTs = Math.max(maxTs, eventTimestamp);
        System.out.println(maxTs);
    }

    @Override
    public void onPeriodicEmit(WatermarkOutput output) {
        /**
         * 周期调用，发射watermark
         */
        output.emitWatermark(new Watermark(maxTs - delayTs -1));
        System.out.println(maxTs - delayTs -1);
    }
}

watermarkcustomdemo

package com.atguigu.wc.watermark;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkGenerator;
import org.apache.flink.api.common.eventtime.WatermarkGeneratorSupplier;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class watermarkcustomdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 默认周期 200ms
        env.getConfig().setAutoWatermarkInterval(200);

        SingleOutputStreamOperator<WaterSensor> stream = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        // 定义watermark策略
        WatermarkStrategy<WaterSensor> myWatermarkStrategy = WatermarkStrategy
                // 乱序的watermark，等待3秒
                .<WaterSensor>forGenerator(ctx -> new watermarkgeneratedemo<>(3000L))
                // 指定时间戳分配器，从事件中提取
                .withTimestampAssigner(new SerializableTimestampAssigner<WaterSensor>() {

                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        System.out.println(element + " " + recordTimestamp);
                        return element.getTs() * 1000L;
                    }
                });

        SingleOutputStreamOperator<WaterSensor> waterSensorSingleOutputStreamOperator = stream.assignTimestampsAndWatermarks(myWatermarkStrategy);

        waterSensorSingleOutputStreamOperator
                .keyBy(key -> key.getId())
                // 使用事件语义的窗口
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .process(new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() {
                    /**
                     * @param s        分组的key
                     * @param context  上下文
                     * @param elements 存储的数据
                     * @param out      采集器
                     * @throws Exception
                     */
                    @Override
                    public void process(String s, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception {

                        long start = context.window().getStart();
                        long end = context.window().getEnd();
                        String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                        String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                        long count = elements.spliterator().estimateSize();
                        out.collect("key=" + s + "的窗口" + startformat + ","
                                + endformat + "包含" + count + "条数====》" + elements.toString());
                    }
                }).print();

        env.execute();

    }
}

断点式水位线生成器

watermarkPunctuatedgeneratedemo

package com.atguigu.wc.watermark;

import org.apache.flink.api.common.eventtime.Watermark;
import org.apache.flink.api.common.eventtime.WatermarkGenerator;
import org.apache.flink.api.common.eventtime.WatermarkOutput;

public class watermarkPunctuatedgeneratedemo<T> implements WatermarkGenerator<T>{

    private long delayTs;
    private long maxTs;

    public watermarkPunctuatedgeneratedemo(long delayTs) {
        // 乱序等待时间
        this.delayTs = delayTs;
        // 用来保存当前为止最大的乱序时间
        this.maxTs = Long.MIN_VALUE + this.delayTs + 1;
    }

    /**
     * 每条数据来都会调用一次，用来提取最大的事件时间，保存下来, 并发射watermark
     * @param event
     * @param eventTimestamp 数据的事件时间
     * @param output
     */
    @Override
    public void onEvent(T event, long eventTimestamp, WatermarkOutput output) {
        maxTs = Math.max(maxTs, eventTimestamp);
        System.out.println(maxTs);
        output.emitWatermark(new Watermark(maxTs - delayTs -1));
    }

    @Override
    public void onPeriodicEmit(WatermarkOutput output) {
        /**
         * 周期调用，发射watermark
         */
       
    }
}

// 周期性水位线生成
//                .forGenerator(ctx -> new watermarkgeneratedemo<>(3000L))
                // 断点式水位线生成
                .<WaterSensor>forGenerator(ctx -> new watermarkPunctuatedgeneratedemo<>(3000))

多并行度下的watermark传递

接收到上游多个取最小
往下游多个发送，广播

空闲等待

package com.atguigu.wc.watermark;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import com.atguigu.wc.partition.mypartitiondemo;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class watermarklenessdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);

        SingleOutputStreamOperator sockDS = env
                .socketTextStream("hadoop102", 7777)
                .partitionCustom(new mypartitiondemo(), r -> r)
                .map(r -> Integer.parseInt(r))
                .assignTimestampsAndWatermarks(WatermarkStrategy
                        .forBoundedOutOfOrderness(Duration.ofSeconds(3))
                        .withTimestampAssigner((r, ts) -> r * 1000)
                        .withIdleness(Duration.ofSeconds(5)) // 空闲等待时间
                );


        sockDS
                // 分奇偶数组，当一直输入奇数时，偶数一直在等待，此时需要设置等待时间
                .keyBy(r -> r % 2)
                // 使用事件语义的窗口
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .process(new ProcessWindowFunction() {

                    @Override
                    public void process(Integer integer, Context context, Iterable elements, Collector out) throws Exception {
                        long start = context.window().getStart();
                        long end = context.window().getEnd();
                        String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                        String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                        long count = elements.spliterator().estimateSize();
                        out.collect("key=" + integer + "的窗口" + startformat + ","
                                + endformat + "包含" + count + "条数====》" + elements.toString());
                    }
                }).print();

        env.execute();

    }
}

推迟关窗

package com.atguigu.wc.watermark;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class watermarkallowedLatenessdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator stream = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        // 定义watermark策略
        WatermarkStrategy myWatermarkStrategy = WatermarkStrategy
                // 乱序的watermark，等待3秒
                .forBoundedOutOfOrderness(Duration.ofSeconds(3))
                // 指定时间戳分配器，从事件中提取
                .withTimestampAssigner(new SerializableTimestampAssigner() {

                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        System.out.println(element + " " + recordTimestamp);
                        return element.getTs() * 1000L;
                    }
                });

        SingleOutputStreamOperator waterSensorSingleOutputStreamOperator = stream.assignTimestampsAndWatermarks(myWatermarkStrategy);

        waterSensorSingleOutputStreamOperator
                .keyBy(key -> key.getId())
                // 使用事件语义的窗口
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                // 推迟关窗
                .allowedLateness(Time.seconds(2)) 
                .process(new ProcessWindowFunction() {
                    /**
                     * @param s        分组的key
                     * @param context  上下文
                     * @param elements 存储的数据
                     * @param out      采集器
                     * @throws Exception
                     */
                    @Override
                    public void process(String s, Context context, Iterable elements, Collector out) throws Exception {

                        long start = context.window().getStart();
                        long end = context.window().getEnd();
                        String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                        String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                        long count = elements.spliterator().estimateSize();
                        out.collect("key=" + s + "的窗口" + startformat + ","
                                + endformat + "包含" + count + "条数====》" + elements.toString());
                    }
                }).print();

        env.execute();

    }
}

迟到后关窗的数据放入侧输出流

package com.atguigu.wc.watermark;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;

import java.time.Duration;

public class watermarksideOutputLateDatademo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator stream = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        // 定义watermark策略
        WatermarkStrategy myWatermarkStrategy = WatermarkStrategy
                // 乱序的watermark，等待3秒
                .forBoundedOutOfOrderness(Duration.ofSeconds(3))
                // 指定时间戳分配器，从事件中提取
                .withTimestampAssigner(new SerializableTimestampAssigner() {

                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        System.out.println(element + " " + recordTimestamp);
                        return element.getTs() * 1000L;
                    }
                });

        SingleOutputStreamOperator waterSensorSingleOutputStreamOperator = stream.assignTimestampsAndWatermarks(myWatermarkStrategy);

        // 定义侧输出流标签
        OutputTag late_data = new OutputTag<>("late_data", Types.POJO(WaterSensor.class));

        SingleOutputStreamOperator process = waterSensorSingleOutputStreamOperator
                .keyBy(key -> key.getId())
                // 使用事件语义的窗口
                .window(TumblingEventTimeWindows.of(Time.seconds(10)))
                // 推迟关窗
                .allowedLateness(Time.seconds(2))
                .sideOutputLateData(late_data)
                .process(new ProcessWindowFunction() {
                    /**
                     * @param s        分组的key
                     * @param context  上下文
                     * @param elements 存储的数据
                     * @param out      采集器
                     * @throws Exception
                     */
                    @Override
                    public void process(String s, Context context, Iterable elements, Collector out) throws Exception {

                        long start = context.window().getStart();
                        long end = context.window().getEnd();
                        String startformat = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss.SSS");
                        String endformat = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss.SSS");

                        long count = elements.spliterator().estimateSize();
                        out.collect("key=" + s + "的窗口" + startformat + ","
                                + endformat + "包含" + count + "条数====》" + elements.toString());
                    }
                });

        process.print(); // 主流
        process.getSideOutput(late_data).printToErr(); // 侧输出流

        env.execute();

    }
}

总结

乱序与迟到的区别
– 乱序：数据的顺序乱了，出现时间小的比时间大的晚来
– 迟到：数据的时间戳 < 当前的watermark
乱序、迟到数据的处理
– watermark中指定乱序的等待时间
– 如果开窗，设置窗口允许迟到
– 关窗后迟到的数据放入侧输出流

基于时间的合流

窗口联结（Window Join）

落在同一个时间窗口范围内才能匹配
根据keyby的key，来进行匹配关联
只能拿到匹配上的数据，类似inner join

package com.atguigu.wc.watermark;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.JoinFunction;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;

public class windowjoindemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator> ws1 =
                env.
                        fromElements(Tuple2.of("a", 1),
                        Tuple2.of("a", 2),
                        Tuple2.of("b", 3),
                        Tuple2.of("c", 4))
                        .assignTimestampsAndWatermarks(WatermarkStrategy
                        .>forMonotonousTimestamps()
                        .withTimestampAssigner((value, ts) -> value.f1 * 1000L));

        SingleOutputStreamOperator> ws2 =
                env.
                        fromElements(Tuple3.of("a", 1, 1),
                                Tuple3.of("a", 12, 12),
                                Tuple3.of("b", 11, 11),
                                Tuple3.of("c", 15, 15))
                        .assignTimestampsAndWatermarks(WatermarkStrategy
                                .>forMonotonousTimestamps()
                                .withTimestampAssigner((value, ts) -> value.f1 * 1000L));

        // window join
        DataStream apply = ws1
                .join(ws2)
                .where(r1 -> r1.f0)
                .equalTo(r2 -> r2.f0)
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .apply(new JoinFunction, Tuple3, String>() {

                    /**
                     * 关联上的数据调用join
                     * @param first ws1 的数据
                     * @param second ws2 的数据
                     * @return
                     * @throws Exception
                     */
                    @Override
                    public String join(Tuple2 first, Tuple3 second) throws Exception {
                        return first + "-------" + second;
                    }
                });

        apply.print();

        env.execute();
    }
}

间隔联结（Interval Join）

有界流

package com.atguigu.wc.watermark;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.JoinFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.co.ProcessJoinFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;

public class Intervaljoindemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator> ws1 =
                env.
                        fromElements(Tuple2.of("a", 1),
                        Tuple2.of("a", 2),
                        Tuple2.of("b", 3),
                        Tuple2.of("c", 4))
                        .assignTimestampsAndWatermarks(WatermarkStrategy
                        .>forMonotonousTimestamps()
                        .withTimestampAssigner((value, ts) -> value.f1 * 1000L));

        SingleOutputStreamOperator> ws2 =
                env.
                        fromElements(Tuple3.of("a", 1, 1),
                                Tuple3.of("a", 12, 12),
                                Tuple3.of("b", 11, 11),
                                Tuple3.of("c", 15, 15))
                        .assignTimestampsAndWatermarks(WatermarkStrategy
                                .>forMonotonousTimestamps()
                                .withTimestampAssigner((value, ts) -> value.f1 * 1000L));

        // Interval join
        // 分别做keyby,key其实就是关联条件
        KeyedStream, String> kb1 = ws1.keyBy(r1 -> r1.f0);
        KeyedStream, String> kb2 = ws2.keyBy(r2 -> r2.f0);

        // 调用interval join
        kb1.intervalJoin(kb2)
                .between(Time.seconds(-2), Time.seconds(2))
                .process(new ProcessJoinFunction, Tuple3, String>() {
                    /**
                     *
                     * @param left kb1的数据
                     * @param right kb2的数据
                     * @param ctx 上下文
                     * @param out 采集器
                     * @throws Exception
                     */
                    @Override
                    public void processElement(Tuple2 left, Tuple3 right, Context ctx, Collector out) throws Exception {
                        out.collect(left + "----" + right);
                    }
                })
                .print();

        env.execute();
    }
}

无界流

迟到的数据用侧输出流输出

package com.atguigu.wc.watermark;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.co.ProcessJoinFunction;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;

import java.time.Duration;

public class Intervalsockjoindemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator> ws1 =
                env.
                        socketTextStream("hadoop102", 7777)
                        .map(new MapFunction>() {
                            @Override
                            public Tuple2 map(String value) throws Exception {
                                String[] datas = value.split(",");
                                return Tuple2.of(datas[0], Integer.valueOf(datas[1]));
                            }
                        })
                        .assignTimestampsAndWatermarks(WatermarkStrategy
                        .>forBoundedOutOfOrderness(Duration.ofSeconds(2))
                        .withTimestampAssigner((value, ts) -> value.f1 * 1000L));

        SingleOutputStreamOperator> ws2 =
                env.
                        socketTextStream("hadoop102", 8888)
                        .map(new MapFunction>() {

                            @Override
                            public Tuple3 map(String value) throws Exception {
                                String[] datas = value.split(",");
                                return Tuple3.of(datas[0], Integer.valueOf(datas[1]), Integer.valueOf(datas[2]));
                            }
                        })
                        .assignTimestampsAndWatermarks(WatermarkStrategy
                                .>forBoundedOutOfOrderness(Duration.ofSeconds(2))
                                .withTimestampAssigner((value, ts) -> value.f1 * 1000L));


        /**
         * Interval join
         * 1、只支持事件时间
         * 2、指定上界、下界的偏移，负号代表时间往前，正号代表时间往后
         * 3、process中，只能处理 join上的数据
         * 4、两条流关联后的watermark，以两条流中最小的为准
         * 5、如果 当前数据的事件时间 < 当前的watermark，就是迟到数据， 主流的process不处理
         *  => between后，可以指定将 左流 或 右流 的迟到数据 放入侧输出流
         */
        // 分别做keyby,key其实就是关联条件
        KeyedStream, String> kb1 = ws1.keyBy(r1 -> r1.f0);
        KeyedStream, String> kb2 = ws2.keyBy(r2 -> r2.f0);

        // 标签
        OutputTag> left = new OutputTag<>("left", Types.TUPLE(Types.STRING, Types.INT));
        OutputTag> right = new OutputTag<>("right", Types.TUPLE(Types.STRING, Types.INT, Types.INT));

        // 调用interval join
        SingleOutputStreamOperator process = kb1.intervalJoin(kb2)
                .between(Time.seconds(-2), Time.seconds(2))
                .sideOutputLeftLateData(left) // 将 ks1的迟到数据，放入侧输出流
                .sideOutputRightLateData(right) // 将 ks2的迟到数据，放入侧输出流
                .process(new ProcessJoinFunction, Tuple3, String>() {
                    /**
                     *
                     * @param left kb1的数据
                     * @param right kb2的数据
                     * @param ctx 上下文
                     * @param out 采集器
                     * @throws Exception
                     */
                    @Override
                    public void processElement(Tuple2 left, Tuple3 right, Context ctx, Collector out) throws Exception {
                        out.collect(left + "----" + right);
                    }
                });

        process.print();
        process.getSideOutput(left).printToErr();
        process.getSideOutput(right).printToErr();
        env.execute();
    }
}

处理函数

KeyedProcessFunction 定时器案例

package com.atguigu.wc.process;

import com.atguigu.wc.bean.WaterSensor;
import com.atguigu.wc.function.WaterSensorMapfunction;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.TimerService;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.KeyedProcessFunction;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.time.Duration;

public class keyprocessdemo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator stream = env
                .socketTextStream("hadoop102", 7777)
                .map(new WaterSensorMapfunction());

        // 定义watermark策略
        WatermarkStrategy myWatermarkStrategy = WatermarkStrategy
                .forBoundedOutOfOrderness(Duration.ofSeconds(3))
                .withTimestampAssigner(new SerializableTimestampAssigner() {

                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        System.out.println(element + " " + recordTimestamp);
                        return element.getTs() * 1000L;
                    }
                });

        SingleOutputStreamOperator waterSensorSingleOutputStreamOperator = stream.assignTimestampsAndWatermarks(myWatermarkStrategy);

        KeyedStream wsstream = waterSensorSingleOutputStreamOperator
                .keyBy(key -> key.getId());

        SingleOutputStreamOperator process = wsstream.process(new KeyedProcessFunction() {
            @Override
            public void processElement(WaterSensor value, Context ctx, Collector out) throws Exception {
                // 提取数据的事件时间
                Long ts = ctx.timestamp();

                // 定时器
                TimerService timerService = ctx.timerService();

                // 注册定时器
                // 事件时间
                timerService.registerEventTimeTimer(5000L);
                System.out.print("当前时间是" + ts + "注册了一个5秒的定时器");
                // 处理时间
//                String currentKey = ctx.getCurrentKey();
//                timerService.registerProcessingTimeTimer(ts + 5000L);
//                System.out.print(currentKey + "----" + "当前时间是" + ts + "注册了一个5秒的定时器");

                // 删除定时器
                // 事件时间
//                timerService.deleteEventTimeTimer()
                // 处理时间
//                timerService.deleteProcessingTimeTimer();

                // 获取当前处理时间，就是系统时间
//                long currentts = timerService.currentProcessingTime();
                // 获取当前的watermark
//                long wm = timerService.currentWatermark();
            }

            // ctrl + o

            // 定时器触发
            @Override
            public void onTimer(long timestamp, OnTimerContext ctx, Collector out) throws Exception {
                super.onTimer(timestamp, ctx, out);
                String currentKey = ctx.getCurrentKey();
                System.out.print(currentKey+"--"+timestamp + "定时器触发了");
            }
        });

        process.print();

        env.execute();

    }
}

定时器
事件时间定时器，通过watermark来触发
– watermark >= 注册时间
在process中获取当前watermark，显示的是上一次的watermark，因为process还没接受到这条数据对应生成的新watermark

状态管理

待补充

容错机制

待补充

你可能感兴趣的:(Flink,Flink)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
Flink流式计算系统 xyzkenan Flink 大数据大数据开发
本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（
Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
Flink架构组件JobManager和TaskManager m0_37651941 flink 架构大数据
JobManager和TaskManager交互通过Task对象ActorSystem是Akka最重要的一个组件。JobDispatcher负责接收Client提交的JobGraph对象，然后拆分成不同的作业，提交到TaskManager.这个过程会涉及到Job的分发。standlone模式和yarn模式的ResourceManager是不同的实现。TaskManager启动后会主动向JobMan
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink 1.17.2 版本用 java 读取 starrocks 小强签名设计 flink java python
文章目录方法一：使用FlinkJDBC连接器（兼容MySQL协议）方法二：使用StarRocksFlinkConnector（推荐）在Flink1.17.2中使用Java读取StarRocks数据，可以通过JDBC连接器或StarRocks官方提供的FlinkConnector实现。以下是两种方法的详细步骤：方法一：使用FlinkJDBC连接器（兼容MySQL协议） StarRocks兼容M
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
FlinkCDC3.3 使用 Mysql 8.4 报错 _lizhiqiang mysql 数据库 flink flinkcdc seatunnel
一、报错日志Causedby:io.debezium.DebeziumException:org.apache.flink.util.FlinkRuntimeException:Cannotreadthebinlogfilenameandpositionvia'SHOWMASTERSTATUS'.Makesureyourserveriscorrectlyconfiguredatorg.apache
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Flink实时流处理入门与实践随风九天 spring java Flink 实时流
一、引言1.1实时流处理的重要性在当今数据驱动的时代，实时数据处理变得越来越重要。企业需要从不断产生的大量数据中快速提取有价值的信息，以支持决策制定和业务优化。实时流处理技术能够实时处理数据流，提供即时的洞察和响应，从而提高业务效率和竞争力。1.2Flink简介ApacheFlink是一个开源的分布式流处理框架，支持批处理和流处理。Flink提供了高吞吐量、低延迟和精确一次（exactly-onc
kafka + flink +mysql 案例 angen2018 java kafka flink
假设你有两个Kafka主题：user_activities_topic和product_views_topic，并且你希望将user_activities_topic中的数据写入到user_activities表，而将product_views_topic中的数据写入到product_views表。mavenorg.apache.flinkflink-streaming-java_2.121.14
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
Flink 实战：如何计算实时热门合约 WuJiWeb3 区块链链上数据分析 flink 大数据 web3 数据分析智能合约 kafka big data
本文将通过使用Flink框架实现实时热门合约需求。实际业务过程中，如何判断合约是否属于热门合约，可以从以下几个方面进行分析，比如：交易数量：合约被调用的次数可以作为其热门程度的指标之一。交易金额：合约处理的资金量也是评判热门程度的重要指标。活跃用户数量：调用合约的用户数量可以反映合约的受欢迎程度。交易频率：合约的调用频率可以反映其热门程度和使用情况。但我们本次目的主要是关于学习FlinkAPI的一
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，