code@fzk

Flink-DataStream快速上手

文章目录

1. 安装部署
- 安装
2. 执行任务
- Standalone 模式
- - 启动/停止
  - 执行任务
- Yarn 模式
- - Session-cluster 模式
  - - 启动 yarn-session
    - 执行任务
  - Per-Job-Cluster 模式
3. 执行环境
- Environment
- - getExecutionEnvironment（常用）
  - createLocalEnvironment
  - createRemoteEnvironment
- Source、Sink
- Transform（算子）
- - map
  - flatMap
  - Filter
  - KeyBy
  - 滚动聚合算子
  - Reduce
  - Split 和 Select
  - Connect 和 CoMap
  - Union
  - 广播（broadcast）
  - join
  - - 窗口连接
    - 间隔加入
4. 时间语义与 Watermark
- 时间语义
- Watermark
- 老版本被弃用的使用方式（不推荐使用）
- - 乱序时间的watermark实现方式
  - 顺序时间的watermark实现方式
- 新版本的使用方式（推荐使用）
- - 分配数据时间戳和水位线需实现的方法说明（自定义方式）
  - 乱序时间的watermark实现方式
  - 顺序时间的watermark实现方式
  - 在自定义数据源中发送水位线
5. Window
- 窗口分配器
- - 时间窗口
  - - 滚动处理时间窗口(TumblingProcessingTimeWindows)
    - 滑动处理时间窗口(SlidingProcessingTimeWindows)
    - 处理时间会话窗口(ProcessingTimeSessionWindows)
    - 滚动事件时间窗口(TumblingEventTimeWindows)
    - 滑动事件时间窗口(SlidingEventTimeWindows)
    - 事件时间会话窗口
  - 计数窗口(countWindow)
  - - 滚动计数窗口(countWindow)
- 窗口函数（Window Functions）
- - 增量聚合函数（incremental aggregation functions）
  - - 归约函数（ReduceFunction）
    - 聚合函数（AggregateFunction）
- 全窗口函数（full window functions）
- - 处理窗口函数（ProcessWindowFunction）
6. 状态管理
- 键控状态（keyed state）
- - Keyed State 支持数据类型
  - - 例子：ValueState
    - 状态创建的用法
  - 状态生存时间（TTL）
- 算子状态（Operator State）
- - Operator State支持的数据类型
- 广播状态（Broadcast State）
7. ProcessFunction API
- KeyedProcessFunction
- TimerService 和定时器（Timers）
- 侧输出流（SideOutput）
8. 检查点（CheckPoint）
- 检查点配置说明
- 状态后端说明
- - 状态后端分类
  - - 哈希表状态后端（HashMapStateBackend）
    - 内嵌 RocksDB 状态后端（EmbeddedRocksDBStateBackend）
- 检查点使用
- CheckpointedFunction 接口
9. 保存点（Savepoint）
- 使用保存点
- - 创建保存点
  - 从保存点重启应用
10. 状态一致性
- 分类
- 端到端 exactly-once
- - 事务写入
  - - 预写日志（不常用）
    - 两阶段提交
- Flink+Kafka 端到端状态一致性的保证
- - 说明
  - 使用
Maven（pom.xml）

1. 安装部署

安装

第一步：将 flink-1.10.1-bin-scala_2.12.tgz 上传到服务器中并解压缩

第二步：修改 conf/flink-conf.yaml 文件

# 修改 jobmanager.rpc.address 参数，修改为 jobmanager 的机器
jobmanager.rpc.address: hadoop151

第三步：修改 conf/slaves 文件
```
# slave 机器
hadoop152
hadoop153
```
第四步：将 flink 整个目录分发到其他机器上

2. 执行任务

Standalone 模式

启动/停止

命令

# 启动
bin/start-cluster.sh

# 停止
bin/stop-cluster.sh

访问 web 页面
- http://hadoop151:8081

执行任务

# =================== 启动任务 ===================
bin/flink run -c 全限定类名 –p 分区个数 jar包
# 示例
bin/flink run -c com.itfzk.flink.wordcount.KafkaStreamWordCount -p 3 FlinkStudyDemo-1.0-SNAPSHOT-jar-with-dependencies.jar


# =================== 停止任务 ===================
bin/flink cancel JobId
# 示例
bin/flink cancel f69fbd0650ae4202b2a46b3ad2089606

Yarn 模式

Session-cluster 模式

启动 yarn-session

命令

# =================== 启动 yarn-session ===================
# -n(--container)：TaskManager 的数量
# -s(--slots)： 每个 TaskManager 的 slot 数量，默认一个 slot 一个 core，默认每个 taskmanager 的 slot 的个数为 1，有时可以多一些 taskmanager，做冗余
# -jm：JobManager 的内存（单位 MB)
# -tm：每个 taskmanager 的内存（单位 MB)
# -nm：yarn 的 appName(现在 yarn 的 ui 上的名字)
# -d：后台执行
bin/yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm test -d


# =================== 停止 yarn-session ===================
yarn application -kill Application-Id
# 示例
yarn application -kill application_1633171918776_0003

访问 web 页面
- 启动 yarn-session 后会出现 web 地址，例如：http://hadoop153:42189

执行任务

# =================== 启动任务 ===================
bin/flink run -c 全限定类名 –p 分区个数 jar包
# 示例
bin/flink run -c com.itfzk.flink.wordcount.KafkaStreamWordCount -p 3 FlinkStudyDemo-1.0-SNAPSHOT-jar-with-dependencies.jar


# =================== 停止任务 ===================
bin/flink cancel JobId
# 示例
bin/flink cancel f69fbd0650ae4202b2a46b3ad2089606

Per-Job-Cluster 模式

# =================== 启动任务 ===================
bin/flink run –m yarn-cluster -c 全限定类名 –p 分区个数 jar包
# 示例
bin/flink run –m yarn-cluster -c com.itfzk.flink.wordcount.KafkaStreamWordCount -p 3 FlinkStudyDemo-1.0-SNAPSHOT-jar-with-dependencies.jar


# =================== 停止任务 ===================
bin/flink cancel JobId
# 示例
bin/flink cancel f69fbd0650ae4202b2a46b3ad2089606

3. 执行环境

Environment

getExecutionEnvironment（常用）

创建一个执行环境，表示当前执行程序的上下文。 getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境，是最常用的一种创建执行环境的方式

// 普通运行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

// 流式运行环境（常用）
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

createLocalEnvironment

返回本地执行环境，需要在调用时指定默认的并行度

LocalStreamEnvironment env = StreamExecutionEnvironment.createLocalEnvironment(1);

createRemoteEnvironment

返回集群执行环境，将 Jar 提交到远程服务器。需要在调用时指定 JobManager的 IP 和端口号，并指定要在集群中运行的 Jar 包
```
StreamExecutionEnvironment env = StreamExecutionEnvironment.createRemoteEnvironment("jobmanage-hostname", 6123, "YOURPATH//WordCount.jar");
```

Source、Sink

官网地址

Transform（算子）

官网地址

map

DataStream<Integer> mapStram = dataStream.map(new MapFunction<String, Integer>() {
    public Integer map(String value) throws Exception {
    }
});

flatMap

DataStream<String> flatMapStream = dataStream.flatMap(new FlatMapFunction<String, String>() {
    public void flatMap(String value, Collector<String> out) throws Exception {
    }
});

Filter

DataStream<Interger> filterStream = dataStream.filter(new FilterFunction<String>() {
    public boolean filter(String value) throws Exception {
    }
});

KeyBy

DataStream → KeyedStream
将一个流拆分成不相交的分区，每个分区包含具有相同 key 的元素，在内部以 hash 的形式实现的

滚动聚合算子

sum()
max()
min()
maxBy()
minBy()

Reduce

KeyedStream → DataStream
一个分组数据流的聚合操作，合并当前的元素和上次聚合的结果，产生一个新的值，返回的流中包含每一次聚合的结果，而不是只返回最后一次聚合的最终结果

Split 和 Select

Split

DataStream → SplitStream
- 根据某些特征把一个 DataStream 拆分成两个或者多个 DataStream

Select

SplitStream→DataStream
- 从一个 SplitStream 中获取一个或者多个DataStream

public static void main(String[] args) throws Exception {
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    String filePath = "E:\\~fzk\\java\\IDEA\\bigdata\\FlinkStudyDemo\\test\\test1";
    DataStream<String> inputDataStream = env.readTextFile(filePath);
    
    DataStream<SensorsData> map = inputDataStream.map(new MapFunction<String, SensorsData>() {
        public SensorsData map(String value) throws Exception {
            String[] splits = value.split(" ");
            return new SensorsData(splits[0], new Long(splits[1]), new Double(splits[2]));
        }
    });
    
    KeyedStream<SensorsData, Tuple> keyedStream = map.keyBy("id");

    // split：分流
    SplitStream<SensorsData> splitStream = keyedStream.split(new OutputSelector<SensorsData>() {
        public Iterable<String> select(SensorsData value) {
            return value.getWendu() > 37 ? Collections.singletonList("h") : Collections.singletonList("d");
        }
    });

    // select：选择一个或多个 DataStream
    DataStream<SensorsData> resultDataStream = splitStream.select("d");

    env.execute();
}

Connect 和 CoMap

Connect

DataStream,DataStream → ConnectedStreams：连接两个保持他们类型的数据流，两个数据流被 Connect 之后，只是被放在了一个同一个流中，内部依然保持各自的数据和形式不发生任何变化，两个流相互独立

CoMap

ConnectedStreams → DataStream：作用于 ConnectedStreams 上，功能与 map 和 flatMap 一样，对 ConnectedStreams 中的每一个 Stream 分别进行 map 和 flatMap处理

public static void main(String[] args) throws Exception {
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    String filePath = "E:\\~fzk\\java\\IDEA\\bigdata\\FlinkStudyDemo\\test\\test1";
    DataStream<String> inputDataStream = env.readTextFile(filePath);

    DataStream<SensorsData> map = inputDataStream.map(new MapFunction<String, SensorsData>() {
        public SensorsData map(String value) throws Exception {
            String[] splits = value.split(" ");
            return new SensorsData(splits[0], new Long(splits[1]), new Double(splits[2]));
        }
    });

    KeyedStream<SensorsData, Tuple> keyedStream = map.keyBy("id");

    SplitStream<SensorsData> splitStream = keyedStream.split(new OutputSelector<SensorsData>() {
        public Iterable<String> select(SensorsData value) {
            return value.getWendu() > 37 ? Collections.singletonList("high") : Collections.singletonList("low");
        }
    });

    DataStream<SensorsData> highDataStream = splitStream.select("high");
    DataStream<SensorsData> lowDataStream = splitStream.select("low");

    // connect & CoMapFunction：合流
    ConnectedStreams<SensorsData, SensorsData> connectedStreams = highDataStream.connect(lowDataStream);
    /*
    	new CoMapFunction
        第一个参数：合流的第一个数据类型
        第二个参数：合流的第二个数据类型
        第三个参数：合流的返回类型
     */
    DataStream<Object> resultDataStream = connectedStreams.map(new CoMapFunction<SensorsData, SensorsData, Object>() {
        public Object map1(SensorsData value) throws Exception {
            return value;
        }

        public Object map2(SensorsData value) throws Exception {
            return value;
        }
    });

    env.execute();
}

Union

DataStream → DataStream：对两个或者两个以上的 DataStream 进行 union 操作，产生一个包含所有 DataStream 元素的新 DataStream
连接流的类型一样

广播（broadcast）

DataStream → DataStream：向每个分区广播元素
```
dataStream.broadcast();
```

join

窗口连接

stream.join(otherStream)
    .where(<KeySelector>)
    .equalTo(<KeySelector>)
    .window(<WindowAssigner>)
    .apply(<JoinFunction>)

间隔加入

orangeStream
    .keyBy(<KeySelector>)
    .intervalJoin(greenStream.keyBy(<KeySelector>))
    .between(Time.milliseconds(-2), Time.milliseconds(1))
    .process (new ProcessJoinFunction<Integer, Integer, String(){
        @Override
        public void processElement(Integer left, Integer right, Context ctx, Collector<String> out) {
            out.collect(first + "," + second);
        }
    });

4. 时间语义与 Watermark

时间语义

Event Time：是事件创建的时间（默认时间语义）
Ingestion Time：是数据进入 Flink 的时间
Processing Time：是每一个执行基于时间操作的算子的本地系统时间

Watermark

Watermark 是一种衡量 Event Time 进展的机制
Watermark 是用于处理乱序事件的，而正确的处理乱序事件，通常用 Watermark 机制结合 window 来实现
Watermark 可以理解成一个延迟触发机制，我们可以设置 Watermark 的延时时长 t，每次系统会校验已经到达的数据中最大的 maxEventTime，然后认定 eventTime 小于 maxEventTime - t 的所有数据都已经到达，如果有窗口的停止时间等于 maxEventTime – t，那么这个窗口被触发执行
⚠️注意注意注意：在自定义数据源中发送了水位线以后，就不能在程序中使用 assignTimestampsAndWatermarks 方法来生成水位线了。在自定义数据源中生成水位线和在程序中使用assignTimestampsAndWatermarks 方法生成水位线二者只能取其一

老版本被弃用的使用方式（不推荐使用）

乱序时间的watermark实现方式

接口：AssignerWithPeriodicWatermarks

使用前设置时间语义

public static void main(String[] args) throws Exception {
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    //设置时间语义
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
    //周期性的生成 watermar,默认周期是 200 毫秒
    env.getConfig().setAutoWatermarkInterval(5000);

    String filePath = "E:\\~fzk\\java\\IDEA\\bigdata\\FlinkStudyDemo\\test\\test1";
    DataStream<String> inputDataStream = env.readTextFile(filePath);

    DataStream<SensorsData> map = inputDataStream.map(new MapFunction<String, SensorsData>() {
        public SensorsData map(String value) throws Exception {
            String[] splits = value.split(" ");
            return new SensorsData(splits[0], new Long(splits[1]), new Double(splits[2]));
        }
    });

    //乱序时间情况下的 watermark
    //Time.milliseconds(1000) ：延迟时间，1000ms
    DataStream<SensorsData> eventTimeDataStream = map.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<SensorsData>(Time.milliseconds(1000)) {
        @Override
        public long extractTimestamp(SensorsData element) {
            return element.getTimestamp();
        }
    });

    env.execute();
}


// 类
public class SensorsData {
    private String id;
    private Long timestamp;
    private double wendu;
}

顺序时间的watermark实现方式

接口：AssignerWithPunctuatedWatermarks

使用前设置时间语义

public static void main(String[] args) throws Exception {
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    //设置时间语义
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

    String filePath = "E:\\~fzk\\java\\IDEA\\bigdata\\FlinkStudyDemo\\test\\test1";
    DataStream<String> inputDataStream = env.readTextFile(filePath);

    DataStream<SensorsData> map = inputDataStream.map(new MapFunction<String, SensorsData>() {
        public SensorsData map(String value) throws Exception {
            String[] splits = value.split(" ");
            return new SensorsData(splits[0], new Long(splits[1]), new Double(splits[2]));
        }
    });

    //顺序时间情况下的 watermark
    DataStream<SensorsData> eventTimeDataStream = map.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<SensorsData>() {
        @Override
        public long extractAscendingTimestamp(SensorsData element) {
            return element.getTimestamp();
        }
    });

    env.execute();
}


// 类
public class SensorsData {
    private String id;
    private Long timestamp;
    private double wendu;
}

新版本的使用方式（推荐使用）

分配数据时间戳和水位线需实现的方法说明（自定义方式）

assignTimestampsAndWatermarks【分配数据时间戳和水位线】
- WatermarkStrategy【水位线策略，需实现这两个方法：createWatermarkGenerator，createTimestampAssigner】
  - createWatermarkGenerator【水位线生成器，主要负责按照既定的方式，基于时间戳生成水位线，有以下两个方式】
    - onEvent【没条数据都调用】
    - onPeriodicEmit【周期性调用】
  - createTimestampAssigner【分配时间戳，主要负责从流中数据元素的某个字段中提取时间戳，并分配给元素。时间戳的分配是生成水位线的基础】

// 分配数据时间戳和水位线（SensorsData：自定义的实体类）
SingleOutputStreamOperator<SensorsData> watermarksData = map.assignTimestampsAndWatermarks(
    // 水位线策略
    new WatermarkStrategy<SensorsData>() {
        // 水位线生成器，主要负责按照既定的方式，基于时间戳生成水位线
        @Override
        public WatermarkGenerator<SensorsData> createWatermarkGenerator(WatermarkGeneratorSupplier.Context context) {
            return new WatermarkGenerator<SensorsData>() {
                // 每个事件（数据）到来都会调用的方法
                // 它的参数有当前事件、时间戳，以及允许发出水位线的一个 WatermarkOutput
                // 调用这个方法可以实现更新水位线：watermarkOutput.emitWatermark(new Watermark(long timestamp))
                @Override
                public void onEvent(SensorsData sensorsData, long l, WatermarkOutput watermarkOutput) {
                    watermarkOutput.emitWatermark(new Watermark(long timestamp));
                }
                // 周期性调用的方法，可以由 WatermarkOutput 发出水位线。
                // 调用这个方法可以实现更新水位线：watermarkOutput.emitWatermark(new Watermark(long timestamp))
                // 周期时间为处理时间，可以调用环境配置的 env.getConfig().setAutoWatermarkInterval()方法来设置，默认为200ms
                @Override
                public void onPeriodicEmit(WatermarkOutput watermarkOutput) {
                    watermarkOutput.emitWatermark(new Watermark(long timestamp));
                }
            };
        }

        // 分配时间戳，主要负责从流中数据元素的某个字段中提取时间戳，并分配给元素。时间戳的分配是生成水位线的基础
        @Override
        public TimestampAssigner<SensorsData> createTimestampAssigner(TimestampAssignerSupplier.Context context) {
            return new TimestampAssigner<SensorsData>() {
                @Override
                public long extractTimestamp(SensorsData sensorsData, long l) {
                    return 0;
                }
            };
        }
    }
);

乱序时间的watermark实现方式

WatermarkStrategy.forBoundedOutOfOrderness

// 乱序时间情况下的 watermark（WatermarkStrategy.forBoundedOutOfOrderness）
SingleOutputStreamOperator<SensorsData> watermarksData = map.assignTimestampsAndWatermarks(
    WatermarkStrategy.<SensorsData>forBoundedOutOfOrderness(Duration.ofSeconds(10)).withTimestampAssigner(
        new SerializableTimestampAssigner<SensorsData>() {
            @Override
            public long extractTimestamp(SensorsData sensorsData, long l) {
                return sensorsData.getTimestamp();
            }
        }
    )
);

forMonotonousTimestamps 方法内部实现的水位线策略如下：

// forBoundedOutOfOrderness
public interface WatermarkStrategy<T> extends TimestampAssignerSupplier<T>, WatermarkGeneratorSupplier<T> {
    static <T> WatermarkStrategy<T> forBoundedOutOfOrderness(Duration maxOutOfOrderness) {
        return (ctx) -> {
            return new BoundedOutOfOrdernessWatermarks(maxOutOfOrderness);
        };
    }
}

// BoundedOutOfOrdernessWatermarks
public class BoundedOutOfOrdernessWatermarks<T> implements WatermarkGenerator<T> {
    private long maxTimestamp;
    private final long outOfOrdernessMillis;

    public BoundedOutOfOrdernessWatermarks(Duration maxOutOfOrderness) {
        Preconditions.checkNotNull(maxOutOfOrderness, "maxOutOfOrderness");
        Preconditions.checkArgument(!maxOutOfOrderness.isNegative(), "maxOutOfOrderness cannot be negative");
        this.outOfOrdernessMillis = maxOutOfOrderness.toMillis();
        this.maxTimestamp = -9223372036854775808L + this.outOfOrdernessMillis + 1L;
    }

    public void onEvent(T event, long eventTimestamp, WatermarkOutput output) {
        this.maxTimestamp = Math.max(this.maxTimestamp, eventTimestamp);
    }

    public void onPeriodicEmit(WatermarkOutput output) {
        output.emitWatermark(new Watermark(this.maxTimestamp - this.outOfOrdernessMillis - 1L));
    }
}

顺序时间的watermark实现方式

WatermarkStrategy.forMonotonousTimestamps

//顺序时间情况下的 watermark（WatermarkStrategy.forMonotonousTimestamps）
SingleOutputStreamOperator<SensorsData> watermarksData = map.assignTimestampsAndWatermarks(
    WatermarkStrategy.<SensorsData>forMonotonousTimestamps().withTimestampAssigner(
        new SerializableTimestampAssigner<SensorsData>() {
            // 分配时间戳，主要负责从流中数据元素的某个字段中提取时间戳，并分配给元素。时间戳的分配是生成水位线的基础
            @Override
            public long extractTimestamp(SensorsData sensorsData, long l) {
                return sensorsData.getTimestamp();
            }
        }
    )
);

forMonotonousTimestamps 方法内部实现的水位线策略如下：

// forMonotonousTimestamps
public interface WatermarkStrategy<T> extends TimestampAssignerSupplier<T>, WatermarkGeneratorSupplier<T> {
    static <T> WatermarkStrategy<T> forMonotonousTimestamps() {
        return (ctx) -> {
            return new AscendingTimestampsWatermarks();
        };
    }
}

// AscendingTimestampsWatermarks
public class AscendingTimestampsWatermarks<T> extends BoundedOutOfOrdernessWatermarks<T> {
    public AscendingTimestampsWatermarks() {
        super(Duration.ofMillis(0L));
    }
}

// BoundedOutOfOrdernessWatermarks
public class BoundedOutOfOrdernessWatermarks<T> implements WatermarkGenerator<T> {
    private long maxTimestamp;
    private final long outOfOrdernessMillis;

    public BoundedOutOfOrdernessWatermarks(Duration maxOutOfOrderness) {
        Preconditions.checkNotNull(maxOutOfOrderness, "maxOutOfOrderness");
        Preconditions.checkArgument(!maxOutOfOrderness.isNegative(), "maxOutOfOrderness cannot be negative");
        this.outOfOrdernessMillis = maxOutOfOrderness.toMillis();
        this.maxTimestamp = -9223372036854775808L + this.outOfOrdernessMillis + 1L;
    }

    public void onEvent(T event, long eventTimestamp, WatermarkOutput output) {
        this.maxTimestamp = Math.max(this.maxTimestamp, eventTimestamp);
    }

    public void onPeriodicEmit(WatermarkOutput output) {
        output.emitWatermark(new Watermark(this.maxTimestamp - this.outOfOrdernessMillis - 1L));
    }
}

在自定义数据源中发送水位线

collectWithTimestamp(String var1, long var2)【发送水位线】

⚠️注意注意注意：在自定义数据源中发送了水位线以后，就不能在程序中使用 assignTimestampsAndWatermarks 方法来生成水位线了。在自定义数据源中生成水位线和在程序中使用assignTimestampsAndWatermarks 方法生成水位线二者只能取其一

DataStreamSource<String> sourceData = env.addSource(new SourceFunction<String>() {
    private boolean flag = true;

    @Override
    public void run(SourceContext<String> sourceContext) throws Exception {
        while (flag) {
            // 发送水位线
            sourceContext.collectWithTimestamp(String var1, long var2);
        }
    }

    @Override
    public void cancel() {
        flag = false;
    }
});

5. Window

按照驱动类型分类
- 时间窗口（Time Window）
  - 时间窗口以时间点来定义窗口的开始（start）和结束（end），所以截取出的就是某一时间段的数据。到达结束时间时，窗口不再收集数据，触发计算输出结果，并将窗口关闭销毁
- 计数窗口（Count Window）
  - 计数窗口基于元素的个数来截取数据，到达固定的个数时就触发计算并关闭窗口
按照窗口分配数据的规则分类
- 滚动窗口（Tumbling Windows）
  - 滚动窗口有固定的大小，是一种对数据进行“均匀切片”的划分方式。窗口之间没有重叠，也不会有间隔，是“首尾相接”的状态
- 滑动窗口（Sliding Windows）
  - 与滚动窗口类似，滑动窗口的大小也是固定的。区别在于，窗口之间并不是首尾相接的，而是可以“错开”一定的位置
- 会话窗口（Session Windows）
  - 会话窗口顾名思义，是基于“会话”（session）来来对数据进行分组的。这里的会话类似Web 应用中 session 的概念，不过并不表示两端的通讯过程，而是借用会话超时失效的机制来描述窗口
- 全局窗口（Global Windows）
  - 还有一类比较通用的窗口，就是“全局窗口”。这种窗口全局有效，会把相同 key 的所有数据都分配到同一个窗口中；说直白一点，就跟没分窗口一样

窗口分配器

定义窗口分配器（Window Assigners）是构建窗口算子的第一步，它的作用就是定义数据应该被“分配”到哪个窗口
窗口分配器最通用的定义方式，就是调用.window()方法。这个方法需要传入一个WindowAssigner 作为参数，返回 WindowedStream。如果是非按键分区窗口，那么直接调用.windowAll()方法，同样传入一个 WindowAssigner，返回的是 AllWindowedStream

时间窗口

滚动处理时间窗口(TumblingProcessingTimeWindows)

// 分配滚动窗口时间为 10s 
// TumblingProcessingTimeWindows.of()
map.keyBy(...)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(10)))
    .reduce(...)

滑动处理时间窗口(SlidingProcessingTimeWindows)

// 分配滑动窗口的 窗口大小：10s，步长：2s
// SlidingProcessingTimeWindows.of()
map.keyBy(...)
    .window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(2)))
    .reduce(...)

处理时间会话窗口(ProcessingTimeSessionWindows)

// 分配会话窗口时间：10s，10秒没数据说明一个会话结束
// ProcessingTimeSessionWindows.withGap()
map.keyBy(...)
    .window(ProcessingTimeSessionWindows.withGap(Time.seconds(4)))
    .reduce(...)

滚动事件时间窗口(TumblingEventTimeWindows)

// 使用前需要分配 事件的时间和水位线：assignTimestampsAndWatermarks
// 分配滚动窗口时间为 10s 
// TumblingEventTimeWindows.of()
map.keyBy(...)
    .window(TumblingEventTimeWindows.of(Time.seconds(10)))
    .reduce(...)

滑动事件时间窗口(SlidingEventTimeWindows)

// 使用前需要分配 事件的时间和水位线：assignTimestampsAndWatermarks
// 分配滑动窗口的 窗口大小：10s，步长：2s
// SlidingEventTimeWindows.of()
map.keyBy(...)
    .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(2)))
    .reduce(...)

事件时间会话窗口

// 使用前需要分配 事件的时间和水位线：assignTimestampsAndWatermarks
// 分配会话窗口时间：10s，10秒没数据说明一个会话结束
// EventTimeSessionWindows.withGap()
map.keyBy(...)
    .window(EventTimeSessionWindows.withGap(Time.seconds(4)))
    .reduce(...)

计数窗口(countWindow)

滚动计数窗口(countWindow)

// 滚动计数窗口，countWindow 传入一个参数
// 长度为 10 的窗口
map.keyBy(...)
    .countWindow(5)
    .reduce(...)
    
// 滚动计数窗口，countWindow 传入两个参数
// 长度为 10，滑动步长为 3 的窗口
map.keyBy(...)
    .countWindow(5, 2)
    .reduce(...)

窗口函数（Window Functions）

定义了窗口分配器，我们只是知道了数据属于哪个窗口，可以将数据收集起来了；至于收集起来到底要做什么，其实还完全没有头绪。所以在窗口分配器之后，必须再接上一个定义窗口如何进行计算的操作，这就是所谓的“窗口函数”（window functions）

增量聚合函数（incremental aggregation functions）

归约函数（ReduceFunction）

sourceData.keyBy(data -> data.f0)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(10)))
    .reduce(new ReduceFunction<Tuple2<String, Long>>() {
        @Override
        public Tuple2<String, Long> reduce(Tuple2<String, Long> data, Tuple2<String, Long> t1) throws Exception {
            return new Tuple2<>(data.f0, data.f1 + t1.f1);
        }
    }).print("out");

聚合函数（AggregateFunction）

AggregateFunction 接口说明

// AggregateFunction : 输入类型（IN）、累加器类型（ACC）和输出类型（OUT）
public interface AggregateFunction<IN, ACC, OUT> extends Function, Serializable {
    // 创建一个累加器，这就是为聚合创建了一个初始状态，每个聚合任务只会调用一次
    ACC createAccumulator();

    // 将输入的元素添加到累加器中。这就是基于聚合状态，对新来的数据进行进一步聚合的过程。方法传入两个参数：当前新到的数据 value，和当前的累加器accumulator；返回一个新的累加器值，也就是对聚合状态进行更新。每条数据到来之后都会调用这个方法
    ACC add(IN var1, ACC var2);

    // 从累加器中提取聚合的输出结果。也就是说，我们可以定义多个状态，然后再基于这些聚合的状态计算出一个结果进行输出。比如之前我们提到的计算平均值，就可以把 sum 和 count 作为状态放入累加器，而在调用这个方法时相除得到最终结果。这个方法只在窗口要输出结果时调用
    OUT getResult(ACC var1);

    // 合并两个累加器，并将合并后的状态作为一个累加器返回。这个方法只在需要合并窗口的场景下才会被调用；最常见的合并窗口（Merging Window）的场景就是会话窗口（Session Windows）
    ACC merge(ACC var1, ACC var2);
}

实例：

sourceData.keyBy(data -> true)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(4)))
    .aggregate(new AggregateFunction<Tuple2<String, Long>, Tuple2<Long, HashSet<String>>, Double>() {
        @Override
        public Tuple2<Long, HashSet<String>> createAccumulator() {
            return Tuple2.of(0L, new HashSet<>());
        }

        @Override
        public Tuple2<Long, HashSet<String>> add(Tuple2<String, Long> inData, Tuple2<Long, HashSet<String>> accData) {
            accData.f0 += inData.f1;
            accData.f1.add(inData.f0);
            return Tuple2.of(accData.f0, accData.f1);
        }

        @Override
        public Double getResult(Tuple2<Long, HashSet<String>> accData) {
            return (double) accData.f0 / accData.f1.size();
        }

        @Override
        public Tuple2<Long, HashSet<String>> merge(Tuple2<Long, HashSet<String>> longHashSetTuple2, Tuple2<Long, HashSet<String>> acc1) {
            mergeData1.f1.addAll(mergeData2.f1);
            return Tuple2.of(mergeData1.f0 + mergeData2.f0, mergeData1.f1);
        }
    }).print("out");

全窗口函数（full window functions）

处理窗口函数（ProcessWindowFunction）

ProcessWindowFunction 是 Window API 中最底层的通用窗口函数接口。之所以说它“最底层”，是因为除了可以拿到窗口中的所有数据之外，ProcessWindowFunction 还可以获取到一个“上下文对象”（Context）。这个上下文对象非常强大，不仅能够获取窗口信息，还可以访问当前的时间和状态信息。这里的时间就包括了处理时间（processing time）和事件时间水位线（event time watermark）
缺点：牺牲性能和资源
接口
- public abstract class ProcessWindowFunction extends AbstractRichFunction

sourceData.keyBy(data -> true)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(4)))
    .process(new ProcessWindowFunction<Tuple2<String, Long>, String, Boolean, TimeWindow>() {
        /**
                     * @param aBoolean  keyBy的分组值
                     * @param context   上下文信息
                     * @param iterable  窗口数据
                     * @param collector 返回数据
                     * @throws Exception
                     */
        @Override
        public void process(Boolean aBoolean, ProcessWindowFunction<Tuple2<String, Long>, String, Boolean, TimeWindow>.Context context, Iterable<Tuple2<String, Long>> iterable, Collector<String> collector) throws Exception {
            // TODO
        }
    });

6. 状态管理

键控状态（keyed state）

键控状态是根据输入数据流中定义的键（key）来维护和访问的。Flink 为每个键值维护一个状态实例，并将具有相同键的所有数据，都分区到同一个算子任务中，这个任务会维护和处理这个 key 对应的状态。当任务处理一条数据时，它会自动将状态的访问范围限定为当前数据的 key。因此，具有相同 key 的所有数据都会访问相同的状态。Keyed State 很类似于一个分布式的 key-value map 数据结构，只能用于 KeyedStream（keyBy 算子处理之后）
存储一份状态值

Keyed State 支持数据类型

ValueState
保存单个的值，值的类型为 T
- get 操作: ValueState.value()
- set 操作: ValueState.update(T value)
ListState
保存一个列表，列表里的元素的数据类型为 T
- ListState.add(T value)
- ListState.addAll(List values)
- ListState.get()返回 Iterable
- ListState.update(List values)
MapState
保存 Key-Value 对
- MapState.get(UK key)
- MapState.put(UK key, UV value)
- MapState.contains(UK key)
- MapState.remove(UK key)
ReducingState
保留一个值，该值表示添加到状态的所有值的聚合
- 类似于值状态（Value），不过需要对添加进来的所有数据进行归约，将归约聚合之后的值作为状态保存下来。ReducintState这个接口调用的方法类似于 ListState，只不过它保存的只是一个聚合值，所以调用.add()方法时，不是在状态列表里添加元素，而是直接把新数据和之前的状态进行归约，并用得到的结果更新状态
- public ReducingStateDescriptor(String name, ReduceFunction reduceFunction, Class typeClass) {…}
- ReducingState.add(T value)
- ReducingState.get()

例子：ValueState

我们可以利用 Keyed State，实现这样一个需求：检测传感器的温度值，如果连续的两个温度差值超过 10 度，就输出报警

public class Test {
    public static void main(String[] args) throws Exception {
        //创建执行环节
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStream<String> inputDataStream = env.socketTextStream("localhost", 9999);

        SingleOutputStreamOperator<MyBean> myBeanDataStream = inputDataStream.map(new MapFunction<String, MyBean>() {
            @Override
            public MyBean map(String s) throws Exception {
                String[] split = s.split(" ");
                return new MyBean(split[0], Double.valueOf(split[1]));
            }
        });

        SingleOutputStreamOperator<Tuple3<String, Double, Double>> resultDataStream = myBeanDataStream
                .keyBy((KeySelector<MyBean, String>) data -> data.getId())
                .flatMap(new MyRichFlatMapFunction(10.0));

        resultDataStream.print();

        env.execute();
    }
}


// 富方法：存储状态值
public class MyRichFlatMapFunction extends RichFlatMapFunction<MyBean, Tuple3<String, Double, Double>> {
    private ValueState<Double> myValueState;
  
    private Double abs;

    public MyRichFlatMapFunction(Double abs) {
        this.abs = abs;
    }

    @Override
    public void open(Configuration parameters) throws Exception {
        // 创建状态值
        myValueState = getRuntimeContext().getState(new ValueStateDescriptor<Double>("my-flatmap", Double.class));
    }

    @Override
    public void flatMap(MyBean myBean, Collector<Tuple3<String, Double, Double>> collector) throws Exception {
        // 获取状态值
        Double lastWendu = myValueState.value();
        if(lastWendu != null){
            double absWebdu = Math.abs(myBean.getWendu() - lastWendu);
            if (absWebdu > abs){
                collector.collect(new Tuple3<>(myBean.getId(), lastWendu, myBean.getWendu()));
            }
        }
        // 修改状态值
        myValueState.update(myBean.getWendu());
    }

    @Override
    public void close() throws Exception {
        // 清除状态值
        myValueState.clear();
    }
}


// 实体类
public class MyBean {
    private String id;
    private Double wendu;
}

状态创建的用法

private ValueState<Long> valueState;
private ListState<Long> listState;
private MapState<Long, Long> mapState;
private ReducingState<Long> reducingState;
private AggregatingState<Long, Long> aggregatingState;

@Override
public void open(Configuration parameters) throws Exception {
    valueState = getRuntimeContext().getState(
        new ValueStateDescriptor<Long>(
            "value-state",
            Long.class
        )
    );

    listState = getRuntimeContext().getListState(
        new ListStateDescriptor<Long>(
            "list-state",
            Long.class
        )
    );


    mapState = getRuntimeContext().getMapState(
        new MapStateDescriptor<Long, Long>(
            "map-state",
            Long.class,
            Long.class
        )
    );

    reducingState = getRuntimeContext().getReducingState(
        new ReducingStateDescriptor<Long>(
            "reduce-state",
            new ReduceFunction<Long>() {
                @Override
                public Long reduce(Long aLong, Long t1) throws Exception {
                    return aLong + t1;
                }
            },
            Long.class
        )
    );

    aggregatingState = getRuntimeContext().getAggregatingState(
        new AggregatingStateDescriptor<Long, Long, Long>(
            "agg-state",
            new AggregateFunction<Long, Long, Long>() {
                @Override
                public Long createAccumulator() {
                    return 0L;
                }

                @Override
                public Long add(Long aLong, Long aLong2) {
                    return aLong + aLong2;
                }

                @Override
                public Long getResult(Long aLong) {
                    return aLong;
                }

                @Override
                public Long merge(Long aLong, Long acc1) {
                    return null;
                }
            },
            Long.class
        )
    );
}

状态生存时间（TTL）

在实际应用中，很多状态会随着时间的推移逐渐增长，如果不加以限制，最终就会导致存储空间的耗尽。
- 一个优化的思路是直接在代码中调用.clear()方法去清除状态，但是有时候我们的逻辑要求不能直接清除。
- 这时就需要配置一个状态的“生存时间”（time-to-live，TTL），当状态在内存中存在的时间超出这个值时，就将它清除
说明：
- 配置状态的 TTL 时，需要创建一个 StateTtlConfig 配置对象，然后调用状态描述器的.enableTimeToLive()方法启动 TTL 功能
- TTL默认配置
  - StateTtlConfig.UpdateType：更新类型。更新类型指定了什么时候更新状态失效时间
    - OnCreateAndWrite：表示只有创建状态和更改状态（写操作）时更新失效时间（默认）
    - OnReadAndWrite：表示无论读写操作都会更新失效时间
  - StateTtlConfig.StateVisibility：状态的可见性。所谓的“状态可见性”，是指因为清除操作并不是实时的，所以当状态过期之后还有可能基于存在，这时如果对它进行访问，能否正常读取到就是一个问题了
    - NeverReturnExpired：表示从不返回过期值，也就是只要过期就认为它已经被清除了，应用不能继续读取（默认）
    - ReturnExpireDefNotCleanedUp：是如果过期状态还存在，就返回它的值
  - StateTtlConfig.TtlTimeCharacteristic：时间类型
    - ProcessingTime：处理时间，目前只支持这一种时间（默认）
  - isCleanupInBackground：是否在后台进行清理
  - strategies：策略
  - ttl：失效时间
```
public Builder(@Nonnull Time ttl) {
    this.updateType = StateTtlConfig.UpdateType.OnCreateAndWrite;
    this.stateVisibility = StateTtlConfig.StateVisibility.NeverReturnExpired;
    this.ttlTimeCharacteristic = StateTtlConfig.TtlTimeCharacteristic.ProcessingTime;
    this.isCleanupInBackground = true;
    this.strategies = new EnumMap(StateTtlConfig.CleanupStrategies.Strategies.class);
    this.ttl = ttl;
}
```

使用举例：

public static class TtlStateProcess extends ProcessFunction<Tuple2<String, Long>, String> {

    private ValueState<String> valueState;

    @Override
    public void open(Configuration parameters) throws Exception {
        // TTL配置
        // 失效时间：1h
        // 更新类型：OnCreateAndWrite
        // 状态的可见性：NeverReturnExpired
        StateTtlConfig stateTtlConfig = StateTtlConfig
                .newBuilder(Time.hours(1L))
                .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
                .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
                .build();

        // 创建 状态描述器
        ValueStateDescriptor<String> valueStateDescriptor = new ValueStateDescriptor<String>(
                "value-state",
                String.class
        );

        // 将 TTL 配置加入到 状态描述器中
        valueStateDescriptor.enableTimeToLive(stateTtlConfig);

        // 添加状态到上下文中
        valueState = getRuntimeContext().getState(valueStateDescriptor);
    }

    @Override
    public void processElement(Tuple2<String, Long> data, ProcessFunction<Tuple2<String, Long>, String>.Context context, Collector<String> collector) throws Exception {

    }
}

算子状态（Operator State）

算子状态（Operator State）就是一个算子并行实例上定义的状态，作用范围被限定为当前算子任务。算子状态跟数据的 key 无关，所以不同 key 的数据只要被分发到同一个并行子任务，就会访问到同一个Operator State

Operator State支持的数据类型

ListState
保存一个列表，列表里的元素的数据类型为 T
- ListState.add(T value)
- ListState.addAll(List values)
- ListState.get()返回 Iterable
- ListState.update(List values)
UnionListState
，与 ListState 类似，联合列表状态也会将状态表示为一个列表。它与常规列表状态的区别在于，算子并行度进行缩放调整时对于状态的分配方式不同
- UnionListState.add(T value)
- UnionListState.addAll(List values)
- UnionListState.get()返回 Iterable
- UnionListState.update(List values)
BroadcastState
保存 Key-Value 对
- BroadcastState.get(UK key)
- BroadcastState.put(UK key, UV value)
- BroadcastState.contains(UK key)
- BroadcastState.remove(UK key)

广播状态（Broadcast State）

广播状态非常容易理解：状态广播出去，所有并行子任务的状态都是相同的；并行度调整时只要直接复制就可以了

public class BroadcastStateProcessFunction {
    private static MapStateDescriptor<String, String> mapStateDescriptor = new MapStateDescriptor<>("rule-state", Types.STRING, Types.STRING);

    public SingleOutputStreamOperator<String> processFunction(
            SingleOutputStreamOperator<Tuple2<String, Long>> sourceData,
            SingleOutputStreamOperator<String> ruleData){

        // 1、添加广播（ .connect(BroadcastStream broadcastStream) ）
        return sourceData
                .connect(ruleData.broadcast(mapStateDescriptor))
                .process(new BroadcastStateProcessFunction.BroadcastStateProcess());
    }


    // 2、继承 BroadcastProcessFunction 接口，并重写 processBroadcastElement 方法
    private class BroadcastStateProcess extends BroadcastProcessFunction<Tuple2<String, Long>, String, String> {

        @Override
        public void processElement(Tuple2<String, Long> stringLongTuple2, BroadcastProcessFunction<Tuple2<String, Long>, String, String>.ReadOnlyContext readOnlyContext, Collector<String> collector) throws Exception {
            collector.collect(stringLongTuple2.f0);
        }

        // 3、实现 processBroadcastElement 方法，并使用
        @Override
        public void processBroadcastElement(String s, BroadcastProcessFunction<Tuple2<String, Long>, String, String>.Context context, Collector<String> collector) throws Exception {
            // 添加广播信息
            context.getBroadcastState(mapStateDescriptor).put("fzk", s);
            // 获取广播
            String data = context.getBroadcastState(mapStateDescriptor).get("fzk");
        }
    }
}

7. ProcessFunction API

DataStream API 提供了一系列的 Low-Level 转换算子。可以访问时间戳、watermark 以及注册定时事件。还可以输出特定的一些事件，例如超时事件等
Flink 提供了 8 个 Process Function
- ProcessFunction
- KeyedProcessFunction
- CoProcessFunction
- ProcessJoinFunction
- BroadcastProcessFunction
- KeyedBroadcastProcessFunction
- ProcessWindowFunction
- ProcessAllWindowFunction

KeyedProcessFunction

KeyedProcessFunction 用来操作 KeyedStream。KeyedProcessFunction 会处理流的每一个元素，输出为 0 个、1 个或者多个元素。所有的 Process Function 都继承自RichFunction 接口，所以都有 open()、close()和 getRuntimeContext()等方法。

KeyedProcessFunction还额外提供了两个方法

processElement
- 流中的每一个元素都会调用这个方法，调用结果将会放在 Collector 数据类型中输出。Context 可以访问元素的时间戳，元素的 key，以及 TimerService 时间服务。Context 还可以将结果输出到别的流(side outputs)
onTimer
- 回调函数。当之前注册的定时器触发时调用。参数 timestamp 为定时器所设定的触发的时间戳。Collector 为输出结果的集合。OnTimerContext 和processElement 的 Context 参数一样，提供了上下文的一些信息，例如定时器触发的时间信息(事件时间或者处理时间)

class MyKeyedProcessFunction extends KeyedProcessFunction<Tuple, MyBean, MyBean> {
    @Override
    public void open(Configuration parameters) throws Exception {
    }

    @Override
    public void processElement(MyBean myBean, KeyedProcessFunction<Tuple, MyBean, MyBean>.Context context, Collector<MyBean> collector) throws Exception {
        collector.collect(myBean);
    }

    @Override
    public void onTimer(long timestamp, KeyedProcessFunction<Tuple, MyBean, MyBean>.OnTimerContext ctx, Collector<MyBean> out) throws Exception {
    }

    @Override
    public void close() throws Exception {
    }
}

TimerService 和定时器（Timers）

Context 和 OnTimerContext 所持有的 TimerService 对象拥有以下方法
- long currentProcessingTime() ：返回当前处理时间
- long currentWatermark() ：返回当前 watermark 的时间戳
- void registerProcessingTimeTimer(long timestamp) ：会注册当前 key 的processing time 的定时器。当 processing time 到达定时时间时，触发 timer。
- void registerEventTimeTimer(long timestamp) ：会注册当前 key 的 event time 定时器。当水位线大于等于定时器注册的时间时，触发定时器执行回调函数。
- void deleteProcessingTimeTimer(long timestamp) ：删除之前注册处理时间定时器。如果没有这个时间戳的定时器，则不执行
- void deleteEventTimeTimer(long timestamp) ：删除之前注册的事件时间定时器，如果没有此时间戳的定时器，则不执行
```
class MyKeyedProcessFunction extends KeyedProcessFunction<Tuple, MyBean, MyBean> {
    @Override
    public void processElement(MyBean myBean, KeyedProcessFunction<Tuple, MyBean, MyBean>.Context context, Collector<MyBean> collector) throws Exception {
        long currentProcessingTime = context.timerService().currentProcessingTime();
        long currentWatermark = context.timerService().currentWatermark();
        context.timerService().registerProcessingTimeTimer(10000l);
        context.timerService().registerEventTimeTimer(10000l);
        context.timerService().deleteProcessingTimeTimer(10000l);
        context.timerService().deleteEventTimeTimer(10000l);
    }
}
```

侧输出流（SideOutput）

process function 的 side outputs 功能可以产生多条流，并且这些流的数据类型可以不一样。一个 side output 可以定义为 OutputTag[X]对象，X 是输出流的数据类型。process function 可以通过 Context 对象发射一个事件到一个或者多个 side outputs

事例：监控传感器温度值，将温度值低于 30 度的数据输出到 side output

public class Test {
    public static void main(String[] args) throws Exception {
        //创建执行环节
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setParallelism(1);

        DataStream<String> inputDataStream = env.socketTextStream("localhost", 9999);

        SingleOutputStreamOperator<Tuple2<String, Double>> myBeanDataStream = inputDataStream.map(new MapFunction<String, Tuple2<String, Double>>() {
            @Override
            public Tuple2<String, Double> map(String s) throws Exception {
                String[] split = s.split(" ");
                return new Tuple2<String, Double>(split[0], Double.valueOf(split[1]));
            }
        });

        //定义侧输出流
        OutputTag<Tuple2<String, Double>> outputTag = new OutputTag<Tuple2<String, Double>>("high-output") {};

        // 使用自定义算子：ProcessFunction
        SingleOutputStreamOperator<Tuple2<String, Double>> resultDataStream = myBeanDataStream
                .process(new MyProcessFunction(30.0, outputTag));

        resultDataStream.print("low-wendu");

        // 获取侧输出流并输出
        resultDataStream.getSideOutput(outputTag).print("high-wendu");

        env.execute();
    }



    private static class MyProcessFunction extends ProcessFunction<Tuple2<String, Double>, Tuple2<String, Double>> {
        private Double wenduLimit;
        private OutputTag<Tuple2<String, Double>> outputTag;

        // 初始化
        public MyProcessFunction(Double wenduLimit, OutputTag<Tuple2<String, Double>> outputTag) {
            this.wenduLimit = wenduLimit;
            this.outputTag = outputTag;
        }

        @Override
        public void processElement(Tuple2<String, Double> myBean, ProcessFunction<Tuple2<String, Double>, Tuple2<String, Double>>.Context context, Collector<Tuple2<String, Double>> collector) throws Exception {
            // 温度高于限制温度就将数据加入到侧输出流，否则正常输出
            if(myBean.f1 > wenduLimit){
                context.output(outputTag, myBean);
            }else {
                collector.collect(myBean);
            }
        }
    }
}

8. 检查点（CheckPoint）

在执行流应用程序期间，Flink 会定期保存状态的一致检查点
如果发生故障， Flink 将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程

检查点配置说明

检查点模式（CheckpointingMode）
- 设置检查点一致性的保证级别，有“精确一次”（exactly-once）和“至少一次”（at-least-once）两个选项。
- 默认级别为 exactly-once，而对于大多数低延迟的流处理程序，at-least-once 就够用了，而且处理效率会更高
超时时间（checkpointTimeout）
- 用于指定检查点保存的超时时间，超时没完成就会被丢弃掉。传入一个长整型毫秒数作为参数，表示超时时间
- 默认：600000毫秒（10分钟）
最小间隔时间（minPauseBetweenCheckpoints）
- 用于指定在上一个检查点完成之后，检查点协调器（checkpoint coordinator）最快等多久可以出发保存下一个检查点的指令。这就意味着即使已经达到了周期触发的时间点，只要距离上一个检查点完成的间隔不够，就依然不能开启下一次检查点的保存。这就为正常处理数据留下了充足的间隙。当指定这个参数时，maxConcurrentCheckpoints 的值强制为 1
- 默认：0
最大并发检查点数量（maxConcurrentCheckpoints）
- 用于指定运行中的检查点最多可以有多少个。由于每个任务的处理进度不同，完全可能出现后面的任务还没完成前一个检查点的保存、前面任务已经开始保存下一个检查点了。这个参数就是限制同时进行的最大数量。
- 如果前面设置了 minPauseBetweenCheckpoints，则 maxConcurrentCheckpoints 这个参数就不起作用了
- 默认：1
开启外部持久化存储（enableExternalizedCheckpoints）
- 用于开启检查点的外部持久化，而且默认在作业失败的时候不会自动清理，如果想释放空间需要自己手工清理。里面传入的参数 ExternalizedCheckpointCleanup 指定了当作业取消的时候外部的检查点该如何清理
  - DELETE_ON_CANCELLATION：在作业取消的时候会自动删除外部检查点，但是如果是作业失败退出，则会保留检查点
  - RETAIN_ON_CANCELLATION：作业取消的时候也会保留外部检查点
检查点异常时是否让整个任务失败（failOnCheckpointingErrors）
- 用于指定在检查点发生异常的时候，是否应该让任务直接失败退出。
- 默认： true，如果设置为 false，则任务会丢弃掉检查点然后继续运行
不对齐检查点（enableUnalignedCheckpoints）
- 不再执行检查点的分界线对齐操作，启用之后可以大大减少产生背压时的检查点保存时间。这个设置要求检查点模式（CheckpointingMode）必须为 exctly-once，并且并发的检查点个数为 1

public class CheckpointConfig implements Serializable {
    private static final long serialVersionUID = -750378776078908147L;
    private static final Logger LOG = LoggerFactory.getLogger(CheckpointConfig.class);
    public static final CheckpointingMode DEFAULT_MODE;
    public static final long DEFAULT_TIMEOUT = 600000L;
    public static final long DEFAULT_MIN_PAUSE_BETWEEN_CHECKPOINTS = 0L;
    public static final int DEFAULT_MAX_CONCURRENT_CHECKPOINTS = 1;
    public static final int UNDEFINED_TOLERABLE_CHECKPOINT_NUMBER = -1;
    private CheckpointingMode checkpointingMode;
    private long checkpointInterval;
    private long checkpointTimeout;
    private long minPauseBetweenCheckpoints;
    private int maxConcurrentCheckpoints;
    private boolean forceCheckpointing;
    private boolean forceUnalignedCheckpoints;
    private boolean unalignedCheckpointsEnabled;
    private Duration alignmentTimeout;
    private boolean approximateLocalRecovery;
    private CheckpointConfig.ExternalizedCheckpointCleanup externalizedCheckpointCleanup;
    /** @deprecated */
    @Deprecated
    private boolean failOnCheckpointingErrors;
    private boolean preferCheckpointForRecovery;
    private int tolerableCheckpointFailureNumber;
    private transient CheckpointStorage storage;
}

状态后端说明

状态的存储、访问以及维护，都是由一个可插拔的组件决定的，这个组件就叫作状态后端（state backend）。状态后端主要负责两件事：一是本地的状态管理，二是将检查点（checkpoint）写入远程的持久化存储

状态后端分类

哈希表状态后端（HashMapStateBackend）

把状态存放在内存里
具体实现上：哈希表状态后端在内部会直接把状态当作对象（objects），保存在 Taskmanager 的 JVM 堆（heap）上
HashMapStateBackend 是将本地状态全部放入内存的，这样可以获得最快的读写速度，使计算性能达到最佳；代价则是内存的占用
```
env.setStateBackend(new HashMapStateBackend());
```

内嵌 RocksDB 状态后端（EmbeddedRocksDBStateBackend）

RocksDB 是一种内嵌的 key-value 存储介质，可以把数据持久化到本地硬盘。
配置EmbeddedRocksDBStateBackend 后，会将处理中的数据全部放入 RocksDB 数据库中，RocksDB默认存储在 TaskManager 的本地数据目录里
数据被存储为序列化的字节数组（Byte Arrays），读写操作需要序列化/反序列化，因此状态的访问性能要差一些
```
env.setStateBackend(new EmbeddedRocksDBStateBackend());
```

检查点使用

启动检查点

// 开启检查点，每 60s 执行一次检查点
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(60000);

检查点存储

// 配置存储检查点到 JobManager 堆内存
env.getCheckpointConfig().setCheckpointStorage(new JobManagerCheckpointStorage());
// 配置存储检查点到文件系统
env.getCheckpointConfig().setCheckpointStorage(new FileSystemCheckpointStorage("hdfs://namenode:8020/flink/checkpoints"));

检查点配置：需要什么配置参考上面的检查点配置说明

CheckpointedFunction 接口

对状态进行持久化保存的快照机制叫作“检查点”（Checkpoint）。于是使用算子状态时，就需要对检查点的相关操作进行定义，实现一个 CheckpointedFunction 接口，并实现一下两个方法：

initializeState方法：定义了初始化逻辑，也定义了恢复逻辑
- 在算子任务进行初始化时，会调用. initializeState()方法。有两种情况：
  - 应用第一次运行，这时状态会被初始化为一个默认值（default value）；
  - 应用重启，**从检查点（checkpoint）或者保存点（savepoint）**中读取之前状态的快照，并赋给本地状态
- 拿到的是 FunctionInitializationContext，这是函数类进行初始化时的上下文，是真正的“运行时上下文”
snapshotState()方法：检查点的快照保存逻辑
- 每次应用保存检查点做快照时，都会调用.snapshotState()方法，将状态进行外部持久化
- 快照的上下文 FunctionSnapshotContext，它可以提供检查点的相关信息，不过无法获取状态句柄
```
public interface CheckpointedFunction {
    void snapshotState(FunctionSnapshotContext var1) throws Exception;

    void initializeState(FunctionInitializationContext var1) throws Exception;
}
```

9. 保存点（Savepoint）

是一个存盘的备份，它的原理和算法与检查点完全相同，只是多了一些额外的元数据。事实上，保存点就是通过检查点的机制来创建流式作业状态的一致性镜像（consistent image）的
保存点中的状态快照，是以算子 ID 和状态名称组织起来的，相当于一个键值对。从保存点启动应用程序时，Flink 会将保存点的状态数据重新分配给相应的算子任务

使用保存点

创建保存点

${jobId} : 需要填充要做镜像保存的作业 ID
targetDirectory : 可选，表示保存点存储的路径，对于保存点的默认路径，可以通过配置文件 flink-conf.yaml 中的 state.savepoints.dir 项来设定：state.savepoints.dir: hdfs:///flink/savepoints
- 不停止任务做保存点
```
bin/flink savepoint ${jobId} [:targetDirectory]
```
- 停止任务做保存点
```
bin/flink stop --savepointPath :jobId [:targetDirectory]
```

从保存点重启应用

${savepointPath} ：指定保存点的路径

runArgs : 可选，flink任务的参数

bin/flink run -s ${savepointPath} [:runArgs]

10. 状态一致性

端到端 exactly-once

内部保证 ：checkpoint
source ：可重设数据的读取位置
sink ：从故障恢复时，数据不会重复写入外部系统
- 幂等写入
- 事务写入

事务写入

构建的事务对应着 checkpoint，等到 checkpoint 真正完成的时候，才把所有对应的结果写入 sink 系统中
实现方式
- 预写日志
- 两阶段提交

预写日志（不常用）

把结果数据先当成状态保存，然后在收到 checkpoint 完成的通知时，一次性写入 sink 系统
简单易于实现，由于数据提前在状态后端中做了缓存，所以无论什么sink 系统，都能用这种方式一批搞定
DataStream API 提供了一个模板类：GenericWriteAheadSink，来实现这种事务性 sink

两阶段提交

对于每个 checkpoint，sink 任务会启动一个事务，并将接下来所有接收的数据添加到事务里
然后将这些数据写入外部 sink 系统，但不提交它们 —— 这时只是“预提交”
当它收到 checkpoint 完成的通知时，它才正式提交事务，实现结果的真正写入
TwoPhaseCommitSinkFunction 接口，自定义实现两阶段提交的 SinkFunction 的实现，提供了真正端到端的 exactly-once 保证

Flink+Kafka 端到端状态一致性的保证

说明

内部
- checkpoint 机制，把状态存盘，发生故障的时候可以恢复，保证内部的状态一致性
source
- kafka consumer 作为 source，可以将偏移量保存下来，如果后续任务出现了故障，恢复的时候可以由连接器重置偏移量，重新消费数据，保证一致性
sink
- kafka producer 作为sink，采用两阶段提交 sink，需要实现一个 TwoPhaseCommitSinkFunction

使用

必须启用检查点
在 FlinkKafkaProducer 的构造函数中传入参数 Semantic.EXACTLY_ONCE
配置 Kafka 读取数据的消费者的隔离级别
- 这里所说的 Kafka，是写入的外部系统。预提交阶段数据已经写入，只是被标记为“未提交”（uncommitted），而 Kafka 中默认的隔离级别 isolation.level 是 read_uncommitted，也就是可以读取未提交的数据。这样一来，外部应用就可以直接消费未提交的数据，对于事务性的保证就失效了。所以应该将隔离级别配置
事务超时配置
- Flink 的 Kafka连接器中配置的事务超时时间 transaction.timeout.ms 默认是 1小时，而Kafka集群配置的事务最大超时时间 transaction.max.timeout.ms 默认是 15 分钟。所以在检查点保存时间很长时，有可能出现 Kafka 已经认为事务超时了，丢弃了预提交的数据；而 Sink 任务认为还可以继续等待。如果接下来检查点保存成功，发生故障后回滚到这个检查点的状态，这部分数据就被真正丢掉了。所以这两个超时时间，前者应该小于等于后者

Maven（pom.xml）

<properties>
    <flink.version>1.13.0flink.version>
    <java.version>1.8java.version>
    <scala.binary.version>2.12scala.binary.version>
properties>


<dependencies>





    <dependency>
        <groupId>org.apache.flinkgroupId>
        <artifactId>flink-clients_${scala.binary.version}artifactId>
        <version>${flink.version}version>

    dependency>
    
    <dependency>
        <groupId>org.apache.flinkgroupId>
        <artifactId>flink-sql-connector-kafka_${scala.binary.version}artifactId>
        <version>${flink.version}version>
    dependency>
    

    <dependency>
        <groupId>org.apache.flinkgroupId>
        <artifactId>flink-connector-kafka_${scala.binary.version}artifactId>
        <version>${flink.version}version>
        <exclusions>
            <exclusion>
                <artifactId>kafka-clientsartifactId>
                <groupId>org.apache.kafkagroupId>
            exclusion>
        exclusions>
    dependency>

    <dependency>
        <groupId>org.apache.flinkgroupId>
        <artifactId>flink-streaming-java_${scala.binary.version}artifactId>

        
        
        <exclusions>
            <exclusion>
                <artifactId>slf4j-apiartifactId>
                <groupId>org.slf4jgroupId>
            exclusion>
            <exclusion>
                <artifactId>commons-collectionsartifactId>
                <groupId>commons-collectionsgroupId>
            exclusion>
        exclusions>
        <version>${flink.version}version>
    dependency>

    
    <dependency>
        <groupId>org.slf4jgroupId>
        <artifactId>slf4j-apiartifactId>
        <version>1.7.25version>
    dependency>
    <dependency>
        <groupId>org.slf4jgroupId>
        <artifactId>slf4j-simpleartifactId>
        <version>1.7.25version>
    dependency>

    <dependency>
        <groupId>mysqlgroupId>
        <artifactId>mysql-connector-javaartifactId>
        <version>8.0.13version>
    dependency>

    
    <dependency>
        <groupId>com.google.guavagroupId>
        <artifactId>guavaartifactId>
        <version>18.0version>
    dependency>
    <dependency>
        <groupId>com.google.code.gsongroupId>
        <artifactId>gsonartifactId>
        <version>2.8.5version>
    dependency>

    <dependency>
        <groupId>com.fasterxml.jackson.coregroupId>
        <artifactId>jackson-databindartifactId>
        <version>2.9.4version>
    dependency>

    <dependency>
        <groupId>org.apache.httpcomponentsgroupId>
        <artifactId>httpclientartifactId>
        <version>4.5.2version>
        <exclusions>
            <exclusion>
                <artifactId>commons-loggingartifactId>
                <groupId>commons-logginggroupId>
            exclusion>
        exclusions>
    dependency>

    <dependency>
        <groupId>org.projectlombokgroupId>
        <artifactId>lombokartifactId>
        <version>1.18.4version>
    dependency>

    <dependency>
        <groupId>com.jayway.jsonpathgroupId>
        <artifactId>json-pathartifactId>
        <version>2.4.0version>
        <scope>compilescope>
    dependency>

    <dependency>
        <groupId>joda-timegroupId>
        <artifactId>joda-timeartifactId>
        <version>2.9.9version>
    dependency>

    <dependency>
        <groupId>junitgroupId>
        <artifactId>junitartifactId>
        <version>4.12version>
        <scope>testscope>
    dependency>
    
    <dependency>
        <groupId>asmgroupId>
        <artifactId>asmartifactId>
        <version>3.3.1version>
    dependency>
    <dependency>
        <groupId>asmgroupId>
        <artifactId>asm-commonsartifactId>
        <version>3.3.1version>
    dependency>
    <dependency>
        <groupId>asmgroupId>
        <artifactId>asm-utilartifactId>
        <version>3.3.1version>
    dependency>
    <dependency>
        <groupId>cglibgroupId>
        <artifactId>cglib-nodepartifactId>
        <version>2.2.2version>
    dependency>

    
    <dependency>
        <groupId>org.apache.flinkgroupId>
        <artifactId>flink-statebackend-rocksdb_${scala.binary.version}artifactId>
        <scope>compilescope>
        <exclusions>
            <exclusion>
                <artifactId>slf4j-apiartifactId>
                <groupId>org.slf4jgroupId>
            exclusion>
        exclusions>
        <version>${flink.version}version>
    dependency>

    <dependency>
        <groupId>com.beustgroupId>
        <artifactId>jcommanderartifactId>
        <version>1.72version>
    dependency>

    
    <dependency>
        <groupId>com.alibabagroupId>
        <artifactId>druidartifactId>
        <version>1.1.21version>
    dependency>
    <dependency>
        <groupId>commons-dbutilsgroupId>
        <artifactId>commons-dbutilsartifactId>
        <version>1.7version>
    dependency>

    <dependency>
        <groupId>com.alibabagroupId>
        <artifactId>fastjsonartifactId>
        <version>1.2.72version>
    dependency>

    <dependency>
        <groupId>org.apache.kafkagroupId>
        <artifactId>kafka_${scala.binary.version}artifactId>
        <version>${kafka.version}version>
        <scope>compilescope>
    dependency>

    
    <dependency>
        <groupId>org.apache.commonsgroupId>
        <artifactId>commons-collections4artifactId>
        <version>4.1version>
    dependency>

    
    <dependency>
        <groupId>com.github.oshigroupId>
        <artifactId>oshi-coreartifactId>
        <version>3.5.0version>
    dependency>
dependencies>

你可能感兴趣的:(大数据,flink,大数据,java)

【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
spring中maven缺少包如何重新加载，报错java: 程序包org.springframework.web.reactive.function不存在东方-教育技术博主 java java spring maven
错误原因分析java:程序包org.springframework.web.reactive.function不存在这个错误是由于项目中缺少SpringWebFlux相关依赖导致的。org.springframework.web.reactive.function包属于SpringWebFlux模块（用于响应式Web开发），如果你的项目需要使用该包下的类（如RouterFunction、Serve
WSL快速在Ubuntu或者Debian安装golang、python、deno、nodejs、java前后端全栈一体化开发环境配置怪我冷i 云原生 ubuntu debian golang AI写作 AI编程
安装golang#移除旧版本（如有）sudoaptremove--autoremove-ygolang#下载最新版（替换为官网最新版本号）wgethttps://go.dev/dl/go1.24.4.linux-amd64.tar.gz#解压到/usr/localsudorm-rf/usr/local/gosudotar-C/usr/local-xzfgo1.24.4.linux-amd64.ta
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Java开发的智能新时代——如何利用AI工具提升编程效率 inscode_055
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java开发的智能新时代——如何利用AI工具提升编程效率引言在当今快速发展的科技时代，Java作为一门广泛应用的编程语言，在企业级应用、Web开发、移动应用等领域占据着重要地位。然而，随着项目复杂度的增加和开发周期的缩短，传统的开发方式已难以满足现代开发的需求。幸运的是，智能化的工具软件如InsCodeAIIDE正逐
Java 开发的智能化革命——如何借助最新工具提升编程效率 inscode_014
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java开发的智能化革命——如何借助最新工具提升编程效率在当今快速发展的科技时代，Java作为一门广泛应用的编程语言，依然保持着其强大的生命力和广泛的影响力。无论是企业级应用、Web开发还是移动应用开发，Java都扮演着不可或缺的角色。然而，随着项目复杂度的增加和技术更新换代的速度加快，Java开发者们面临着前所未有
SpringSSM hqxstudying ssm mvc java mybatis
SpringSSM是Java企业级开发中常用的一套框架组合，由Spring、SpringMVC和MyBatis三个框架组成，它们分别负责不同的功能模块，协同工作以简化企业级应用的开发流程。以下是对这三个框架的详细解析及它们的协同关系：一、Spring框架核心定位：提供企业级应用的基础架构支持，核心是IoC（控制反转）和AOP（面向切面编程）。1.核心功能IoC（InversionofControl
GlobalFilter、Filter关系 m0_63486540 java java
维度GlobalFilterFilter技术体系SpringCloudGateway+WebFluxJavaServletAPI编程模型响应式(Reactive)阻塞式(Imperative)作用范围全局（所有路由）可配置路径模式执行效率更高（基于事件循环）较低（线程池模型）配置方式SpringBean自动注册web.xml或@WebFilter如何选择？如果你正在开发API网关或微服务入口，使用
sa-token：我将代替你，Spring Security m0_63486540 java spring java 后端
Sa-Token是一个轻量级Java权限认证框架，主要解决：登录认证、权限认证、单点登录、OAuth2.0、分布式Session会话、微服务网关鉴权等一系列权限相关问题。Sa-Token旨在以简单、优雅的方式完成系统的权限认证部分，以登录认证为例，你只需要：//会话登录，参数填登录人的账号idStpUtil.login(10001);无需实现任何接口，无需创建任何配置文件，只需要这一句静态代码的调
通过 Java 调用 ChromeDriver 启动 Chrome 浏览器后，当用户**手动点击按钮**时导致标签页崩溃 Esengnet java
importorg.openqa.selenium.WebDriver;importorg.openqa.selenium.chrome.ChromeDriver;importorg.openqa.selenium.chrome.ChromeOptions;importorg.openqa.selenium.remote.CapabilityType;importjava.util.HashMap
Java基础集合框架队列架构双端队列 Deque 骑牛小道士集合框架之队列 java 开发语言
双端队列DequeDeque方法简介Deque核心特点Deque实现类ArrayDequeArrayDeque构造方法ArrayDeque的数据结构及实现原理ArrayDeque方法介绍ArrayDeque核心特性ArrayDeque总结ArrayDeque使用样例代码Deque实现类LinkedListDeque实现类ConcurrentLinkedDeque(非阻塞线程安全)Concurren
Redis 集群与分布式实现：从原理到实战一切皆有迹可循 redis redis 分布式数据库后端缓存
前言在大数据与高并发场景下，单节点Redis的容量与可用性已无法满足需求。Redis通过集群与分布式技术，实现了数据的分片存储与高可用部署，成为分布式系统的核心组件。本文将深入解析Redis集群的底层原理、架构模式与实战经验，结合代码示例与最佳实践，帮助开发者构建高性能、高可用的分布式缓存系统。一、集群基础架构与核心原理1.数据分片机制Redis集群采用哈希槽（HashSlot）实现数据分片，共有
JavaScript代码审计工具叶梓诺 javascript 开发语言 ecmascript 前端
我整理的一些关于【Java】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/bLN8S1如何实现一个JavaScript代码审计工具作为一名刚入行的小白，你可能对如何创建一个JavaScript代码审计工具感到困惑。在这篇文章中，我将引导你完成整个流程，并提供具体的代码示例和说明。我们将采取结构化的步骤来确保你能够理解每个阶段。流程概述创建JavaSc
android led 框架,详解Android应用层制作LED指示灯
详解Android应用层制作LED指示灯在Java应用层修改LED指示灯的颜色，这个花了我半天时间，才实现该功能!publicclassLEDActivityextendsActivityimplementsView.OnClickListener{privatestaticfinalStringTAG="LED";ButtonmLedTest;intmLedStatus=0;privatefin
Python私有属性：隐藏数据的秘密武器有奇妙能力吗知识分享 Python python 开发语言
Python私有属性详解：为什么我们需要“隐藏”对象的数据？一、引言在面向对象编程中，封装（Encapsulation）是三大基本特性之一（另外两个是继承和多态）。而“私有属性”就是实现封装的重要手段之一。在Python中虽然不像Java或C++那样严格区分访问权限，但依然提供了一种机制来限制对类内部属性的直接访问。本文将带你深入了解：什么是私有属性？如何定义私有属性？私有属性的原理与注意事项使用
Vue Vue-route （2） JSON_L 前端 #Vue vue.js javascript 前端
Vue渐进式JavaScript框架基于Vue2的学习笔记-Vue-route重定向和声明式导航目录Vue-route路由重定向首页默认访问不存在匹配声明式导航路由原理使用示例自定义class类Tag设置版本4路由改变示例总结Vue-route路由重定向首页默认访问希望访问网站域名时，直接访问film组件。在router/index.js中配置根路径默认组件.示例如下：//配置表constrout
js代码后续翻滚吧键盘 vue javascript 开发语言 ecmascript
这是一个非常棒的问题，也是每个学完一个系统课程的人都会问的问题。答案是：不，你没有学完“所有”的JavaScript知识，但你已经出色地完成了成为一名合格JavaScript开发者的所有“必修课”。让我用一个比喻来解释：你已经学完了建造一栋坚固房屋所需的所有核心蓝图和关键技能。你知道如何打地基（基础语法）、如何搭建承重墙（函数与数据结构）、如何布线通电（异步编程）、如何装修得更漂亮高效（ES6+语
js代码08 翻滚吧键盘 vue javascript 开发语言 ecmascript
题目好的，我们正式进入JavaScript的另一个深水区，这也是面向对象编程的基石：this关键字。this是JavaScript中最强大、最灵活，也最容易引起困惑的概念之一。但别担心，它的行为遵循一套清晰的规则。一旦你理解了这些规则，就能完全驾驭它。练习08:this的指向-解开JS中最微妙的谜题核心法则:在学习this之前，请先记住这条黄金法则：this的值取决于函数被调用时的“执行上下文”（
Java分布式存储炼金术：故障检测与自愈的魔法阵墨夶 Java学习资料1 java 分布式开发语言
一、环境搭建：魔法阵的基础1.1依赖库与工具“准备炼金材料：框架、锁、断路器！”org.ap
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
开源 java android app 开发（十三）绘图定义控件、摇杆控件的制作 ajassi2000 linux C 到 Android App开发开源 java android linux python
文章的目的为了记录使用java进行androidapp开发学习的经历。本职为嵌入式软件开发，公司安排开发app，临时学习，完成app的开发。开发流程和要点有些记忆模糊，赶紧记录，防止忘记。相关链接：开源javaandroidapp开发（一）开发环境的搭建-CSDN博客开源javaandroidapp开发（二）工程文件结构-CSDN博客开源javaandroidapp开发（三）GUI界面布局和常用组
Java线程池源码分析，深度解读努力的橙子go java 开发语言
前言本文将深入分析Java线程池的源码，包括线程池的创建、任务提交、工作线程的执行和线程池的关闭等过程。通过对线程池源码的解析，我们能够更好地理解线程池的原理和机制，为我们在实际开发中合理使用线程池提供指导。文章内容较长，建议找个安静的环境慢慢细读。线程池简介概念在传统的多线程编程中，每次需要执行任务时都会创建一个新的线程，任务执行完毕后再销毁该线程。这种方式存在一些问题，例如频繁创建和销毁线程会
Java List Iterator ConcurrentModificationException异常原因二十六画生的博客 Java SSM Java List Iterator ConcurrentMod
异常原因packagecom.company;importjava.util.ArrayList;importjava.util.Iterator;importjava.util.List;/***@Authoryouguess*@Date2021/1/712:33*@Version1.0*@Desc*/publicclassMain26{publicstaticvoidmain(String[]
Java中ThreadPoolExecutor源码深度解析振华少爷 java 开发语言前端
Java中ThreadPoolExecutor源码深度解析目录引言ThreadPoolExecutor的数据结构核心方法分析构造方法execute方法shutdown方法shutdownNow方法性能分析使用注意事项总结引言ThreadPoolExecutor是Java并发包中的一个线程池实现类，它提供了灵活的线程池管理功能，可以根据需要创建、管理和销毁线程。ThreadPoolExecutor通
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
【Java实战】高并发场景下账户金额操作的解决方案 .猫的树【Java实战】系列 Java并发编程分布式锁高并发解决方案原子操作数据库事务
文章目录前言：金融系统中的并发危机一、并发问题现场还原1.1问题代码示例1.2并发测试暴露问题1.3问题根源分析二、五大解决方案深度剖析2.1synchronized同步锁2.2ReentrantLock显式锁2.3CAS无锁编程（Atomic原子类）2.4数据库乐观锁2.5分布式锁（Redis实现）三、方案选型指南四、防踩坑指南总结前言：金融系统中的并发危机在支付系统、电商平台等金融场景中，账户
Java线程池原理深度解析：从设计思想到源码实现北辰alk java java python 开发语言
文章目录一、线程池概述1.1为什么需要线程池1.2Java线程池框架二、线程池核心参数2.1关键参数详解2.2工作队列类型2.3拒绝策略三、线程池工作流程3.1流程图解3.2流程说明四、源码深度解析4.1核心数据结构4.2状态控制机制4.3Worker线程实现4.4任务执行核心方法4.5任务获取逻辑五、线程池使用实践5.1创建线程池的正确方式5.2线程池监控5.3合理配置参数六、常见问题与解决方案
物联网实战：多语言（Java、Go、Rust、C++、C#、Rust）设备接入与数据处理 KENYCHEN奉孝 Rust C++go spring java vue.js rust c++
SpringBoot物联网设备接入与数据处理实例物联网（IoT）设备接入与数据处理是SpringBoot的常见应用场景之一。以下是一个完整的实例，涵盖设备接入、数据传输、数据处理和存储等关键环节。设备接入物联网设备通常通过MQTT、HTTP或WebSocket等协议接入系统。MQTT是物联网领域最常用的轻量级协议。//MQTT配置类@ConfigurationpublicclassMqttConf
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

Flink-DataStream快速上手

文章目录

1. 安装部署

安装

2. 执行任务

Standalone 模式

启动/停止

执行任务

Yarn 模式

Session-cluster 模式

启动 yarn-session

执行任务

Per-Job-Cluster 模式

3. 执行环境

Environment

getExecutionEnvironment（常用）

createLocalEnvironment

createRemoteEnvironment

Source、Sink

Transform（算子）

map

flatMap

Filter

KeyBy

滚动聚合算子

Reduce

Split 和 Select

Connect 和 CoMap

Union

广播（broadcast）

join

窗口连接

间隔加入

4. 时间语义与 Watermark

时间语义

Watermark

老版本被弃用的使用方式（不推荐使用）

乱序时间的watermark实现方式

顺序时间的watermark实现方式

新版本的使用方式（推荐使用）

分配数据时间戳和水位线需实现的方法说明（自定义方式）

乱序时间的watermark实现方式

顺序时间的watermark实现方式

在自定义数据源中发送水位线

5. Window

窗口分配器

时间窗口

滚动处理时间窗口(TumblingProcessingTimeWindows)

滑动处理时间窗口(SlidingProcessingTimeWindows)

处理时间会话窗口(ProcessingTimeSessionWindows)

滚动事件时间窗口(TumblingEventTimeWindows)

滑动事件时间窗口(SlidingEventTimeWindows)

事件时间会话窗口

计数窗口(countWindow)

滚动计数窗口(countWindow)

窗口函数（Window Functions）

增量聚合函数（incremental aggregation functions）

归约函数（ReduceFunction）

聚合函数（AggregateFunction）

全窗口函数（full window functions）

处理窗口函数（ProcessWindowFunction）

6. 状态管理

键控状态（keyed state）

Keyed State 支持数据类型

例子：ValueState

状态创建的用法

状态生存时间（TTL）

算子状态（Operator State）

Operator State支持的数据类型

广播状态（Broadcast State）

7. ProcessFunction API

KeyedProcessFunction

TimerService 和 定时器（Timers）

侧输出流（SideOutput）

8. 检查点（CheckPoint）

检查点配置说明

状态后端说明

状态后端分类

哈希表状态后端（HashMapStateBackend）

内嵌 RocksDB 状态后端（EmbeddedRocksDBStateBackend）

TimerService 和定时器（Timers）