CodeDevMaster

Flink之常用处理函数

常用处理函数

处理函数
- 概述
基本处理函数
- ProcessFunction介绍
- 使用示例
按键分区处理函数
- KeyedProcessFunction介绍
- 定时器Timer和定时服务TimerService
- 使用示例
- 其他
窗口处理函数
- ProcessWindowFunction介绍
- ProcessAllWindowFunction介绍
- 使用示例
流的合并处理函数
- CoProcessFunction介绍
- 使用示例
流的联结处理函数
- 窗口联结 JoinFunction
- 间隔联结 ProcessJoinFunction
- 迟到数据的处理
广播流处理函数
- KeyedBroadcastProcessFunction
- BroadcastProcessFunction
- 使用示例

处理函数

概述

处理函数（Processing Function）是Apache Flink中用于对数据流上的元素进行处理的核心组件之一。处理函数负责定义数据流上的数据如何被处理，允许开发人员编写自定义逻辑以执行各种操作，如转换、聚合、筛选、连接等，并在处理后生成输出数据流。

对于数据流，都可以直接调用.process()方法进行自定义处理，传入的参数就叫作处理函数，也可以把它划分为转换算子。

基本处理函数

ProcessFunction是最基本的处理函数，基于DataStream直接调用.process()时作为参数传入

ProcessFunction介绍

ProcessFunction是一个抽象类，它继承AbstractRichFunction，有两个泛型类型参数：

1.输入的数据类型

2.处理完成之后输出数据类型

内部单独定义了两个方法：

1.必须要实现的抽象方法.processElement()

2.一个非抽象方法.onTimer()

ProcessFunction类如下：

/**
 * 处理流元素的函数
 *
 * 对于输入流中的每个元素，调用processElement(Object，ProcessFunction.Context，Collector) 可以产生零个或多个元素作为输出
 * 还可以通过提供的ProcessFunction.Context查询时间和设置计时器
 *
 * 对于触发计时器，将调用onTimer(long，ProcessFunction.OnTimerContext，Collector) 可以再次产生零个或多个元素作为输出，并注册其他计时器
 *
 * @param  输入元素的类型
 * @param  输出元素的类型
 */
@PublicEvolving
public abstract class ProcessFunction<I, O> extends AbstractRichFunction {

    private static final long serialVersionUID = 1L;

    /**
     * 处理输入流中的一个元素，对于流中的每个元素都会调用一次
     *
     * 可以使用输出零个或多个元素收集器参数，并使用更新内部状态或设置计时器ProcessFunction.Context参数
     *
     * @param value 输入值，类型与流中数据类型一致
     * @param ctx ProcessFunction的内部抽象类Context，表示当前运行的上下文，可以获取当前时间戳，用于查询时间和注册定时器的定时服务
     * @param out 用于返回结果值的收集器，与out.collect()方法向下游发数据类似
     */
    public abstract void processElement(I value, Context ctx, Collector<O> out) throws Exception;

    /**
     * 当使用设置计时器时调用TimerService
     * 
     * 只有在注册好的定时器触发的时候才会调用，而定时器是通过定时服务TimerService来注册的
     * 
     * 事件时间语义下就是由水位线watermark来触发
     * 
     * 也可以自定义数据按照时间分组、定时触发计算输出结果，实现类似窗口window的功能
     *
     * @param timestamp 触发计时器的时间戳，指设定好的触发时间
     * @param ctx 上下文
     * @param out 用于返回结果值的收集器
     */
    public void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out) throws Exception {}
}

使用示例

基本处理函数ProcessFunction的使用与基本的转换操作类似，直接基于DataStream调用.process()方法，传入一个ProcessFunction作为参数，用来定义处理逻辑。

具体举例使用示例如下：

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(2); DataStreamSource<Integer> stream = env.fromCollection(Arrays.asList(1, 2, 3, 4, 5, -6)); /** * 创建OutputTag对象 * 分别指定: 标签名、放入侧输出流的数据类型(Typeinformation) */ OutputTag<Integer> evenTag = new OutputTag<>("even", Types.INT); OutputTag<Integer> oddTag = new OutputTag<>("odd", Types.INT); // 使用process算子 SingleOutputStreamOperator<Integer> process = stream.process( new ProcessFunction<Integer, Integer>() { @Override public void processElement(Integer value, Context ctx, Collector<Integer> out) throws Exception { if (value > 0) { if (value % 2 == 0) { // 偶数放到侧输出流evenTag中 // 调用上下文对象ctx的output方法,分别传入 Tag对象、放入侧输出流中的数据 ctx.output(evenTag, value); } else if (value % 2 == 1) { // 奇数放到侧输出流oddTag中 ctx.output(oddTag, value); } } else { // 负数数据，放到主流中 out.collect(value); } } } ); // 在主流中，根据标签获取侧输出流 SideOutputDataStream<Integer> even = process.getSideOutput(evenTag); SideOutputDataStream<Integer> odd = process.getSideOutput(oddTag); // 打印主流 process.printToErr("主流-负数-job"); //打印侧输出流 even.print("偶数-job"); odd.print("奇数-job"); env.execute(); }

奇数-job:1> 1 偶数-job:2> 2 奇数-job:1> 3 偶数-job:2> 4 奇数-job:1> 5 主流-负数-job:2> -6

按键分区处理函数

KeyedProcessFunction对流按键分区后的处理函数，基于KeyedStream调用.process()时作为参数传入。要想使用定时器，必须基于KeyedStream

KeyedProcessFunction介绍

KeyedProcessFunction与ProcessFunction的定义几乎完全一样，区别只是在于类型参数多了一个K，这是当前按键分区的key的类型。

按键分区处理函数接口如下：

public abstract class KeyedProcessFunction<K, I, O> extends AbstractRichFunction { public abstract void processElement(I value, Context ctx, Collector<O> out) throws Exception; public void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out) throws Exception {} }

定时器Timer和定时服务TimerService

另外在KeyedStream中是支持使用定时服务TimerService，可以通过它访问流中的事件event、时间戳timestamp、水位线watermark，甚至可以注册定时事件。

在onTimer()方法中可以实现定时处理的逻辑，而它触发的前提是之前曾经注册过定时器、并且现在已经到了触发时间。

注册定时器的功能是通过上下文中提供的定时服务来实现的。

// 获取定时服务 TimerService timerService = ctx.timerService();

TimerService是Flink关于时间和定时器的基础服务接口，对应的操作主要有三个：获取当前时间，注册定时器，以及删除定时器，具体方法如下：

// 获取当前的处理时间 long currentProcessingTime(); // 获取当前的水位线（事件时间） long currentWatermark(); // 注册处理时间定时器，当处理时间超过time时触发 void registerProcessingTimeTimer(long time); // 注册事件时间定时器，当水位线超过time时触发 void registerEventTimeTimer(long time); // 删除触发时间为time的处理时间定时器 void deleteProcessingTimeTimer(long time); // 删除触发时间为time的处理时间定时器 void deleteEventTimeTimer(long time);

注意：

尽管处理函数中都可以访问TimerService，不过只有基于KeyedStream的处理函数，才能去调用注册和删除定时器的方法

使用示例

直接基于keyBy之后的KeyedStream，直接调用.process()方法，传入KeyedProcessFunction的实现类参数

必须实现processElement()抽象方法，用来处理流中的每一个数据必须实现非抽象方法onTimer()，用来定义定时器触发时的回调操作

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); // 从socket接收数据流 SingleOutputStreamOperator<Tuple2<String, Integer>> streamSource = env.socketTextStream("IP", 8086) // 将输入数据转换为Tuple2 .map(new MapFunction<String, Tuple2<String, Integer>>() { @Override public Tuple2<String, Integer> map(String value) throws Exception { String[] split = value.split(","); return Tuple2.of(split[0], Integer.valueOf(split[1])); } }) // 指定 watermark策略 .assignTimestampsAndWatermarks( // 定义Watermark策略 WatermarkStrategy .<Tuple2<String, Integer>>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); // keyBy分区 KeyedStream<Tuple2<String, Integer>, String> keyByStream = streamSource.keyBy(a -> a.f0); // 按键分区处理函数 SingleOutputStreamOperator<Integer> process = keyByStream.process( new KeyedProcessFunction<String, Tuple2<String, Integer>, Integer>() { /** * 来一条数据调用一次 * @param value 当前数据 * @param ctx 上下文 * @param out 收集器 * @throws Exception */ @Override public void processElement(Tuple2<String, Integer> value, Context ctx, Collector<Integer> out) throws Exception { //获取当前数据的key String currentKey = ctx.getCurrentKey(); p(); // 获取定时服务 TimerService timerService = ctx.timerService(); // 数据中提取出来的事件时间 Long currentEventTime = ctx.timestam // 注册事件时间定时器 timerService.registerEventTimeTimer(3000L); System.out.println("key: " + currentKey + " 当前数据: " + value + " 当前时间: " + currentEventTime + " 注册一个3s定时器"); /** * 时间进展到定时器注册的时间，调用该方法 * @param timestamp 定时器被触发时的时间 * @param ctx 上下文 * @param out 采集器 */ @Override public void onTimer(long timestamp, OnTimerContext ctx, Collector<Integer> out) throws Exception { super.onTimer(timestamp, ctx, out); String currentKey = ctx.getCurrentKey(); System.out.println("key: " + currentKey + " 时间: " + timestamp + " 定时器触发"); } } ); process.print(); env.execute(); }

其他

1.注册一个事件时间的定时器

事件时间定时器，通过watermark来触发，即watermark >= 注册的时间水印watermark = 当前最大事件时间 - 等待时间 -1ms 例子：等待3s，3s定时器，事件时间6s 则watermark = 6s - 3s -1ms = 2.99s,不会触发3s的定时器

// 数据中提取出来的事件时间 Long currentEventTime = ctx.timestam // 注册事件时间定时器 timerService.registerEventTimeTimer(3000L); System.out.println("key: " + currentKey + " 当前数据: " + value + " 当前时间: " + currentEventTime + " 注册一个3s定时器");

输入数据如下，当输入7时，水位线是7-3=4s-1ms=3.99s，即水位线超过定时器3s，执行触发回调操作

nc -lk 8086 key1,1 key1,2 key2,3 key2,4 key1,5 key2,6 key1,7

控制台输出：

key: key1 当前数据: (key1,1) 当前时间: 1000 注册一个3s定时器 key: key1 当前数据: (key1,2) 当前时间: 2000 注册一个3s定时器 key: key2 当前数据: (key2,3) 当前时间: 3000 注册一个3s定时器 key: key2 当前数据: (key2,4) 当前时间: 4000 注册一个3s定时器 key: key1 当前数据: (key1,5) 当前时间: 5000 注册一个3s定时器 key: key2 当前数据: (key2,6) 当前时间: 6000 注册一个3s定时器 key: key1 当前数据: (key1,7) 当前时间: 7000 注册一个3s定时器 key: key1 时间: 3000 定时器触发 key: key2 时间: 3000 定时器触发

注意：

TimerService会以键和时间戳为标准，对定时器进行去重，因此对于每个key和时间戳，最多只有一个定时器，如果注册了多次，onTimer()方法也将只被调用一次

2.注册一个处理时间的定时器

long currentTs = timerService.currentProcessingTime(); timerService.registerProcessingTimeTimer(currentTs + 3000L); System.out.println("key: " + currentKey + " 当前数据: " + value + " 当前时间: " + currentTs + " 注册一个3s后的定时器");

输入测试数据如下：

key1,1 key2,2

当注册一个处理时间的定时器，3s后定时器会触发操作

key: key1 当前数据: (key1,1) 当前时间: 1688136512301 注册一个3s后的定时器 key: key2 当前数据: (key2,2) 当前时间: 1688136514179 注册一个3s后的定时器 key: key1 时间: 1688136515301 定时器触发 key: key2 时间: 1688136517179 定时器触发

3.获取process当前watermark

long currentWatermark = timerService.currentWatermark(); System.out.println("当前数据: " + value + " 当前watermark: " + currentWatermark);

key1,1 key1,2 key1,3

结论：每次process处理，watermark是指上一条数据的事件时间-等待时间，例如：3-2-1ms=-1001

当前数据=(key1,1),当前watermark=-9223372036854775808 当前数据=(key1,2),当前watermark=-2001 当前数据=(key1,3),当前watermark=-1001

4.删除一个处理时间定时器

// 注册处理时间定时器 long currentTs = timerService.currentProcessingTime(); long timer = currentTs + 3000; timerService.registerProcessingTimeTimer(timer); System.out.println("key: " + currentKey + " 当前数据: " + value + " 当前时间: " + currentTs + " 注册一个3s后的定时器"); // 在3000毫秒后删除处理时间定时器 if("key1".equals(currentKey)){ timerService.deleteProcessingTimeTimer(timer) }

输入测试数据：

key1,1 key2,2

控制台输出结果：

key: key1 当前数据: (key1,1) 当前时间: 1688138104565 注册一个3s后的定时器 key: key2 当前数据: (key2,2) 当前时间: 1688138106441 注册一个3s后的定时器 key: key2 时间: 1688138109441 定时器触发

窗口处理函数

窗口处理函数就是一种典型的全窗口函数，它是基于WindowedStream直接调用.process()方法

窗口处理函数有2个：

1.ProcessWindowFunction：

开窗之后的处理函数，也是全窗口函数的代表。基于WindowedStream调用.process()时作为参数传入，必须是keyBy的数据流

2.ProcessAllWindowFunction：

同样是开窗之后的处理函数，基于AllWindowedStream调用.process()时作为参数传入，必须是非keyBy的数据流

ProcessWindowFunction介绍

ProcessWindowFunction既是处理函数又是全窗口函数，具体接口如下：

/** * ProcessWindowFunction它有四个类型参数： * @param 数据流中窗口任务的输入数据类型 * @param 窗口任务进行计算之后的输出数据类型 * @param 数据中键key的类型 * @param 窗口的类型，是Window的子类型。一般情况下我们定义时间窗口，W就是TimeWindow */ public abstract class ProcessWindowFunction<IN, OUT, KEY, W extends Window> extends AbstractRichFunction { /** * 处理数据的核心方法process()方法 * * @param key 窗口做统计计算基于的键，也就是之前keyBy用来分区的字段 * @param context 当前窗口进行计算的上下文，它的类型就是ProcessWindowFunction内部定义的抽象类Context * @param elements 窗口收集到用来计算的所有数据，这是一个可迭代的集合类型 * @param out 用来发送数据输出计算结果的收集器，类型为Collector * @throws Exception */ public abstract void process(KEY key, Context context, Iterable<IN> elements, Collector<OUT> out) throws Exception; /** * 主要是进行窗口的清理工作 * 如果自定义了窗口状态，那么必须在clear()方法中进行显式地清除，避免内存溢出 * @param context 当前窗口进行计算的上下文 * @throws Exception */ public void clear(Context context) throws Exception {} }

ProcessAllWindowFunction介绍

ProcessAllWindowFunction的用法类似，不过它是基于AllWindowedStream，也就是对没有keyBy的数据流直接开窗并调用.process()方法

stream.windowAll( TumblingEventTimeWindows.of(Time.seconds(10)) ) .process(new MyProcessAllWindowFunction())

使用示例

以使用ProcessWindowFunction为例说明：

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 从socket接收数据流 SingleOutputStreamOperator<String> source = env.socketTextStream("IP", 8086); // 将输入数据转换为(key, value)元组 DataStream<Tuple2<String, Integer>> dataStream = source.map(new MapFunction<String, Tuple2<String, Integer>>() { @Override public Tuple2 map(String s) throws Exception { int number = Integer.parseInt(s); String key = number % 2 == 0 ? "key1" : "key2"; Tuple2 tuple2 = new Tuple2(key, number); return tuple2; } }).returns(Types.TUPLE(Types.STRING, Types.INT)); // 将数据流按键分组，并定义滚动窗口（处理时间窗口） DataStream<String> resultStream = dataStream .keyBy(tuple -> tuple.f0) .window(TumblingProcessingTimeWindows.of(Time.seconds(5))) .process(new MyProcessWindowFunction()); resultStream.print(); env.execute("ProcessWindowFunction Example"); } public static class MyProcessWindowFunction extends ProcessWindowFunction<Tuple2<String, Integer>, String, String, TimeWindow> { @Override public void process(String key, Context context, Iterable<Tuple2<String, Integer>> elements, Collector<String> out) { int sum = 0; for (Tuple2<String, Integer> element : elements) { sum += element.f1; } out.collect("Key: " + key + ", Window: " + context.window() + ", Sum: " + sum); } }

流的合并处理函数

CoProcessFunction是合并connect两条流之后的处理函数，基于ConnectedStreams调用.process()时作为参数传入

CoProcessFunction介绍

调用.process()时，传入一个CoProcessFunction。它需要实现的就是processElement1()、processElement2()两个方法

CoProcessFunction类具体结构如下：

/** * 用于同时处理两个连接的流 * 它允许定义自定义处理逻辑，以处理来自两个不同输入流的事件并生成输出 * * @param 第一个输入流的元素类型 * @param 第二个输入流的元素类型 * @param 输出元素的类型 */ public abstract class CoProcessFunction<IN1, IN2, OUT> extends AbstractRichFunction { /** * 处理第一个输入流的元素 * * @param value 第一个输入流的元素 * @param ctx 用于访问上下文信息，例如事件时间和状态的Context对象 * @param out 用于发射输出元素的Collector对象 * @throws Exception 处理时可能抛出的异常 */ public abstract void processElement1(IN1 value, Context ctx, Collector<OUT> out) throws Exception; /** * 处理第二个输入流的元素 * * @param value 第二个输入流的元素 * @param ctx 用于访问上下文信息，可以使用Context对象来访问事件时间、水位线和状态等上下文信息 * @param out 用于发射输出元素的Collector对象 * @throws Exception 处理时可能抛出的异常 */ public abstract void processElement2(IN2 value, Context ctx, Collector<OUT> out) throws Exception; /** * 当定时器触发时调用的方法。可以重写这个方法来执行基于时间的操作 * * @param timestamp 触发定时器的时间戳 * @param ctx 用于访问上下文信息，如事件时间和状态的OnTimerContext对象 * @param out 用于发射输出元素的Collector对象 * @throws Exception 处理时可能抛出的异常 */ public void onTimer(long timestamp, OnTimerContext ctx, Collector<OUT> out) throws Exception {} }

使用示例

假设有两个输入流，将这两个流合并计算得到每个key对应的合计，并输出结果流

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStreamSource<Tuple2<String, Integer>> source1 = env.fromElements(Tuple2.of("key1", 1), Tuple2.of("key2", 4), Tuple2.of("key1", 2)); DataStreamSource<Tuple2<String, Integer>> source2 = env.fromElements(Tuple2.of("key1", 3), Tuple2.of("key2", 5), Tuple2.of("key2", 6)); ConnectedStreams<Tuple2<String, Integer>, Tuple2<String, Integer>> connect = source1.connect(source2); // 进行keyby操作，将key相同数据放到一起 ConnectedStreams<Tuple2<String, Integer>, Tuple2<String, Integer>> connectKeyby = connect.keyBy(s1 -> s1.f0, s2 -> s2.f0); /** * 对2个流中相同key的值求和 */ SingleOutputStreamOperator<String> process = connectKeyby.process( new CoProcessFunction<Tuple2<String, Integer>, Tuple2<String, Integer>, String>() { Map<String, Integer> map = new HashMap<>(); /** * 第一条流的处理逻辑 * @param value 第一条流的数据 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void processElement1(Tuple2<String, Integer> value, Context ctx, Collector<String> out) throws Exception { String key = value.f0; if (!map.containsKey(key)) { // 如果key不存在，则将值直接put进map map.put(key, value.f1); } else { // key存在,则计算：获取上一次put的值 + 本次的值 Integer total = map.get(key) + value.f1; map.put(key, total); } out.collect("processElement1 key = " + key + " value = " + value + "total = " + map.get(key)); } /** * 第二条流的处理逻辑 * @param value 第二条流的数据 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void processElement2(Tuple2<String, Integer> value, Context ctx, Collector<String> out) throws Exception { String key = value.f0; if (!map.containsKey(key)) { // 如果key不存在，则将值直接put进map map.put(key, value.f1); } else { // key存在,则计算：获取上一次put的值 + 本次的值 Integer total = map.get(key) + value.f1; map.put(key, total); } out.collect("processElement2 key = " + key + " value = " + value + "total = " + map.get(key)); } } ); process.print(); env.execute(); }

3> processElement1 key = key2 value = (key2,4)total = 4 4> processElement1 key = key1 value = (key1,1)total = 1 4> processElement2 key = key1 value = (key1,3)total = 4 4> processElement1 key = key1 value = (key1,2)total = 6 3> processElement2 key = key2 value = (key2,5)total = 9 3> processElement2 key = key2 value = (key2,6)total = 15

流的联结处理函数

JoinFunction 和 ProcessJoinFunction 是 Flink 中用于执行窗口连接操作的两个不同接口

窗口联结 JoinFunction

Flink为基于一段时间的双流合并专门提供了一个窗口联结算子，可以定义时间窗口，并将两条流中共享一个公共键key的数据放在窗口中进行配对处理。

JoinFunction接口如下：

/** * 联接通过在指定的键上联接两个数据集的元素来组合它们,每对连接元素都调用此函数 * * 默认情况下，连接严格遵循SQL中 “inner join” 的语义 * * @param 第一个输入中元素的类型 * @param 第二个输入中元素的类型 * @param 结果元素的类型 */ public interface JoinFunction<IN1, IN2, OUT> extends Function, Serializable { /** * join方法，每对联接的元素调用一次 * * @param first 来自第一个输入的元素 * @param second 来自第二个输入的元素 * @return 生成的元素 */ OUT join(IN1 first, IN2 second) throws Exception; }

具体语法格式如下：

/** * 1.调用DataStream的.join()方法来合并两条流，得到一个JoinedStreams * 2.通过.where()和.equalTo()方法指定两条流中联结的key。注意：两者相同的元素，如果在同一窗口中，才可以匹配起来 * 3.通过.window()开窗口，并调用.apply()传入联结窗口函数进行处理计算 */ stream1.join(stream2) // where()参数是KeySelector键选择器，用来指定第一条流中的key .where(<KeySelector>) // equalTo()传入KeySelector则指定第二条流中的key .equalTo(<KeySelector>) // window()传入窗口分配器 .window(<WindowAssigner>) // apply()看作实现一个特殊的窗口函数,只能调用.apply()。传入JoinFunction是一个函数类接口，使用时需要实现内部的.join()方法，方法有两个参数，分别表示两条流中成对匹配的数据。 .apply(<JoinFunction>)

示例如下：

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); // 生成数据源1 DataStreamSource<Tuple2<String, Integer>> streamSource1 = env.fromElements(Tuple2.of("a", 1), Tuple2.of("a", 2), Tuple2.of("b", 3), Tuple2.of("c", 4)); // 定义使用 Watermark策略 SingleOutputStreamOperator<Tuple2<String, Integer>> stream1 = streamSource1 .assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Integer>>forMonotonousTimestamps().withTimestampAssigner((value, ts) -> value.f1 * 1000L)); // 生成数据源2 DataStreamSource<Tuple2<String, Integer>> streamSource2 = env.fromElements(Tuple2.of("a", 1), Tuple2.of("a", 2), Tuple2.of("b", 3), Tuple2.of("c", 4), Tuple2.of("d", 5), Tuple2.of("e", 6)); // 定义使用 Watermark策略 SingleOutputStreamOperator<Tuple2<String, Integer>> stream2 = streamSource2 .assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Integer>>forMonotonousTimestamps().withTimestampAssigner((value, ts) -> value.f1 * 1000L)); /** * 根据keyby的key进行匹配关联 * * 注意：落在同一个时间窗口范围内才能匹配 */ DataStream<String> join = stream1.join(stream2) // stream1的keyby .where(r1 -> r1.f0) // stream2的keyby .equalTo(r2 -> r2.f0) // 传入窗口分配器 .window(TumblingEventTimeWindows.of(Time.seconds(10))) // 传入JoinFunction函数类接口，实现内部的.join()方法，方法有两个参数，分别表示两条流中成对匹配的数据 .apply(new JoinFunction<Tuple2<String, Integer>, Tuple2<String, Integer>, String>() { /** * 关联上的数据，调用join方法 * @param first stream1的数据 * @param second stream2的数据 */ @Override public String join(Tuple2<String, Integer> first, Tuple2<String, Integer> second) throws Exception { return "stream1 数据: " + first + " 关联 stream2 数据： " + second; } }); join.print(); env.execute(); }

执行结果如下：

stream1 数据: (a,1) 关联 stream2 数据： (a,1) stream1 数据: (a,1) 关联 stream2 数据： (a,2) stream1 数据: (a,2) 关联 stream2 数据： (a,1) stream1 数据: (a,2) 关联 stream2 数据： (a,2) stream1 数据: (c,4) 关联 stream2 数据： (c,4) stream1 数据: (b,3) 关联 stream2 数据： (b,3)

间隔联结 ProcessJoinFunction

Interval Join即间隔联结，它是针对一条流的每个数据，开辟出其时间戳前后的一段时间间隔，看这期间是否有来自另一条流的数据匹配。

ProcessJoinFunction接口情况如下：

/** * 处理两个连接流的关联操作的抽象类 * 该类允许定义自定义的处理逻辑，以在连接两个流时处理匹配的元素 * * @param 第一个输入流的元素类型 * @param 第二个输入流的元素类型 * @param 输出元素的类型 */ public interface ProcessJoinFunction<IN1, IN2, OUT> { /** * 处理连接两个流的元素 * * @param left 第一个输入流的元素 * @param right 第二个输入流的元素 * @param ctx 用于访问上下文信息的 Context 对象 * @param out 用于发射输出元素的 Collector 对象 * @throws Exception 处理时可能抛出的异常 */ void processElement(IN1 left, IN2 right, Context ctx, Collector<OUT> out) throws Exception; }

间隔联结使用语法如下：

// 第一条流进行KeyedStream stream1 .keyBy(<KeySelector>) // 得到KeyedStream之后，调用.intervalJoin()合并两条流，传入一个KeyedStream参数，两者key类型应该一致，最终得到一个IntervalJoin类型 .intervalJoin(stream2.keyBy(<KeySelector>)) // 通过.between()方法指定间隔的上下界 .between(Time.milliseconds(-2), Time.milliseconds(1)) // 调用.process()方法，定义对匹配数据对的处理操作，传入一个处理函数 .process (new ProcessJoinFunction<Integer, Integer, String(){ @Override public void processElement(Integer left, Integer right, Context ctx, Collector<String> out) { out.collect(left + "," + right); } });

使用示例如下：

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); // 生成数据源1 DataStreamSource<Tuple2<String, Integer>> streamSource1 = env.fromElements(Tuple2.of("a", 1), Tuple2.of("a", 2), Tuple2.of("b", 3), Tuple2.of("c", 4)); // 定义使用 Watermark策略 SingleOutputStreamOperator<Tuple2<String, Integer>> stream1 = streamSource1 .assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Integer>>forMonotonousTimestamps().withTimestampAssigner((value, ts) -> value.f1 * 1000L)); // 生成数据源2 DataStreamSource<Tuple2<String, Integer>> streamSource2 = env.fromElements(Tuple2.of("a", 1), Tuple2.of("a", 2), Tuple2.of("b", 3), Tuple2.of("c", 4), Tuple2.of("d", 5), Tuple2.of("e", 6)); // 定义使用 Watermark策略 SingleOutputStreamOperator<Tuple2<String, Integer>> stream2 = streamSource2 .assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Integer>>forMonotonousTimestamps().withTimestampAssigner((value, ts) -> value.f1 * 1000L)); // 对2条流分别做keyby,key就是关联条件 KeyedStream<Tuple2<String, Integer>, String> keyedStream1 = stream1.keyBy(r1 -> r1.f0); KeyedStream<Tuple2<String, Integer>, String> keyedStream2 = stream2.keyBy(r2 -> r2.f0); // 执行间隔联结 keyedStream1.intervalJoin(keyedStream2) .between(Time.seconds(-2), Time.seconds(2)) .process( new ProcessJoinFunction<Tuple2<String, Integer>, Tuple2<String, Integer>, String>() { /** * 当两条流数据匹配上时调用这个方法 * @param left stream1的数据 * @param right stream2的数据 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void processElement(Tuple2<String, Integer> left, Tuple2<String, Integer> right, Context ctx, Collector<String> out) throws Exception { // 关联的数据 out.collect("stream1 数据: " + left + " 关联 stream2 数据： " + right); } }) .print(); env.execute(); }

stream1 数据: (a,1) 关联 stream2 数据： (a,1) stream1 数据: (a,1) 关联 stream2 数据： (a,2) stream1 数据: (a,2) 关联 stream2 数据： (a,2) stream1 数据: (a,2) 关联 stream2 数据： (a,1) stream1 数据: (b,3) 关联 stream2 数据： (b,3) stream1 数据: (c,4) 关联 stream2 数据： (c,4)

迟到数据的处理

窗口间隔联结处理函数可以实现对迟到数据的处理

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); SingleOutputStreamOperator<Tuple2<String, Integer>> streamSource1 = env.socketTextStream("112.74.96.150", 8086) .map(new MapFunction<String, Tuple2<String, Integer>>() { @Override public Tuple2<String, Integer> map(String value) throws Exception { String[] split = value.split(","); return Tuple2.of(split[0], Integer.valueOf(split[1])); } }) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple2<String, Integer>>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); SingleOutputStreamOperator<Tuple2<String, Integer>> streamSource2 = env.socketTextStream("112.74.96.150", 8087) .map(new MapFunction<String, Tuple2<String, Integer>>() { @Override public Tuple2<String, Integer> map(String value) throws Exception { String[] split = value.split(","); return Tuple2.of(split[0], Integer.valueOf(split[1])); } }) .assignTimestampsAndWatermarks( WatermarkStrategy .<Tuple2<String, Integer>>forBoundedOutOfOrderness(Duration.ofSeconds(3)) .withTimestampAssigner((value, ts) -> value.f1 * 1000L) ); // 对2条流分别做keyby,key就是关联条件 KeyedStream<Tuple2<String, Integer>, String> keyedStream1 = streamSource1.keyBy(r1 -> r1.f0); KeyedStream<Tuple2<String, Integer>, String> keyedStream2 = streamSource2.keyBy(r2 -> r2.f0); // 定义标记操作符的侧面输出 OutputTag<Tuple2<String, Integer>> keyedStream1OutputTag = new OutputTag<>("keyedStream1", Types.TUPLE(Types.STRING, Types.INT)); OutputTag<Tuple2<String, Integer>> keyedStream2OutputTag = new OutputTag<>("keyedStream2", Types.TUPLE(Types.STRING, Types.INT)); // 执行间隔联结 SingleOutputStreamOperator<String> process = keyedStream1.intervalJoin(keyedStream2) // 指定间隔的上界、下界的偏移，负号代表时间往前，正号代表时间往后 // 若keyedStream1中某事件时间为5，则其水位线是5-3=2，其上界是 5-2=3 下界是5+2=7 即2-7这个区间能匹配keyedStream2中事件时间是2-7的数据 .between(Time.seconds(-2), Time.seconds(2)) // 将streamSource1迟到数据，放入侧输出流 .sideOutputLeftLateData(keyedStream1OutputTag) // 将streamSource2迟到数据，放入侧输出流 .sideOutputRightLateData(keyedStream2OutputTag) // 对匹配数据对的处理操作只能处理 join上的数据 .process( new ProcessJoinFunction<Tuple2<String, Integer>, Tuple2<String, Integer>, String>() { /** * 当两条流数据匹配上时调用这个方法 * @param left stream1的数据 * @param right stream2的数据 * @param ctx 上下文 * @param out 采集器 * @throws Exception */ @Override public void processElement(Tuple2<String, Integer> left, Tuple2<String, Integer> right, Context ctx, Collector<String> out) throws Exception { // 进入这个方法，是关联上的数据 out.collect("stream1 数据: " + left + " 关联 stream2 数据： " + right); } }); process.print("主流"); process.getSideOutput(keyedStream1OutputTag).printToErr("streamSource1迟到数据"); process.getSideOutput(keyedStream2OutputTag).printToErr("streamSource2迟到数据"); env.execute(); }

1.2条流数据匹配
若keyedStream1中某事件时间为5，则其水位线是5-3=2，其上界是 5-2=3 下界是5+2=7 即2-7这个区间能匹配keyedStream2中事件时间是2-7的数据

nc -lk 8086 key1,5

nc -lk 8087 key1,3 key1,7 key1,8

主流> stream1 数据: (key1,5) 关联 stream2 数据： (key1,3) 主流> stream1 数据: (key1,5) 关联 stream2 数据： (key1,7)

2.keyedStream2迟到数据
此时，keyedStream1中水位线是5-3=2，keyedStream2中水位线是8-3=5，多并行度下水位线取最小，即取水位线2

在keyedStream2输入事件时间1

nc -lk 8087 key1,3 key1,7 key1,8 key1,1

事件时间1 < 水位线2，且事件时间1被keyedStream1的事件时间5的上界5-2=3与下界5+2=7不包含，即数据不匹配且streamSource2数据迟到

streamSource2迟到数据> (key1,1)

3.keyedStream1迟到数据

keyedStream1输入事件时间7

nc -lk 8086 key1,5 key1,7

此时匹配到streamSource2中的8、7

主流> stream1 数据: (key1,7) 关联 stream2 数据： (key1,8) 主流> stream1 数据: (key1,7) 关联 stream2 数据： (key1,7)

此时，keyedStream1的水位线是7-3=4，keyedStream2的水位线是8-3=5，多并行度下水位线取最小，即取水位线4

keyedStream1输入事件时间3

nc -lk 8086 key1,5 key1,7 key1,3

事件时间3 < 水位线4，且事件时间3被keyedStream2的事件时间3的上界3-2=1与下界3+2=5包含，即数据匹配且streamSource1数据迟到

streamSource1迟到数据> (key1,3)

广播流处理函数

用于连接一个主数据流和多个广播数据流。可以实现processElement 方法来处理主数据流的每个元素，同时可以处理广播数据流，通常用于数据广播和连接。

广播流处理函数有2个：

1.BroadcastProcessFunction：

广播连接流处理函数，基于BroadcastConnectedStream调用.process()时作为参数传入。它是一个未keyBy的普通DataStream与一个广播流BroadcastStream做连接之后的产物

2.KeyedBroadcastProcessFunction：

按键分区的广播连接流处理函数，同样是基于BroadcastConnectedStream调用.process()时作为参数传入。它是一个KeyedStream与广播流做连接

KeyedBroadcastProcessFunction

/** * @param 输入键控流的键类型 * @param 键控 (非广播) 端的输入类型 * @param 广播端的输入类型 * @param 运算符的输出类型 */ public abstract class KeyedBroadcastProcessFunction<KS, IN1, IN2, OUT> extends BaseBroadcastProcessFunction { private static final long serialVersionUID = -2584726797564976453L; /** * (非广播) 的键控流中的每个元素调用此方法 * * @param value 流元素 * @param ctx 允许查询元素的时间戳、查询当前处理/事件时间以及以只读访问迭代广播状态 * @param out 将结果元素发出 */ public abstract void processElement( final IN1 value, final ReadOnlyContext ctx, final Collector<OUT> out) throws Exception; /** * 针对broadcast stream中的每个元素调用该方法 * * @param value stream元素 * @param ctx 上下文许查询元素的时间戳、查询当前处理/事件时间和更新广播状态 * @param out 将结果元素发射到 */ public abstract void processBroadcastElement( final IN2 value, final Context ctx, final Collector<OUT> out) throws Exception; /** * 当使用TimerService设置的计时器触发时调用 * * @param timestamp 触发计时器的时间戳 * @param ctx 上下文 * @param out 返回结果值的收集器 */ public void onTimer(final long timestamp, final OnTimerContext ctx, final Collector<OUT> out) throws Exception { } }

BroadcastProcessFunction

BroadcastProcessFunction与KeyedBroadcastProcessFunction类似，不过它是基于AllWindowedStream，也就是对没有keyBy的数据流直接开窗并调用.process()方法

public abstract class BroadcastProcessFunction<IN1, IN2, OUT> extends BaseBroadcastProcessFunction { public abstract void processElement( final IN1 value, final ReadOnlyContext ctx, final Collector<OUT> out) throws Exception; public abstract void processBroadcastElement(final IN2 value, final Context ctx, final Collector<OUT> out) throws Exception; }

使用示例

以使用KeyedBroadcastProcessFunction为例说明：

public class KeyedBroadcastProcessFunctionExample { /** * 主流数据对象 */ @Data @AllArgsConstructor @NoArgsConstructor public static class MainRecord { private String key; private int value; } /** * 广播流数据对象 */ @Data @AllArgsConstructor @NoArgsConstructor public static class BroadcastRecord { private String configKey; private int configValue; } /** * 结果数据对象 */ @Data @AllArgsConstructor @NoArgsConstructor public static class ResultRecord { private String key; private int result; } // 使用给定的名称和给定的类型信息新建一个MapStateDescriptor static MapStateDescriptor<String, Integer> mapStateDescriptor = new MapStateDescriptor<>("broadcastState", String.class, Integer.class); public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 创建主数据流 DataStream<MainRecord> mainStream = env.fromElements( new MainRecord("A", 10), new MainRecord("B", 20), new MainRecord("A", 30) ); // 创建广播数据流 DataStream<BroadcastRecord> broadcastStream = env.fromElements( new BroadcastRecord("config", 5) ); // 将广播数据流转化为 BroadcastStream BroadcastStream<BroadcastRecord> broadcast = broadcastStream.broadcast(mapStateDescriptor); // 使用 KeyedBroadcastProcessFunction 连接主数据流和广播数据流 DataStream<ResultRecord> resultStream = mainStream .keyBy(new MainRecordKeySelector()) .connect(broadcast) .process(new MyKeyedBroadcastProcessFunction()); resultStream.print(); env.execute("KeyedBroadcastProcessFunction Example"); } /** * 使用提供的键对其运算符状态进行分区 */ public static class MainRecordKeySelector implements KeySelector<MainRecord, String> { @Override public String getKey(MainRecord mainRecord) { return mainRecord.getKey(); } } /** * */ public static class MyKeyedBroadcastProcessFunction extends KeyedBroadcastProcessFunction<String, MainRecord, BroadcastRecord, ResultRecord> { @Override public void processBroadcastElement(BroadcastRecord value, Context ctx, Collector<ResultRecord> out) throws Exception { // 通过上下文获取广播状态 BroadcastState<String, Integer> broadcastState = ctx.getBroadcastState(mapStateDescriptor); // 处理广播数据流中的每个元素，更新广播状态 broadcastState.put(value.getConfigKey(), value.getConfigValue()); } @Override public void processElement(MainRecord value, ReadOnlyContext ctx, Collector<ResultRecord> out) throws Exception { // 在 processElement 中访问广播状态 ReadOnlyBroadcastState<String, Integer> broadcastState = ctx.getBroadcastState(mapStateDescriptor); // 从广播状态中获取配置值 Integer configValue = broadcastState.get("config"); // 注意：刚启动时，可能是数据流的第1 2 3...条数据先来不是广播流先来 if (configValue == null) { return; } System.out.println(String.format("主数据流的Key: %s, value: %s, 广播更新结果: %s", value.key, value.value, value.value + configValue)); // 根据配置值和主数据流中的元素执行处理逻辑 int result = value.getValue() + configValue; // 发出结果记录 out.collect(new ResultRecord(value.getKey(), result)); } } }

主数据流的Key: A, value: 10, 广播更新结果: 15 主数据流的Key: B, value: 20, 广播更新结果: 25 2> KeyedBroadcastProcessFunctionExample.ResultRecord(key=B, result=25) 7> KeyedBroadcastProcessFunctionExample.ResultRecord(key=A, result=15) 主数据流的Key: A, value: 30, 广播更新结果: 35 7> KeyedBroadcastProcessFunctionExample.ResultRecord(key=A, result=35)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

Flink之常用处理函数

常用处理函数

处理函数

概述

基本处理函数

ProcessFunction介绍

使用示例

按键分区处理函数

KeyedProcessFunction介绍

定时器Timer和定时服务TimerService

使用示例

其他

窗口处理函数

ProcessWindowFunction介绍

ProcessAllWindowFunction介绍

使用示例

流的合并处理函数

CoProcessFunction介绍

使用示例

流的联结处理函数

窗口联结 JoinFunction

间隔联结 ProcessJoinFunction

迟到数据的处理

广播流处理函数

KeyedBroadcastProcessFunction

BroadcastProcessFunction

使用示例

你可能感兴趣的:(#,Flink,flink,java,大数据)