CodeDevMaster

Flink之Window窗口机制

窗口Window机制

窗口概述
窗口的分类
- 是否按键分区
- - 按键分区窗口
  - 非按键分区
- 按照驱动类型
- 按具体分配规则
- - 滚动窗口Tumbling Windows
  - 滑动窗口 Sliding Windows
  - 会话窗口 Session Windows
  - 全局窗口 Global Windows
时间语义
窗口分配器 Window Assigners
- 时间窗口
- 计数窗口
- 例子
窗口函数 Window Functions
- 增量聚合函数
- - ReduceFunction
  - AggregateFunction
- 全窗/全量口函数
- - WindowFunction
  - ProcessWindowFunction
  - 增量聚合和全窗口函数的结合
其他
- 触发器 Trigger
- 移除器 Evictor

窗口概述

在大多数场景下，需要统计的数据流都是无界的，因此无法等待整个数据流终止后才进行统计。通常情况下，只需要对某个时间范围或者数量范围内的数据进行统计分析

例如：

每隔10分钟统计一次过去30分钟内某个对象的点击量

每发生100次点击后，就去统计一下每个对象点击率的占比

因此，在Apache Flink中，窗口是对无界数据流进行有界处理的机制。窗口可以将无限的数据流划分为有限的、可处理的块，使得可以基于这些有限的数据块执行聚合、计算和分析操作。

窗口的分类

是否按键分区

在定义窗口操作之前，首先需要确定，到底是基于按键分区的数据流KeyedStream来开窗，还是直接在没有按键分区的DataStream上开窗。

两者区别：

1.keyed streams要调用keyBy(...)后再调用window(...) ， 而non-keyed streams只用直接调用windowAll(...)

2.对于keyed stream，其中数据的任何属性都可以作为key。 允许窗口计算由多个task并行，因为每个逻辑上的 keyed stream都可以被单独处理。 属于同一个key的元素会被发送到同一个 task。

3.对于non-keyed stream，原始的stream不会被分割为多个逻辑上的stream， 所有的窗口计算会被同一个 task完成，也就是parallelism为1

按键分区窗口

经过按键分区keyBy操作后，数据流会按照key被分为多条逻辑流，这就是KeyedStream。

基于KeyedStream进行窗口操作时，窗口计算会在多个并行子任务上同时执行。

相同key的数据会被发送到同一个并行子任务，而窗口操作会基于每个key进行单独的处理。

所以可以认为，每个key上都定义了一组窗口，各自独立地进行统计计算。

按键分区窗口写法：

stream
       .keyBy(...)               <-  仅 keyed 窗口需要
       .window(...)              <-  必填项："assigner"
      [.trigger(...)]            <-  可选项："trigger" (省略则使用默认 trigger)
      [.evictor(...)]            <-  可选项："evictor" (省略则不使用 evictor)
      [.allowedLateness(...)]    <-  可选项："lateness" (省略则为 0)
      [.sideOutputLateData(...)] <-  可选项："output tag" (省略则不对迟到数据使用 side output)
       .reduce/aggregate/apply()      <-  必填项："function"
      [.getSideOutput(...)]      <-  可选项："output tag"

代码示例：

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);


        // 将输入数据转换为(key, value)元组
        DataStream<Tuple2<String, Integer>> dataStream = source.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2 map(String s) throws Exception {
                int number = Integer.parseInt(s);
                String key = number % 2 == 0 ? "key1" : "key2";
                Tuple2 tuple2 = new Tuple2(key, number);
                return tuple2;
            }
        }).returns(Types.TUPLE(Types.STRING, Types.INT));

        // keyBy操作
        KeyedStream<Tuple2<String, Integer>, String> keyBy = dataStream.keyBy(new KeySelector<Tuple2<String, Integer>, String>() {
            @Override
            public String getKey(Tuple2<String, Integer> tuple2) throws Exception {
                return tuple2.f0;
            }
        });

        // 每10秒统计一次数量和
        SingleOutputStreamOperator<Tuple2<String, Integer>> streamOperator = keyBy.window(TumblingProcessingTimeWindows.of(Time.seconds(10))).sum(1);

        streamOperator.print();
        env.execute();
    }

发送测试数据

[root@administrator ~]# nc -lk 8086
1
2
3
4

等待10秒后,控制台打印如下

(key2,4)
(key1,6)

非按键分区

如果没有进行keyBy，那么原始的DataStream就不会分成多条逻辑流。这时窗口逻辑只能在一个任务task上执行，就相当于并行度变成了1。

非按键分区窗口写法：

stream
       .windowAll(...)           <-  必填项："assigner"
      [.trigger(...)]            <-  可选项："trigger" (else default trigger)
      [.evictor(...)]            <-  可选项："evictor" (else no evictor)
      [.allowedLateness(...)]    <-  可选项："lateness" (else zero)
      [.sideOutputLateData(...)] <-  可选项："output tag" (else no side output for late data)
       .reduce/aggregate/apply()      <-  必填项："function"
      [.getSideOutput(...)]      <-  可选项："output tag"

代码示例：

public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);

         // 将输入数据转换为Integer
        DataStream<Integer> dataStream = source.map(str -> Integer.parseInt(str));

        // 每10秒统计一次数量和
        SingleOutputStreamOperator<Integer> streamOperator = dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10))).sum(0);

        streamOperator.print();
        env.execute();
    }

按照驱动类型

窗口按照驱动类型可以分成时间窗口和计数窗口，这两种窗口类型根据其触发机制和边界规则的不同，适用于不同的应用场景。

时间窗口 Time Windows：

时间窗口根据事件时间Event Time或处理时间Processing Time来划分

时间窗口根据时间的进展划分数据流，当一个窗口的时间到达或窗口中的元素数量达到阈值时，触发窗口计算

计数窗口 Count Windows：

计数窗口根据元素的数量或元素的增量来划分

计数窗口在数据流中累积固定数量的元素后，触发窗口计算

窗口的大小可以是固定的，也可以是动态变化的，取决于所设置的阈值和策略

按具体分配规则

窗口按照具体的分配规则，又有滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）、会话窗口（Session Window），以及全局窗口（Global Window）。

滚动窗口Tumbling Windows

滚动窗口将数据流划分为固定大小的、不重叠的窗口。

例如：将数据流按照5秒的滚动窗口大小进行划分，每个窗口包含5秒的数据。那么每5秒就会有一个窗口被计算，且一个新的窗口被创建

代码示例：

DataStream<T> input = ...;

// 滚动 event-time 窗口
input
    .keyBy(<key selector>)
    // 间间隔可以用 Time.milliseconds(x)、Time.seconds(x)、Time.minutes(x) 等来指定
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .<windowed transformation>(<window function>);

// 滚动 processing-time 窗口
input
    .keyBy(<key selector>)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
    .<windowed transformation>(<window function>);

// 长度为一天的滚动 event-time 窗口， 偏移量为 -8 小时。
input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8)))
    .<windowed transformation>(<window function>);

滑动窗口 Sliding Windows

滑动窗口将数据流划分为固定大小的窗口，窗口大小通过window size参数设置，需要一个额外的滑动距离window slide参数来控制生成新窗口的频率。

如果slide小于窗口大小，滑动窗口可以允许窗口重叠。这种情况下，一个元素可能会被分发到多个窗口。

例如：将数据流按照5秒的滑动窗口大小和3秒的滑动步长进行划分，窗口之间有2秒的重叠。

DataStream<T> input = ...;

// 滑动 event-time 窗口
input
    .keyBy(<key selector>)
    .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .<windowed transformation>(<window function>);

// 滑动 processing-time 窗口
input
    .keyBy(<key selector>)
    .window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .<windowed transformation>(<window function>);

// 滑动 processing-time 窗口，偏移量为 -8 小时
input
    .keyBy(<key selector>)
    .window(SlidingProcessingTimeWindows.of(Time.hours(12), Time.hours(1), Time.hours(-8)))
    .<windowed transformation>(<window function>);

会话窗口 Session Windows

与滚动窗口和滑动窗口不同，会话窗口不会相互重叠，且没有固定的开始或结束时间。会话窗口在一段时间没有收到数据之后会关闭，即在一段不活跃的间隔之后。

如果会话窗口有一段时间没有收到数据, 会话窗口会自动关闭, 这段没有收到数据的时间就是会话窗口的gap(间隔)

可以配置静态的gap, 也可以通过一个gap extractor函数来定义gap的长度

当时间超过了这个gap, 当前的会话窗口就会关闭, 后序的元素会被分配到一个新的会话窗口

DataStream<T> input = ...;

// 设置了固定间隔的 event-time 会话窗口
input
    .keyBy(<key selector>)
    .window(EventTimeSessionWindows.withGap(Time.minutes(10)))
    .<windowed transformation>(<window function>);
    
// 设置了动态间隔的 event-time 会话窗口
input
    .keyBy(<key selector>)
    .window(EventTimeSessionWindows.withDynamicGap((element) -> {
        // 决定并返回会话间隔
    }))
    .<windowed transformation>(<window function>);

// 设置了固定间隔的 processing-time session 窗口
input
    .keyBy(<key selector>)
    .window(ProcessingTimeSessionWindows.withGap(Time.minutes(10)))
    .<windowed transformation>(<window function>);
    
// 设置了动态间隔的 processing-time 会话窗口
input
    .keyBy(<key selector>)
    .window(ProcessingTimeSessionWindows.withDynamicGap((element) -> {
        // 决定并返回会话间隔
    }))
    .<windowed transformation>(<window function>);

全局窗口 Global Windows

全局窗口将整个数据流作为一个窗口进行处理，不进行分割。全局窗口适用于需要在整个数据流上执行聚合操作的场景。

DataStream<T> input = ...;

input
    .keyBy(<key selector>)
    .window(GlobalWindows.create())
    .<windowed transformation>(<window function>);

时间语义

在Flink的流式操作中, 会涉及不同的时间概念，即时间语义，它是指在数据处理中确定事件的时间基准的机制。

在实时数据流处理中，常见的时间语义有以下三种：

1.处理时间（Processing Time）：

处理时间是指数据处理引擎的本地时钟时间，也称为机器时间或系统时间

使用处理时间时，事件的时间顺序是根据数据到达处理引擎的顺序来确定的

处理时间是一种简单和实时性较高的时间语义，但不考虑数据可能存在的延迟或乱序

2.事件时间（Event Time）：

事件时间是数据流中记录的实际时间，通常是数据本身携带的时间戳

使用事件时间时，数据记录的时间戳决定事件在时间轴上的顺序，而不受数据到达引擎的顺序影响

事件时间是一种准确和可重现的时间语义，能够处理延迟和乱序数据，但可能需要关注水印的处理

3.摄取时间（Ingestion Time）：

注意：较新版本的Flink已经弃用，推荐使用事件时间

摄取时间是数据进入数据处理引擎的时间

使用摄取时间时，数据到达引擎的顺序决定事件的时间顺序

摄取时间是介于处理时间和事件时间之间的折中方案。它可以处理一定程度的延迟和乱序数据，但不会像事件时间那样需要处理水印。

区别：

处理时间适用于实时性要求较高、不关心事件的顺序和时间戳的场景

事件时间适用于需要准确处理事件顺序和考虑延迟、乱序数据的场景

摄取时间提供了某种程度上的准确性和实时性折中

窗口分配器 Window Assigners

在Apache Flink中，窗口分配器（Window Assigner）用于定义如何将数据流中的元素分配到窗口。窗口分配器确定了窗口的边界以及如何对元素进行分组和分配

窗口分配器最通用的定义方式:

如果是按键分区窗口, 直接调用.keyBy().window()方法,传入一个WindowAssigner作为参数，返回WindowedStream。

如果是非按键分区窗口，直接调用.windowAll()方法，传入一个WindowAssigner，返回的是AllWindowedStream。

时间窗口

时间窗口是最常用的窗口类型，可以大致细分为滚动、滑动和会话三种。

1.滚动处理时间窗口

窗口分配器由类TumblingProcessingTimeWindows提供，需要调用它的静态方法.of()，需要传入一个Time类型的参数size，表示滚动窗口的大小

// 非按键分区 滚动事件时间窗口，窗口长度10s。每10秒操作一次
dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10)));

// 按键分区
dataStream.keyBy().window(TumblingProcessingTimeWindows.of(Time.seconds(10)));

2.滚动事件时间窗口

窗口分配器由类TumblingEventTimeWindows提供，用法与滚动处理事件窗口完全一致。

dataStream.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)));

3.滑动处理时间窗口

窗口分配器由类SlidingProcessingTimeWindows提供，同样需要调用它的静态方法.of()，需要传入两个Time类型的参数：size和slide，前者表示滑动窗口的大小，后者表示滑动窗口的滑动步长

//  窗口长度10s，滑动步长2s。 每2秒滑动一次，窗口大小为10秒的滑动时间窗口，并对窗口中的元素进行操作。
dataStream.windowAll(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(2)));

4.滑动事件时间窗口

窗口分配器由类SlidingEventTimeWindows提供，用法与滑动处理事件窗口完全一致

dataStream.windowAll(SlidingEventTimeWindows.of(Time.seconds(10)，Time.seconds(5)));

5.处理时间会话窗口

窗口分配器由类ProcessingTimeSessionWindows提供，需要调用它的静态方法withGap()或者withDynamicGap()。需要传入一个Time类型的参数size，表示会话的超时时间

// 会话窗口，超时间隔5s
dataStream.windowAll(ProcessingTimeSessionWindows.withGap(Time.seconds(5)));

6.事件时间会话窗口

窗口分配器由类EventTimeSessionWindows提供，用法与处理事件会话窗口完全一致。

dataStream.windowAll(EventTimeSessionWindows.withGap(Time.seconds(10)));

计数窗口

1.滚动计数窗口

滚动计数窗口只需要传入一个长整型的参数size，表示窗口的大小。

当窗口中元素数量达到size时，就会触发计算执行并关闭窗口。

// 滚动窗口，窗口长度2个元素
dataStream.countWindowAll(2);

2.滑动计数窗口

在countWindow()调用时传入两个参数：size和slide，前者表示窗口大小，后者表示滑动步长。

每个窗口统计size个数据，每隔slide个数据就统计输出一次结果。

 // 滑动窗口，窗口长度2个元素，滑动步长2个元素
dataStream.countWindowAll(5,2);

3.全局窗口

全局窗口是计数窗口的底层实现，一般在需要自定义窗口时使用。它的定义同样是直接调用.window()，分配器由GlobalWindows类提供。

// 全局窗口，需要自定义的时候才会用
dataStream.windowAll(GlobalWindows.create());

dataStream.keyBy().window(GlobalWindows.create());

注意：使用全局窗口必须自行定义触发器才能实现窗口计算，否则不起作用。

例子

 public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);

        // 将输入数据转换为Integer
        DataStream<Integer> dataStream = source.map(str -> Integer.parseInt(str));

        // 时间窗口示例：滚动处理时间窗口，窗口长度10s。 每10秒统计一次数量和
        SingleOutputStreamOperator<Integer> streamOperator = dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10))).sum(0);

        streamOperator.print();
        env.execute();
    }

发送测试数据

[root@administrator ~]# nc -lk 8086
1
2
3
4

等待10秒后,控制台打印如下

窗口函数 Window Functions

定义了window assigner之后，需要指定当窗口触发之后，如何计算每个窗口中的数据，这就是window function的职责

窗口函数是在窗口操作中应用于窗口中元素的函数。Flink提供了丰富的窗口函数，用于对窗口中的元素进行各种操作和计算。

根据处理的方式可以分为两类：增量聚合函数和全窗/全量口函数，它们是Flink中用于窗口计算的两种不同的函数。

增量聚合函数

增量聚合函数是指对窗口中的数据进行累积计算的函数。它会在每个元素到达窗口时进行计算，并且仅保留窗口计算所需的中间状态。这种方式可以显著提高计算性能，尤其适用于大规模数据和长窗口的情况。

对于增量聚合函数，Flink 提供了一系列内置的聚合函数，例如 sum、min、max、avg等，它们的底层，其实都是通过AggregateFunction来实现的。还可以通过实现 AggregateFunction接口来定义自定义的增量聚合函数。

典型的增量聚合函数有两个：ReduceFunction和AggregateFunction。

ReduceFunction

ReduceFunction指定两条输入数据如何合并起来产生一条输出数据，输入和输出数据的类型必须相同。

  public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);

        // 将输入数据转换为Integer
        DataStream<Integer> dataStream = source.map(str -> Integer.parseInt(str));

        // 指定窗口分配器
        AllWindowedStream<Integer, TimeWindow> allWindowedStream = dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10)));

        // 指定窗口函数，使用 增量聚合Reduce
        SingleOutputStreamOperator<Integer> reduce = allWindowedStream.reduce(
                new ReduceFunction<Integer>() {
                    @Override
                    public Integer reduce(Integer value1, Integer value2) throws Exception {
                        System.out.println("前一个值： " + value1 + " ,后一个值：" + value2);
                        return value1 + value2;
                    }
                }
        );
		// 在窗口触发的时候，才会输出窗口的最终计算结果
        reduce.print();
        env.execute();
    }

发送测试数据：

[root@administrator ~]#  nc -lk 8086
1
2
3
4
5

控制台输出：

前一个值： 1 ,后一个值：2
前一个值： 3 ,后一个值：3
前一个值： 6 ,后一个值：4
前一个值： 10 ,后一个值：5
15

AggregateFunction

ReduceFunction接口存在一个限制：聚合状态的类型、输出结果的类型都必须和输入数据类型一样。聚合函数则突破了这个限制，可以定义更加灵活的窗口聚合操作。

AggregateFunction函数接口方法参数有三种类型：输入类型（IN）、累加器类型（ACC）和输出类型（OUT）。

输入类型IN就是输入流中元素的数据类型

累加器类型ACC则是我们进行聚合的中间状态类型

而输出类型当然就是最终计算结果的类型

接口中有四个方法：

createAccumulator()：创建一个累加器，这就是为聚合创建了一个初始状态，每个聚合任务只会调用一次

add()：将输入的元素添加到累加器中

getResult()：从累加器中提取聚合的输出结果

merge()：合并两个累加器，并将合并后的状态作为一个累加器返回

与ReduceFunction相同，AggregateFunction也是增量式的聚合，而由于输入、中间状态、输出的类型可以不同，使得应用更加灵活方便。

   public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);


        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);

        // 将输入数据转换为Integer
        DataStream<Integer> dataStream = source.map(str -> Integer.parseInt(str));

        // 指定窗口分配器
        AllWindowedStream<Integer, TimeWindow> allWindowedStream = dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10)));

        // 窗口函数 增量聚合 Aggregate
        SingleOutputStreamOperator<String> aggregate = allWindowedStream.aggregate(new MyAggregateFunction());

        aggregate.print();
        env.execute();
    }


    /**
     * 第一个类型： 输入数据的类型
     * 第二个类型： 累加器的类型，存储的中间计算结果的类型
     * 第三个类型： 输出的类型
     */
    public static class MyAggregateFunction implements AggregateFunction<Integer, Integer, String> {
        /**
         * 创建累加器，初始化累加器
         *
         * @return
         */
        @Override
        public Integer createAccumulator() {
            System.out.println("createAccumulator方法执行");
            return 0;
        }

        /**
         * 聚合逻辑
         * 来一条计算一条，调用一次add方法
         *
         * @param value       当前值
         * @param accumulator 累加器的值
         * @return
         */
        @Override
        public Integer add(Integer value, Integer accumulator) {
            System.out.println("add方法执行，当前值 ：" + value + "累加器值 ：" + accumulator);
            return value + accumulator;
        }

        /**
         * 获取最终结果，窗口触发时输出
         *
         * @param accumulator
         * @return
         */
        @Override
        public String getResult(Integer accumulator) {
            System.out.println("getResult方法执行");
            return "最终计算值：" + accumulator;
        }

        @Override
        public Integer merge(Integer a, Integer b) {
            // 只有会话窗口才会用到
            System.out.println("merge方法执行");
            return null;
        }
    }

发送测试数据：

[root@administrator ~]#  nc -lk 8086
1
2
3
4
5

控制台输出：

createAccumulator方法执行
add方法执行，当前值 ：1累加器值 ：0
add方法执行，当前值 ：2累加器值 ：1
add方法执行，当前值 ：3累加器值 ：3
add方法执行，当前值 ：4累加器值 ：6
add方法执行，当前值 ：5累加器值 ：10
getResult方法执行
最终计算值：15

全窗/全量口函数

全窗口函数是对窗口中的所有元素进行计算的函数。它会在窗口触发时对窗口中的所有元素进行处理，并输出一个或多个结果。全窗口函数可以访问窗口的所有元素，并且可以使用窗口中的状态信息。

对于全窗口函数，Flink提供了 ProcessWindowFunction 和 WindowFunction 两个接口供用户使用。

ProcessWindowFunction: 可以处理每个元素，并输出零个、一个或多个结果

WindowFunction: 是一个转换函数，对窗口的所有元素进行转换，并输出一个或多个结果。

与增量聚合函数不同，全窗口函数需要先收集窗口中的数据，并在内部缓存起来，等到窗口要输出结果的时候再取出数据进行计算。

WindowFunction

public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);

        // 将输入数据转换为(key, value)元组
        DataStream<Tuple2<String, Integer>> dataStream = source.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2 map(String s) throws Exception {
                int number = Integer.parseInt(s);
                String key = number % 2 == 0 ? "key1" : "key2";
                Tuple2 tuple2 = new Tuple2(key, number);
                return tuple2;
            }
        }).returns(Types.TUPLE(Types.STRING, Types.INT));

        // keyBy操作
        KeyedStream<Tuple2<String, Integer>, String> keyedStream = dataStream.keyBy(new KeySelector<Tuple2<String, Integer>, String>() {
            @Override
            public String getKey(Tuple2<String, Integer> tuple2) throws Exception {
                return tuple2.f0;
            }
        });

        // 指定窗口分配器 非键分区窗口
//        AllWindowedStream allWindowedStream = dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10)));
        // 键分区窗口
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowedStream = keyedStream.window(TumblingProcessingTimeWindows.of(Time.seconds(10)));

        // 使用WindowFunction窗口函数
        SingleOutputStreamOperator<String> apply = windowedStream.apply(new MyWindowFunction());

        apply.print();
        env.execute();
    }

    /**
     * 窗口函数
     * 
     * 窗口触发时才会调用一次，统一计算窗口的所有数据
     */
    public static class MyWindowFunction implements WindowFunction<Tuple2<String, Integer>, String, String, TimeWindow> {
        /**
         * @param s      分组的key,非键分区窗口则无该参数
         * @param window 窗口对象
         * @param input  存的数据
         * @param out    采集器
         */
        @Override
        public void apply(String s, TimeWindow window, Iterable<Tuple2<String, Integer>> input, Collector<String> out) throws Exception {
            // 上下文拿到window对象，获取相关信息
            long start = window.getStart();
            long end = window.getEnd();
            String windowStart = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss");
            String windowEnd = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss");

            long count = input.spliterator().estimateSize();

            out.collect("分组 " + s + " 的窗口,在时间区间： " + windowStart + "-" + windowEnd + " 产生" + count + "条数据,具体数据：" + input.toString());
        }
    }

]# nc -lk 8086
1
2
3
4
5

分组 key2 的窗口,在时间区间： 2023-06-27 16:50:10-2023-06-27 16:50:20 产生3条数据,具体数据：[(key2,1), (key2,3), (key2,5)]
分组 key1 的窗口,在时间区间： 2023-06-27 16:50:10-2023-06-27 16:50:20 产生2条数据,具体数据：[(key1,2), (key1,4)]

ProcessWindowFunction

  // 使用ProcessWindowFunction处理窗口函数
        SingleOutputStreamOperator<String> process = windowedStream.process(new MyProcessWindowFunction());

    /**
     * 处理窗口函数
     * 
     * 窗口触发时才会调用一次，统一计算窗口的所有数据
     */
    public static class MyProcessWindowFunction extends ProcessWindowFunction<Tuple2<String, Integer>, String, String, TimeWindow> {
        /**
         * @param s       分组的key,非键分区窗口则无该参数
         * @param context 上下文
         * @param input   存的数据
         * @param out     采集器
         * @throws Exception
         */
        @Override
        public void process(String s, Context context, Iterable<Tuple2<String, Integer>> input, Collector<String> out) throws Exception {
            // 上下文拿到window对象，获取相关信息
            long start = context.window().getStart();
            long end = context.window().getEnd();
            String windowStart = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss");
            String windowEnd = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss");

            long count = input.spliterator().estimateSize();

            out.collect("分组 " + s + " 的窗口,在时间区间： " + windowStart + "-" + windowEnd + " 产生" + count + "条数据,具体数据：" + input.toString());
        }
    }

增量聚合和全窗口函数的结合

在调用窗口的增量聚合函数方法时，第一个参数直接传入一个ReduceFunction或AggregateFunction进行增量聚合，第二个参数传入一个全窗口函数WindowFunction或者ProcessWindowFunction。

基于第一个参数（增量聚合函数）来处理窗口数据，每来一个数据就做一次聚合

等到窗口需要触发计算时，则调用第二个参数（全窗口函数）的处理逻辑输出结果

注意这里的全窗口函数就不再缓存所有数据了，而是直接将增量聚合函数的结果拿来当作了Iterable类型的输入

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        // 从socket接收数据流
        SingleOutputStreamOperator<String> source = env.socketTextStream("node01", 8086);

        // 将输入数据转换为Integer
        DataStream<Integer> dataStream = source.map(str -> Integer.parseInt(str));

        // 指定窗口分配器 非键分区窗口
        AllWindowedStream<Integer, TimeWindow> allWindowedStream = dataStream.windowAll(TumblingProcessingTimeWindows.of(Time.seconds(10)));

        // 使用ProcessWindowFunction处理窗口函数
        SingleOutputStreamOperator<String> process = allWindowedStream.aggregate(new MyAggregateFunction(), new MyProcessWindowFunction());


        process.print();
        env.execute();
    }

    /**
     * 第一个类型： 输入数据的类型
     * 第二个类型： 累加器的类型，存储的中间计算结果的类型
     * 第三个类型： 输出的类型
     */
    public static class MyAggregateFunction implements AggregateFunction<Integer, Integer, String> {
        /**
         * 创建累加器，初始化累加器
         *
         * @return
         */
        @Override
        public Integer createAccumulator() {
            System.out.println("createAccumulator方法执行");
            return 0;
        }

        /**
         * 聚合逻辑
         * 来一条计算一条，调用一次add方法
         *
         * @param value       当前值
         * @param accumulator 累加器的值
         * @return
         */
        @Override
        public Integer add(Integer value, Integer accumulator) {
            System.out.println("add方法执行，当前值 ：" + value + " 累加器值 ：" + accumulator);
            return value + accumulator;
        }

        /**
         * 获取最终结果，窗口触发时输出
         *
         * @param accumulator
         * @return
         */
        @Override
        public String getResult(Integer accumulator) {
            System.out.println("getResult方法执行");
            return "最终计算值：" + accumulator;
        }

        @Override
        public Integer merge(Integer a, Integer b) {
            // 只有会话窗口才会用到
            System.out.println("merge方法执行");
            return null;
        }
    }

    /**
     * 处理窗口函数
     * 
     * 窗口触发时才会调用一次，统一计算窗口的所有数据
     * 
     * 注意：增量聚合函数的输出类型 是 全窗口函数的输入类型
     */
    public static class MyProcessWindowFunction extends ProcessAllWindowFunction<String, String, TimeWindow> {
        /**
         * @param context 上下文
         * @param input   存的数据
         * @param out     采集器
         * @throws Exception
         */
        @Override
        public void process(Context context, Iterable<String> input, Collector<String> out) throws Exception {
            // 上下文拿到window对象，获取相关信息
            long start = context.window().getStart();
            long end = context.window().getEnd();
            String windowStart = DateFormatUtils.format(start, "yyyy-MM-dd HH:mm:ss");
            String windowEnd = DateFormatUtils.format(end, "yyyy-MM-dd HH:mm:ss");

            long count = input.spliterator().estimateSize();

            out.collect("窗口在时间区间： " + windowStart + "-" + windowEnd + " 产生" + count + "条数据,具体数据：" + input.toString());
        }
    }

createAccumulator方法执行
add方法执行，当前值 ：1 累加器值 ：0
add方法执行，当前值 ：2 累加器值 ：1
add方法执行，当前值 ：3 累加器值 ：3
add方法执行，当前值 ：4 累加器值 ：6
add方法执行，当前值 ：5 累加器值 ：10
getResult方法执行
窗口在时间区间： 2023-06-27 17:07:50-2023-06-27 17:08:00 产生1条数据,具体数据：[最终计算值：15]

其他

触发器 Trigger

Trigger决定了一个窗口（由windowassigner定义）何时可以被windowfunction处理。每个WindowAssigner都有一个默认的Trigger。如果默认trigger无法满足需要，可以在trigger(…)调用中指定自定义的trigger。

Trigger接口提供了五个方法来响应不同的事件：

onElement()方法在每个元素被加入窗口时调用

onEventTime()方法在注册的event-timetimer触发时调用

onProcessingTime()方法在注册的processing-timetimer触发时调用

onMerge()方法与有状态的trigger相关。该方法会在两个窗口合并时，将窗口对应trigger的状态进行合并，比如使用会话窗口时

clear()方法处理在对应窗口被移除时所需的逻辑

注意：

前三个方法通过返回TriggerResult来决定trigger如何应对到达窗口的事件。

应对方案：

CONTINUE: 什么也不做

FIRE: 触发计算

PURGE: 清空窗口内的元素

FIRE_AND_PURGE: 触发计算，计算结束后清空窗口内的元素

内置触发器

EventTimeTrigger：基于事件时间和watermark机制来对窗口进行触发计算

ProcessingTimeTrigger： 基于处理时间触发

CountTrigger：窗口元素数超过预先给定的限制值的话会触发计算

PurgingTrigger：作为其它trigger的参数，将其转化为一个purging触发器

基于WindowedStream调用.trigger()方法，就可以传入一个自定义的窗口触发器

stream.keyBy(...)
       .window(...)
       .trigger(new MyTrigger())

移除器 Evictor

Evictor可以在 trigger 触发后、调用窗口函数之前或之后从窗口中删除元素。Evictor是一个接口，不同的窗口类型都有各自预实现的移除器。

内置evictor：

默认情况下，所有内置的 evictor 逻辑都在调用窗口函数前执行。

CountEvictor: 仅记录用户指定数量的元素，一旦窗口中的元素超过这个数量，多余的元素会从窗口缓存的开头移除

DeltaEvictor: 接收 DeltaFunction 和 threshold 参数，计算最后一个元素与窗口缓存中所有元素的差值， 并移除差值大于或等于 threshold 的元素。

TimeEvictor: 接收 interval 参数，以毫秒表示。 它会找到窗口中元素的最大 timestamp max_ts 并移除比 max_ts - interval 小的所有元素

基于WindowedStream调用.evictor()方法，就可以传入一个自定义的移除器

stream.keyBy(...)
       .window(...)
       .evictor(new MyEvictor())

你可能感兴趣的:(#,Flink,flink,大数据,数据流)

星环科技×恒生电子，联合打造反洗钱解决方案人工智能
随着反洗钱行为更具隐蔽性、多样性和跨区域性，金融机构的反洗钱能力也相应面临新一轮升级。将大数据技术应用于反洗钱领域，可借助大数据平台高效整合、分析海量客户身份信息和交易数据，保障反洗钱系统有效开展客户风险等级评定、可疑交易筛查、黑名单监测等工作，为反洗钱工作赋能。近日，星环科技与恒生电子联合发布反洗钱解决方案，系统覆盖金融机构全业务全客户全流程，满足客户尽调、大额可疑交易检测、名单筛查、自评估等各
Transwarp Data Studio 4.0 ：适应AI新时代实现三大能力提升人工智能
企业数据资产管理能力建设需要经历资源化、资产化和资本化三个阶段，对应数据底座建设、资产管理平台建设、流通运营平台建设三大任务。星环科技大数据开发工具TranswarpDataStudio，在此过程中发挥着承上启下的关键作用。近日，星环科技重磅发布大数据开发工具TranswarpDataStudio4.0版本，新版针对数据资产运营和语料管理的过程实现了三大能力提升。第一，提升了数据管理的广度：为应对
推荐开源项目：SwiftUI-MVVM —— 让你的SwiftUI应用更易测试与管理马冶娆
推荐开源项目：SwiftUI-MVVM——让你的SwiftUI应用更易测试与管理项目地址:https://gitcode.com/gh_mirrors/sw/SwiftUI-MVVM1、项目介绍SwiftUI-MVVM是一个精心设计的开源项目，它引入了Model-View-ViewModel（MVVM）架构模式到Apple的最新界面构建框架SwiftUI中。项目的主要目标是实现数据流的最大可测试性
自用2024.11.26——[ACTF2020 新生赛]Include 1 然然阿然然 android
一、解题步骤查看源代码+抓包，没发现有用信息查看题目和网址的file参数，提示这是文件包含的题。构造payloadfile=php://filter/read=convert.base64-encode/resource=flag.php读出源码，进行base64解码得出flag解码结果为这个参数是必须的。它指定了你要筛选过滤的数据流。read=该参数可选。可以设定一个或多个过滤器名称，以管道符（
Apache Flink 2.0-preview released flink大数据
ApacheFlink社区正在积极准备Flink2.0，这是自Flink1.0发布8年以来的首次大版本发布。作为一个重要的里程碑，Flink2.0将引入许多激动人心的功能和改进，以及一些不兼容的破坏性变更。为了促进用户和上下游项目（例如，连接器）尽早适配这些变更，提前尝试这些令人兴奋的新功能同时收集反馈，我们现在提供了Flink2.0的预览版本。注意:Flink2.0预览版不是稳定版本，请不要应用
推荐文章：libpopcnt——高效位计数的神器胡蓓怡
推荐文章：libpopcnt——高效位计数的神器libpopcntFastC/C++bitpopulationcountlibrary项目地址:https://gitcode.com/gh_mirrors/li/libpopcnt在数字处理和大数据分析的世界里，每毫秒的性能提升都是宝贵的。今天，我们要向大家隆重介绍一个名为libpopcnt的开源库，它专为快速计算数组中“1”比特的数量而生，是优化
什么是数据仓库？狮歌~资深攻城狮数据仓库
什么是数据仓库？数据仓库（DataWarehouse，简称DW）是一种面向分析和决策的数据存储系统，它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储，为数据分析、报表生成以及商业智能（BI）提供支持。数据仓库是大数据体系的重要组成部分，主要用于对大量历史数据的存储、处理和分析。简单来说，数据仓库是一个为数据分析和业务决策服务的系统，通过整合来自不同来源的数据，形成面向主题的、可查询的
如何实现集群部署 DaXiongJoker 持续部署 nginx java
集群部署是指将多个计算节点（通常是服务器）组合在一起，形成一个协同工作的系统，以提供更高的性能、可用性和可靠性。集群部署广泛应用于各种场景，如Web服务、数据库、大数据处理等。以下是关于集群部署的详细解释：1.基本概念集群（Cluster）:一组相互连接的计算机，它们协同工作以提供单一的计算资源。节点（Node）:集群中的每个计算机或服务器，负责执行特定的任务。2.主要目的高性能:通过并行处理任务
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据与云计算盛行的时代，NoSQL数据库以其灵活的数据模型、水平扩展能力和高性能，成为处理海量数据的重要工具之一。MongoDB，作为NoSQL数据库的杰出代表，凭借其面向文档的存储结构、强大的查询语言以及丰富的生态系统，赢得了众多开发者和企业的青睐。本文将深入探讨MongoDB的核心特性、架构设计原则，并通过一个实际案例展示其在实际项目中的应用。一、Mon
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据与云计算蓬勃发展的时代，NoSQL数据库以其灵活的数据模型、水平扩展能力和高性能，成为处理海量数据的重要工具。其中，MongoDB作为NoSQL数据库的佼佼者，凭借其面向文档的存储方式、强大的查询语言以及丰富的生态系统，在各类应用场景中大放异彩。本文将深入探讨MongoDB的核心特性、架构设计原则，并通过实际代码案例展示其在数据处理中的应用。一、Mong
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
PolarDB for MySQL 三大核心之一POLARFS 今天扒开它--- 嘛是火星人 Austindatabases mysql 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2600人左右1+2+3+4+5+6+7+8）(123456群均已爆满，新人进7群，8群，准备9群)PoalrDB这块，目前国内的博客在用户这个序列
Linux内核性能调优：让系统飞起来的秘籍
在当今数字化时代，Linux系统凭借其强大的稳定性、开放性和灵活性，广泛应用于服务器、云计算、大数据等诸多领域。然而，随着业务量的不断增长和应用场景的日益复杂，Linux内核的性能面临着巨大挑战。哪怕是微小的性能瓶颈，都可能像滚雪球一样，在高负载运行时被无限放大，进而引发一系列严重问题。想象一下，一个电商网站在购物高峰期，由于Linux内核性能不佳，导致服务器响应迟缓。用户点击商品详情，页面却迟迟
AI Agent：一场智能革命的开始 TechubNews 人工智能
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
三个案例，快速了解星环科技如何助力医疗数字化转型科技医疗it
星环科技基于自身的技术优势和产品体系，为医疗行业提供湖仓集一体化医院数据中心、云原生架构的区域医疗中台、医疗数据要素运营流通等解决方案，并在业务应用领域与生态伙伴联合打造端到端的整体解决方案，满足医疗行业专业领域、复杂场景下的数字化转型需求。星环科技助力某三甲医院打造湖仓集一体大数据底座某大型综合三甲医院为解决全院各业务系统数据统一采集、存储、实时共享问题，联合星环科技打造“湖仓集”一体的技术底座
案例分享｜某港口集团企业级数据管理及分析应用体系构建数据分析
平台工具体系｜数据治理某港口集团已建成多个信息化系统，充分满足集团职能管理方面的需求，但垂直化的职能管理使各职能领域的指标体系、业务流程和业务系统呈现出条状划分的鲜明特点，数据共享存在“壁垒”，缺少横向的业务流程梳理和贯通，导致港口数据标准不统一、各业务系统数据“孤岛化”明显，特别是随着对数据增值利用和精细化管理要求的逐步提高，已难以应对日趋复杂的业务需求。通过运用大数据基础平台TDH、大数据开发
Flink 批作业如何在 Master 节点出错重启后恢复执行进度？ flink大数据
摘要：本文撰写自阿里云研发工程师李俊睿（昕程），主要介绍Flink1.20版本中引入了批作业在JMfailover后的进度恢复功能。主要分为以下四个内容：背景解决思路使用效果如何启用一、背景在Flink1.20版本之前，如果Flink的JobMaster（JM）发生故障导致被终止，将会发生如下两种情况：如果作业未启用高可用性（HA），作业将失败。如果作业启用了HA，JM会被自动重新拉起（JMfai
读Flink源码谈设计：Metric javaflink
版本日期备注1.02021.10.8文章首发1.12022.3.9fixtypo1.22022.7.3fixtypo0.前言前阵子笔者涉及了些许监控相关的开发工作，在开发过程中也碰到过些许问题，便翻读了Flink相关部分的代码，在读代码的过程中发现了一些好的设计，因此也是写成文章整理上来。本文的源码基于Flink1.13.2。1.扩展插件化在官网中，Flink社区自己提供了一些已接入的Report
【武汉东湖学院主办 | ACM出版 | 高录用 | 快检索】第六届计算机信息和大数据应用国际学术会议（CIBDA 2025）艾思科蓝 AiScholar 学术会议计算机科学计算机技术工程大数据信息可视化软件工程人工智能分布式深度学习算法
大会官网：www.ic-cibda.org【参会投稿】大会时间：2025年3月14-16日大会地点：中国-武汉论文出版：会议投稿经过2-3位组委会专家严格审核后，最终所录用的论文将被ACMICPS(ACMInternationalConferenceProceedingSeries)出版论文集，并提交至ACMDigitallibrary，EICompendex,Scopus检索。目前该会议论文检索
“大数据+技校”：VR虚拟仿真实训室的发展前景武汉唯众智创大数据 vr 大数据实训室大数据实验室大数据VR实训室
在技术教育的新时代，大数据与虚拟现实技术的融合正在重塑技校的教学模式。"大数据+技校"模式下的VR虚拟仿真实训室，为技校学生提供了一个创新的学习平台，预示着教育方式的深刻变革。一、大数据与技校教育的深度融合大数据技术的应用为技校教育带来了前所未有的机遇。通过收集和分析学生的学习数据、行为数据以及就业数据等，技校能够更准确地了解学生的学习情况、技能掌握程度和就业需求，从而为学生提供更加个性化的学习方
大数据分层存储架构：ODS、DWD、DWM与DWS详解从零开始学习人工智能大数据 spark 分布式
在大数据领域中，ODS、DWD、DWM和DWS代表了数据仓库的不同层次，它们共同构成了大数据的分层存储结构。这种结构的设计有助于提高数据查询效率，降低成本，并满足不同的业务需求。ODS（OperationalDataStore）：操作数据存储层，主要存放原始的业务数据，是数据仓库的源头。它负责收集、存储和管理从各种业务系统中抽取的原始数据，为后续的数据处理和分析提供基础。DWD（DataWareh
数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS 青秋. 数据仓库大数据数据仓库
往期推荐数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客数据仓库及数仓架构概述-CSDN博客大数据HBase图文简介-CSDN博客目录1.数仓分层1.1数据源层：ODS（OperationalDataStore）1.2数据仓库层：DW（DataWarehouse）1.2.1数据明细层：DWD（DataWa
Flink CDC 在阿里云实时计算Flink版的云上实践 flink大数据实时计算
摘要：本文整理自阿里云高级开发工程师，ApacheFlinkCommitter阮航老师在FlinkForwardAsia2024生产实践（三）专场中的分享，主要分为以下四个方面：一、FlinkCDC&实时计算Flink二、CDCYAML核心功能三、CDCYAML典型应用场景四、Demo&未来规划一、FlinkCDC&实时计算Flink1.1FlinkCDC简介FlinkCDC在经过多个版本的发布后
区块链领域新进展：技术创新与应用拓展齐头并进
近期，区块链领域不断涌现出新的消息，展现出这一技术在多个方面的持续发展和创新应用。在技术创新方面，我国自主可控、性能良好的区块链软硬件技术体系长安链启动链通全国社保数据。据中国日报1月3日消息，在国家重点研发计划的牵引下，长安链高性能融合隐私计算，在确保原始数据不被泄露的前提下，支持社保大数据服务信息在企业、金融机构可信安全流通和共享，助力实体经济高质量发展。长安链自2021年初问世以来，凭借核心
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
推荐文章：揭开贝壳网房价数据的神秘面纱 —— BeikeSpider 深度探索郎纪洋
推荐文章：揭开贝壳网房价数据的神秘面纱——BeikeSpider深度探索BeikeSpider贝壳网房价爬虫,基于Scrapy,采集北京上海广州深圳等21个中国主要城市的房价数据（小区,二手房），稳定可靠快速！支持csv存储，注释丰富，链家网爬虫见我另一个项目项目地址:https://gitcode.com/gh_mirrors/be/BeikeSpider项目介绍在房地产大数据的时代背景下，获取
编码必看！智能代码助手帮你快速解释代码、解释函数
文心快码(BaiduComate)是基于百度文心大模型，在研发全流程全场景下为开发者提供辅助建议的智能代码助手。结合百度积累多年的编程现场大数据、外部优秀开源数据，可为开发者生成更符合实际研发场景的优秀代码，提升编码效率，释放“十倍”软件生产力。如果您对【文心快码企业版】感兴趣，希望获取更多详细信息，点击进入企业服务咨询我们会尽快安排专业人员与您取得联系！我们期待与您建立联系，为您的企业带来更高效
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据框架之kafka详解 xingchensuiyue 大数据 zookeeper kafka kafka
目录1kafka介绍1.1kalka是什么？1.2Kafka内部原理1.3为什么需要消息队列？2Kafka的消息系统语义3Kafka生产过程分析3.1写入方式3.2分区（Partition）3.3副本（Replication）3.4Producer写入流程3.5消费者组3.6消费方式扩展：纠删码技术1kafka介绍1.1kalka是什么？可以简单的将kafka看做是一种消息队列，启动生产者与消费者
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p