京河小蚁

（十）Flink Datastream API 编程指南算子-2 Windows窗口计算

文章目录

窗口的生命周期
Keyed vs Non-Keyed Windows
Window Assigners
- Tumbling Windows
- Sliding Windows
- Session Windows
- Global Windows
Window Functions
- ReduceFunction
- AggregateFunction
- ProcessWindowFunction
- ProcessWindowFunction with Incremental Aggregation
- 在ProcessWindowFunction 中使用per-window state
- WindowFunction (Legacy)
Triggers
- Fire and Purge
- WindowAssigners的默认触发器
- 内置和自定义触发器
Evictors(剔除器)
Allowed Lateness（允许迟到）
- 获取后期数据作为side output（侧输出流）
- 迟到元素考虑
使用窗口结果
- 水印和窗口的交互
- 连续窗口的操作
有用的状态大小考虑

窗口是处理无限流的核心。Windows将流分成有限大小的“桶”，我们可以在桶上应用计算。本文主要讨论如何在Flink中执行窗口操作，以及程序员如何最大限度地利用Flink提供的功能。

一个带窗口的Flink程序的总体结构如下所示。第一个片段引用键控流，第二个片段引用非键控流。可以看到，唯一的区别是键控流的keyBy(…)调用和非键控流的window(…)调用，后者变成windowall(…)。这也将作为页面其余部分的路线图。

Keyed Windows

stream
       .keyBy(...)               <-  keyed versus non-keyed windows
       .window(...)              <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

Non-Keyed Windows

stream
       .windowAll(...)           <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

上面的方括号([…])中的命令是可选的。这表明，Flink允许您以多种不同的方式定制窗口逻辑，以使其最适合您的需求。

窗口的生命周期

简而言之，当应该属于该窗口的第一个元素到达时，就会立即创建窗口，当时间(事件或处理时间)超过它的结束时间戳加上用户指定的允许延迟(参见允许延迟Allowed Lateness)时，该窗口将被完全删除。Flink保证只删除基于时间的窗口，而不删除其他类型的窗口，例如全局窗口(参见窗口分配器Window Assigners)。例如,event-time-based窗口策略创建重叠(暴跌)窗户每5分钟,有一个允许迟到1分钟,Flink将创建一个新窗口为12点之间的间隔和12:05当第一个元素和一个时间戳,在这个区间内,当水印经过12:06的时间戳时就会被删除。

此外，每个窗口将有一个触发器(参见触发器Triggers)和一个函数(ProcessWindowFunction, ReduceFunction，或AggregateFunction)(参见窗口函数Window Functions)附加到它。该函数将包含应用于窗口内容的计算，而Trigger指定窗口被认为已经准备好应用函数的条件。触发策略可以是“当窗口中的元素数量超过4时”，或者“当水印经过窗口末尾时”。触发器还可以决定在创建和删除窗口之间的任何时间清除窗口内容。在这种情况下，清除只涉及窗口中的元素，而不是窗口元数据。这意味着仍然可以添加新的数据。

除了上面提到的，您还可以指定一个驱逐者(请参阅剔除器Evictors)，它将能够在触发器触发之后以及在应用函数之前和/或之后从窗口中删除元素。

在下面的内容中，我们将对上面的每个组件进行更详细的介绍。在转向可选部分之前，我们先从上述代码片段中的必要部分开始(参见键与非键窗口Keyed vs Non-Keyed Windows、窗口分配器Window Assigners和窗口函数Window Functions)。

Keyed vs Non-Keyed Windows

要指定的第一件事是您的流是否应该设置键。这必须在定义窗口之前完成。使用keyBy(…)将把无限流分成逻辑键控流。如果没有调用keyBy(…)，那么您的流就没有键化。

在键控流的情况下，任何传入事件的属性都可以用作键(这里有更多详细信息)。拥有一个键控流将允许您的窗口计算由多个任务并行执行，因为每个逻辑键控流可以独立于其他流进行处理。所有指向相同键的元素将被发送到相同的并行任务。

在非键流的情况下，你的原始流将不会被拆分为多个逻辑流，所有窗口逻辑将由单个任务执行，即并行度为1。

Window Assigners

在指定流是否为键值后，下一步是定义一个窗口分配器（window assigner）。窗口分配器程序定义了如何将元素分配给窗口。这是通过在window(…)(对于键控流)或windowwall()(对于非键控流)调用中指定你选择的WindowAssigner来完成的。

WindowAssigner负责将每个传入的元素分配给一个或多个窗口。Flink为最常见的用例提供了预定义的WindowAssigner，即翻转窗口、滑动窗口、会话窗口和全局窗口。您还可以通过扩展WindowAssigner类来实现自定义窗口指派器。所有内置的窗口分配器(全局窗口除外)都是基于时间将元素分配给窗口的，时间可以是处理时间，也可以是事件时间。请查看我们关于事件时间的部分，了解处理时间和事件时间之间的差异，以及时间戳和水印是如何生成的。

基于时间的窗口有一个开始时间戳(包含)和一个结束时间戳(独占)，它们一起描述窗口的大小。在代码中，Flink在处理基于时间的窗口时使用TimeWindow，该窗口有查询开始时间戳和结束时间戳的方法，还有一个额外的方法maxTimestamp()，该方法返回给定窗口允许的最大时间戳。

在下面的文章中，我们将展示Flink预定义的窗口分配器是如何工作的，以及如何在DataStream程序中使用它们。下图可视化了每个分配器的工作方式。紫色的圆圈表示流的元素，它们被一些键(在本例中是用户1、用户2和用户3)划分。x轴表示时间的进度。在下面的文章中，我们将展示Flink预定义的窗口分配器是如何工作的，以及如何在DataStream程序中使用它们。下图可视化了每个分配器的工作方式。紫色的圆圈表示流的元素，它们被一些键(在本例中是用户1、用户2和用户3)划分。x轴表示时间的进度。

Tumbling Windows

Tumbling Windows分配器将每个元素分配给指定窗口大小的窗口。Tumbling Windows有一个固定的大小和不重叠。例如，如果您指定一个翻滚窗口的大小为5分钟，则当前窗口将被评估，并将每5分钟启动一个新窗口，如下图所示。

下面的代码片段展示了如何使用翻滚窗口：

DataStream<T> input = ...;

// tumbling event-time windows
input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .<windowed transformation>(<window function>);

// tumbling processing-time windows
input
    .keyBy(<key selector>)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
    .<windowed transformation>(<window function>);

// daily tumbling event-time windows offset by -8 hours.
input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8)))
    .<windowed transformation>(<window function>);

具体实现如下：

package com.flink.datastream.windows;

import com.flink.datastream.entity.Student;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;

import java.time.Duration;
import java.time.LocalDateTime;

/**
 * @author DeveloperZJQ
 * @since 2022-6-1
 */
public class TumblingWindowsInfo {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        String ip = "localhost";
        if (args.length > 0) {
            ip = args[0];
        }

        DataStreamSource<String> rowData = env.socketTextStream(ip, 9999);

        SingleOutputStreamOperator<Student> map = rowData
                .map((MapFunction<String, Student>) s -> {
                    String[] words = s.split(" ");
                    if (words.length != 4) {
                        return null;
                    }
                    return new Student(Integer.parseInt(words[0]), words[1], Double.parseDouble(words[2]), System.currentTimeMillis());
                });

        // 指定事件时间戳
        SingleOutputStreamOperator<Student> watermarks = map.assignTimestampsAndWatermarks(WatermarkStrategy.<Student>forBoundedOutOfOrderness(Duration.ofSeconds(20))
                .withTimestampAssigner((event, timestamp) -> event.getUnixTime()));

        //事件时间滚动窗口
        SingleOutputStreamOperator<Student> evenTimeReduce = watermarks
                .keyBy(Student::getId)
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .reduce((stu, t1) -> new Student(stu.getId(), stu.getName(), stu.getScore() + t1.getScore(), stu.getUnixTime()));

        //处理时间滚动窗口
        SingleOutputStreamOperator<Student> processTimeReduce = map.keyBy(Student::getId)
                .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
                .reduce((s1, s2) -> new Student(s1.getId(), s1.getName(), s1.getScore() + s2.getScore(), s1.getUnixTime()));

        //事件时间偏移量滚动窗口
        SingleOutputStreamOperator<Student> evenTimeOffset8Reduce = watermarks
                .keyBy(Student::getId)
                .window(TumblingEventTimeWindows.of(Time.seconds(5), Time.hours(-8)))
                .reduce((stu, t1) -> new Student(stu.getId(), stu.getName(), stu.getScore() + t1.getScore(), stu.getUnixTime()));

        evenTimeReduce.print();
        processTimeReduce.print();
        evenTimeOffset8Reduce.print();
 
        env.execute();
    }
}

时间间隔可以通过使用Time.milliseconds(x)、Time.seconds(x)、Time.minutes(x)等中的任意一个来指定。
如上一个示例所示，tumbling window assigners还接受一个可选的偏移参数，可用于更改窗口的对齐方式。例如，在没有偏移的情况下，每小时翻滚的窗口与epoch对齐，也就是说，你将得到诸如1:00:00.000 - 1:59:59.999,2:00:00.000 - 2:59:59.999等窗口。如果你想改变它，你可以给一个补偿。用15分钟的偏移量，你可以得到1:15:00.000 - 2:14:59.999,2:15:00.000 - 3:14:59.999等等。偏移量的一个重要用例是将窗口调整为UTC-0以外的时区。例如，在中国，您必须指定Time.hours(-8)的偏移量。

Sliding Windows

sliding windows assigner将元素赋值给固定长度的窗口。与翻滚窗口分配器类似，窗口的大小由窗口大小参数配置。另一个窗口滑动参数控制滑动窗口启动的频率。因此，如果滑动窗口小于窗口大小，则滑动窗口可以重叠。在这种情况下，元素被分配给多个窗口。

例如，您可以有一个10分钟大小的窗口，它可以滑动5分钟。这样，每隔5分钟就会得到一个窗口，其中包含下图所示的在过去10分钟内到达的事件。

下面的代码片段展示了如何使用滑动窗口。

DataStream<T> input = ...;

// sliding event-time windows
input
    .keyBy(<key selector>)
    .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .<windowed transformation>(<window function>);

// sliding processing-time windows
input
    .keyBy(<key selector>)
    .window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .<windowed transformation>(<window function>);

// sliding processing-time windows offset by -8 hours
input
    .keyBy(<key selector>)
    .window(SlidingProcessingTimeWindows.of(Time.hours(12), Time.hours(1), Time.hours(-8)))
    .<windowed transformation>(<window function>);

时间间隔可以通过使用Time.milliseconds(x)、Time.seconds(x)、Time.minutes(x)等中的任意一个来指定。
如上一个示例所示，滑动窗口指派器还接受一个可选的偏移参数，该参数可用于更改窗口的对齐方式。例如，如果没有偏移，每小时滑动30分钟的窗口将与epoch对齐，也就是说，您将得到1:00:00.000 - 1:59:59.999,1:30:00.000 - 2:29:59.999等窗口。如果你想改变它，你可以给一个补偿。用15分钟的偏移量，你可以得到1:15:00.000 - 2:14:59.999,1:45:00.000 - 2:44:59.999等等。偏移量的一个重要用例是将窗口调整为UTC-0以外的时区。例如，在中国必须采用Time.hours(-8)。

Session Windows

会话窗口指派器按活动的会话对元素进行分组。与翻滚窗口和滑动窗口相比，会话窗口不重叠，也没有固定的开始和结束时间。相反，当会话窗口在一段时间内没有接收到元素时，即当不活动的间隙发生时，会话窗口将关闭。会话窗口赋值器可以配置为静态会话间隙，也可以配置为会话间隙提取器函数，该函数定义不活动的时间长度。当这个时间段结束时，当前会话关闭，随后的元素被分配给一个新的会话窗口。

下面的代码片段展示了如何使用会话窗口:

DataStream<T> input = ...;

// event-time session windows with static gap
input
    .keyBy(<key selector>)
    .window(EventTimeSessionWindows.withGap(Time.minutes(10)))
    .<windowed transformation>(<window function>);
    
// event-time session windows with dynamic gap
input
    .keyBy(<key selector>)
    .window(EventTimeSessionWindows.withDynamicGap((element) -> {
        // determine and return session gap
    }))
    .<windowed transformation>(<window function>);

// processing-time session windows with static gap
input
    .keyBy(<key selector>)
    .window(ProcessingTimeSessionWindows.withGap(Time.minutes(10)))
    .<windowed transformation>(<window function>);
    
// processing-time session windows with dynamic gap
input
    .keyBy(<key selector>)
    .window(ProcessingTimeSessionWindows.withDynamicGap((element) -> {
        // determine and return session gap
    }))
    .<windowed transformation>(<window function>);

静态间隙可以通过使用Time.milliseconds(x)、Time.seconds(x)、Time.minutes(x)等中的一个来指定。
动态间隙通过实现SessionWindowTimeGapExtractor接口来指定。

由于会话窗口没有固定的开始和结束，因此它们的评估方法与翻滚和滑动窗口不同。在内部，会话窗口操作符为每个到达的记录创建一个新窗口，如果窗口之间的距离比定义的间隔更近，则将它们合并在一起。为了可合并，会话窗口操作符需要一个合并触发器和一个合并窗口函数，如ReduceFunction、AggregateFunction或ProcessWindowFunction。

Global Windows

全局窗口分配器将具有相同键的所有元素赋值给同一个全局窗口。只有当您还指定了自定义触发器时，这个窗口方案才有用。否则，将不会执行计算，因为全局窗口没有一个可以处理聚合元素的自然终点。

下面的代码片段展示了如何使用全局窗口。

DataStream<T> input = ...;

input
    .keyBy(<key selector>)
    .window(GlobalWindows.create())
    .<windowed transformation>(<window function>);

具体实现：

package com.flink.datastream.windows;

import com.flink.datastream.entity.Student;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.GlobalWindows;

/**
 * @author DeveloperZJQ
 * @since 2022-6-5
 */
public class WindowAll {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        String ip = "127.0.0.1";
        if (args.length != 0) {
            ip = args[0];
        }
        DataStreamSource<String> source = env.socketTextStream(ip, 9999);
        SingleOutputStreamOperator<Student> map = source.map(one -> {
            String[] s = one.split(" ");
            if (s.length != 4) {
                return null;
            }
            return new Student(Integer.parseInt(s[0]), s[1], Double.parseDouble(s[2]), Long.parseLong(s[3]));
        });

        SingleOutputStreamOperator<Student> reduce = map
                .keyBy(Student::getId)
                .window(GlobalWindows.create())
                .reduce((r1, r2) -> new Student(r1.getId(), r1.getName(), r1.getScore() + r2.getScore(), Math.max(r1.getUnixTime(), r2.getUnixTime())));

        reduce.print();
        env.execute();
    }
}

Window Functions

定义窗口分配器之后，我们需要指定希望对每个窗口执行的计算。这是window函数的职责，它用于在系统确定一个窗口已经准备好处理时处理每个(可能是键控的)窗口的元素(参见触发器了解Flink如何确定一个窗口何时准备好)。

window函数可以是ReduceFunction、AggregateFunction或ProcessWindowFunction中的一种。前两个可以更有效地执行(请参阅状态大小一节)，因为Flink可以在每个窗口的元素到达时增量地聚合它们。ProcessWindowFunction获取包含在窗口中的所有元素的Iterable，以及关于元素所属窗口的附加元信息。

带有ProcessWindowFunction的窗口转换不能像其他情况那样有效地执行，因为Flink在调用函数之前必须在内部缓冲窗口的所有元素。这可以通过将ProcessWindowFunction与ReduceFunction或AggregateFunction组合在一起来缓解，以获得窗口元素和ProcessWindowFunction接收到的额外窗口元数据的增量聚合。我们将看到每种变体的示例。

ReduceFunction

ReduceFunction指定如何组合输入中的两个元素以产生相同类型的输出元素。Flink使用ReduceFunction递增地聚合窗口的元素。

ReduceFunction可以这样定义和使用:

DataStream<Tuple2<String, Long>> input = ...;

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .reduce(new ReduceFunction<Tuple2<String, Long>>() {
      public Tuple2<String, Long> reduce(Tuple2<String, Long> v1, Tuple2<String, Long> v2) {
        return new Tuple2<>(v1.f0, v1.f1 + v2.f1);
      }
    });

上面的例子汇总了窗口中所有元素的元组的第二个字段。

AggregateFunction

AggregateFunction是ReduceFunction的通用版本，它有三种类型:输入类型(IN)、累加器类型(ACC)和输出类型(OUT)。输入类型是输入流中的元素类型，AggregateFunction有一个向累加器添加一个输入元素的方法。该接口还具有创建初始累加器、将两个累加器合并为一个累加器以及从累加器提取输出(类型为OUT)的方法。我们将在下面的例子中看到它是如何工作的。

与ReduceFunction相同，Flink将在窗口的输入元素到达时增量地聚合它们。

AggregateFunction可以这样定义和使用:

/**
 * The accumulator is used to keep a running sum and a count. The {@code getResult} method
 * computes the average.
 */
private static class AverageAggregate
    implements AggregateFunction<Tuple2<String, Long>, Tuple2<Long, Long>, Double> {
  @Override
  public Tuple2<Long, Long> createAccumulator() {
    return new Tuple2<>(0L, 0L);
  }

  @Override
  public Tuple2<Long, Long> add(Tuple2<String, Long> value, Tuple2<Long, Long> accumulator) {
    return new Tuple2<>(accumulator.f0 + value.f1, accumulator.f1 + 1L);
  }

  @Override
  public Double getResult(Tuple2<Long, Long> accumulator) {
    return ((double) accumulator.f0) / accumulator.f1;
  }

  @Override
  public Tuple2<Long, Long> merge(Tuple2<Long, Long> a, Tuple2<Long, Long> b) {
    return new Tuple2<>(a.f0 + b.f0, a.f1 + b.f1);
  }
}

DataStream<Tuple2<String, Long>> input = ...;

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .aggregate(new AverageAggregate());

上面的例子计算窗口中元素的第二个字段的平均值。

ProcessWindowFunction

ProcessWindowFunction获得一个包含窗口所有元素的Iterable，以及一个可以访问时间和状态信息的Context对象，这使得它能够提供比其他窗口函数更多的灵活性。这是以性能和资源消耗为代价的，因为元素不能增量地聚合，而是需要在内部进行缓冲，直到认为窗口准备好进行处理。

ProcessWindowFunction的签名如下所示:

public abstract class ProcessWindowFunction<IN, OUT, KEY, W extends Window> implements Function {

    /**
     * Evaluates the window and outputs none or several elements.
     *
     * @param key The key for which this window is evaluated.
     * @param context The context in which the window is being evaluated.
     * @param elements The elements in the window being evaluated.
     * @param out A collector for emitting elements.
     *
     * @throws Exception The function may throw exceptions to fail the program and trigger recovery.
     */
    public abstract void process(
            KEY key,
            Context context,
            Iterable<IN> elements,
            Collector<OUT> out) throws Exception;

   	/**
   	 * The context holding window metadata.
   	 */
   	public abstract class Context implements java.io.Serializable {
   	    /**
   	     * Returns the window that is being evaluated.
   	     */
   	    public abstract W window();

   	    /** Returns the current processing time. */
   	    public abstract long currentProcessingTime();

   	    /** Returns the current event-time watermark. */
   	    public abstract long currentWatermark();

   	    /**
   	     * State accessor for per-key and per-window state.
   	     *
   	     * NOTE:If you use per-window state you have to ensure that you clean it up
   	     * by implementing {@link ProcessWindowFunction#clear(Context)}.
   	     */
   	    public abstract KeyedStateStore windowState();

   	    /**
   	     * State accessor for per-key global state.
   	     */
   	    public abstract KeyedStateStore globalState();
   	}

}

key参数是通过为keyBy()调用指定的KeySelector提取的键。在元索引键或字符串字段引用的情况下，这种键类型总是Tuple，您必须手动将其转换为正确大小的元组来提取关键字段。

ProcessWindowFunction可以这样定义和使用:

DataStream<Tuple2<String, Long>> input = ...;

input
  .keyBy(t -> t.f0)
  .window(TumblingEventTimeWindows.of(Time.minutes(5)))
  .process(new MyProcessWindowFunction());

/* ... */

public class MyProcessWindowFunction 
    extends ProcessWindowFunction<Tuple2<String, Long>, String, String, TimeWindow> {

  @Override
  public void process(String key, Context context, Iterable<Tuple2<String, Long>> input, Collector<String> out) {
    long count = 0;
    for (Tuple2<String, Long> in: input) {
      count++;
    }
    out.collect("Window: " + context.window() + "count: " + count);
  }
}

这个例子展示了一个ProcessWindowFunction，它对窗口中的元素进行计数。另外，window函数将窗口信息添加到输出中。

注意，使用ProcessWindowFunction进行简单的聚合(如count)是非常低效的。下一节将展示ReduceFunction或AggregateFunction如何与ProcessWindowFunction结合，以获得ProcessWindowFunction的增量聚合和添加信息。

ProcessWindowFunction with Incremental Aggregation

ProcessWindowFunction可以与ReduceFunction或AggregateFunction结合使用，在元素到达窗口时增量地聚合它们。当窗口关闭时，ProcessWindowFunction将提供聚合结果。这允许它在访问ProcessWindowFunction的附加窗口元信息的同时增量地计算窗口。

您也可以使用旧的WindowFunction来代替ProcessWindowFunction来进行增量窗口聚合。

Incremental Window Aggregation with ReduceFunction

下面的例子展示了如何将递增的ReduceFunction与ProcessWindowFunction结合起来，以返回窗口中最小的事件以及窗口的开始时间。

DataStream<SensorReading> input = ...;

input
  .keyBy(<key selector>)
  .window(<window assigner>)
  .reduce(new MyReduceFunction(), new MyProcessWindowFunction());

// Function definitions

private static class MyReduceFunction implements ReduceFunction<SensorReading> {

  public SensorReading reduce(SensorReading r1, SensorReading r2) {
      return r1.value() > r2.value() ? r2 : r1;
  }
}

private static class MyProcessWindowFunction
    extends ProcessWindowFunction<SensorReading, Tuple2<Long, SensorReading>, String, TimeWindow> {

  public void process(String key,
                    Context context,
                    Iterable<SensorReading> minReadings,
                    Collector<Tuple2<Long, SensorReading>> out) {
      SensorReading min = minReadings.iterator().next();
      out.collect(new Tuple2<Long, SensorReading>(context.window().getStart(), min));
  }
}

Incremental Window Aggregation with AggregateFunction
下面的例子展示了如何将增量AggregateFunction与ProcessWindowFunction结合起来计算平均值，并同时发出键值和窗口值。

DataStream<Tuple2<String, Long>> input = ...;

input
  .keyBy(<key selector>)
  .window(<window assigner>)
  .aggregate(new AverageAggregate(), new MyProcessWindowFunction());

// Function definitions

/**
 * The accumulator is used to keep a running sum and a count. The {@code getResult} method
 * computes the average.
 */
private static class AverageAggregate
    implements AggregateFunction<Tuple2<String, Long>, Tuple2<Long, Long>, Double> {
  @Override
  public Tuple2<Long, Long> createAccumulator() {
    return new Tuple2<>(0L, 0L);
  }

  @Override
  public Tuple2<Long, Long> add(Tuple2<String, Long> value, Tuple2<Long, Long> accumulator) {
    return new Tuple2<>(accumulator.f0 + value.f1, accumulator.f1 + 1L);
  }
  
 @Override
  public Double getResult(Tuple2<Long, Long> accumulator) {
    return ((double) accumulator.f0) / accumulator.f1;
  }

  @Override
  public Tuple2<Long, Long> merge(Tuple2<Long, Long> a, Tuple2<Long, Long> b) {
    return new Tuple2<>(a.f0 + b.f0, a.f1 + b.f1);
  }
}

private static class MyProcessWindowFunction
    extends ProcessWindowFunction<Double, Tuple2<String, Double>, String, TimeWindow> {

  public void process(String key,
                    Context context,
                    Iterable<Double> averages,
                    Collector<Tuple2<String, Double>> out) {
      Double average = averages.iterator().next();
      out.collect(new Tuple2<>(key, average));
  }
}

在ProcessWindowFunction 中使用per-window state

除了访问键控状态(就像任何富函数一样)，ProcessWindowFunction还可以使用作用域为当前函数正在处理的窗口的键控状态。在这种情况下，理解每个窗口状态所引用的窗口是什么是很重要的。涉及到不同的“窗口”:

指定窗口操作时定义的窗口:这可能是1小时的翻滚窗口或滑动1小时的2小时滑动窗口。
给定键的已定义窗口的实际实例:这可能是用户id xyz从12:00到13:00的时间窗口。这是基于窗口定义的，将会有许多窗口基于作业当前正在处理的键的数量和事件落入的时间槽。

每个窗口状态与这两者的后一种绑定。这意味着，如果我们为1000个不同的键处理事件，并且它们的事件当前都属于[12:00,13:00)时间窗口，那么将有1000个窗口实例，每个窗口实例都有自己的每个窗口状态键。

process()调用接收到Context对象上的两个方法，它们允许访问两种类型的状态:

globalState()，它允许访问不在窗口范围内的键控状态
windowState()，它允许访问作用域为窗口的键控状态

如果您预期同一个窗口会多次触发，那么该特性将很有帮助，因为当您对延迟到达的数据进行延迟触发时，或者当您有一个定制触发器进行投机性的早期触发时，就会发生这种情况。在这种情况下，您需要存储关于以前的触发或每个窗口状态下触发次数的信息。

当使用窗口状态时，清除窗口状态也是很重要的。这应该在clear()方法中发生。

WindowFunction (Legacy)

在某些可以使用ProcessWindowFunction的地方，你也可以使用WindowFunction。这是ProcessWindowFunction的一个旧版本，它提供了较少的上下文信息，并且没有一些先进的特性，比如每个窗口的键控状态。这个接口在某些时候会被弃用。
WindowFunction的签名如下所示:

public interface WindowFunction<IN, OUT, KEY, W extends Window> extends Function, Serializable {

  /**
   * Evaluates the window and outputs none or several elements.
   *
   * @param key The key for which this window is evaluated.
   * @param window The window that is being evaluated.
   * @param input The elements in the window being evaluated.
   * @param out A collector for emitting elements.
   *
   * @throws Exception The function may throw exceptions to fail the program and trigger recovery.
   */
  void apply(KEY key, W window, Iterable<IN> input, Collector<OUT> out) throws Exception;
}

它可以这样使用:

DataStream<Tuple2<String, Long>> input = ...;

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .apply(new MyWindowFunction());

Triggers

触发器决定窗口(由窗口分配器形成)何时可以由窗口函数处理。每个WindowAssigner都附带一个默认触发器。如果默认触发器不能满足您的需求，您可以使用trigger(…)指定一个自定义触发器。

触发器接口有5个方法，它们允许触发器对不同的事件做出反应:

对添加到窗口的每个元素调用onElement()方法。
onEventTime()方法在注册的事件时间计时器触发时被调用。
当触发注册的处理时间计时器时，onProcessingTime()方法被调用。
onMerge()方法与有状态触发器相关，当两个触发器对应的窗口合并时，它会合并两个触发器的状态，例如使用会话窗口时。
最后，clear()方法执行删除相应窗口时所需的任何操作。

以上方法需要注意两点:

前三个函数通过返回TriggerResult来决定如何处理它们的调用事件。该动作可以是以下其中之一:
- CONTINUE: 继续，不做任何事情
- FIRE: 触发计算
- PURGE: 清除窗口中的元素
- FIRE_AND_PURGE: 触发计算，然后清除窗口中的元素。
这些方法中的任何一个都可以用来为将来的操作注册处理计时器或事件计时器。

Fire and Purge

一旦触发器确定窗口已准备好进行处理，它就会触发，即返回FIRE或FIRE_AND_PURGE。这是窗口操作符发出当前窗口结果的信号。给定一个带有ProcessWindowFunction的窗口，所有元素都被传递给ProcessWindowFunction(可能在传递给一个驱逐者之后)。带有ReduceFunction或AggregateFunction的窗口只会发出它们的热切聚合结果。

当触发器触发时，它可以是FIRE或FIRE_AND_PURGE。FIRE保留窗口的内容，而FIRE_AND_PURGE删除窗口的内容。默认情况下，预实现的触发器只是FIRE，而不清除窗口状态。

清除将简单地删除窗口的内容，并将保留关于窗口和触发器状态的任何潜在元信息。

WindowAssigners的默认触发器

WindowAssigner的默认触发器适用于许多用例。例如，所有事件时间窗口分配器都有一个EventTimeTrigger作为默认触发器。这个触发器只在水印经过窗口末端时触发。

GlobalWindow的默认触发器是NeverTrigger，它从不触发。因此，在使用GlobalWindow时，您总是必须定义一个自定义触发器。

通过使用trigger()指定一个触发器，你正在覆盖一个WindowAssigner的默认触发器。例如，如果你为TumblingEventTimeWindows指定一个CountTrigger，你将不再获得基于时间进度的窗口触发，但只通过计数。现在，如果您想根据时间和计数做出反应，您必须编写自己的自定义触发器。

内置和自定义触发器

Flink自带几个内置触发器。

(已经提到的)EventTimeTrigger根据事件时间的进展(通过水印度量)触发。
ProcessingTimeTrigger根据处理时间触发。
一旦窗口中的元素数量超过给定的限制，就会触发CountTrigger。
PurgingTrigger将另一个触发器作为参数，并将其转换为清除触发器。

如果您需要实现一个自定义触发器，您应该签出抽象的trigger类。请注意，该API仍在发展中，在Flink的未来版本中可能会发生变化。

Evictors(剔除器)

Flink的窗口模型除了WindowAssigner和Trigger外，还允许指定一个可选的Evictor。这可以使用evictor(…)方法完成(在本文档的开头显示)。驱逐函数能够在触发器触发之后、在window函数应用之前和/或之后从窗口中删除元素。为此，Evictor接口有两个方法:

/**
 * Optionally evicts elements. Called before windowing function.
 *
 * @param elements The elements currently in the pane.
 * @param size The current number of elements in the pane.
 * @param window The {@link Window}
 * @param evictorContext The context for the Evictor
 */
void evictBefore(Iterable<TimestampedValue<T>> elements, int size, W window, EvictorContext evictorContext);

/**
 * Optionally evicts elements. Called after windowing function.
 *
 * @param elements The elements currently in the pane.
 * @param size The current number of elements in the pane.
 * @param window The {@link Window}
 * @param evictorContext The context for the Evictor
 */
void evictAfter(Iterable<TimestampedValue<T>> elements, int size, W window, EvictorContext evictorContext);

evictBefore()包含要在window函数之前应用的回收逻辑，而evictAfter()包含要在window函数之后应用的回收逻辑。在window函数应用程序之前被剔除的元素将不会被它处理。

Flink附带了三个预先实现的剔除器。这些都是:

CountEvictor:保留窗口中用户指定数量的元素，并丢弃从窗口缓冲区开始的剩余元素。
DeltaEvictor:接受一个deltfunction和一个阈值，计算窗口缓冲区中最后一个元素与每一个剩余元素之间的差值，并移除差值大于或等于阈值的元素。
TimeEvictor:以毫秒为参数，对于给定窗口，它在其元素中查找最大时间戳max_ts，并移除所有时间戳小于max_ts - interval的元素。

默认情况下，所有预实现的剔除器都在window函数之前应用它们的逻辑。

指定剔除器可以防止任何预聚合，因为窗口的所有元素必须在应用计算之前传递给剔除器。这意味着带有剔除器的窗口将创建更多的状态。

Flink不保证窗口中元素的顺序。这意味着，尽管剔除器可以从窗口的开头删除元素，但这些元素不一定是最先或最后到达的。

Allowed Lateness（允许迟到）

当使用事件时间窗口时，可能会发生元素延迟到达的情况，即Flink用于跟踪事件时间进度的水印已经超过了元素所属窗口的结束时间戳。

默认情况下，当水印超过窗口的末尾时，延迟元素将被删除。但是，Flink允许指定窗口操作符允许的最大延迟时间。允许延迟指定元素在被删除之前延迟的时间，默认值为0。在水印之后到达的元素已经经过了窗口的末端，但在它经过窗口的末端加上允许的延迟之前，仍然被添加到窗口。根据使用的触发器的不同，延迟但未删除的元素可能会导致窗口再次触发。EventTimeTrigg就是这样。

为了使这个工作，Flink保持窗口的状态，直到允许的延迟过期。一旦发生这种情况，Flink就会删除窗口并删除它的状态，正如在窗口生命周期部分所描述的那样。

缺省情况下，允许的延迟时间为0。也就是说，到达水印后面的元素将被删除。

你可以像这样指定一个允许的迟到时间:

DataStream<T> input = ...;

input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .allowedLateness(<time>)
    .<windowed transformation>(<window function>);

当使用GlobalWindows窗口分配器时，没有数据会被认为是晚的，因为全局窗口的结束时间戳是Long.MAX_VALUE。

获取后期数据作为side output（侧输出流）

使用Flink的侧输出特性，您可以获得被丢弃的数据流。

首先需要指定希望使用窗口流上的sideOutputLateData(OutputTag)获取后期数据。然后，你可以获得窗口操作结果的侧输出流:

final OutputTag<T> lateOutputTag = new OutputTag<T>("late-data"){};

DataStream<T> input = ...;

SingleOutputStreamOperator<T> result = input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .allowedLateness(<time>)
    .sideOutputLateData(lateOutputTag)
    .<windowed transformation>(<window function>);

DataStream<T> lateStream = result.getSideOutput(lateOutputTag);

迟到元素考虑

当指定允许的延迟大于0时，该窗口及其内容将在水印通过窗口结束后保留。在这些情况下，当一个延迟但没有被删除的元素到达时，它可能会触发对窗口的另一次触发。这些触发被称为晚触发，因为它们是由晚事件触发的，与主触发(即窗口的第一次触发)形成对比。对于会话窗口，延迟触发可能进一步导致窗口的合并，因为它们可能“弥合”两个已存在的、未合并的窗口之间的差距。

延迟触发触发的元素应该被视为前一个计算的更新结果，也就是说，你的数据流将包含相同计算的多个结果。根据您的应用程序的不同，您需要考虑这些重复的结果或去重复它们。

使用窗口结果

窗口操作的结果再次DataStream数据,没有保留的信息窗口的操作结果元素,所以,如果你想保持元信息的窗口,你必须手动编码信息ProcessWindowFunction结果元素。在结果元素上设置的唯一相关信息是元素时间戳。
这被设置为已处理窗口允许的最大时间戳，即end timestamp - 1，因为窗口-end时间戳是排他的。注意，这对于事件时间窗口和处理时间窗口都是成立的。即窗口操作之后的元素总是有一个时间戳，但这可以是事件时间戳或处理时间戳。
对于处理时间窗口，这没有特殊含义，但对于事件时间窗口，这与水印与窗口的交互方式一起支持具有相同窗口大小的连续窗口操作。我们将在了解水印如何与窗口交互之后讨论这个问题。

水印和窗口的交互

当水印到达窗口操作符时，会触发两件事:

该水印触发计算所有最大时间戳(end-timestamp - 1)小于新水印的Windows
水印按原样转发给下游操作

直观地说，一旦收到水印，任何在下游操作中被认为是延迟的窗口都会被水印“冲洗”出去。

连续窗口的操作

如前所述，计算窗口结果的时间戳以及水印与窗口交互的方式允许将连续的窗口操作串在一起。当您想要执行两个连续的窗口操作，其中您希望使用不同的键，但仍然希望来自同一上游窗口的元素最终位于同一下游窗口时，这可能很有用。考虑一下这个例子:

DataStream<Integer> input = ...;

DataStream<Integer> resultsPerKey = input
    .keyBy(<key selector>)
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .reduce(new Summer());

DataStream<Integer> globalResults = resultsPerKey
    .windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))
    .process(new TopKWindowFunction());

在这个例子中，来自第一个操作的时间窗口[0,5]的结果也将在后续的窗口操作的时间窗口[0,5]中结束。这允许计算每个键的和，然后在第二个操作中计算同一窗口内的top-k元素。

有用的状态大小考虑

窗口可以在很长一段时间内定义(如天、周或月)，因此会积累非常大的状态。在估算窗口计算的存储需求时，有几个规则需要记住:

Flink为其所属的每个窗口创建一个元素的副本。因此，翻滚窗口会对每个元素都保留一个副本(一个元素只属于一个窗口，除非它被延迟删除)。与之相反，滑动窗口会创建每个元素的若干个，如窗口分配器一节所述。因此，大小为1天、滑动1秒的滑动窗口可能不是一个好主意。
ReduceFunction和AggregateFunction可以显著地减少存储需求，因为它们急切地聚合元素，并且每个窗口只存储一个值。相反，仅仅使用ProcessWindowFunction就需要积累所有元素。
使用户剔除器可以防止任何预聚合，因为窗口的所有元素在应用计算之前都必须通过剔除器传递。

你可能感兴趣的:(flink,flink,大数据)

硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了
IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

（十）Flink Datastream API 编程指南 算子-2 Windows窗口计算