Accelerating

Flink的Windows计算

1 Windows Assigner窗口分配器

1.1 Keyed和Non-Keyed窗口
1.2 Windows分配器

1.2.1 Tumbling Windows
1.2.2 Sliding Windows
1.2.3 Session Windows
1.2.4 Global Windows

1.3 WindowsFunction

1.3.1 ReduceFunction
1.3.2 AggregateFunction
1.3.3 FoldFunction
1.3.4 ProcessWindowFunction
ProcessWindowFunction状态操作
1.3.5 ProcessWindowFunction整合IncrementalAggregateWindowFunction实现

1.4 窗口触发器（Trigger）

1.4.1 Flink的窗口触发器
1.4.2 自定义窗口触发器

1.5 数据剔除器(Evictor)

1.5.1 Flink数据剔除器
1.5.2 自定义数据剔除器

1.6 延迟数据处理

Windows窗口计算是流式计算中非常重要的数据计算方式之一。通过按照固定时间或长度将数据流切分成不同的窗口，让后对数据进行相应额聚合运算，从而得到一定范围内的统计结果。例如统计淘宝网近5分钟内的物品浏览数据，此时用户浏览数据不断的生成，但通过5分钟的窗口将数据限定在固定时间范围内，就可以对该范围内的有界数据进行分析，做好物品推荐。
Flink中DataStream将窗口抽象成独立的Operator。DataStream提供了大量内建窗口算子。

Keyde Windows算子对窗口计算流程

stream.keyBy(...)
     .window(指定窗口分配器)
     [.trigger(指定窗口触发器类型)]
                [.evictor(**指定evicator)]
                [.allowedLateness(指定是否延迟处理数据)]
                [.sideOutputLateData(指定Out Tag)]
                .reduce()[.apply()/fold()/aggregate()等窗口计算函数]
                [.getSideOutput(根据Tag输出数据)]

Non-Keyed Windows算子对窗口计算流程

stream
       .windowAll(...)           <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/fold/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

DataStream API	含义	说明
.window/windowAll(…)	指定窗口分配器	所有窗口算子都必须指定Windows Assigner，其指定窗口的类型，定义如何将流数据分配到一个或多个窗口
.trigger()	指定窗口触发器类型（可选）	指定窗口触发的时机，定义窗口满足什么条件时触发计算。
.evictor()	指定evicator（可选）	数据剔除器，主要用于数据剔除
.allowedLateness()(可选）	指定是否延迟处理数据	时延设定，标记是否处理迟到数据，当迟到数据到达窗口中是否触发计算
.sideOutputLateData()(可选）	指定Out Tag	标记输出标签，然后再通过getSideOutput将窗口中的苏家根据标签输出；
.reduce()	窗口计算函数	定义窗口上数据处理逻辑，例如对数据进行reduce操作，此外还有.apply()/fold()/aggregate()等窗口计算函数，Windows function也是必须指定的
.getSideOutput()(可选）	根据Tag输出数据

1 Windows Assigner窗口分配器

1.1 Keyed和Non-Keyed窗口

根据上游数据是否为KeyedStream类型（将数据集安装Key分区），对应的Windows分配器也会有所不同。

KeyedStream类型数据集，则调用DataStream的window()方法指定Windows分配器，数据会根据Key在不同的Task实例中并行分别计算，最后得出针对每个Key统计的结果。
Non-Keyed类型数据集，则调用windowsAll()方法指定Windows分配器，所有的数据都会在窗口算子中路由到一个Task实例中计算，并得到全局统计结果。

由上面可以知，如果用户选择针对Key进行分区，就能够将相同的Key数据分配在同一个分区，例如统计一个网站在五分钟内不同用户的点击数。如果用户没有指定Key，此时需要对窗口上的数据进行全局统计计算，这种窗口被称为GlobalWindows，例如统计某一段时间内某网站所有的请求数。

//Keyed Stream，调用window方法指定Windows分配器
dataStream.keyBy(0)
          .window(new MyWindowAssigner())
          .sum(1);
//Non-Keyed Stream,对DataStream数据集，直接调用windowAll指定Windows分配器
dataStream.windowAll(new MyWindowAssigner())
          .sum(1);

1.2 Windows分配器

Flink支持基于时间的窗口和基于数据的窗口两种类型的窗口。

基于时间的窗口
窗口基于起始时间戳(闭区间)和终止时间戳(开区间)来决定窗口的大小。数据根据时间戳被分配到不同的窗口汇总完成计算。Flink使用TimeWindow类来获取窗口的起始时间和终止时间，以及该窗口允许进入的最新时间戳信息等元数据。
基于数量的窗口
根据固定的数量定义窗口的大小，例如每1000条数据形成一个窗口，**窗口中接入的数据依赖于数据接入到算子中的顺序，如果数据出现乱序情况，将导致窗口的计算结果不确定。**Flink中可以通过调用DataStream的countWindows()来定义基于数量的窗口。

Windows分配器将接入数据分配到不同的窗口，根据Windows分配器数据分配方式的不同将Windows分为4大类，分别是滚动窗口（Tumbling Windows）、滑动窗口（Sliding Windows）、会话窗口（Session Windows）和全局窗口（Global Windows），这些窗口都已在Flink中实现了，可直接调用windows()或者windowsALL方法来指定WindowsAssigner即可。

1.2.1 Tumbling Windows

滚动窗口是根据固定时间或大小进行切分，且窗口和窗口之间的元素互不重叠。这种类型的窗口比较简单，但可能会导致某些有前后关系的数据计算结果不正确，而对于按照固定大小和周期统计某一指标的这种类型的窗口计算就比较适合，同时实现起来也比较方便。
DataStream中提供了基于EventTime和ProcessTime两种类型的Tumbling窗口。它们分别是TumblingEventTimeWindows和TumblingProcessingTimeWindows，可以用window或者windowAll指定。示例如下

//Keyed Stream，调用window方法指定Windows分配器
dataStream.keyBy(0)
        //或者
        //.window(TumblingEventTimeWindows.of(Time.minutes(5)))
        .window(TumblingProcessingTimeWindows.of(Time.minutes(5)))
        .process(...);//定义窗口函数
        
//Non-Keyed Stream,对DataStream数据集，直接调用windowAll指定Windows分配器
dataStream.windowAll(TumblingEventTimeWindows.of(Time.minutes(5)))
        //或者
        //.windowAll(TumblingProcessingTimeWindows.of(Time.minutes(5)))
        .process(...);//定义窗口函数

代码中用of方法定义窗口大小，其时间单位可以用Time类指定。
此外，还可以用DataStream的timeWindow()方法，快捷方法定义TumblingEventTimeWindows和TumblingProcessingTimeWindows，如下

 dataStream.keyBy(0)
         //窗口类型根据设置的time characteristic确定。
         .timeWindow(Time.minutes(5))
         .process(...);//定义窗口函数
 //Non-Keyed Stream,对DataStream数据集，直接调用windowAll指定Windows分配器
 // 窗口类型根据设置的time characteristic确定。
 dataStream.timeWindowAll(Time.minutes(5))
         .process(...);//定义窗口函数

窗口类型根据用户在ExecationEnvironment中设定的Time characteristic确定。默认窗口时间的时区是UTC-0，其他区均需要通过设定时间偏移量调整时区，爱国内需要指定Time.hours(-8)的偏移量。

1.2.2 Sliding Windows

滑动窗口是在滚动窗口的基础上增加了窗口的滑动时间（slide time），且允许窗口数据发生重叠。
windows size固定后，窗口并不像滚动窗口按照windows size向前移动，而是根据设定的Slide time向前滑动。滑动窗口的数据重叠大小根据windows size和slide time决定。

windows size>slide time，发生窗口重叠
window size = slide time，Sliding窗口变成了Tumbling窗口。
window size < slide time，窗口不连续，数据可能出现不落入任何一个窗口的情况。

滑动窗口帮助用户根据设定的统计频率计算指定窗口大小的统计指标。如每个30s统计最近5分钟内活跃用户数等。
Flink提供了基于Event Time和基于Process Time的滑动窗口。

dataStream.keyBy(0)
        .window(SlidingProcessingTimeWindows.of(Time.minutes(5), Time.seconds(30)))
        //或者
        // .window(SlidingEventTimeWindows.of(Time.minutes(5),Time.seconds(30)))
        .process(...);//定义窗口函数
dataStream
        .windowAll(SlidingProcessingTimeWindows.of(Time.minutes(5), Time.seconds(30)))
        //或者
        // .windowAll(SlidingEventTimeWindows.of(Time.minutes(5),Time.seconds(30)))
        .process(...);//定义窗口函数

timeWindow（）方法快捷设置

dataStream.keyBy(0)
        .timeWindow(Time.minutes(5), Time.seconds(30))
        .process(...);//定义窗口函数
dataStream
        .timeWindowAll(Time.minutes(5), Time.seconds(30))
        .process(...);//定义窗口函数

timeWindow指定的参数分别是windows size、slide time。如果在国内设定为Time.hours(-8)。
窗口的类型仍然根据用户在ExecationEnvironment中设定的Time characteristic确定。

1.2.3 Session Windows

会话窗口住哟啊将某短时间内活跃度较高的数据聚合在一个窗口进行计算。窗口的触发条件是Session Gap，是在规定的时间内如果没有数据活跃接入，则认为窗口结束，然后触发窗口计算结果。如果数据一直不间断地进入窗口，会导致窗口始终不触发。Session窗口不需要固定windows size和slide time，只需要定义session gap，来规定不活跃数据的时间上限制，然后窗口根据这个时间来判断市局是否属于同一活跃数据集，从而将数据切分成不同的窗口进行计算。
session窗口适合非连续型数据或周期性数据的场景。同样flink提供了基于EventTime和ProcessTime的session窗口，分别是EventTimeSessionWindows和ProcessingTimeSessionWindows。
SessionWindows提供了两种方法创建对应类型的SessionWindows，分别是withGap和withDynamicGap。

withGap方法用于创建固定gap的session窗口。固定session gap的示例

dataStream.keyBy(0)
        //.window(EventTimeSessionWindows.withGap(Time.minutes(4)))
        .window(ProcessingTimeSessionWindows.withGap(Time.minutes(5)))
        .process(...);//定义窗口函数

withDynamicGap方法用于创建可动态调整gap的session窗口。动态调整session gap需要实现SessionWindowTimeGapExtractor接口，该接口定义如下：

@PublicEvolving
public interface SessionWindowTimeGapExtractor<T> extends Serializable {
	/**
	 * Extracts the session time gap.
	 * @param element The input element.
	 * @return The session time gap in milliseconds.
	 */
	long extract(T element);
 }

extract方法用于实现动态session gap的抽取逻辑。用户将实现好的动态session Gap抽取器传入withDynamicGap方法中即可。
Session窗口本质上没有固定的起止时间点，其flink底层计算逻辑实现上与Tumbling窗口及Sliding窗口有一定区别。SessionWindows会每个进入的数都创建一个窗口，最后再将距离SessionGap最近的窗口进行合并，然后计算窗口结果。因此SessionWindows需要能够合并的Trigger和WindowsFunction，如ReduceFunction、AggregateFunction、FoldFunction和ProcessWindowFunction等

1.2.4 Global Windows

全局窗口将所有相同Key的数据分配到单个窗口中计算结构，窗口没有起始和结束时间，窗口需要借助Trigger来触发计算，如果不对全局窗口指定Trigger，窗口是不会触发计算的，因此使用该类型窗口需慎重，用户需要非常明确自己在整个窗口中统计出的结果是什么，并指定对应的触发器，同时还需要指定相应的数据清理机制，否则数据将一直留在内存中。

dataStream.keyBy(0)
        //通过GlobalWindows定义全局窗口
        .window(GlobalWindows.create())
        .process(...)

全局窗口通过GlobalWindows创建。关于Trigger的定义，下面会将。

1.3 WindowsFunction

对数据集的处理中定义了Window分配器后，下一步就是实现窗口内数据的计算逻辑，即WindowsFunction的定义。
目前Flink系统提供了WindowsFunction，如ReduceFunction、AggregateFunction、FoldFunction和ProcessWindowFunction等四种类型的WindowsFunction。这四种窗口计算函数按照计算原理可分为两大类：增量聚合函数（如ReduceFunction、AggregateFunction和FoldFunction）和全量窗口函数（如ProcessWindowFunction）。

增量聚合函数
该类函数基于中间状态的计算结果，窗口中只维护中间结果状态值，不需要缓存原始数据，因此该类函数计算性能较高，占用存储空间少。
全量窗口函数
相比于增量聚合函数，全量窗口函数性能比较弱，占用存储空间较大，这是因为此时算子需要对所属于该窗口的接入数据进行缓存，然后等到窗口触发的时候，对所有的原始数据进行汇总计算。如果接入数据量比较大或窗口时间比较长，就比较有可能导致计算性能的下降。

1.3.1 ReduceFunction

Reduce函数定义了对输入的两个相同类型的数据按照预先定义的计算方法进行聚合处理，然后输出一个结果数据，输出类型与输入类型相同。在reduce()方法中指定ReduceFunction计算逻辑。有两种方法定义计算逻辑，一种是创建ReduceFunction接口的实现类，另一种是以Lambada表达式定义计算逻辑。

创建ReduceFunction接口的实现类
接口ReduceFunction定义如下

@Public
@FunctionalInterface
public interface ReduceFunction<T> extends Function, Serializable {

	/**
	 * The core method of ReduceFunction, combining two values into one value of the same type.
	 * The reduce function is consecutively applied to all values of a group until only a single value remains.
	 *
	 * @param value1 The first value to combine.
	 * @param value2 The second value to combine.
	 * @return The combined value of both input values.
	 *
	 * @throws Exception This method may throw exceptions. Throwing an exception will cause the operation
	 *                   to fail and may trigger recovery.
	 */
	T reduce(T value1, T value2) throws Exception;
}

其中，T reduce(T value1, T value2)函数主要用来实现计算逻辑，其有两个参数，第一个参数value1是上一次调用reduce函数计算的结果，value2是数据集下一个元素。因此Reduce是一种基于中间状态的计算结果的增量计算函数，即下一次的reduce计算依赖于本次调用reduce函数计算的结果。一个简单的接口实现示例如下：

class MyReduceFunction implements ReduceFunction<Tuple2<String, Long>> {
    @Override
    public Tuple2<String, Long> reduce(Tuple2<String, Long> value1, Tuple2<String, Long> value2) throws Exception {
        return new Tuple2<>(value1.f0, value1.f1 * value1.f1);
    }
}

示例中ReduceFunction逻辑是将数据的第二个元素求积。
reduce函数指定ReduceFunction

dataStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<Tuple2<String, Long>>() {
            @Override
            public long extractAscendingTimestamp(Tuple2<String, Long> element) {
                return element.f1;
            }
        })
                .keyBy(0)
                                .timeWindow(Time.seconds(60))
                .reduce(new MyReduceFunction())
                .print();

Lambada表达式定义ReduceFunction计算逻辑
Lambada表达式实现比较简单，直接在reduce方法中用lambada表达式方式实现计算逻辑。

//Lambada表达式实现
dataStream.
        ...
        .reduce((v1, v2) -> new Tuple2<>(v1.f0, v1.f1 * v2.f1));

1.3.2 AggregateFunction

AggregateFunction与ReduceFunction一样，也是一种基于中间计算结果的增量计算函数。AggregateFunction接口定义如下。

/**
 * @param   待聚合数据的类型(输入数据)
 * @param  accumulator类型 (中间聚集状态).
 * @param  聚合结果的类型
 */
@PublicEvolving
public interface AggregateFunction<IN, ACC, OUT> extends Function, Serializable {

	/**
	 * 创建一个accumulator，开始聚合
	 * 除非通过add(Object, Object)添加值，否则新的accumulator通常是没有意义的
	 * The accumulator is the state of a running aggregation. When a program has multiple
	 * aggregates in progress (such as per key and window), the state (per key and window)
	 * is the size of the accumulator.
	 * @return A new accumulator, corresponding to an empty aggregate.
	 */
	ACC createAccumulator();

	/**
	 * 将给定的输入值添加到给定的accumulator，并返回新的累加器值。
	 * 为了提高效率，可以修改输入的累加器，然后再返回。
	 * @param value The value to add
	 * @param accumulator The accumulator to add the value to
	 */
	ACC add(IN value, ACC accumulator);

	/**
	 * 从accumulator获取聚合的结果
	 * @param accumulator The accumulator of the aggregation
	 * @return The final aggregation result.
	 */
	OUT getResult(ACC accumulator);

	/**
	 * 合并两个accumulators，并返回带有合并状态的accumulator 。
	 * This function may reuse any of the given accumulators as the target for the merge
	 * and return that. The assumption is that the given accumulators will not be used any
	 * more after having been passed to this function.
	 *
	 * @param a An accumulator to merge
	 * @param b Another accumulator to merge
	 *
	 * @return The accumulator with the merged state
	 */
	ACC merge(ACC a, ACC b);
}

在所提供的函数中，add()方法定义数据的添加逻辑，getResult()定义由accumulator计算结果的逻辑，merge()方法定义合并accumnlator的逻辑。以下示例实现了对数据集中字段求平均值的聚合运算。

import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.api.java.tuple.Tuple2;

public class AverageAggregateFunction implements AggregateFunction<Tuple2<String, Long>, Tuple2<Long, Long>, Double> {
    // 创建累加器
    @Override
    public Tuple2<Long, Long> createAccumulator() {
        return new Tuple2<>(0L, 0L);
    }

    // 定义输入的数据累加地逻辑
    @Override
    public Tuple2<Long, Long> add(Tuple2<String, Long> value, Tuple2<Long, Long> accumulator) {
        return new Tuple2<>(accumulator.f0 + value.f1, ++accumulator.f1);
    }

    // 由累加器计算结果
    @Override
    public Double getResult(Tuple2<Long, Long> accumulator) {
        return accumulator.f0 * 1.0 / accumulator.f1;
    }

    // 定义累加器合并的逻辑
    @Override
    public Tuple2<Long, Long> merge(Tuple2<Long, Long> a, Tuple2<Long, Long> b) {
        return new Tuple2<>(a.f0 + a.f0, a.f1 + a.f1);
    }
}

使用定义好的聚合函数

dataStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<Tuple2<String, Long>>() {
    @Override
    public long extractAscendingTimestamp(Tuple2<String, Long> element) {
        return element.f1;
    }
}).keyBy(0)
        .timeWindow(Time.seconds(60))
        //指定聚合函数逻辑
        .aggregate(new AverageAggregateFunction())
        .print("avg");

1.3.3 FoldFunction

FoldFunction定义了如何将窗口中的输入元素与外部的元素合并的逻辑。但FoldFunction已经被@Deprecated标记，未来可能会被移除，Flink建议用AggregateFunction来替换实现。

1.3.4 ProcessWindowFunction

ProcessWindowFunction比ReduceFunction和AggregateFunction更加灵活，用户可以利用其实现更加复杂的计算逻辑，更加灵活的支持基于窗口中全部数据或者需要操作窗口中的某些状态数据和窗口元数据等更复杂的指标统计逻辑，诸如统计窗口数据某一字段的中位数和众数。抽象类ProcessWindowFunction定义如下。

@PublicEvolving
public abstract class ProcessWindowFunction<IN, OUT, KEY, W extends Window> extends AbstractRichFunction {
	/**
	 * 评估窗口并且定义窗口输出的元素
	 * @param key The key for which this window is evaluated.
	 * @param context The context in which the window is being evaluated.
	 * @param elements The elements in the window being evaluated.
	 * @param out A collector for emitting elements.
	 *
	 * @throws Exception The function may throw exceptions to fail the program and trigger recovery.
	 */
	public abstract void process(KEY key, Context context, Iterable<IN> elements, Collector<OUT> out) throws Exception;

	/**
	 * 定义每个窗口计算结束后中间状态的清理逻辑。
	 * @param context The context to which the window is being evaluated
	 * @throws Exception The function may throw exceptions to fail the program and trigger recovery.
	 */
	public void clear(Context context) throws Exception {}

	/**
	 * 承载窗口元数据的上下文
	 */
	public abstract class Context implements java.io.Serializable {
		/**
		 * 返回正在评估的窗口
		 */
		public abstract W window();

		/** 返回窗口当前的处理时间. */
		public abstract long currentProcessingTime();

		/** 返回窗口当前的event-time的watermark. */
		public abstract long currentWatermark();

		/**
		 * State accessor for per-key and per-window state.
		 * 返回每个窗口中间状态
		 *
		 * NOTE:If you use per-window state you have to ensure that you clean it up
		 * by implementing {@link ProcessWindowFunction#clear(Context)}.
		 */
		public abstract KeyedStateStore windowState();

		/**
	     * 返回每个key对应的中间状态
		 */
		public abstract KeyedStateStore globalState();

		/**
		 * 根据OutputTag的标志输出数据记录
		 * @param outputTag the {@code OutputTag} that identifies the side output to emit to.
		 * @param value The record to emit.
		 */
		public abstract <X> void output(OutputTag<X> outputTag, X value);
	}
}

下面展示了一个基于Key统计数据最小值、最大值、平均值和求和的ProcessWindowFunction子类示例。

public class StatisticsProcessWindowFunction extends ProcessWindowFunction<Tuple2<String, Long>/*IN*/,
        Tuple6<String, Long, Long, Long, Double, Long>/*OUT*/,
        String/*KEY*/,
        TimeWindow/*W*/> {

    @Override
    public void process(String key, Context context,
                        Iterable<Tuple2<String, Long>> elements,
                        Collector<Tuple6<String, Long, Long, Long, Double, Long>> out) throws Exception {


        Long size = 0L;
        Tuple6<String, Long, Long, Long, Double, Long> tuple6 = new Tuple6<>(key, 0L, null, null, 0.0, 0L);
        elements.forEach(t -> {
            tuple6.f1 += t.f1;
            tuple6.f2 = min(tuple6.f2, t.f1);
            tuple6.f3 = max(tuple6.f3, t.f1);
            tuple6.f4 += 1;
        });
        Double avg = tuple6.f1 * 1.0 / tuple6.f4;
        Long windowsEndTime = context.window().getEnd();
        tuple6.f4 = avg;
        tuple6.f5 = windowsEndTime;

        //通过out.collect()返回计算结果
        out.collect(tuple6);

    }

    private Long min(Long a, Long b) {
        if (null == a) {
            return b;
        }
        if (null == b) {
            return b;
        }
        return Math.min(a, b);
    }

    private Long max(Long a, Long b) {
        if (null == a) {
            return b;
        }
        if (null == b) {
            return b;
        }
        return Math.max(a, b);
    }
}

示例并不操作状态数据，只需要实现Process方法即可。使用StatisticsProcessWindowFunction 只需要在API中用process方法指定即可，如下所示。

dataStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<Tuple2<String, Long>>() {
    @Override
    public long extractAscendingTimestamp(Tuple2<String, Long> element) {
        return element.f1;
    }
}).keyBy(0)
        .timeWindow(Time.seconds(60))
        .process(new StaticProcessWindowFunction())
        .print("pro");

使用ProcessWindowFunction完成简单的聚合运算非常浪费，使用ProcessWindowFunction时，要明确自己的业务场景，选择合适的WindowFunction来统计，没必要不不建议用ProcessWindowFunction。
增量聚合函数如ReduceFunction和AggregateFunction虽然在一定程度上能够提升窗口计算的性能，但这些窗口的灵活性不足。若计算逻辑涉及到对窗口桩体数据的操作以及对窗口中元数据信息的获取等就无法用ReduceFunction等函数实现，要用ProcessWindowFunction完成。
如果用ProcessWindowFunction完成一些基础的增量计算运算计算相对比较浪费系统资源，此时可以利用IncrementalAggregateWindowFunction和ProcessWindowFunction相结合的方式实现，以充分利用两种函数各自的优势。Flink DataStream API提供了实现ProcessWindowFunction和IncrementalAggregateWindowFunction整合的方法。

ProcessWindowFunction状态操作

与RichFunction所操作的Keyed State不同，ProcessWindowFunction操作的是基于窗口之上的状态数据：Per-Window State。状态数据针对指定的Key在窗口上存储，例如将用户ID作为Key，计算每个用户最近一个小时在线情况，如果平台上一共藕1000用户，则窗口计算中会创建1000个窗口实例，每个窗口实例中都会保存每个key的状态数据。可以通过ProcessWindowFunction提供的上下文Context获取并操作Per-window State数据。Per-window state在ProcessWindowFunction有两种类型：

globalSate
窗口中的keyed state数据不限定在某个窗口中；
windowState
Key state限定在固定的窗口中。

这些状态数据适合于针对迟到数据触发窗口计算，或在同一窗口多次触发计算的场景。使用Per-window state数据要注意及时清理状态数据，清理状态数据可调用ProcessWindowFunction的clear()方法。

1.3.5 ProcessWindowFunction整合IncrementalAggregateWindowFunction实现

Flink DataStream API提供了实现ProcessWindowFunction和IncrementalAggregateWindowFunction整合的方法。

1.4 窗口触发器（Trigger）

Trigger主要触发windowFunction的计算。Trigger定义了触发窗口计算的条件，不同类型的窗口有不同的窗口触发机制。

1.4.1 Flink的窗口触发器

目前Flink的每类窗口都有响应的Trigger，保证每次接入窗口的数据都能够安装触发逻辑触发计算。Flink定义了EventTimeTrigger、ProcessTimeTrigger和CountTrigger等窗口触发机制。

EventTimTrigger
通过对比Watermark和窗口EndTime确定是否触发计算。如果Watermark大于EndTime则触发计算，否则窗口继续等待；
ProcessTrigger
通过对比ProcessTime和窗口EndTime确定是否触发窗口计算。如果ProcessTime大于EndTime则触发计算，否则窗口继续等待；
ContinuousEventTimeTrigger
根据间隔时间周期性触发窗口计算或者window的结束时间小于当前EventTime触发计算。
ContinuousProcessingTrigger
根据间隔周期性触发窗口计算或者window的结束时间小于当前ProcessTime触发计算。
CountTrigger
根据接入的数据量是否超过设定的阈值确定是否触发计算。
DeltaTrigger
根据接入的数据计算出的Delta指标是否超过设定的阈值，判断是否触发计算。
PurgingTrigger
可以将任意触发器作为参数转换为Purge类型触发器，数据将在计算完成后被清理掉。

1.4.2 自定义窗口触发器

如果以上Flink提供的触发器无法满足用户需求，可以通过继承并实现抽象类Trigger自定义触发器。

@PublicEvolving
public abstract class Trigger<T, W extends Window> implements Serializable {

	/**
	 * Called for every element that gets added to a pane. The result of this will determine
	 * whether the pane is evaluated to emit results.
	 *
	 * @param element The element that arrived.
	 * @param timestamp The timestamp of the element that arrived.
	 * @param window The window to which the element is being added.
	 * @param ctx A context object that can be used to register timer callbacks.
	 */
	public abstract TriggerResult onElement(T element, long timestamp, W window, TriggerContext ctx) throws Exception;

	/**
	 * Called when a processing-time timer that was set using the trigger context fires.
	 *
	 * @param time The timestamp at which the timer fired.
	 * @param window The window for which the timer fired.
	 * @param ctx A context object that can be used to register timer callbacks.
	 */
	public abstract TriggerResult onProcessingTime(long time, W window, TriggerContext ctx) throws Exception;

	/**
	 * Called when an event-time timer that was set using the trigger context fires.
	 *
	 * @param time The timestamp at which the timer fired.
	 * @param window The window for which the timer fired.
	 * @param ctx A context object that can be used to register timer callbacks.
	 */
	public abstract TriggerResult onEventTime(long time, W window, TriggerContext ctx) throws Exception;

	/**
	 * Returns true if this trigger supports merging of trigger state and can therefore
	 * be used with a
	 * {@link org.apache.flink.streaming.api.windowing.assigners.MergingWindowAssigner}.
	 *
	 * If this returns {@code true} you must properly implement
	 * {@link #onMerge(Window, OnMergeContext)}
	 */
	public boolean canMerge() {
		return false;
	}

	/**
	 * Called when several windows have been merged into one window by the
	 * {@link org.apache.flink.streaming.api.windowing.assigners.WindowAssigner}.
	 *
	 * @param window The new window that results from the merge.
	 * @param ctx A context object that can be used to register timer callbacks and access state.
	 */
	public void onMerge(W window, OnMergeContext ctx) throws Exception {
		throw new UnsupportedOperationException("This trigger does not support merging.");
	}

	/**
	 * Clears any state that the trigger might still hold for the given window. This is called
	 * when a window is purged. Timers set using {@link TriggerContext#registerEventTimeTimer(long)}
	 * and {@link TriggerContext#registerProcessingTimeTimer(long)} should be deleted here as
	 * well as state acquired using {@link TriggerContext#getPartitionedState(StateDescriptor)}.
	 */
	public abstract void clear(W window, TriggerContext ctx) throws Exception;

}

函数	说明
onElement	对每一个接入窗口的数据元素决定是否触发操作
onProcessingTime	根据接入窗口 eventTime进行触发操作
onEventTime	根据接入窗口的processTime进行触发操作
onMerge	对多个窗口进行合并操作，同时进行状态的合并
clear	执行窗口及状态数据的清除

onElement方法返回结果TriggerResult是一个枚举类，有以下类型。

类型	说明
CONTINUE	当前不触发计算，继续等待
FIRE_AND_PURGE	触发计算，并清除对应的数据。
FIRE	触发计算，但是数据继续保留
PURGE	清除窗口内部数据，但不触发计算

onElemen根据预先定义的触发逻辑，返回以上状态给Flink，由Flink在窗口计算过程中，根据返回的状态决定是否触发对当前窗口的数据进行计算。

1.5 数据剔除器(Evictor)

数据剔除器是窗口机制的可选组件，其主要作用是在trigger触发后，数据进入窗口，WindowFunction被执行之前或执行之后的数据进行剔除处理。Evictor由方法evictor(...)指定。

1.5.1 Flink数据剔除器

CountEvictor
保持在窗口汇总具有预先指定的最大数量的数据。超过指定的最大数量maxCount的数据将在窗口中剔除。其核心剔除函数实现源码如

private void evict(Iterable<TimestampedValue<Object>> elements, int size, EvictorContext ctx) {
	if (size <= maxCount) {
		return;
	} else {
		int evictedCount = 0;
		for (Iterator<TimestampedValue<Object>> iterator = elements.iterator(); iterator.hasNext();){
			iterator.next();
			evictedCount++;
			if (evictedCount > size - maxCount) {
				break;
			} else {
				iterator.remove();
			}
		}
	}
}

其中size是窗口中元素的总数，maxCount是设定的窗口中应保留的数据最大量。
2. DeltaEvictor
基于定义的DeltaFunction函数和指定的threshold，计算窗口中元素与新进入元素之间额Delta，如果超过了阈值，将剔除超过阈值之后的新进入元素。其核心剔除函数实现源码如：

private void evict(Iterable<TimestampedValue<T>> elements, int size, EvictorContext ctx) {
		TimestampedValue<T> lastElement = Iterables.getLast(elements);
		for (Iterator<TimestampedValue<T>> iterator = elements.iterator(); iterator.hasNext();){
			TimestampedValue<T> element = iterator.next();
			if (deltaFunction.getDelta(element.getValue(), lastElement.getValue()) >= this.threshold) {
				iterator.remove();
			}
		}
	}

TimeEvictor
通过指定windowSize，以窗口中最新元素的Timestamp作为current_time减去windowSize，计算相应的current_time - keep_time，其中current_time是窗口中最新元素的Timestamp，keep_time是windowSize。如果元素的Timestamp时间小于该值，就剔除该值。TimeEvictor的本质是讲具有最新时间的数据选择处理，删掉过时的数据。TimeEvictor的核心剔除函数实现源码如：

private void evict(Iterable<TimestampedValue<Object>> elements, int size, EvictorContext ctx) {
   	if (!hasTimestamp(elements)) {
   		return;
   	}

   	long currentTime = getMaxTimestamp(elements);
   	long evictCutoff = currentTime - windowSize;

   	for (Iterator<TimestampedValue<Object>> iterator = elements.iterator(); iterator.hasNext(); ) {
   		TimestampedValue<Object> record = iterator.next();
   		if (record.getTimestamp() <= evictCutoff) {
   			iterator.remove();
   		}
   	}
   }

参数elements是窗口中所有的元素，currentTime = getMaxTimestamp(elements)

以上每个剔除器都有多个of方法用于创建剔除器，默认是在WindowsFunction计算前剔除数据，如要在之后剔除数据，可以用相应的of()方法将参数doEvictAfter设为true。

1.5.2 自定义数据剔除器

flink提供的剔除器不满足需求时，可以通过实现Evictor接口自定义剔除器。接口Evictor有两个方法，如下

void evictBefore(Iterable<TimestampedValue<T>> elements, int size, W window, EvictorContext evictorContext);
void evictAfter(Iterable<TimestampedValue<T>> elements, int size, W window, EvictorContext evictorContext);

方法evictBefore() 定义了数据在window function计算之前剔除的逻辑, 而 evictAfter() 则定义了在计算之后剔除的逻辑。参数elements代表当前窗口中所有的数据元素。CountEvictor等剔除器都是在evict方法中定义了一个共用的剔除逻辑，然后分别在evictBefore和evictAfter调用evict方法。
应用剔除器需要注意

Specifying an evictor prevents any pre-aggregation, as all the elements of a window have to be passed to the evictor before applying the computation.
Flink provides no guarantees about the order of the elements within a window. This implies that although an evictor may remove elements from the beginning of the window, these are not necessarily the ones that arrive first or last.

1.6 延迟数据处理

watermark机制一定程度上解决了数据乱序问题，但是如果数据延时非常严重，watermark机制也无法保证数据全部进入到窗口再处理。Flink默认会将这些延迟数据丢弃不处理。但有些场景即使数据延迟到达，要希望这些延迟数据也能按照流程处理并输出结果，此时就需要使用allowed Lateness机制来对延迟数据进行额外处理。DataStreamAPI中提供了allowedLateness方法来指定是否对延迟数据进行处理。

DataStream<T> input = ...;
input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .allowedLateness(<time>)
    .>(<window function>);

allowedLateness参数time是Time类型的时间大小，表示允许延时的最大时间，window函数计算过程中会将窗口EndTime加上该值作为窗口最后被释放的结束时间(EndTime+time)，当数据的EventTime<(EndTime+time)，但watermark已经超过EndTime时，直接触发窗口计算。如果EventTime>(EndTime+time)，则丢弃数据。
GlobalWindows的最大时延时间为 Long.MAX_VALUE，即永不超时，数据会源源不断地累积到窗口中，等待触发。其他窗口的默认延迟时间为0，即不允许有延时数据。

延时数据的处理结果的单独输出

延时数据处理后，并不一定要立刻混入正常的计算流程中，而是希望将延时数据或处理结果存储到数据库或其他存储系统中，便于后期对延时数据的分析。此时可利用side output机制处理，先调用sideOutputLateData(OutputTag) 方法标记延时数据计算的结果，然后调用getSideOutput(lateOutputTag)方法从窗口结果流中获取lateOutputTag标签标记的数据，最后再用DataStream流处理方法对数据做处理。

//创建延时数据的OutputTag
final OutputTag<T> lateOutputTag = new OutputTag<T>("late-data"){};
DataStream<T> input = ...;

SingleOutputStreamOperator<T> result = input
    .keyBy(<key selector>)
    .window(<window assigner>)
    .allowedLateness(<time>)
    //对结果延时数据进行标记
    .sideOutputLateData(lateOutputTag)
    .>(<window function>);
//通过lateOutputTag从窗口结果红获取标记的结果数据
DataStream<T> lateStream = result.getSideOutput(lateOutputTag);

未完待续

参考文档

你可能感兴趣的:(Flink)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
Flink流式计算系统 xyzkenan Flink 大数据大数据开发
本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（
Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
Flink架构组件JobManager和TaskManager m0_37651941 flink 架构大数据
JobManager和TaskManager交互通过Task对象ActorSystem是Akka最重要的一个组件。JobDispatcher负责接收Client提交的JobGraph对象，然后拆分成不同的作业，提交到TaskManager.这个过程会涉及到Job的分发。standlone模式和yarn模式的ResourceManager是不同的实现。TaskManager启动后会主动向JobMan
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink 1.17.2 版本用 java 读取 starrocks 小强签名设计 flink java python
文章目录方法一：使用FlinkJDBC连接器（兼容MySQL协议）方法二：使用StarRocksFlinkConnector（推荐）在Flink1.17.2中使用Java读取StarRocks数据，可以通过JDBC连接器或StarRocks官方提供的FlinkConnector实现。以下是两种方法的详细步骤：方法一：使用FlinkJDBC连接器（兼容MySQL协议） StarRocks兼容M
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
FlinkCDC3.3 使用 Mysql 8.4 报错 _lizhiqiang mysql 数据库 flink flinkcdc seatunnel
一、报错日志Causedby:io.debezium.DebeziumException:org.apache.flink.util.FlinkRuntimeException:Cannotreadthebinlogfilenameandpositionvia'SHOWMASTERSTATUS'.Makesureyourserveriscorrectlyconfiguredatorg.apache
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Flink实时流处理入门与实践随风九天 spring java Flink 实时流
一、引言1.1实时流处理的重要性在当今数据驱动的时代，实时数据处理变得越来越重要。企业需要从不断产生的大量数据中快速提取有价值的信息，以支持决策制定和业务优化。实时流处理技术能够实时处理数据流，提供即时的洞察和响应，从而提高业务效率和竞争力。1.2Flink简介ApacheFlink是一个开源的分布式流处理框架，支持批处理和流处理。Flink提供了高吞吐量、低延迟和精确一次（exactly-onc
kafka + flink +mysql 案例 angen2018 java kafka flink
假设你有两个Kafka主题：user_activities_topic和product_views_topic，并且你希望将user_activities_topic中的数据写入到user_activities表，而将product_views_topic中的数据写入到product_views表。mavenorg.apache.flinkflink-streaming-java_2.121.14
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
Flink 实战：如何计算实时热门合约 WuJiWeb3 区块链链上数据分析 flink 大数据 web3 数据分析智能合约 kafka big data
本文将通过使用Flink框架实现实时热门合约需求。实际业务过程中，如何判断合约是否属于热门合约，可以从以下几个方面进行分析，比如：交易数量：合约被调用的次数可以作为其热门程度的指标之一。交易金额：合约处理的资金量也是评判热门程度的重要指标。活跃用户数量：调用合约的用户数量可以反映合约的受欢迎程度。交易频率：合约的调用频率可以反映其热门程度和使用情况。但我们本次目的主要是关于学习FlinkAPI的一
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache