yuxj记录学习

Pyflink教程(六)：窗口函数

在pyflink学习笔记(一)中简单介绍了table-sql的窗口函数，下面简单介绍下datastream形式的窗口函数，只能说，能用sql解决的，就别写datastream了。个人感觉udf+sql基本就能满足大部分的业务需求了。

我这是根据官网地址和尚硅谷java版Flink相关资料整理的。

概念

我们已经了解了 Flink 中事件时间和水位线的概念，那它们有什么具体应用呢？当然是做基于时间的处、计算了。其中最常见的场景，就是窗口聚合计算。

之前我们已经了解了 Flink 中基本的聚合操作。在流处理中，我们往往需要面对的是连续不断、无休无止的无界流，不可能等到所有所有数据都到齐了才开始处理。所以聚合计算其实只能针对当前已有的数据——之后再有数据到来，就需要继续叠加、再次输出结果。这样似乎很“实时”，但现实中大量数据一般会同时到来，需要并行处理，这样频繁地更新结果就会给系统带来很大负担了。

更加高效的做法是，把无界流进行切分，每一段数据分别进行聚合，结果只输出一次。这就相当于将无界流的聚合转化为了有界数据集的聚合，这就是所谓的“窗口”（Window）聚合操作。窗口聚合其实是对实时性和处理效率的一个权衡。在实际应用中，我们往往更关心一段时间内数据的统计结果，比如在过去的 1 分钟内有多少用户点击了网页。在这种情况下，我们就可以定义一个窗口，收集最近一分钟内的所有用户点击数据，然后进行聚合统计，最终输出一个结果就可以了。

Flink Windows 是处理无限流的核心。

通常我们将窗口理解成：根据某种条件或方法将流数据切分成多个块，每一块形成一个窗口。如下图所示，我们根据时间或者个数切分，而我们一般定义数据的时间都是事件时间，所以就会造成有的数据比实际晚到，造成窗口中数据不是我们想统计的时间段内的数据，当然我们可以让水位线时间后移，延迟窗口内数据范围，但还是不够严谨，这样会造成窗口处理结果的不准确。

Flink Windows 将流拆分为有限大小的“桶”，我们可以对其进行计算.所以在 Flink 中，窗口其实并不是一个“框”，流进来的数据被框住了就只能进这一个窗口。相比之下，我们应该把窗口理解成一个“桶”，如下图所示。

在 Flink 中，窗口可以把流切割成有限大小的多个“存储桶”（bucket)；每个数据都会分发到对应的桶中，当到达窗口结束时间时，就对每个桶中收集的数据进行计算处理。

窗口的分类

按照驱动类型分类

窗口本身是截取有界数据的一种方式，所以窗口一个非常重要的信息其实就是“怎样截取数据”。换句话说，就是以什么标准来开始和结束数据的截取，我们把它叫作窗口的“驱动型”。

时间窗口(Time Window)：是我们最容易想到的，也是用的最多的。时间窗口以时间点来定义窗口的开始（start）和结束（end），所以截取出的就是某一时间段的数据。到达结束时间时，窗口不再收集数据，触发计算输出结果，并将窗口关闭销毁。所以可以说基本思路就是“定点发车”。

计数窗口（Count Window）：计数窗口基于元素的个数来截取数据，到达固定的个数时就触发计算并关闭窗口。这相当于座位有限、“人满就发车”，是否发车与时间无关。每个窗口截取数据的个数，就是窗口的大小。

按照窗口分配数据的规则分类

时间窗口和计数窗口，只是对窗口的一个大致划分；在具体应用时，还需要定义更加精细的规则，来控制数据应该划分到哪个窗口中去。不同的分配数据的方式，就可以有不同的功能应用。

滚动窗口（Tumbling Windows）

滚动窗口有固定的大小，是一种对数据进行“均匀切片”的划分方式。窗口之间没有重叠，也不会有间隔，是“首尾相接”的状态。如果我们把多个窗口的创建，看作一个窗口的运动，那就好像它在不停地向前“翻滚”一样。这是最简单的窗口形式，我们之前所举的例子都是滚动窗口。也正是因为滚动窗口是“无缝衔接”，所以每个数据都会被分配到一个窗口，而且只会属于一个窗口。

滚动窗口可以基于时间定义，也可以基于数据个数定义；需要的参数只有一个，就是窗口的大小（windowsize）。比如我们可以定义一个长度为1 小时的滚动时间窗口，那么每个小时就会进行一次统计；或者定义一个长度为 10 的滚动计数窗口，就会每 10 个数进行一次统计。

滑动窗口（Sliding Windows）

与滚动窗口类似，滑动窗口的大小也是固定的。区别在于，窗口之间并不是首尾相接的，而是可以“错开”一定的位置。如果看作一个窗口的运动，那么就像是向前小步“滑动”一样。

既然是向前滑动，那么每一步滑多远，就也是可以控制的。所以定义滑动窗口的参数有两个：除去窗口大小（window size）之外，还有一个“滑动步长”（windowslide），它其实就代表了窗口计算的频率。滑动的距离代表了下个窗口开始的时间间隔，而窗口大小是固定的，所以也就是两个窗口结束时间的间隔；窗口在结束时间触发计算输出结果，那么滑动步长就代表了计算频率。例如，我们定义一个长度为 1 小时、滑动步长为 5 分钟的滑动窗口，那么就会统计 1 小时内的数据，每 5 分钟统计一次。同样，滑动窗口可以基于时间定义，也可以基于数据个数定义。

我们可以看到，当滑动步长小于窗口大小时，滑动窗口就会出现重叠，这时数据也可能会被同时分配到多个窗口中。而具体的个数，就由窗口大小和滑动步长的比值（size/slide）来决定

所以，滑动窗口其实是固定大小窗口的更广义的一种形式；换句话说，滚动窗口也可以看作是一种特殊的滑动窗口——窗口大小等于滑动步长（size = slide）。当然，我们也可以定义滑动步长大于窗口大小，这样的话就会出现窗口不重叠、但会有间隔的情况；这时有些数据不属于任何一个窗口，就会出现遗漏统计。所以一般情况下，我们会让滑动步长小于窗口大小，并尽量设置为整数倍的关系。

在一些场景中，可能需要统计最近一段时间内的指标，而结果的输出频率要求又很高，甚至要求实时更新，比如股票价格的 24 小时涨跌幅统计，或者基于一段时间内行为检测的异常报警。这时滑动窗口无疑就是很好的实现方式。

会话窗口

会话窗口分配器按活动会话对元素进行分组。与tumbling windows和sliding windows相比，会话窗口不重叠，也没有固定的开始和结束时间。取而代之的是，当会话窗口在一段时间内没有接收到元素时关闭，即，当出现不活动间隙时。会话窗口分配器可以配置为静态会话间隙或会话间隙提取器函数，它定义了不活动的时间长度。当这段时间到期时，当前会话关闭，后续元素被分配给新的会话窗口。

还有全局窗口，这里就不介绍了，用的比较少。

窗口API概览

按键分区（Keyed）和非按键分区（Non-Keyed）

在定义窗口操作之前，首先需要确定，到底是基于按键分区（Keyed）的数据流 KeyedStream来开窗，还是直接在没有按键分区的 DataStream 上开窗。也就是说，在调用窗口算子之前，是否有 key_by 操作。

（1）按键分区窗口（Keyed Windows）

经过按键分区keyBy 操作后，数据流会按照key 被分为多条逻辑流（logical streams），这就是 KeyedStream。基于KeyedStream进行窗口操作时, 窗口计算会在多个并行子任务上同时执行。相同 key 的数据会被发送到同一个并行子任务，而窗口操作会基于每个 key 进行单独的处理。所以可以认为，每个key 上都定义了一组窗口，各自独立地进行统计计算。

stream
       .key_by(...)
       .window(...)                 <-  required: "assigner"
      [.trigger(...)]               <-  optional: "trigger" (else default trigger)
      [.allowed_lateness(...)]      <-  optional: "lateness" (else zero)
      [.side_output_late_data(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/apply()    <-  required: "function"
      [.get_side_output(...)]       <-  optional: "output tag"

（2）非按键分区（Non-KeyedWindows）

如果没有进行 keyBy，那么原始的 DataStream 就不会分成多条逻辑流。这时窗口逻辑只能在一个任务（task）上执行，就相当于并行度变成了 1。所以在实际应用中一般不推荐使用这种方式。

stream
       .window_all(...)             <-  required: "assigner"
      [.trigger(...)]               <-  optional: "trigger" (else default trigger)
      [.allowed_lateness(...)]      <-  optional: "lateness" (else zero)
      [.side_output_late_data(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/apply()    <-  required: "function"
      [.get_side_output(...)]       <-  optional: "output tag"

窗口分配器

时间窗口是最常用的窗口类型，又可以细分为滚动、滑动和会话三种

滚动时间窗口。

参数：

size ：定义窗口大小，如下面Time.seconds(5)，就是定义一个5秒间隔的窗口

offset：偏移量，这个参数的主要作用是调整时间初试值，比如下面Time.days(1), Time.hours(-8)，我们定义 1 天滚动窗口时，如果用默认的起始点，那么得到就是伦敦时间每天 0点开启窗口，这时是北京时间早上 8 点。那怎样得到北京时间每天 0 点开启的滚动窗口呢？只要设置-8 小时的偏移量就可以了

from pyflink.common import Types, Time
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.datastream.window import TumblingEventTimeWindows, TumblingProcessingTimeWindows

env = StreamExecutionEnvironment.get_execution_environment()
env.set_parallelism(1)
ds = env.from_collection(
    [('a', 'id=1', 1), ('a', 'id=2', 2), ('a', 'id=3', 3), ('b', 'home=1', 1), ('b', 'home=2', 2)],
    type_info=Types.ROW_NAMED(["key", "url", "value"], [Types.STRING(), Types.STRING(), Types.INT()]))
result1 = ds.key_by(lambda x: x[0]) \
    #创建了一个长度为 5 秒的滚动窗口
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))  # 滚动事件时间窗口
    # .window(TumblingProcessingTimeWindows.of(Time.seconds(5))) # 滚动处理时间窗口
    # .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))) #滚动事件时间窗口

滑动时间窗口

参数：

size ：滑动窗口的大小

slide：滑动窗口的滑动步长

offset：偏移量

result = ds.key_by(lambda x: x[0]) \
    .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))  # 滑动事件时间窗口
    # .window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(5))) #滑动处理时间窗口
    # .window(SlidingProcessingTimeWindows.of(Time.hours(12), Time.hours(1), Time.hours(-8)))

会话时间窗口

参数：

size ：会话窗口的大小

offset：偏移量

这里.withDynamicGap()方法需要传入一个 SessionWindowTimeGapExtractor作为参数，用来定义 session gap 的动态提取逻辑。在这里，我们提取了数据元素的第一个字段，用它的长度乘以 1000 作为会话超时的间隔。

class MySessionWindowTimeGapExtractor(SessionWindowTimeGapExtractor):

    def extract(self, element: tuple) -> int:
        return element[0].length() * 1000

result = ds.key_by(lambda x: x[0]) \
    # 这里.withGap()方法需要传入一个 Time 类型的参数 size，表示会话的超时时间，也就是最小间隔 sessiongap。我们这里创建了静态会话超时时间为 10 分钟的会话窗口。
    .window(EventTimeSessionWindows.with_gap(Time.minutes(10)))  
    #这里.withDynamicGap()方法需要传入一个 SessionWindowTimeGapExtractor 作为参数，用来定义 session gap 的动态提取逻辑。在这里，我们提取了数据元素的第一个字段，用它的长度乘以 1000 作为会话超时的间隔。
    # .window(EventTimeSessionWindows.with_dynamic_gap(MySessionWindowTimeGapExtractor()))
    # .window(ProcessingTimeSessionWindows.with_gap(Time.minutes(10))) 
    # .window(DynamicProcessingTimeSessionWindows.with_dynamic_gap(MySessionWindowTimeGapExtractor()))

计数窗口（Count Window）

计数窗口概念非常简单，本身底层是基于全局窗口（Global Window）实现的。Flink 为我们提供了非常方便的接口：直接调用.count_window()方法。根据分配规则的不同，又可以分为滚动计数窗口和滑动计数窗口两类，下面我们就来看它们的具体实现。

参数：

size: 窗口大小属性

slide: 步长

ds.key_by(lambda x: x[0]).count_window(10,3)

窗口函数（Window Functions）

定义了窗口分配器，我们只是知道了数据属于哪个窗口，可以将数据收集起来了；至于收集起来到底要做什么，其实还完全没有头绪。所以在窗口分配器之后，必须再接上一个定义窗口如何进行计算的操作，这就是所谓的“窗口函数”（window functions）。

经窗口分配器处理之后，数据可以分配到对应的窗口中，而数据流经过转换得到的数据类型是 WindowedStream。这个类型并不是 DataStream，所以并不能直接进行其他转换，而必须进一步调用窗口函数，对收集到的数据进行处理计算之后，才能最终再次得到 DataStream.

增量聚合函数（incremental aggregation functions）

窗口将数据收集起来，最基本的处理操作当然就是进行聚合。窗口对无限流的切分，可以看作得到了一个有界数据集。如果我们等到所有数据都收集齐，在窗口到了结束时间要输出结果的一瞬间再去进行聚合，显然就不够高效了——这相当于真的在用批处理的思路来做实时流处理。

为了提高实时性，我们可以再次将流处理的思路发扬光大：就像 DataStream 的简单聚合一样，每来一条数据就立即进行计算，中间只要保持一个简单的聚合状态就可以了；区别只是在于不立即输出结果，而是要等到窗口结束时间。等到窗口到了结束时间需要输出计算结果的时候，我们只需要拿出之前聚合的状态直接输出，这无疑就大大提高了程序运行的效率和实时性。

归约函数（ReduceFunction）

最基本的聚合方式就是归约（reduce）。我们在基本转换的聚合算子中介绍过 reduce 的用法，窗口的归约聚合也非常类似，就是将窗口中收集到的数据两两进行归约。当我们进行流处理时，就是要保存一个状态；每来一个新的数据，就和之前的聚合状态做归约，这样就实现了增量式的聚合。

下面的例子是前面我们写过的reduce例子，加上窗口函数，我们看看结果。

import random
import time
from typing import Any

from pyflink.common import Types, Time, WatermarkStrategy
from pyflink.common.watermark_strategy import TimestampAssigner
from pyflink.datastream import StreamExecutionEnvironment, ReduceFunction
from pyflink.datastream.window import TumblingEventTimeWindows

env = StreamExecutionEnvironment.get_execution_environment()
env.set_parallelism(1)
# env.get_config().set_auto_watermark_interval(100)
name_list = ["wang", "zhao", "yu"]
url_list = ["baidu.com", "taobao.com", "google.com", "yangshi.com"]

result_list = []
for num in range(20):
    result_tuple = (random.choice(name_list), random.choice(url_list), int(round(time.time() * 1000)))
    print(result_tuple)
    result_list.append(result_tuple)
    time.sleep(random.randint(1, 5))

print("create data success")

#窗口函数实现类，需指定时间参数
class myTimestampAssigner(TimestampAssigner):

    def extract_timestamp(self, value: Any, record_timestamp: int) -> int:
        return int(value[2])


ds = env \
    .from_collection(result_list,
                     type_info=Types.ROW_NAMED(["name", "url", "timestamp1"],
                                               [Types.STRING(), Types.STRING(), Types.INT()])) \
    .assign_timestamps_and_watermarks(
    WatermarkStrategy.for_monotonous_timestamps().with_timestamp_assigner(myTimestampAssigner()))
#因为我们的数据就是按顺序生成的，不存在乱序的问题，只是间隔时间不同，所以这块的水位线就是单调递增

class MyReduceFunction(ReduceFunction):

    def reduce(self, value1, value2):
        return value1[0], value1[1] + value2[1]


class MyReduceFunction2(ReduceFunction):
    def reduce(self, value1, value2):
        return value1 if value1[1] > value2[1] else value2


result = ds \
    .map(lambda x: (x.name + "_" + x.url, 1)) \
    .key_by(lambda x: x[0]) \
    .window(TumblingEventTimeWindows.of(Time.seconds(120))) \
    .reduce(MyReduceFunction())
result.print("reduce:")
env.execute()

首先，窗口函数的时间，可以改变，我这块设置了120秒。意味着，我们是收集了120秒内所有的数据形成一个窗口，统计这个窗口范围内所有的数据进行reduce，所以看结果输出，只打印了每个分类一个结果，如果没有则所有结果都会打印。

reduce:> ('zhao_google.com', 2)
reduce:> ('wang_taobao.com', 1)
reduce:> ('wang_google.com', 2)
reduce:> ('yu_yangshi.com', 4)
reduce:> ('yu_google.com', 1)
reduce:> ('yu_baidu.com', 2)
reduce:> ('wang_baidu.com', 2)
reduce:> ('wang_yangshi.com', 2)
reduce:> ('zhao_taobao.com', 3)
reduce:> ('zhao_baidu.com', 1)

聚合函数（AggregateFunction）

ReduceFunction 可以解决大多数归约聚合的问题，但是这个接口有一个限制，就是聚合状态的类型、输出结果的类型都必须和输入数据类型一样。这就迫使我们必须在聚合前，先将数据转换（map）成预期结果类型；而在有些情况下，还需要对状态进行进一步处理才能得到输出结果，这时它们的类型可能不同，使用 ReduceFunction 就会非常麻烦。

所以我们可能要经历map-reduce-map-reduce 一系列比较麻烦的操作，不够灵活。

所以我们可以使用Flink提供的AggregateFunction函数，AggregateFunction 可以看作是ReduceFunction的通用版本，这里有三种类型：输入类型IN）、累加器类型（ACC）和输出类型

（OUT）。输入类型 IN 就是输入流中元素的数据类型；累加器类型 ACC 则是我们进行聚合的中间状态类型；而输出类型当然就是最终计算结果的类型了。

下面的例子，我们填个数据，求个用户均数，均数=总和/个数和

import random
import time
from typing import Any

from pyflink.common import Types, WatermarkStrategy, Time
from pyflink.common.watermark_strategy import TimestampAssigner
from pyflink.datastream import StreamExecutionEnvironment, AggregateFunction
from pyflink.datastream.window import TumblingEventTimeWindows

env = StreamExecutionEnvironment.get_execution_environment()
env.set_parallelism(1)
# env.get_config().set_auto_watermark_interval(100)
name_list = ["wang", "zhao"]
url_list = ["baidu.com", "taobao.com", "google.com"]

result_list = []
for num in range(10):
    result_tuple = (
        random.choice(name_list), random.choice(url_list), int(round(time.time() * 1000)), random.randint(1, 5))
    print(result_tuple)
    result_list.append(result_tuple)
    time.sleep(random.randint(1, 5))

print("create data success")


class myTimestampAssigner(TimestampAssigner):

    def extract_timestamp(self, value: Any, record_timestamp: int) -> int:
        return int(value[2])


ds = env \
    .from_collection(result_list,
                     type_info=Types.ROW_NAMED(["name", "url", "timestamp1", "random_num"],
                                               [Types.STRING(), Types.STRING(), Types.INT(), Types.INT()])) \
    .assign_timestamps_and_watermarks(
    WatermarkStrategy.for_monotonous_timestamps().with_timestamp_assigner(myTimestampAssigner()))


class myAggregateFunction(AggregateFunction):
    # 创建一个累加器，这就是为聚合创建了一个初始状态，每个聚 合任务只会调用一次。
    def create_accumulator(self):
        # 初始累加器，第一个是时间相加总和，第二个是时间个数的累加个数
        return 0, 0

    # 将输入的元素添加到累加器中。这就是基于聚合状态，对新来的数据进行进 一步聚合的过程。
    # 方法传入两个参数：当前新到的数据 value，和当前的累加器accumulator；返回一个新的累加器值，也就是对聚合状态进行更新。
    # 每条数据到来之后都会调用这个方法。
    def add(self, value, accumulator):
        # 两个返回， 一个是时间相加求和，第二个是数量相加求个数综合
        return accumulator[0] + value.random_num, accumulator[1] + 1

    # 从累加器中提取聚合的输出结果。也就是说，我们可以定义多个状态， 然后再基于这些聚合的状态计算出一个结果进行输出。
    # 比如之前我们提到的计算平均值，就可以把 sum 和 count 作为状态放入累加器，而在调用这个方法时相除得到最终结果。
    # 这个方法只在窗口要输出结果时调用。可能多次调用
    def get_result(self, accumulator):
        # 这块我们求的是均值
        return str((accumulator[0] / accumulator[1]))
    
    # 合并两个累加器，并将合并后的状态作为一个累加器返回。
    # 这个方法只在 需要合并窗口的场景下才会被调用；最常见的合并窗口（Merging Window）的场景就是会话窗口（Session Windows）。
    # 这里没有涉及会话窗口，所以 merge()方法可以不做任何操作。但还是写下，基本就这意思。
    def merge(self, acc_a, acc_b):
        return acc_a[0] + acc_b[0], acc_a[1], acc_b[1]


result = ds.key_by(lambda x: x.name) \
    .window(TumblingEventTimeWindows.of(Time.seconds(120))) \
    .aggregate(myAggregateFunction(), accumulator_type=Types.TUPLE([Types.LONG(), Types.LONG()]),
               output_type=Types.STRING())
result.print("agg:")
env.execute()

我们现在就2个用户，当我们key_by根据用户分组后，就2个分区，我们通过对random_num字段求和和统计个数，即可得到2个agg结果，由于我们没有记录用户名，但是也可以根据结果计算出来是哪个用户。

('zhao', 'baidu.com', 1678688382739, 1)
('zhao', 'baidu.com', 1678688384744, 3)
('wang', 'baidu.com', 1678688389750, 3)
('zhao', 'baidu.com', 1678688393761, 5)
('zhao', 'taobao.com', 1678688395764, 2)
('zhao', 'taobao.com', 1678688399771, 2)
('zhao', 'baidu.com', 1678688403785, 1)
('wang', 'taobao.com', 1678688405801, 1)
('zhao', 'baidu.com', 1678688408806, 2)
('wang', 'baidu.com', 1678688411811, 3)
create data success
agg:> 2.2857142857142856
agg:> 2.3333333333333335

通过 ReduceFunction 和 AggregateFunction 我们可以发现，增量聚合函数其实就是在用流处理的思路来处理有界数据集，核心是保持一个聚合状态，当数据到来时不停地更新状态。这就是 Flink 所谓的“有状态的流处理”，通过这种方式可以极大地提高程序运行的效率，所以在实际应用中最为常见。

全窗口函数（full window functions）

窗口操作中的另一大类就是全窗口函数。与增量聚合函数不同，全窗口函数需要先收集窗口中的数据，并在内部缓存起来，等到窗口要输出结果的时候再取出数据进行计算。

很明显，这就是典型的批处理思路了——先攒数据，等一批都到齐了再正式启动处理流程。这样做毫无疑问是低效的：因为窗口全部的计算任务都积压在了要输出结果的那一瞬间，而在之前收集数据的漫长过程中却无所事事。这就好比平时不用功，到考试之前通宵抱佛脚，肯定不如把工夫花在日常积累上。

那为什么还需要有全窗口函数呢？这是因为有些场景下，我们要做的计算必须基于全部的数据才有效，这时做增量聚合就没什么意义了；另外，输出的结果有可能要包含上下文中的一些信息（比如窗口的起始时间），这是增量聚合函数做不到的。所以，我们还需要有更丰富的窗口计算方式，这就可以用全窗口函数来实现。

窗口函数（WindowFunction）

WindowFunction字面上就是“窗口函数”，它其实是老版本的通用窗口函数接口。我们可以基于WindowedStream 调用.apply()方法，传入一个 WindowFunction的实现类。

它就是将数据集合起来，然后统一计算，基本上跟所有的apply的用法一样。

代码就写个示例把，因为比较简单，而且这个基本不用了，WindowFunction的功能被ProcessWindowFunction覆盖了，可能下个版本就被弃用了。

from typing import Iterable
from pyflink.common import Time
from pyflink.datastream import StreamExecutionEnvironment, WindowFunction
from pyflink.datastream.functions import KEY, W, IN, OUT
from pyflink.datastream.window import TumblingEventTimeWindows

env = StreamExecutionEnvironment.get_execution_environment()
env.set_parallelism(1)
data_stream = env.from_collection(
    collection=[(1, 'aaa@bb'), (2, 'bb@a'), (3, 'aaa@a')])

class myWindowFunction(WindowFunction):
    def apply(self, key: KEY, window: W, inputs: Iterable[IN]) -> Iterable[OUT]:
        pass

data_stream.key_by(lambda x: x[0]).window(TumblingEventTimeWindows.of(Time.seconds(120))).apply(myWindowFunction())

处理窗口函数（ProcessWindowFunction）

ProcessWindowFunction 是Window API 中最底层的通用窗口函数接口。之所以说它“最底层”，是因为除了可以拿到窗口中的所有数据之外，ProcessWindowFunction还可以获取到一个“上下文对象”（Context）。这个上下文对象非常强大，不仅能够获取窗口信息，还可以访问当前的时间和状态信息。这里的时间就包括了处理时间（processingtime）和事件时间水位线（event time watermark）。这就使得 ProcessWindowFunction 更加灵活、功能更加丰富。事实上， ProcessWindowFunction 是 Flink 底层API——处理函数（process function）中的一员

当然,这些好处是以牺牲性能和资源为代价的。作为一个全窗口函数ProcessWindowFunction 同样需要将所有数据缓存下来、等到窗口触发计算时才使用它.其实就是一个增强版WindowFunction。

具体使用跟 WindowFunction 非常类似，我们可以基于 WindowedStream调用.process()方法，传入一个 ProcessWindowFunction 的实现类。下面是一个电商网站统计每小时 UV 的例子

"""
desc:
# -*- coding: utf-8 -*-
  @Project: python_workspace
  @File: window_process.py
  @Author: xinjian.yu
  @Time: 2023/3/13 15:49
"""

import random
import time, datetime
from typing import Any, Iterable

from pyflink.common import Types, WatermarkStrategy, Time
from pyflink.common.watermark_strategy import TimestampAssigner
from pyflink.datastream import StreamExecutionEnvironment, AggregateFunction, ProcessWindowFunction
from pyflink.datastream.functions import KEY, IN, OUT
from pyflink.datastream.window import TumblingEventTimeWindows

env = StreamExecutionEnvironment.get_execution_environment()
env.set_parallelism(1)
name_list = ["wang", "zhao", "yu", "li", "tian"]
url_list = ["baidu.com", "taobao.com", "google.com"]

result_list = []
for num in range(10):
    result_tuple = (
        random.choice(name_list), random.choice(url_list), '{0:%Y-%m-%d %X}'.format(datetime.datetime.now()),
        int(round(time.time() * 1000)), random.randint(1, 5))
    print(result_tuple)
    result_list.append(result_tuple)
    time.sleep(random.randint(1, 3))
print("create data success")


class myTimestampAssigner(TimestampAssigner):

    def extract_timestamp(self, value: Any, record_timestamp: int) -> int:
        return int(value[3])


ds = env \
    .from_collection(result_list,
                     type_info=Types.ROW_NAMED(["name", "url", 'now_time_str', "timestamp1", "random_num"],
                                               [Types.STRING(), Types.STRING(), Types.STRING(), Types.INT(),
                                                Types.INT()])) \
    .assign_timestamps_and_watermarks(
    WatermarkStrategy.for_monotonous_timestamps().with_timestamp_assigner(myTimestampAssigner()))


class myProcessWindowFunction(ProcessWindowFunction):

    def process(self, key: KEY, context: 'ProcessWindowFunction.Context', elements: Iterable[IN]) -> Iterable[OUT]:
        dis_list = []
        for un in elements:
            dis_list.append(un.name)
        # 去重
        uv_value = len(list(set(dis_list)))
        context.current_watermark()
        # 返回的是一个迭代器，所以不能直接return返回。
        yield "Window: {} ,process_time:{}, count: {},data : {},dis_data : {}".format(
            context.window(),
            context.current_processing_time(),
            uv_value, str(dis_list),
            str(list(set(dis_list))))


# 将所有的数据集中在一个分区内
result = ds.key_by(lambda x: "key") \
    .window(TumblingEventTimeWindows.of(Time.seconds(5))) \
    .process(myProcessWindowFunction())
result.print("process:")
env.execute()

我们是通过事件时间来，滚动窗口，每个5秒统计该窗口范围内的uv值.

PS:这里简单说下，在java里 context.window().getStart()和getEnd()可以直接打印事件的开始和结束时间，但是在python里就没这两个方法，在api里我也没找到，但是在1.18版本里会添加context.window().start和end方法，来获取时间。

现在就只能在TimeWindow(start=-635265000, end=-635260000) 这个也能看到开始和结束时间，当作参考把。

('zhao', 'google.com', '2023-03-13 16:42:29', 1678696949245, 5)
('zhao', 'taobao.com', '2023-03-13 16:42:32', 1678696952246, 2)
('zhao', 'google.com', '2023-03-13 16:42:35', 1678696955252, 4)
('yu', 'baidu.com', '2023-03-13 16:42:36', 1678696956263, 2)
('yu', 'taobao.com', '2023-03-13 16:42:38', 1678696958263, 1)
('tian', 'google.com', '2023-03-13 16:42:40', 1678696960273, 1)
('wang', 'taobao.com', '2023-03-13 16:42:41', 1678696961286, 5)
('wang', 'google.com', '2023-03-13 16:42:42', 1678696962299, 5)
('zhao', 'taobao.com', '2023-03-13 16:42:43', 1678696963311, 1)
('zhao', 'baidu.com', '2023-03-13 16:42:44', 1678696964320, 4)
create data success
process:> Window: TimeWindow(start=-635265000, end=-635260000) ,process_time:1678696971667, count: 1,data : ['zhao', 'zhao'],dis_data : ['zhao']
process:> Window: TimeWindow(start=-635260000, end=-635255000) ,process_time:1678696971668, count: 2,data : ['zhao', 'yu'],dis_data : ['yu', 'zhao']
process:> Window: TimeWindow(start=-635255000, end=-635250000) ,process_time:1678696971668, count: 3,data : ['yu', 'tian', 'wang', 'wang'],dis_data : ['tian', 'wang', 'yu']
process:> Window: TimeWindow(start=-635250000, end=-635245000) ,process_time:1678696971668, count: 1,data : ['zhao', 'zhao'],dis_data : ['zhao']

当然，这里我们并没有用到上下文中其他信息，所以其实没有必要使用ProcessWindowFunction。全窗口函数因为运行效率较低，很少直接单独使用，往往会和增量聚合函数结合在一起，共同实现窗口的处理计算。

增量聚合和全窗口函数的结合使用

增量聚合函数处理计算会更高效。举一个最简单的例子，对一组数据求和。大量的数据连续不断到来，全窗口函数只是把它们收集缓存起来，并没有处理；到了窗口要关闭、输出结果的时候，再遍历所有数据依次叠加，得到最终结果。而如果我们采用增量聚合的方式，那么只需要保存一个当前和的状态，每个数据到来时就会做一次加法，更新状态；到了要输出结果的时候，只要将当前状态直接拿出来就可以了。增量聚合相当于把计算量“均摊”到了窗口收集数据的过程中，自然就会比全窗口聚合更加高效、输出更加实时。

而全窗口函数的优势在于提供了更多的信息，可以认为是更加“通用”的窗口操作。它只负责收集数据、提供上下文相关信息，把所有的原材料都准备好，至于拿来做什么我们完全可以任意发挥。这就使得窗口计算更加灵活，功能更加强大。

简单的说，就是AggregateFunction来收集信息，将收集后的信息(按时间分窗口)，发给ProcessWindowFunction函数来处理，大致就是这个意思。

所以在实际应用中，我们往往希望兼具这两者的优点，把它们结合在一起使用。Flink 的Window API 就给我们实现了这样的用法。

下面统计name出现的次数，在AggregateFunction-add里面只有累加器，出现一次加一次，将结果（也就是get_result方法）传递给ProcessWindowFunction-process方法进行打印处理，在process想怎么弄就怎么弄，大致是这个意思。

ps：这块的数据最好是流，比如kafka之类的，像我这样有界流数据其实效果不怎么好，但是意思明白就行。

import datetime
import random
import time
from typing import Any, Iterable

from pyflink.common import Types, WatermarkStrategy, Time
from pyflink.common.watermark_strategy import TimestampAssigner
from pyflink.datastream import StreamExecutionEnvironment, AggregateFunction, ProcessWindowFunction
from pyflink.datastream.functions import KEY, IN, OUT
from pyflink.datastream.window import TumblingEventTimeWindows

env = StreamExecutionEnvironment.get_execution_environment()
env.set_parallelism(1)
name_list = ["wang", "zhao", "yu", "li", "tian"]
url_list = ["baidu.com", "taobao.com", "google.com"]

result_list = []
for num in range(20):
    result_tuple = (
        random.choice(name_list), random.choice(url_list), '{0:%Y-%m-%d %X}'.format(datetime.datetime.now()),
        int(round(time.time() * 1000)), random.randint(1, 5))
    print(result_tuple)
    result_list.append(result_tuple)
    time.sleep(random.randint(1, 3))
print("create data success")


class myTimestampAssigner(TimestampAssigner):

    def extract_timestamp(self, value: Any, record_timestamp: int) -> int:
        return int(value[3])


class myAggregateFunction(AggregateFunction):
    def create_accumulator(self):
        return "", 0

    def add(self, value, accumulator):
        return accumulator[0] + "_" + value[0], accumulator[1] + 1
    #只负责将数据传递出去 不计算。
    def get_result(self, accumulator):
        return accumulator

    def merge(self, acc_a, acc_b):
        return None


class myProcessWindowFunction(ProcessWindowFunction):

    def process(self, key: KEY, context: 'ProcessWindowFunction.Context', elements: Iterable[IN]) -> Iterable[OUT]:
        for em in elements:
            yield "Window: {} , count: {}".format(
                context.window(),
                em)


ds = env \
    .from_collection(result_list,
                     type_info=Types.ROW_NAMED(["name", "url", 'now_time_str', "timestamp1", "random_num"],
                                               [Types.STRING(), Types.STRING(), Types.STRING(), Types.INT(),
                                                Types.INT()])) \
    .assign_timestamps_and_watermarks(
    WatermarkStrategy.for_monotonous_timestamps().with_timestamp_assigner(myTimestampAssigner()))

result = ds.key_by(lambda x: x.name) \
    .window(TumblingEventTimeWindows.of(Time.seconds(3))) \
    #同时传递2个class
    .aggregate(myAggregateFunction(), myProcessWindowFunction())
result.print("agg+process:")
env.execute()

你可能感兴趣的:(pyflink,窗口函数,datastream)

五大常考SQL面试题 Begin to change MySQL sql 面试
目录一、找出连续7天登陆，连续30天登陆的用户（小红书笔试，电信云面试），最大连续登陆天数的问题--窗口函数二、求连续点击三次的用户数，而且中间不能有别人的点击三、计算除去部门最高工资，和最低工资的平均工资（字节跳动面试）--窗口函数四、留存的计算，和累计求和的计算--窗口函数，自联结（pdd面试）一、找出连续7天登陆，连续30天登陆的用户（小红书笔试，电信云面试），最大连续登陆天数的问题--窗口
SQL中窗口函数是什么 chengxuyuan1213_ sql 数据库大数据
SQL中的窗口函数（WindowFunctions）是一种强大的功能，它允许在查询结果中的特定窗口（也称为分区）上执行计算，并在每一行上生成结果，而不影响原始查询结果的行数。这使得在不使用子查询或自连接的情况下，可以在行级别执行聚合、排序、排名等操作。一、窗口函数的基本概念窗口函数通常与OVER子句一起使用，用于指定窗口的范围。OVER子句定义了如何分区数据，并指定了在每个窗口内计算的顺序。窗口函
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
Flink提交pyflink任务 Leo_Hu666 flink 大数据 python pyflink
1.官方文档：flink1.14:https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/deployment/cli/#submitting-pyflink-jobsflink1.18:https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deploy
pyflink作业提交的踩坑过程，看完少走两个星期弯路 Li_yi_chao 大数据
flink在努力地将Python生态和大数据生态融合，但目前的版本还不够成熟，尤其是在官方对python现有资料有限的情况下，用户想要使用python完成一个flinkjob并提交到flink平台上，还是有很多雷需要踩的。以下对pyflink环节问题，pythonjob编写到提交做了总结，可减少不必要的弯路。一、部署环境JDK1.8+&Python3.5+(3.7.6)&apache-flink1
【GreatSQL优化器-12】make_tmp_tables_info 数据库mysql
【GreatSQL优化器-12】make_tmp_tables_info一、make_tmp_tables_info介绍GreatSQL的优化器对于聚合函数和窗口函数需要创建内部临时表来进行计算并输出最后结果，这个内部临时表又需要原始表来作为数据输入源，具体的代码处理在make_tmp_tables_info函数实现。下面用一个简单的例子来说明make_tmp_tables_info是做什么的。g
Flink入门-通过DataStream Api实现消费欺诈检测似水_逆行 Flink flink 大数据
1信用卡消费欺诈信用卡消费欺诈是指在信用卡的使用过程中，通过不正当手段获取或使用信用卡资金，侵犯他人或银行的财产权益的行为。这种行为可能包括但不限于盗刷、伪造信用卡、冒用他人信用卡、恶意透支等2模拟场景我们模拟不同账户的信用卡消费记录，通过分析实时的消费记录，针对常见的消费欺诈进行检测，检测出来的欺诈行为进行告警。3核心流程与代码1）通过TransactionSource构建消费记录，主要包含ac
Flink-DataStream快速上手 code@fzk 大数据 flink 大数据 java
文章目录1.安装部署安装2.执行任务Standalone模式启动/停止执行任务Yarn模式Session-cluster模式启动yarn-session执行任务Per-Job-Cluster模式3.执行环境EnvironmentgetExecutionEnvironment（常用）createLocalEnvironmentcreateRemoteEnvironmentSource、SinkTra
Flink之DataStream API 概述小虎牙_43437171 flink flink 大数据 java
DataStreamAPI概述前言一、DataStreamAPI应用实例DataStream程序主要包含3部分：1、StreamExecutionEnvironment初始化：该部分主要创建和初始化StreamExecutionEnvironment，提供通过DataStreamAPI构建Flink作业需要的执行环境，包括设定ExecutionConfig、CheckpointConfig等配置信
Flink--初识 DataStream Connector Kafka XK&RM Flink flink kafka scala
目录1.增加POM文件2.使用Kafka作为Source2.1创建Topic2.2Code3.使用Kafka作为Sink3.1CodeFlink作为比较适合流式处理的计算框架，在流式处理当中，比较搭配的消息中间件为Kafka本次使用的Kafka版本为2.1.0-cdh6.2.0Flink版本为1.11.2，Scala版本为2.12.10官网FlinkprovidesanApacheKafkacon
[GaussDB] GaussDB数据库基础函数介绍-上 jerrywangcsdn gaussdb 数据库
目录一、函数在数据库中的作用二、GaussDB常用基础函数介绍与示例1、数字操作函数2、时间和日期处理函数3、类型转换函数4、数组函数5、范围函数6、窗口函数7、聚集函数8、安全函数9、系统信息函数10、动态脱敏函数.Tip：由于篇幅缘故，“5.范围函数、6.窗口函数、7.聚集函数、8.安全函数、9.系统信息函数、10.动态脱敏函数”部分内容见下一篇《GaussDB数据库基础函数介绍-下》前言函数
『SQL』常考面试题（2——窗口函数）馨颖「数据处理能力」之编程技术
一、窗口函数是什么既可以显示原始基础数据也可以显示聚合数据。二、为什么需要窗口函数SQL中有一类函数叫聚合函数（聚合函数顾名思义就是聚集合并的意思，是对某个范围内的数值进行聚合，聚合后的结果是一个值或是各个类别对应的值。），比如count、sum、avg、min、max等，这些函数的可以将多行数据按照规整聚集为一行，一般聚集前的数据行要大于聚集后的数据行。而有时候我们不仅想要聚集前的数据，又想要聚
练习15. 窗口函数，RANK、DENSE_RANK、ROW_NUMBER 百里守约学编程 #MySQL练习经典45题 sql 数据库
15.按各科成绩进行排序，并显示排名，Score重复时也继续排名,即不跳跃排名首先介绍三种用于进行排序的专用窗口函数：1、RANK()在计算排序时，若存在相同位次，会跳过之后的位次。例如，有3条排在第1位时，排序为：1，1，1，4······2、DENSE_RANK()这就是题目中所用到的函数，在计算排序时，若存在相同位次，不会跳过之后的位次。例如，有3条排在第1位时，排序为：1，1，1，2···
SQL——常用函数 Parker_1314 Hive hive sql
目录系统内置函数时间处理函数字符串处理函数数字处理函数集合处理函数类型转换函数窗口函数排名函数系统内置函数查看系统内置函数：showfunctions;查看一个函数的用法：descfuntion函数名;查看一个函数的具体用法：descfunctionextended函数名;时间处理函数1、unix_timestamp：selectunix_timestamp();返回当前时间的时间戳selectu
SQL-DAY 8（SQL窗口函数的应用案例：电商平台订单信息案例分析）范儿札记 SQL sql 数据库 database
文章目录一、窗口函数说明1.窗口函数的语句结构2.窗口函数的分类二、案例分析（电商平台订单信息）1.数据准备2.窗口函数之累计计算函数3.窗口函数之排序函数3.窗口函数之偏移分析函数一、窗口函数说明1.窗口函数的语句结构窗口函数的语法格式函数名([expr])over(子句)函数名([expr])over(partitionbyorderbyrowsbetween)其中over关键字后子句包含三个
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
Oracle vs MySQL 窗口函数大对决：7个关键差异你了解几个？墨瑾轩数据库学习 oracle mysql 数据库
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天咱们要来一场精彩的对决——Oracle与MySQL的窗口函数较量。你知道吗？这两个数据库巨头在处理复杂查询时都引入了窗口函数这一强大的工具。那么问题来了，它们之间到底有哪些不同之处呢？别急，让我们一步步揭开谜底，保证你看完这篇文章就能轻松掌握
【使用Apache Flink 实现滑动窗口流式计算】我明天再来学Web渗透后端技术总结 apache flink linq 开发语言
什么是Flink？ApacheFlink是一个用于分布式流式处理和批处理的开源实时计算引擎。它具备低延迟、高吞吐量和exactly-once语义的特点，适用于各种实时数据处理场景。Flink的核心概念作业（Job）：Flink程序的执行单元。数据流（DataStream）：表示连续的数据流，可以进行转换和计算。窗口（Window）：用于对无限数据流进行有界的数据切片处理。状态（State）：用于保
MySQL 高级(进阶) SQL 语句 yyytucj 数据库
MySQL是一种功能强大的关系型数据库管理系统。为了有效地利用其高级功能，需要掌握一些进阶的SQL语句和技巧。本文将介绍几种常用的高级SQL语句，包括窗口函数、子查询、联合查询、复杂的连接操作以及事务处理等。1.窗口函数窗口函数是一种高级的SQL功能，用于在查询结果集中计算某些聚合值，同时保留详细数据行。常用的窗口函数包括ROW_NUMBER(),RANK(),DENSE_RANK(),SUM()
Flink (十三) ：Table API 与 DataStream API 的转换（一） Leven199527 Flink flink sql 数据库
TableAPI和DataStreamAPI在定义数据处理管道时同样重要。DataStreamAPI提供了流处理的基本操作（即时间、状态和数据流管理），并且是一个相对低级的命令式编程API。而TableAPI抽象了许多内部实现，提供了一个结构化和声明式的API。这两个API都可以处理有界流和无界流。有界流需要在处理历史数据时进行管理。无界流通常出现在实时处理场景中，可能会先通过历史数据初始化。为了
掌握高级 SQL 技巧：高效处理复杂数据查询和优化（附原始代码）一ge科研小菜鸡大数据 sql
引言在数据驱动的时代，SQL（结构化查询语言）是数据库管理和数据分析中不可或缺的工具。随着数据复杂度和数据量的增加，掌握SQL的高级技巧不仅能帮助我们高效处理复杂的数据查询，还能极大地提高数据库的性能和数据处理效率。本文将从窗口函数、递归查询、子查询优化、索引管理、数据透视表到复杂聚合和分组等方面，深入探讨一些常见的高级SQL技巧，帮助大家在实际工作中优化SQL查询，提高数据处理的准确性和效率。一
hive窗口函数和hive基础使用醉与浮 hive hive 大数据 hadoop
7.270.连接客户端beeline-ujdbc:hive2://localhost:100001.建库并使用createdatabasexxxusexxx2.建表createtablexxxcreateexternaltableifnotexists如果该外部表不存在则创建外部表被删除时只会删除元数据不会删除数据。（hive不认为自己拥有这份数据）3.导入数据loaddatainpath‘/ro
Hive 窗口函数 b1gx Hive hive 窗口函数
文章目录一、常见聚合操作1.sum、avg、min、max二、排序相关的窗口函数1.row_number2.rank3.dense_rank三、其它窗口函数1.NTILE2.cume_dist3.percent_rank4.LAG5.LEAD6.FIRST_VALUE7.LAST_VALUE四、增强聚合操作1.GROUPINGSETS2.CUBE3.ROLLUP4.GROUPING__ID有ORD
Apache Hive 聚合函数与 OVER 窗口函数：从基础到高级应用大鳥 sql hive apache hive hadoop
在大数据时代，ApacheHive是处理和分析海量数据的强大工具。Hive提供了丰富的聚合函数和强大的OVER窗口函数，能够帮助我们高效地进行数据分析。本文将综合介绍Hive的聚合函数和OVER窗口函数，结合实际使用场景和代码示例，帮助读者深入理解这些功能，尤其是它们在时间序列分析中的应用。一、Hive聚合函数基础聚合函数是Hive中用于对一组数据进行计算并返回单个值的函数。它们在数据分析中非常常
【MYSQL学习】MySQL内置函数：窗口函数的5大绝招你GET到了吗？墨瑾轩 MySql入门~精通 mysql 学习 android
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MySQL内置函数：窗口函数的5大绝招你GET到了吗？引言❓在数据分析和报表生成中，窗口函数是一个非常强大的工具，它可以让你在同一个查询中进行复杂的聚合和排序操作。但你真的了解窗口函数吗？今天，我们就来一场深入浅出的探索之旅，带你了解窗口函数的5大绝招，让你在
mysql窗口函数（保姆级文档）文学者 mysql mysql 数学建模数据库
mysql窗口函数第一步：创建数据库第二步：创建表格第三步：插入数据第四步:窗口函数1、序号函数2、其他函数3、头尾函数4、聚合函数5、分布函数6、前后函数第一步：创建数据库CREATEDATABASEjwdgUSE`jwdg`;第二步：创建表格DROPTABLEemployee;CREATETABLEemployee(employee_idINTPRIMARYKEY,--员工idemployee
MySQL窗口函数猪猪爱放屁 mysql
MySQL窗口函数窗口函数，也称为OLAP函数，联机分析处理。能够将表中数据划分一个范围，对范围内的数据进行某种处理，可以是聚合，也可以是排序，也可以是求第一个记录或者最后一个记录等等。对数据进行实时分析处理。作用：1.解决排名问题。e.g.每个班级按照成绩排名2.解决top-n问题。e.g.每个班级前两名学生1.语法over(partitionbyorderby)partitionby(分组)：
MySQL进阶：SQL高级技巧 - 窗口函数（Window Function）墨夶数据库学习资料1 mysql sql android
MySQL进阶：SQL高级技巧-窗口函数（WindowFunction）❓引言：为什么需要了解窗口函数❓窗口函数（WindowFunction）是SQL标准中的一个高级特性，它允许用户在不改变查询结果集行数的情况下，对每一行执行聚合计算或其他复杂的计算。这些计算是基于当前行与结果集中其他行之间的关系进行的。窗口函数在处理复杂的统计分析问题时非常有用，例如移动平均、累计总和、百分比排名等。本文将深入
Flink（十）：DataStream API (七) 状态 Leven199527 Flink flink 大数据
1.状态的定义在ApacheFlink中，状态（State）是指在数据流处理过程中需要持久化和追踪的中间数据，它允许Flink在处理事件时保持上下文信息，从而支持复杂的流式计算任务，如聚合、窗口计算、联接等。状态是Flink处理有状态操作（如窗口、时间戳操作、聚合等）的核心组成部分。2.状态的类型Flink提供了强大的状态管理机制，允许应用程序在分布式环境中处理状态，保证高可用性和容错性。Flin
2、Flink 在 DataStream 和 Table 之间进行转换猫猫爱吃小鱼粮 Flink SQL flink 大数据
1.概述TableAPI和DataStreamAPI都可以处理有界流和无界流。DataStreamAPI提供了流处理的基础（时间、状态和数据流管理）；TableAPI抽象了许多内部内容，并提供了一个结构化和声明性的API；在处理历史数据时，需要管理有边界的流；无边界流出现在实时处理场景中，这些场景可能需要先使用历史数据进行初始化。为了高效执行，这两个API都以优化的批处理执行模式处理有界流。由于批
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号