佛系爱学习

穿越Flink的时间隧道：解锁实时数据之窗，掌握流处理之巅

Flink中的时间和窗口

1时间语义

1.1Flink中的时间语义

1.1.1处理时间

1.1.2事件时间

1.2那种时间语义更重要

2 水位线

2.1 事件时间和窗口

2.2 什么是水位线

2.3 如何生成水位线

2.3.1使用WatermarkGenerator

2.3.2使用SourceFunction

2.4 水位线的传递

2.5 水位线的总结

2.5.1水位线的作用如下

2.5.2水位线的特性包括

3 窗口

3.1 窗口的概念

3.2 窗口的分类

①时间窗口

②计数窗口

③会话窗口

④全局窗口

3.3 窗口API概述

3.4 窗口分配器

3.5 窗口函数

3.6 测试水位线和窗口的使用

3.7 其他API

3.8 窗口的生命周期

①创建阶段

②加载阶段

③显示阶段

④激活阶段

⑤失去焦点阶段

⑥关闭阶段

⑦销毁阶段

4 迟到数据的处理

4.1 设置水位线延迟时间

①基于时间窗口的水位线延迟

②基于数据量的水位线延迟

③动态调整水位线延迟

4.2 允许窗口处理迟到数据

Flink中的时间和窗口

1时间语义

1.1Flink中的时间语义

我们重新梳理一下流式数据处理的过程。在事件发生之后，生成的数据被收集起来，首先进入分布式消息队列，然后被Flink系统中的Source算子读取消费，进而向下游的转换算子（窗口算子）传递，最终由窗口算子进行计算处理。

1.1.1处理时间：

处理时间是指执行相应操作的机器的系统时间。当流程序在处理时间上运行时，所有基于时间的操作（如时间窗口）将使用运行各自

操作符的机器的系统时间。处理时间是最简单的时间概念，不需要在流和机器之间进行协调。它提供了最佳的性能和最低的延迟。

但是，在分布式和异步环境中，处理时间不提供确定性，因为它容易受到记录到达系统的速度（例如从消息队列到达系统）以及系统内算子之间流动速度的影响。

1.1.2事件时间：

事件时间是每个独立事件在产生它的设备上发生的时间，通常在进入Flink之前就已经嵌入在记录中，可以从每个记录中提取该事件时间戳。在事件时间中，数据产生的时间决定了数据处理的过程，而不是当前系统时间。事件时间程序必须指定如何生成事件Watermarks，用来保证事件时间的有序性。

1.2那种时间语义更重要

在流处理中，事件时间和处理时间都是重要的时间语义，各有其适用场景和优势。

事件时间基于事件的物理时间或者逻辑时间，可以消除不同系统或数据源之间的时间同步问题，使数据处理结果更符合实际情况。使用事件时间，可以将不同源产生的数据按照实际的时间顺序进行整合，这对于很多应用场景是非常关键的，比如实时分析、实时告警等。

处理时间则是基于当前系统处理记录的时间，具有简单易用的特点，不需要关心数据源的时间戳问题，对于数据的处理速度较快。但是处理时间容易受到数据流速率、系统负载等因素的影响，可能会造成时间的延迟或偏移。

因此，具体选择哪种时间语义要根据实际需求和应用场景来决https://xinghuo.xfyun.cn/desk定。在一些需要精确时间排序和时间相关的聚合操作中，事件时间更为重要；而在一些实时性要求较高但不需要精确时间排序的场景中，处理时间可能更加适合。

2 水位线

2.1 事件时间和窗口

事件时间和窗口在流处理中具有重要的作用。事件时间是指每个独立事件在其设备上发生的时间，通常在进入Flink之前就已经嵌入到消息中，并且可以从每条消息中提取出来。事件时间程序必须指定如何生成水印，以保持事件时间的有序性。

窗口是Flink中的一类算子，用于将许多事件按照时间或其他特征分组，从而将每一组作为整体进行分析。窗口是DataStream的逻辑边界，常用的窗口有基于时间的窗口和计数窗口。在时间窗口中，数据按照时间进行分组，每个窗口内的数据可以在同一时间进行计算。计数窗口则根据元素的数量进行分组，分为滚动计数窗口和滑动计数窗口。

事件时间是指每个独立事件在产生它的设备上发生的时间，通常在进入Flink之前就已经嵌入在记录中，可以从每条记录中提取该事件时间戳。而窗口则是Flink中的一类算子，用于将许多事件按照时间或其他特征分组，从而将每一组作为整体进行分析。

在事件时间中，窗口的触发和结束是基于时间戳的，需要考虑到时间戳的排序和延迟问题，以保证计算结果的准确性。同时，事件时间语义和窗口也是相互影响的。在使用事件时间时，需要指定如何生成水印，以保持事件时间的有序性。而窗口的边界则可以看作是事件时间的逻辑边界，用于将事件数据分组进行分析。

2.2 什么是水位线

水位线是一种衡量事件时间进展的机制，用于处理实时数据中的乱序问题。它通常与窗口操作结合使用，以确保在窗口计算时能够正确处理乱序到达的数据。

水位线本质上是一个时间戳，用于指示当前的事件时间进展。在数据流中加入一个时钟标记，记录当前的事件时间，这个标记可以直接广播到下游。当下游任务收到这个标记，就可以更新自己的时钟。

通过水位线，Flink可以在处理乱序数据时，避免无限期地等待延迟数据到达。当到达特定水位线时，Flink认为在那个时间点之前的数据已经全部到达，即使后面还有延迟到达的数据。这样可以触发窗口计算，确保所有并行子任务都能够及时更新事件时间并进行窗口计算。

2.3 如何生成水位线

2.3.1使用WatermarkGenerator：

WatermarkGenerator是Flink提供的用于生成水位线的接口。通过实现该接口，可以根据应用程序的需求自定义水位线的生成逻辑。例如，可以根据数据源的时间戳特性来生成相应的水位线。

2.3.2使用SourceFunction：

SourceFunction是Flink中的一种特殊类型的输入数据源，可以用于生成水位线。通过实现SourceFunction，可以自定义一个水位线生成器，根据特定的时间间隔或时间序列生成水位线。
总之无论使用哪种方法，生成的水位线都需要传递给Flink的WatermarkInput的SourceFunction。通过WatermarkInput，Flink可以检测到水位线的到达，并根据水位线更新事件时间戳，以确保乱序数据的正确处理。

2.4 水位线的传递

水位线是通过数据流进行传递的。当数据流经过Flink的算子时，水位线会随着数据一起传递给下游算子。下游算子接收到数据和对应的水位线后，会根据当前时钟和水位线的比较结果来决定如何处理数据。

对于每个并行子任务，水位线被用作时间基准，以确保数据按照时间顺序进行计算。通过维护一个时钟变量，每个并行子任务可以跟踪当前的时间戳，并根据水位线来更新自己的时钟。
在Flink中，水位线的传递是必要的，因为它可以帮助解决乱序数据处理问题。当数据在分布式系统中传输时，由于网络延迟、数据源延迟等原因，数据可能会乱序到达。通过使用水位线，Flink可以正确地处理这些乱序数据，确保数据的正确性和实时性。

2.5 水位线的总结

水位线是Flink流处理中保证结果正确性的核心机制，可以看作一条特殊的数据记录，它被插入到数据流中作为一个时间戳的标记点，用于衡量事件时间（Event Time）的进展。

2.5.1水位线的作用如下：

        ①作为衡量事件时间进展的标记，直接广播到下游。
        ②保证所有并行子任务都可以及时更新事件时间，进行窗口计算。
        ③在事件时间的流中，唯一的时间尺度。通过观察水位线的大小，可以知道   当前的时间进展。
        ④用于触发窗口的闭合以及定时器的触发。

水位线的产生基于数据的时间戳，从数据中提取时间戳作为水位线的时间戳。水位线的默认计算公式是“水位线 = 观察到的最大事件时间 - 最大延迟时间 - 1 毫秒”。在数据流开始之前，Flink会插入一个初始水位线，而在数据流结束时，Flink会插入一个终止水位线。

2.5.2水位线的特性包括：

        ①单调递增的时间戳，确保任务的事件时间时钟一直向前推进。
        ②可以周期性地生成，不一定在每个数据之后。
        ③在上下游任务之间传递时，巧妙地避免了分布式系统中没有统一时钟的问题。每个任务都以“处理完之前所有数据”为标准来确定自己的时钟，从而保证窗口处理的结果总是正确的。

3 窗口

3.1 窗口的概念

窗口是一种处理无界流数据的方式，将无限数据切割成有限的“数据块”进行处理。窗口是用来处理无界流的核心，可以很容易地想象成一个固定位置的“框”，数据源源不断地流过来，到某个时间点窗口该关闭了，就停止收集数据、触发计算并输出结果。

窗口的分类包括时间窗口、计数窗口、会话窗口和全局窗口等。其中，时间窗口是最常用的一种窗口，它支持滚动和滑动两种类型。滚动窗口是在固定时间生成一个窗口，例如每小时生成一个窗口；滑动窗口则是在滑动时间生成一个窗口，例如每5分钟生成一个窗口。

在Flink中，窗口是通过WindowedStream来定义的，WindowedStream是DataStream和KeyedStream的组合。通过将数据流划分成多个窗口，可以对每个窗口内的数据进行聚合、分析等操作。

3.2 窗口的分类

窗口的分类主要有以下几种：

①时间窗口：

时间窗口是以时间点来定义窗口的开始与结束，截取出的就是某一段时间的数据。时间窗口的时间范围都是左闭右开的原则，即[start,end)。

②计数窗口：

计数窗口基于元素的个数来截取数据，到达固定的个数时就触发计算并关闭窗口。计数窗口相比时间窗口更加简单，只需要指定窗口大小，就可以把数据分配到对应的窗口当中。

③会话窗口：

会话窗口由一系列事件组合一个指定事件长度的timeout间隔组成，即一段时间没有收到新数据就会生成新的窗口。会话窗口的特点是时间不对齐。

④全局窗口：

全局窗口是一个按照指定的数据条数生成一个Window，与时间无关。

此外，根据窗口分配数据的规则，时间窗口和计数窗口又可以分为滚动窗口和滑动窗口。

滚动窗口：

滑动窗口：

滚动窗口有固定的大小，是一种对数据进行“均匀切片”的划分方式，窗口之间没有重叠，也不会有间隔。滑动窗口滑动窗口是固定窗口的更广义的一种形式，滑动窗口由固定的窗口长度和滑动间隔组成，特点为窗口长度固定，可以有重叠。

3.3 窗口API概述

窗口API是Flink中用于处理无界流数据的重要工具，它提供了对窗口操作的封装和定义。

在Flink中，可以通过WindowedStream来定义窗口操作，它是DataStream和KeyedStream的组合。通过将数据流划分成多个窗口，可以对每个窗口内的数据进行聚合、分析等操作。

窗口API的调用包括以下几个步骤：

                ①定义窗口：使用WindowedStream来定义窗口操作，并指定窗口的类型、大小、滑动距离等参数。
                ②定义窗口函数：窗口函数是用于处理每个窗口内数据的函数，可以根据具体需求选择不同的窗口函数，如计数器、累加器等。
                ③触发窗口计算：根据需要选择合适的触发条件，如时间触发、计数触发等，来触发窗口计算。
                ④输出结果：将计算结果输出到目标系统中，如数据库、文件等。

3.4 窗口分配器

窗口分配器是Flink中用于分配窗口的组件，用于将数据流划分成多个窗口，以便对每个窗口内的数据进行处理和分析。

在Flink中，有两种常见的窗口分配器：时间窗口分配器和计数窗口分配器。时间窗口分配器基于时间戳来分配窗口，将数据流按照时间划分为不同的窗口。计数窗口分配器则基于元素的个数来分配窗口，将数据流按照固定的大小划分为不同的窗口。

3.5 窗口函数

窗口函数是Flink中用于处理窗口内数据的函数，可以对每个窗口内的数据进行聚合、分析等操作。

常见的窗口函数包括计数器、求和、平均值、最大值、最小值等，可以根据具体需求选择不同的窗口函数。

窗口函数的实现通常包括以下几个步骤：

        ①定义窗口函数：根据业务需求和数据特性，选择合适的窗口函数，并实现相应的计算逻辑。
        ②绑定窗口函数到窗口：将窗口函数绑定到具体的窗口上，以便在触发计算时能够调用该函数对窗口内的数据进行处理。
        ③触发计算：根据触发条件，触发窗口内的数据计算，并调用相应的窗口函数进行数据处理。
        ④输出结果：将计算结果输出到目标系统中，如数据库、文件等。

总之，窗口函数是Flink中处理无界流数据的重要工具，它可以根据具体需求选择不同的窗口函数，对每个窗口内的数据进行聚合、分析等操作。通过使用合适的窗口函数，可以更好地处理和分析无界流数据，为业务决策提供有力支持。

3.6 测试水位线和窗口的使用

要测试水位线和窗口的使用，可以按照以下步骤进行：

①准备数据源：创建一个数据源，用于生成模拟数据。可以使用随机数生成器或其他方式生成模拟数据，确保数据源能够按照时间戳顺序生成数据。

②创建Flink程序：使用Flink API编写程序，实现水位线和窗口操作。首先定义窗口分配器和窗口函数，然后使用WindowedStream将窗口操作应用到数据流上。

③定义水位线：根据数据源的时间戳特性，定义合适的水位线生成策略。可以使用WatermarkGenerator或SourceFunction生成水位线，并将其传递给下游任务。

④启动Flink程序：将编写好的Flink程序提交给Flink集群执行。确保Flink集群配置正确，能够接收和处理数据。

⑤观察结果：监控Flink程序的执行过程和结果。可以通过查看日志、监控界面或使用打印函数等方式输出结果，观察水位线和窗口操作是否正确执行，并验证计算结果的准确性。

⑥分析和优化：根据观察结果，分析水位线和窗口操作的使用是否符合预期，是否存在问题或瓶颈。根据分析结果进行优化，调整窗口大小、触发条件等参数，提高处理性能和准确性。

3.7 其他API

①DataStream API：DataStream API是Flink中最基本的API，用于处理无界数据流。它提供了丰富的操作符和函数，可以对数据进行各种转换、过滤、聚合等操作。

②KeyedStream API：KeyedStream API是DataStream API的子类，用于处理具有键值的数据流。它提供了基于键的聚合、窗口等操作，可以对具有相同键的数据进行分组、聚合等操作。

③ConnectedStream API：ConnectedStream API用于处理两个相关联的数据流，可以在这两个数据流之间进行关联、组合等操作。它能够将两个数据流中的数据关联起来，以便更好地分析和处理。

④Table API：Table API是Flink中用于处理结构化数据的API，它可以方便地将数据流转换成表格形式，并进行查询和计算。Table API基于SQL语言，支持各种SQL查询和聚合函数。

⑤SQL API：SQL API是Flink中用于处理结构化数据的另一种API，它支持标准的SQL查询和聚合函数。通过使用SQL API，开发人员可以方便地编写SQL查询语句来处理数据流。

3.8 窗口的生命周期

窗口的生命周期主要包括以下几个阶段：

①创建阶段：

当数据流进入Flink程序时，首先会通过PreCreateWindow函数进行预处理，然后通过OnGetMinMaxInfo函数获取每个数据项的最小和最大时间戳。接下来，会调用OnNcCreate函数进行窗口的创建。在这个阶段，窗口的资源还没有完全生成，例如窗口的句柄、图标、光标和背景等。

②加载阶段：

当窗口创建完成后，会进入加载阶段。在这个阶段，Flink会根据窗口的类型和配置，将窗口加载到内存中，并完成窗口的绘制和界面元素的初始化。这个阶段是自动完成的，开发人员通常不需要关心这个阶段的实现细节。

③显示阶段：

当窗口加载完成后，会进入显示阶段。在这个阶段，窗口会显示在屏幕上，并且可以进行各种用户交互操作，例如点击、拖拽等。

④激活阶段：

当用户激活某个窗口时，该窗口就会进入激活状态。在Flink中，窗口的激活状态是通过任务栏和系统菜单来管理的。当用户单击窗口的标题栏或在任务栏中选择该窗口时，系统会将焦点切换到该窗口并将其激活。

⑤失去焦点阶段：

当用户切换到其他窗口或最小化当前窗口时，当前窗口就会失去焦点并进入失去焦点状态。在Flink中，当窗口失去焦点时，会触发失去焦点事件。

⑥关闭阶段：

当用户单击窗口右上角的关闭按钮或在任务栏中选择关闭窗口时，会触发关闭事件。在这个阶段，Flink会执行一些清理操作，例如释放窗口占用的资源。

⑦销毁阶段：

当窗口被销毁时，会触发销毁事件。在这个阶段，窗口对象占用的内存空间会被系统回收。

4 迟到数据的处理

4.1 设置水位线延迟时间

设置水位线延迟时间是为了处理分布式网络传输导致的数据乱序问题。在网络传输中，由于各种原因，数据可能会乱序到达。设置合适的水位线延迟时间，可以确保数据的顺序正确，提高流处理的实时性。

具体设置水位线延迟时间的方法可能因不同的应用程序和数据处理需求而有所不同。一些常见的方法包括：

①基于时间窗口的水位线延迟：

根据时间窗口的大小，设置一个合适的时间延迟作为水位线。例如，如果使用小时时间窗口，可以将水位线延迟设置为几分钟到几秒钟，以确保大部分数据在窗口内到达。

②基于数据量的水位线延迟：

根据数据流的大小，设置一个合适的数据量作为水位线。例如，如果处理的数据量较大，可以将水位线延迟设置为几百毫秒到几秒，以确保大部分数据在触发计算前到达。

③动态调整水位线延迟：

根据实际的数据到达情况和计算结果，动态调整水位线延迟。这种方法需要对数据流进行实时监控和分析，以确定最优的水位线延迟时间。

4.2 允许窗口处理迟到数据

Flink的窗口允许设置延迟时间，允许继续处理迟到数据。当水位线已经到了窗口结束时间，默认窗口就会关闭，那么之后再来的数据就要被丢弃。但是，如果设置了延迟时间，窗口会保持开启状态，等待迟到的数据。每来一条数据，窗口就会再次计算，并将更新后的结果输出。这样就可以逐步修正计算结果，最终得到准确的统计值。

Flink还提供了多种窗口函数来处理迟到数据，如TUMBLE、HOP、OVER、CUMULATE等。这些窗口函数支持延迟时间设置，并且还支持在窗口接收到迟到数据时输出当前窗口的开始时间和结束时间。这可以帮助开发人员更好地了解和处理迟到数据，提高处理结果的准确性。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

穿越Flink的时间隧道：解锁实时数据之窗，掌握流处理之巅

Flink中的时间和窗口

1时间语义

1.1Flink中的时间语义

1.1.1处理时间：

1.1.2事件时间：

1.2那种时间语义更重要

2 水位线

2.1 事件时间和窗口

2.2 什么是水位线

2.3 如何生成水位线

2.3.1使用WatermarkGenerator：

2.3.2使用SourceFunction：

2.4 水位线的传递

2.5 水位线的总结

2.5.1水位线的作用如下：

2.5.2水位线的特性包括：

3 窗口

3.1 窗口的概念

3.2 窗口的分类

①时间窗口：

②计数窗口：

③会话窗口：

④全局窗口：

3.3 窗口API概述

3.4 窗口分配器

3.5 窗口函数

3.6 测试水位线和窗口的使用

3.7 其他API

3.8 窗口的生命周期

①创建阶段：

②加载阶段：

③显示阶段：

④激活阶段：

⑤失去焦点阶段：

⑥关闭阶段：

⑦销毁阶段：

4 迟到数据的处理

4.1 设置水位线延迟时间

①基于时间窗口的水位线延迟：

②基于数据量的水位线延迟：

③动态调整水位线延迟：

4.2 允许窗口处理迟到数据

你可能感兴趣的:(flink,大数据)