猫猫爱吃小鱼粮

Flink版本更新汇总（1.14-1.18）

0、汇总

========1.14.0========
1.有界流支持 Checkpoint；
2.批执行模式支持 DataStream 和 Table/SQL 混合应用；
3.新增 Hybrid Source 功能；
4.新增 缓冲区去膨胀 功能；
5.新增 细粒度资源管理 功能；
6.新增 DataStream 的 Pulsar 连接器；
========1.15.0========
1.支持增量的 Savepoint；
2.保证作业级别的指标在 Reactive 模式下可以正常工作；
3.为自适应调度器添加了异常历史记录；
4.引入自适应批调度器，支持根据每个节点需要处理的数据量的大小自动决定批处理作业中各节点的并行度；
5.支持跨源节点的 Watermark 对齐；
6.SQL 通过保持拓扑不变的方式使相同的查询在升级 Flink 版本后仍然可以启动和执行；
7.支持基于 Changelog 的状态存储；
8.支持清理重试；
9.增加对 OpenAPI 的支持；
10.默认启用作业结束前的 Checkpoint；
11.优化 Application 模式；
12.批处理支持 Window table-valued 函数；
13.SQL 增加 CAST函数和JSON函数；
14.可以结合任何 Scala 版本 (包括 Scala 3) 使用 Flink的 Java API；
15.新增支持异步输出与端到端一致性的ES Sink；
16.支持 CSV 格式和 小文件压缩功能；
========1.16.0========
1.批处理-SQL Gateway 支持 REST API 和 HiveServer2 协议；
2.批处理-完善Hive语法兼容，使用 HiveServer2 协议连接 SQL Gateway，SQL Gateway 会自动注册 Hive Catalog，自动切换到 Hive 方言，自动使用批处理模式提交作业；
3.批处理-支持Join Hint；
4.批处理-支持自适应 Hash Join；
5.批处理-支持批处理的预测执行；
6.批处理-支持混合 Shuffle 模式（实验）；
7.批处理-优化Blocking shuffle；
8.批处理-支持动态分区裁剪；
9.流处理-支持Generalized Incremental Checkpoint；
10.流处理-改进 RocksDB Rescaling；
11.流处理-改善 State Backend 的监测体验和可用性；
12.流处理-支持透支缓冲区；
13.流处理-更新了从 Aligned Checkpoint（AC）切换到 Unaligned Checkpoint（UC）的时间点；
14.流处理-对于复杂的流作业可以在运行前检测并解决潜在的正确性问题；
15.流处理-维表关联-支持了通用的缓存机制和相关指标，可以加速维表查询；
16.流处理-维表关联-通过作业配置或查询提示支持可配置的异步模式（ALLOW_UNORDERED），在不影响正确性的前提下大大提升查询吞吐；
17.流处理-维表关联-支持可重试的查询，解决维表数据更新延迟问题；
18.流处理-异步 I/O 支持重试；
19.流处理-新语法-USING JAR 支持动态加载 UDF jar包，方便平台开发者轻松实现 UDF 的管理和相关作业的提交；
20.流处理-新语法-CREATE TABLE AS SELECT 方便用户基于已有的表和查询创建新的表；
21.流处理-新语法-ANALYZE TABLE 支持用户手工为原表生成统计信息，以便优化器可以生成更优的执行计划；
22.批处理-新语法-支持通过 DataStream#cache 缓存 Transformation 的执行结果；
23.History Server 及已完成作业的信息增强；
24.在 Table API 或 SQL 应用程序中支持 Protobuf 格式；
25.为异步 Sink 引入可配置的 RateLimitingStrategy；
========1.17.0========
1.批处理-支持 Sink 算子预测执行，优化预测执行慢任务的检测；
2.批处理-自适应批处理调度器成为了批作业的默认调度器，改进自适应批调度器的配置，增强了自适应批处理调度器的能力；
3.批处理-混合 Shuffle 模式支持自适应批调度器和预测执行，混合 Shuffle 模式支持重用中间数据；
4.批处理-支持 SQL Client 的 gateway 模式，可以使用 SQL 语句来管理作业的生命周期；
5.批处理-为 Batch 模式引入了新的 Delete 和 Update API，扩展了 ALTER TABLE 语法，包括 ADD/MODIFY/DROP 列、主键和 Watermark 的能力；
6.批处理-优化Hive connector，在流批模式下均能自动地进行文件合并；
7.引入了动态规划 join-reorder 算法，引入了动态 local hash aggregation 策略，移除了不必要的虚拟函数调用；
8.流处理-引入实验性功能 PLAN_ADVICE；
9.流处理-增强 watermark 对齐；
10.流处理-扩展 Streaming FileSink；
11.流处理-解决 UC 会写入过多的小文件，导致 HDFS 的 namenode 负载过高的问题，提供了 REST API，可以在作业运行时手动触发具有自定义 Checkpoint 类型的 Checkpoint；
12.流处理-RocksDBStateBackend 升级，Calcite 升级；
13.在 Slack 频道加入了性能日常监控汇报来帮助开发者快速发现性能回退问题。
14.支持 Task 级别火焰图；
15.支持通用的令牌机制；
========1.18.0========

1、Apache Flink 1.14.0 发布公告

0）关键功能汇总

1.有界流支持 Checkpoint；

2.批执行模式支持 DataStream 和 Table/SQL 混合应用；

3.新增 Hybrid Source 功能；

4.新增缓冲区去膨胀功能；

5.新增细粒度资源管理功能；

6.新增 DataStream 的 Pulsar 连接器；

1）流批一体的处理体验

1.有界流 Checkpoint 机制

Flink 支持在部分任务结束后创建 Checkpoint，以及在有界流处理结束后触发最终 Checkpoint 以确保在作业结束时将所有输出结果提交到 Sink（与 stop-with-savepoint 类似）。

在配置中添加 execution.checkpointing.checkpoints-after-tasks-finish.enabled: true 启用。

2.DataStream 和 Table/SQL 混合应用的批执行模式

有界的批执行模式的 SQL/Table 应用可将其中间数据表转换成数据流，经过由 DataStream API 定义的算子处理，再转换回数据表。

3.混合 Source

混合 Source 能够依次从多个数据源读取数据，在不同数据源之间无缝切换，产出一条由来自多个数据源的数据合并而成的数据流。

例如，将新数据灌入 Kafka，并最终迁移至 S3，混合 Source 可以像读取一条连续的逻辑数据流一样，先从 S3 读取历史数据，然后转换到 Kafka 读取最新的数据。

4.整合 Source 和 Sink

2）运维改进

1.缓冲区去膨胀

可以最小化 Checkpoint 的延迟和开销，通过自动调整网络内存的用量，在确保高吞吐的同时最小化缓冲区中的数据量。

2.细粒度资源管理

TaskManager 上的 Slot 可以动态改变大小。

3）连接器

1.连接器指标

对连接器的指标进行了标准化。

2.Pulsar 连接器

新增 DataStream API 的 Pulsar 连接器。

4）PyFlink

1.基于链接的性能提升

与 Java API 将任务中的转换函数、算子链接起来以避免序列化开销类似，PyFlink 现在也会将 Python 函数链接起来。

2.环回调试模式

该模式下，用户自定义 Python 函数将由运行客户端的 Python 进程执行，该进程是启动 PyFlink 应用的入口，负责执行用于构建数据流 DAG 的所有 DataStream API 和 Table API 代码。

用户现在本地运行 PyFlink 作业时，可以通过在 IDE 中设置断点的方式方便地调试 Python 函数。

3.其他改进

支持用 Yarn Application 模式执行作业、支持使用 tgz 压缩格式的 Python 归档文件等

5）告别旧版 SQL 引擎和 Mesos 支持

2、Apache Flink 1.15 发布公告

0）关键功能汇总

1.支持增量的 Savepoint；

2.保证作业级别的指标在 Reactive 模式下可以正常工作；

3.为自适应调度器添加了异常历史记录；

4.引入自适应批调度器，支持根据每个节点需要处理的数据量的大小自动决定批处理作业中各节点的并行度；

5.支持跨源节点的 Watermark 对齐；

6.SQL 通过保持拓扑不变的方式使相同的查询在升级 Flink 版本后仍然可以启动和执行；

7.支持基于 Changelog 的状态存储；

8.支持清理重试；

9.增加对 OpenAPI 的支持；

10.默认启用作业结束前的 Checkpoint；

11.优化 Application 模式；

12.批处理支持 Window table-valued 函数；

13.SQL 增加 CAST函数和JSON函数；

14.可以结合任何 Scala 版本 (包括 Scala 3) 使用 Flink的 Java API；

15.新增支持异步输出与端到端一致性的ES Sink；

16.支持 CSV 格式和小文件压缩功能；

1）运维 Apache Flink

1.澄清 Checkpoint 与 Savepoint 语义

如果用户选择使用原生格式并且同时使用了 RocksDB 状态存储，那么Savepoint 将采用增量的方式来执行

2.基于 Reactive 模式与自适应调度器的弹性伸缩

改进了 Reactive 模式，保证了作业级别的指标在 Reactive 模式下也可以正常工作。

为自适应调度器添加了异常历史记录。

提高了缩减作业规模的速度。

3.自适应批调度器

引入了自适应批处理调度器，可以自动根据每个节点需要处理的数据量的大小自动决定批处理作业中各节点的并行度。

此调度器的主要优点包括：

易用性：批处理作业的用户不再需要手动调优并行度。
自适应：自动调整并行度可以更好地适应节点消费数据集随时间发生变化的情况。
细粒度：每个作业节点的并行度可以单独调整。这允许 SQL 批处理作业的节点自动为每个节点单独选择最适合的并行度。

4.跨源节点的 Watermark 对齐

基于新的 Source 接口来实现的数据源节点可以启用 Watermark 对齐功能。

用户可以定义对齐组，如果其中某个源节点与其它节点相比Watermark领先过多，用户可以暂停从该节点中消费数据。

5.SQL 版本升级

问题：SQL 查询的执行计划及其生成的拓扑是通过优化规则和一个基于成本的模型来得到的，即使最小的更改也可能会产生一个完全不同的拓扑，这种动态性使得在不同 Flink 版本间保证快照兼容性非常具有挑战性。

升级：通过保持拓扑不变的方式使相同的查询在升级 Flink 版本后仍然可以启动和执行。

6.基于 Changelog 的状态存储

基于 Changelog 的状态存储通过在后台不断向非易失性存储上上传状态变化的记录来实现以下目标：

更短的端到端延迟：端到端延迟主要取决于 Checkpoint 机制，特别是使用了两阶段提交的支持端到端一致性的 Sink 节点的情况，这种情况下缩短 Checkpoint 周期意味着可以更快的提交数据。

更可预测的 Checkpoint 间隔：目前 Checkpoint 的完成时间很大程度上取决于需要保存在 Checkpoint 中的数据的大小。通过使这一数据总是可以很小，Checkpoint 的完成时间变得更加可以预测。

恢复工作更少：Checkpoint 越频繁，每次重启后重新处理的数据也会越少。

7.可重复的清理

在以前的 Flink 版本中，Flink 在作业结束时只尝试清理一次与作业相关的残留数据，这可能会导致在发生错误时无法完成清理。

在这个版本中，Flink 将尝试重复运行清理以避免残留数据。

默认情况下，Flink 将不断重试，直到运行成功为止，可以通过配置来改变这种行为，禁用重试策略可以恢复 Flink 之前版本的行为。

8.Open API

Flink 现在提供遵循 Open API 标准的 REST API 规范。

这允许 REST API 与遵循 Open API 标准的工具直接交互。

9.Application 模式的改进

在 Application 模式下 运行 Flink 时，通过相关配置，可以保证作业在结束前能够正常完成 stop-with-savepoint 操作。

在 Application 模式下运行的作业的恢复和清理也得到了改进，本地状态的元数据也可以保存在工作目录中，这使得从本地状态恢复更容易 (例如将工作目录设定在非易失的跨机器的存储中的情况，之前本地状态的元数据保存在内存中，因此在作业恢复时无法找回)。

2）流批一体的更多进展

1.作业结束前的 Checkpoint

默认启用对作业结束前等待一次 Checkpoint 操作的支持。

2.Window table-valued 函数

Window table-valued 函数支持在批模式下使用。

3）Flink SQL

1.CAST / 类型系统增强

失败的 CAST 的默认行为已从返回 null 更改为返回错误。

2.JSON 函数

引入多个 JSON 处理函数。

4）社区支持

1.云环境互操作性

2.Elasticsearch Sink

基于最新的 Sink API 来实现的，可以提供异步输出与端到端一致性的能力，可以作为未来更多 Sink 实现的模板。

3.Scala-free 的 Flink

Scala 用户可以结合任何 Scala 版本 (包括 Scala 3) 使用 Flink的 Java API。

4.PyFlink

引入了一种 “线程” 模式的新执行模式：用户自定义的函数将在 JVM 中作为线程执行，而不是在单独的 Python 进程中执行。

5）其它

添加了对CSV 格式 小文件压缩功能的支持。

3、Apache Flink 1.16 发布公告

0）关键功能汇总

1.批处理-SQL Gateway 支持 REST API 和 HiveServer2 协议；

2.批处理-完善Hive语法兼容，使用 HiveServer2 协议连接 SQL Gateway，SQL Gateway 会自动注册 Hive Catalog，自动切换到 Hive 方言，自动使用批处理模式提交作业；

3.批处理-支持Join Hint；

4.批处理-支持自适应 Hash Join；

5.批处理-支持批处理的预测执行；

6.批处理-支持混合 Shuffle 模式（实验）；

7.批处理-优化Blocking shuffle；

8.批处理-支持动态分区裁剪；

9.流处理-支持Generalized Incremental Checkpoint；

10.流处理-改进 RocksDB Rescaling；

11.流处理-改善 State Backend 的监测体验和可用性；

12.流处理-支持透支缓冲区；

13.流处理-更新了从 Aligned Checkpoint（AC）切换到 Unaligned Checkpoint（UC）的时间点；

14.流处理-对于复杂的流作业可以在运行前检测并解决潜在的正确性问题；

15.流处理-维表关联-支持了通用的缓存机制和相关指标，可以加速维表查询；

16.流处理-维表关联-通过作业配置或查询提示支持可配置的异步模式（ALLOW_UNORDERED），在不影响正确性的前提下大大提升查询吞吐；

17.流处理-维表关联-支持可重试的查询，解决维表数据更新延迟问题；

18.流处理-异步 I/O 支持重试；

19.流处理-新语法-USING JAR 支持动态加载 UDF jar包，方便平台开发者轻松实现 UDF 的管理和相关作业的提交；

20.流处理-新语法-CREATE TABLE AS SELECT 方便用户基于已有的表和查询创建新的表；

21.流处理-新语法-ANALYZE TABLE 支持用户手工为原表生成统计信息，以便优化器可以生成更优的执行计划；

22.批处理-新语法-支持通过 DataStream#cache 缓存 Transformation 的执行结果；

23.History Server 及已完成作业的信息增强；

24.在 Table API 或 SQL 应用程序中支持 Protobuf 格式；

25.为异步 Sink 引入可配置的 RateLimitingStrategy；

1）批处理

1.SQL Gateway

SQL Gateway 是对 SQL Client 的扩展和增强，支持多租户和插件式 API 协议（Endpoint），解决了 SQL Client 只能服务单用户并且不能对接外部服务或组件的问题。

当前 SQL Gateway 已支持 REST API 和 HiveServer2 协议，用户可以通过 cURL，Postman，各种编程语言的 HTTP 客户端链接到 SQL Gateway 提交流作业、批作业，甚至 OLAP 作业。

2.Hive 语法兼容

HiveServer2 协议允许使用 Hive JDBC/Beeline 和 SQL Gateway 进行交互，Hive 生态（DBeaver, Apache Superset, Apache DolphinScheduler, and Apache Zeppelin）也因此很容易迁移到 Flink。

当用户使用 HiveServer2 协议连接 SQL Gateway，SQL Gateway 会自动注册 Hive Catalog，自动切换到 Hive 方言，自动使用批处理模式提交作业，用户可以得到和直接使用 HiveServer2 一样的体验。

Flink 完善了对 Hive 语法的兼容，增加了对 Hive 若干生产中常用语法的支持。

3.Join Hint

Hint 是业界用来干预执行计划以改善优化器缺点的通用解决方案。

统计信息缺失或优化器的代价模型不完善都会导致选出错误 Join 策略，从而导致作业运行慢甚至有运行失败的风险。

用户通过指定 Join Hint，让优化器尽可能选择指定的 Join 策略，避免优化器的各种不足，以确保批作业的生产可用性。

4.自适应 Hash Join

批作业中数据倾斜是常见的，使用 HashJoin 可能运行失败，因此引入自适应的 HashJoin：

Join 算子运行时一旦 HashJoin 运行失败，可以自动回退到 SortMergeJoin，并且是 Task 粒度，通过该机制确保 HashJoin 算子始终成功，从而提高了作业的稳定性。

5.批处理的预测执行

问题机器：指存在硬件问题、突发 I/O 繁忙或 CPU 负载高等问题的机器，可能会使运行在该机器上的任务比其他机器上的任务要慢得多，从而影响批处理作业的整体执行时间。

启用预测执行时：

Flink 将持续检测慢任务，一旦检测到慢任务，该任务所在的机器将被识别为问题机器，并通过黑名单机制被加黑，调度器将为慢任务创建新的执行实例并将它们部署到未被加黑的节点，同时现有执行实例也将继续运行。
新的执行实例和老的执行实例将处理相同的输入数据并产出相同的结果数据，一旦任何执行实例率先完成，它将被视为该任务的唯一完成执行实例，并且该任务的其余执行实例都将被取消。

大多数现有 Source 都可以使用预测执行，目前 Sink 尚不支持预测执行。

增强了 Web UI 和 REST API，以显示任务的多个执行实例和被加黑的 TaskManager。

6.混合 Shuffle 模式

结合 Blocking Shuffle 和 Pipeline Shuffle 的优点：

与 Blocking Shuffle 一样，它不要求上下游任务同时运行，这允许使用很少的资源执行作业。
与 Pipeline Shuffle 一样，它不要求上游任务完成后才执行下游任务，这在给定足够资源情况下减少了作业的整体执行时间。
用户可以选择不同的落盘策略，以满足减少数据落盘或是降低任务重启代价的不同需求。

注意：该功能为实验性的，并且默认关闭。

7.Blocking shuffle 优化

改进了 Blocking Shuffle 的可用性和性能，包括自适应网络缓冲区分配、顺序 IO 优化和结果分区重用，允许多个消费者节点重用同一个物理结果分区，以减少磁盘 IO 和存储空间。

还引入了两种压缩率更高的压缩算法（LZO 和 ZSTD）与默认的 LZ4 压缩算法相比，进一步减少存储空间，但要付出一些 CPU 成本。

8.动态分区裁剪

静态分区裁剪：即在优化阶段，优化器将 Filter 中的 Partition 相关的过滤条件下推到 Source Connector 中从而减少不必要的分区读取。

动态分区裁剪：即运行时根据其他相关表的数据确定分区裁剪信息从而减少对分区表中无效分区的读取。

2）流处理

1.Generalized Incremental Checkpoint

基于 Changelog State Backend 在自身易用性上和与其他 State Backend 兼容性上做了诸多改进：

支持状态迁移
支持 Failover 时从本地恢复
引入文件缓存优化恢复过程的性能
支持从 Checkpoint 进行切换
优化监控体验：
- 扩充了 Changelog 的监控指标
- 在 Flink WebUI 上显示 Changelog 相关的配置

2.RocksDB Rescaling 改进

使用了 RocksDB 的区间删除来优化增量 RocksDB State Backend 的 Rescaling 性能。

区间删除被用来避免在 Rescaling 过程中大量的扫描和单点删除操作，对有大量的状态需要删除的扩并发来说，单个并发上的恢复速度可以提高 2~10 倍。

3.改善 State Backend 的监测体验和可用性

之前，RocksDB 的日志位于它自己的 DB 目录中，这个版本让 RocksDB 的日志默认留在 Flink 的日志目录中。

新增了 RocksDB 相关的统计指标，以帮助调试 DB 级别的性能，例如，在 DB 内的总块缓存命中/失败计数。

4.支持透支缓冲区

透支缓冲区（Overdraft Buffers）旨在缓解反压情况下 Subtask 被阻塞的概率，通过设置 taskmanager.network.memory.max-overdraft-buffers-per-gate 开启。

从 1.16 开始，一个 Flink 的 Subtask 可以申请 5 个（默认）额外的透支缓冲区。

透支缓冲区会轻微地增加作业的内存使用量，但可以极大地减少 Checkpoint 的间隔，特别是在开启 Unaligned Checkpoint 情况下。只有当前 Subtask 被下游 Subtasks 反压且当前 Subtask 需要请求超过 1 个网络缓冲区（Network Buffer）才能完成当前的操作时，透支缓冲区才会被使用。

5.对齐 Checkpoint 超时

更新了从 Aligned Checkpoint（AC）切换到 Unaligned Checkpoint（UC）的时间点。

在开启 UC 的情况下，如果配置了 execution.checkpointing.aligned-checkpoint-timeout，在启动时每个 Checkpoint 仍然是 AC，但当全局 Checkpoint 持续时间超过 aligned-checkpoint-timeout 时，如果 AC 还没完成，那么 Checkpoint 将会转换为 UC。
以前，对一个 Substask 来说，AC 到 UC 的切换需要等所有上游的 Barriers 到达后才能开始，在反压严重的情况下，在 checkpointing-timeout 过期之前，下游的 Substask 可能无法完全地收到所有 Barriers，从而导致 Checkpoint 失败。
在这个版本中，如果上游 Subtask 中的 Barrier 无法在 execution.checkpointing.aligned-checkpoint-timeout 内发送到下游，Flink 会让上游的 Subtask 先切换成 UC，以把 Barrier 发送到下游，从而减少反压情况下 Checkpoint 超时的概率。

6.流计算的非确定性

对于复杂的流作业，现在可以在运行前检测并解决潜在的正确性问题。

如果问题不能完全解决，一个详细的消息可以提示用户如何调整 SQL，以避免引入非确定性问题。

7.维表增强

维表关联在流处理中被广泛使用，在 1.16 中加入了多项优化和增强：

支持了通用的缓存机制和相关指标，可以加速维表查询。
通过作业配置或查询提示支持可配置的异步模式（ALLOW_UNORDERED），在不影响正确性的前提下大大提升查询吞吐。
可重试的查询机制让用户解决维表数据更新延迟问题有了更多的手段

8.异步 I/O 支持重试

为异步 I/O引入了内置的重试机制，对用户现有代码是透明的，可以灵活地满足用户的重试和异常处理需求。

3）PyFlink

在 Python DataStream API 中以及在 Table API 和 SQL 的 Python 表值函数中，也支持了新的执行模式：“线程”模式。

在该模式下，用户自定义的 Python 函数将通过 JNI 在 JVM 中执行，而不是在独立的 Python 进程中执行。

4）其他

1.新语法

USING JAR 支持动态加载 UDF jar包，方便平台开发者轻松实现 UDF 的管理和相关作业的提交。
CREATE TABLE AS SELECT 方便用户基于已有的表和查询创建新的表。
ANALYZE TABLE 支持用户手工为原表生成统计信息，以便优化器可以生成更优的执行计划。

2.DataStream 中的缓存

支持通过 DataStream#cache 缓存 Transformation 的执行结果。缓存的中间结果在首次计算中间结果时才生成，以便以后的作业可以重用该结果。

如果缓存丢失，原始的 Transformation 将会被重新计算以得到结果。目前该功能只在批处理模式下支持。这个功能对于 Python 中的 ML 和交互式编程非常有用。

3.History Server 及已完成作业的信息增强

JobManager / HistoryServer WebUI 提供了详细的执行时间指标，包括任务在每个执行状态下的耗时，以及在运行过程中繁忙/空闲/反压总时间。
JobManager / HistoryServer WebUI 提供了按 Task 或者 TaskManager 维度分组的主要子任务指标的聚合。
JobManager / HistoryServer WebUI 提供了更多的环境信息，包括环境变量，JVM 选项和 Classpath。
HistoryServer 现在支持从外部日志归档服务中浏览日志

4.Protobuf 格式

在 Table API 或 SQL 应用程序中支持 Protobuf 格式。

5.为异步 Sink 引入可配置的 RateLimitingStrategy

1.15 中允许实现自定义异步 Sink。

1.16 中支持可配置的 RateLimitingStrategy，可以自定义其异步 Sink 在请求失败时的行为方式，具体行为取决于特定的 Sink。

如果没有指定 RateLimitingStrategy，它将默认使用 AIMDScalingStrategy。

4、Apache Flink 1.17 发布公告

0）关键功能汇总

1.批处理-支持 Sink 算子预测执行，优化预测执行慢任务的检测；

2.批处理-自适应批处理调度器成为了批作业的默认调度器，改进自适应批调度器的配置，增强了自适应批处理调度器的能力；

3.批处理-混合 Shuffle 模式支持自适应批调度器和预测执行，混合 Shuffle 模式支持重用中间数据；

4.批处理-支持 SQL Client 的 gateway 模式，可以使用 SQL 语句来管理作业的生命周期；

5.批处理-为 Batch 模式引入了新的 Delete 和 Update API，扩展了 ALTER TABLE 语法，包括 ADD/MODIFY/DROP 列、主键和 Watermark 的能力；

6.批处理-优化Hive connector，在流批模式下均能自动地进行文件合并；

7.引入了动态规划 join-reorder 算法，引入了动态 local hash aggregation 策略，移除了不必要的虚拟函数调用；

8.流处理-引入实验性功能 PLAN_ADVICE；

9.流处理-增强 watermark 对齐；

10.流处理-扩展 Streaming FileSink；

11.流处理-解决 UC 会写入过多的小文件，导致 HDFS 的 namenode 负载过高的问题，提供了 REST API，可以在作业运行时手动触发具有自定义 Checkpoint 类型的 Checkpoint；

12.流处理-RocksDBStateBackend 升级，Calcite 升级；

13.在 Slack 频道加入了性能日常监控汇报来帮助开发者快速发现性能回退问题。

14.支持 Task 级别火焰图；

15.支持通用的令牌机制；

1）批处理

1.预测执行

Sink 算子支持预测执行，包括 DiscardingSink、PrintSinkFunction、PrintSink、FileSink、FileSystemOutputFormat 和 HiveTableSink。

优化预测执行慢任务的检测。

2.自适应批处理调度器

自适应批处理调度器成为了批作业的默认调度器。

该调度器可以根据每个 job vertex 处理的数据量，自动为其设置合适的并行度，是唯一支持预测执行的调度器。

改进自适应批调度器的配置，不再需要显式将全局默认并行度设置为-1 来开启自动推导并行度功能，如果设置了全局默认并行度，其会被用做自动推导并行度的上界。

增强了自适应批处理调度器的能力，可以根据细粒度的数据分布信息，将数据更均匀的分配给下游任务，自动推导的并行度现在也不再被限制为 2 的幂。

3.优化混合 Shuffle 模式

混合 Shuffle 模式支持自适应批调度器和预测执行。

混合 Shuffle 模式支持重用中间数据。

提高了稳定性，避免了在大规模生产环境中出现的稳定性问题

4.SQL Client/Gateway

支持了 SQL Client 的 gateway 模式，允许用户将 SQL 查询提交给 SQL Gateway 来使用 Gateway 的各种功能。

可以使用 SQL 语句来管理作业的生命周期，包括显示作业信息和停止正在运行的作业。

5.SQL API

为 Batch 模式引入了新的 Delete 和 Update API，并将其暴露给连接器，这样外部存储系统便可以基于 API 实现行级更新和删除。

扩展了 ALTER TABLE 语法，包括 ADD/MODIFY/DROP 列、主键和 Watermark 的能力。

6.Hive 兼容

优化Hive connector，在之前的版本中，对于 Hive 的写入，只支持在流模式下自动地进行文件合并，从 Flink 1.17 开始，在批模式下也能自动地进行文件合并，可以大大减少小文件的数量。

通过加载HiveModule来使用 Hive 内置函数时，引入了原生的 Hive 聚合函数如 SUM/COUNT/AVG/MIN/MAX 进 HiveModule 中，可以在基于哈希的聚合算子上执行，带来显著的性能提升。

7.TPC-DS

引入了动态规划 join-reorder 算法（注意：join-reorder 默认未开启）

引入了动态 local hash aggregation 策略，根据数据的分布，动态确定是否需要在本地进行聚合操作以提高性能。

移除了不必要的虚拟函数调用，加快执行速度。

2）流处理

1.Streaming SQL 语义完善

引入实验性功能 PLAN_ADVICE，该功能可以检测用户 SQL 潜在的正确性风险，并提供优化建议。

如果用户通过 EXPLAIN PLAN_ADVICE 命令发现查询存在 NDU(非确定性更新) 问题，优化器会在物理计划输出的末尾追加建议，建议会标记到对应操作节点上，并提示用户更新查询和配置，通过提供具体的建议，优化器可以帮助用户提高查询结果的准确性。

== Optimized Physical Plan With Advice ==
...
advice[1]: [WARNING] The column(s): day(generated by non-deterministic function: CURRENT_TIMESTAMP ) can not satisfy the determinism requirement for correctly processing update message('UB'/'UA'/'D' in changelogMode, not 'I' only), this usually happens when input node has no upsertKey(upsertKeys=[{}]) or current node outputs non-deterministic update messages. Please consider removing these non-deterministic columns or making them deterministic by using deterministic functions.

PLAN_ADVICE 还可以帮助提高查询的性能和效率，如果检测到聚合操作可以优化为更高效的 local-global 聚合操作，优化器会提供相应的优化建议，通过应用这些具体的建议，优化器可以帮用户提高其查询的性能和效率。

== Optimized Physical Plan With Advice ==
...
advice[1]: [ADVICE] You might want to enable local-global two-phase optimization by configuring ('table.optimizer.agg-phase-strategy' to 'AUTO').

2.Watermark 对齐增强

Watermark 对齐增强-解决 event time 作业中的源数据倾斜问题；

该方案存在限制：Source 并行度必须和分区数匹配，因为具有多个分区的 Source 算子中，如果一个分区比另一个分区更快地发出数据，此时需要缓存大量数据。

增强 watermark 对齐：考虑 watermark 边界的情况下对 Source 算子内的多个分区进行数据发射对齐，确保了 Source 中的 Watermark 前进更加协调，避免了下游算子缓存过多的数据，从而提高了流作业的执行效率。

3.Streaming FileSink 扩展

添加 ABFS 支持后，StreamingFileSink 可以支持五种不同的文件系统：HDFS、S3、OSS、ABFS 和 Local。

4.Checkpoint 改进

解决了之前版本的 UC 会写入过多的小文件，可能导致 HDFS 的 namenode 负载过高的问题。

提供了 REST API，可以在作业运行时手动触发具有自定义 Checkpoint 类型的 Checkpoint，例如，使用增量 Checkpoint 运行的作业，可以定期或手动触发全量 Checkpoint 来去除多个增量 Checkpoint 之间的关联关系，从而避免引用很久以前的文件。

5.RocksDBStateBackend 升级

将 FRocksDB 的版本升级到 6.20.3-ververica-2.0：

支持在 Apple 芯片上构建 FRocksDB Java
通过避免昂贵的 ToString() 操作提高 Compaction Filter 的性能
升级 FRocksDB 的 ZLIB 版本，避免 Memory Corruption
为 RocksJava 添加 periodic_compaction_seconds 选项

提供参数扩大 TaskManager 的 slot 之间共享内存的范围，可以在 TaskManager 中 slot 内存使用不均匀时提高内存效率，基于此在调整参数后可以以资源隔离为代价来降低整体内存消耗。

6.Calcite 升级

将 Calcite 版本升级到 1.29.0 以提高 Flink SQL 系统的性能和效率。

3）其他

1.PyFlink

支持 Python 3.10、支持在 Mac M1 和 M2 电脑上运行 PyFlink，改进了 Java 和 Python 进程之间的跨进程通信的稳定性、支持以字符串的方式声明 Python UDF 的结果类型、支持在 Python UDF 中访问作业参数。

2.性能监控 Benchmark

在 Slack 频道加入了性能日常监控汇报来帮助开发者快速发现性能回退问题。

3.Task 级别火焰图

Flame Graph 功能提供了针对 task 级别的可视化支持。

4.通用的令牌机制

在 Flink 1.17 之前 Flink 只支持 Kerberos 认证和基于 Hadoop 的令牌；

在 Flink 1.17 之后 Flink 的委托令牌框架更加通用，使其认证协议不再局限于 Hadoop。

5、Apache Flink 1.18 发布公告

0、重要功能总结

1）Flink SQL 提升

1.Flink SQL Gateway 的 JDBC Driver

提供了 Flink SQL Gateway 的 JDBC Driver，可以使用支持 JDBC 的任何 SQL 客户端通过 Flink SQL 与表进行交互。

2.Flink 连接器的存储过程（Stored Procedure）支持

可以通过 Catalog 接口自定义存储过程到连接器中。

连接器内的存储过程提高了 Flink 的 SQL 和 Table API 的可扩展性。

可以使用 Call 语句来直接调用 catalog 内置的存储过程。

CREATE TABLE `paimon`.`default`.`T` ( 
 id BIGINT PRIMARY KEY NOT ENFORCED,  
 dt STRING, -- format 'yyyy-MM-dd'  
 v STRING
);

-- use catalog before call 
proceduresUSE CATALOG `paimon`;

-- compact the whole table using call statement
CALL sys.compact('default.T');

3.DDL 支持扩展

支持以下功能（需要底层连接器支持）：

REPLACE TABLE AS SELECT
CREATE OR REPLACE TABLE AS SELECT
ALTER TABLE ADD PARTITION
ALTER TABLE DROP PARTITION
SHOW PARTITIONS
批处理模式 TRUNCATE TABLE

4.时间旅行（Time Traveling）

支持时间旅行（time travel） SQL 语法，用于查询历史版本的数据，可以指定一个时间点，来检索表在该时间点的数据和架构。

-- 查询表 `paimon_tb` 在 2022年11月11日的数据
SELECT * FROM paimon_tb FOR SYSTEM_TIME AS OF TIMESTAMP '2022-11-11 00:00:00'；

2）流处理提升

1.Table API & SQL 支持算子级别状态保留时间（TTL）

Table API 和 SQL 可以为有状态的算子单独设置状态保留时间 (TTL)。

在像流 regular join 这样的场景中，可以为左侧和右侧流设置不同的 TTL。

在以前的版本中，状态保留时间只能在 pipeline 级别使用配置项 table.exec.state.ttl 进行控制，引入算子级别的状态保留后，用户现在可以根据其具体需求优化资源使用。

2.SQL 的水印对齐（Watermark Alignment）和空闲检测（Idleness Detection）

可以使用 SQL Hint 配置水印对齐和数据源空闲超时，之前这些功能仅在 DataStream API 中可用。

3）批处理提升

1.Hybrid Shuffle 支持远程存储

Hybrid Shuffle 支持将 Shuffle 数据存储在远程存储中，可以使用配置项 taskmanager.network.hybrid-shuffle.remote.path 配置远程存储路径。

Hybrid Shuffle 通过将内存用量与并行度解耦，减少了网络内存的使用，提高了稳定性和易用性。

2.性能提升与 TPC-DS 基准测试

a) Flink SQL 的运行时过滤（Runtime Filter）

运行时过滤（Runtime Filter）是用于优化 join 性能的常见方法，旨在动态生成某些 join 查询的运行时过滤条件，以减少扫描或 Shuffle 的数据量，避免不必要的 I/O 和网络传输，从而加速查询。

b) Flink SQL 算子的融合代码生成（Operator Fusion Codegen）

算子融合代码生成（Operator Fusion Codegen）通过将算子 DAG 融合成一个经过优化的单算子，消除了虚函数调用，利用 CPU 寄存器进行中间数据操作，并减少指令缓存不命中的情况，从而提高了查询的执行性能。

**注意：**上述功能默认处于关闭状态，使用 table.optimizer.runtime-filter.enabled 和 table.exec.operator-fusion-codegen.enabled 两个配置项来启用。

4）迈向云原生弹性化

1.自动弹性化（Elasticity）

Flink 1.15 版本，引入自适应调度器，构成了完全弹性 Apache Flink 部署的核心，允许作业在运行时更改其资源要求和并行度，还根据集群中可用的资源进行自适应调整，只有当集群能够满足作业的最低所需资源时才会重新调整。

Flink 1.18 版本之前，自适应调度器主要用于响应模式（Reactive Mode），单个作业始终会使用集群中的所有可用资源。

在 Flink 1.18 版本中，自适应调度器变得更加强大和更广泛适用，并正在成为 Apache Flink 流处理任务的默认调度器。

2.通过 REST API 控制动态细粒度扩缩容

在作业运行时，通过 Flink Web UI 和 REST API 更改作业的任何 task 的并行度。

3.更快地 RocksDB 扩缩容

提升了并行下载的能力，从只并行下载状态句柄（state handle），扩展到并行下载文件，关闭了用于扩缩容的临时 RocksDB 实例在批量插入时的写前日志（write-ahead-logging）。

4.Java 17 支持

5）其他改进

1.生产可用的水印对齐（Watermark Alignment）功能

2.可插拔式故障处理

3.SQL 客户端的改进

4.Apache Pekko 代替 Akka

5.Calcite 升级

6）重要 API 弃用

SourceFunction已经弃用
SinkFunction 尚未正式弃用，即将被 SinkV2 所取代
Queryable State现已弃用
DataSet API现已弃用

你可能感兴趣的:(flink,人工智能,大数据)

MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
2025年 UI 自动化框架使用排行 Thomas Kant 自动化测试 ui 自动化运维
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】</
全球人工智能与大模型发展全景：技术历程、产品概览与未来趋势软件职业规划人工智能搜索引擎
一、人工智能的发展历程（一）萌芽期（1950s-1980s）1956年：人工智能的诞生人工智能（AI）的概念在1956年的达特茅斯会议上被正式提出。那是一个充满梦想和探索的时代，一群年轻的科学家，包括约翰·麦卡锡（JohnMcCarthy）、马文·明斯基（MarvinMinsky）和克劳德·香农（ClaudeShannon）等，齐聚达特茅斯学院，共同探讨一个前所未有的课题：如何让机器模拟人类智能。
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
分布式学习嘉陵妹妹分布式学习
1.列举三个非冯·诺依曼计算结构非冯结构是指不遵循传统冯·诺依曼体系的计算架构，包括：数据流结构（DataflowArchitecture）：指令执行取决于数据的可用性而不是程序计数器。神经网络结构（NeuralNetworkArchitecture）：模拟生物神经元连接，用于人工智能。量子计算结构（QuantumComputingArchitecture）：利用量子比特和量子叠加原理进行计算。2
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
电商用户行为可视化大屏--大数据项目
一．项目目的1.深入了解服务：用户的浏览路径、购买频率、商品评价等数据，能够精准地刻画用户画像。了解用户的年龄、性别、地域等基本信息，以及他们的兴趣爱好、消费习惯等更深入的特征，从而为个性化的营销和服务提供依据。2.优化用户体验：通过分析用户在页面之间的跳转时间、购物车的使用情况等，找出可能存在的流程不畅或设计不合理的地方。3.提高运营效率：对商品销售数据、库存数据等进行关联分析，有助于合理安排库
memcpy与memcpy_toio：深入解析两大数据传输神器 jghhh01 c++c语言
在软件开发中，数据的高效传输是确保程序性能和稳定性的关键。C语言作为一种广泛应用于系统编程和嵌入式开发的语言，提供了多种用于数据复制和传输的函数。其中，memcpy和memcpy_toio是两个备受关注的数据传输函数，它们各自在特定场景下发挥着不可替代的作用。本文将深入解析这两个函数，探讨它们的用途、区别以及在实际应用中的最佳实践。一、memcpy：内存复制的基础工具memcpy是C标准库中的一个
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
使用SQL-Ollama与自然语言交互SQL数据库的指南 antja_ 数据库 sql
#使用SQL-Ollama与自然语言交互SQL数据库的指南##技术背景介绍随着人工智能技术的发展，能够使用自然语言与SQL数据库交互的需求越来越大。这种技术可以帮助用户轻松访问和操作数据库，而无需深刻理解SQL语法。SQL-Ollama是一个专门设计的模板，利用Zephyr-7b模型，通过Ollama在本地运行推理，使这一过程变得简单而高效。##核心原理解析SQL-Ollama通过将自然语言转换为
文心大模型4.5及X1重磅上线，真实测评
2025年3月16日，人工智能领域迎来一场重要盛事——百度文心大模型4.5如期正式发布。与此同时，百度还惊喜推出了另一款全新模型——文心大模型X1。目前，文心大模型4.5和X1已在文心一言官网（https://yiyan.baidu.com/）正式上线，并免费向用户开放。其中，文心大模型4.5面向企业用户和开发者，用户可以通过登录百度智能云千帆大模型平台，轻松调用文心大模型4.5的API接口，快速
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
RoomGPT: 人工智能驱动的室内设计革命 m0_56734068 人工智能
RoomGPT:用AI重新定义室内设计在当今数字化时代,人工智能正在改变各个行业的面貌,室内设计领域也不例外。RoomGPT作为一款革命性的AI驱动室内设计工具,正在彻底改变人们对室内空间进行创意和改造的方式。本文将深入探讨RoomGPT的工作原理、使用方法以及它为室内设计行业带来的变革。RoomGPT简介RoomGPT是一个开源项目,由GitHub用户Nutlope开发。它允许用户上传任何房间的
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
人脸识别常用数据集和Loss JL_Jessie 人脸识别深度学习
人脸识别数据集数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候，如果不对数据集的噪声和属性有一点了解，对训练结果可能会有误判，甚至越训练越差…在选择数据集的时候不要一味求大，有的时候选择一个noise比例极高的大数据集，效果还不如选择一个clean的小数据集呢，可以参见这篇论文TheDevilofFaceReco
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》