九师兄

【Flink】官宣｜Apache Flink 1.17 发布公告

1.概述

转载：官宣｜Apache Flink 1.17 发布公告仅供自己学习。因为我们开始用Flink 17了。

Apache Flink PMC（项目管理委员）很高兴地宣布发布 Apache Flink 1.17.0。Apache Flink 是领先的流处理标准，流批统一的数据处理概念在越来越多的公司中得到认可。得益于我们出色的社区和优秀的贡献者，Apache Flink 在 Apache 社区中一直保持着快速增长，并且是最活跃的社区之一。Flink 1.17 有 172 位贡献者热情参与，完成了 7 个 FLIP 和 600 多个 issue，为社区带来了许多令人兴奋的新功能和改进。

2.迈向 Streaming Warehouse

为了在流式数仓领域实现更高效的处理，Flink 1.17 对批处理和流处理的性能和语义都进行了实质性的改进。这些增强措施代表了朝着创建一个更高效、更简化的数据仓库，能够实时处理大量数据的目标迈进了一大步。

针对批处理，此次发布包含了下述几项新特性和改进。

Streaming Warehouse API: FLIP-282 在 Flink SQL 中引入了新的 Delete 和 Update API，它们可以在 Batch 模式下工作。在此基础上，外部存储系统比如 Flink Table Store 可以通过这些新的 API 实现行级删除和更新。同时对 ALTER TABLE 语法进行了增强，包括 ADD/MODIFY/DROP 列、主键和 watermark 的能力，这些增强使得用户更容易维护元数据。

Batch 性能优化: 在 Flink 1.17 中，批处理作业的执行在性能、稳定性和可用性方面都得到了显着改进。就性能而言，通过策略优化和算子优化，如新的 join-reorder 算法和自适应的本地哈希聚合优化、Hive 聚合函数改进以及混合 shuffle 模式优化，这些改进带来了 26% 的 TPC-DS 性能提升。就稳定性而言，Flink 1.17 预测执行可以支持所有算子，自适应的批处理调度可以更好的应对数据倾斜场景。就可用性而言，批处理作业所需的调优工作已经大大减少。自适应的批处理调度已经默认开启，混合 shuffle 模式现在可以兼容预测执行和自适应批处理调度，同时所需的各种配置都进行了简化。

SQL Client/Gateway: Apache Flink 1.17 支持了 SQL Client 的 gateway 模式，允许用户将 SQL 提交给远端的 SQL Gateway。同时，用户可以在 SQL Client 中使用 SQL 语句来管理作业，包括查询作业信息和停止正在运行的作业等。这表示 SQL Client/Gateway 已经演进为一个作业管理、提交工具。

针对流处理，Flink 1.17 完成了以下功能和改进：

Streaming SQL 语义增强: 非确定性操作可能会导致不正确的结果或异常，这在 Streaming SQL 中是一个极具挑战性的话题。Flink 1.17 修复了不正确的优化计划和功能问题，并且引入了实验性功能 PLAN_ADVICE，PLAN_ADVICE 可以为 SQL 用户提供潜在的正确性风险提示和 SQL 优化建议。

Checkpoint 改进: 通用增量 Checkpoint（GIC）增强了 Checkpoint 的速度和稳定性，Unaligned Checkpoint (UC) 在作业反压时的稳定性也在 Flink 1.17 中提高至生产可用级别。此外，该版本新引入一个 REST API 使得用户可以触发自定义 Checkpoint 类型的 Checkpoint。

Watermark 对齐完善: 高效的 watermark 处理直接影响 event time 作业的执行效率，在 Flink 1.17 中， FLIP-217 通过对 Source 算子内部的 split 进行数据对齐发射，完善了 watermark 对齐功能。这一改进使得 Source 中 watermark 进度更加协调，从而减轻了下游算子的缓存过多数据，增强了流作业执行的整体效率。

StateBackend 升级: 此次发布将 FRocksDB 的版本升级到了 6.20.3-ververica-2.0，对 RocksDBStateBackend 带来了许多改进。同时，例如在插槽之间共享内存，并且现在支持 Apple Silicon 芯片组，如 Mac M1。Flink 1.17 版本还提供了参数扩大 TaskManager 的 slot 之间共享内存的范围，提升了 TaskManager 中 slot 内存使用不均是的效率。

3.批处理

作为的流批一体的计算引擎，Apache Flink 在流处理领域持续领先，为了进一步增强其批处理能力，Flink 社区贡献者在 Flink 1.17 版本的批处理的性能优化和生态完善方面付出了诸多努力。这让用户可以更轻松地基于 Flink 构建 Streaming Warehouse。

4.预测执行

在此次发布中，预测执行支持了 Sink 算子。在之前的版本中，为了避免不稳定性或不正确的结果，预测执行不会发生在 Sink 算子上。Flink 1.17 丰富了 Sink 的上下文信息，使得新版 Sink 和 OutputFormat Sink 都能获取到当前执行实例的序号 (attempt number)，根据这个序号，Sink 算子可以将同一子任务的多个不同实例生成的数据进行隔离，即使这些实例在同时运行。FinalizeOnMaster 接口也进行了改进，以便 OutputFormat Sink 可以知道哪些序号的实例成功产出了数据，从而正确地提交结果数据。当 Sink 的开发者确定该 Sink 可以正确的支持多个并发实例同时运行，就可以使其实现装饰性接口 SupportsConcurrentExecutionAttempts，从而允许其进行预测执行。一些内置 Sink 已经支持了预测执行，包括 DiscardingSink、PrintSinkFunction、PrintSink、FileSink、FileSystemOutputFormat 和 HiveTableSink。

此外，预测执行的慢任务的检测也获得了改进。在之前，在决定哪些任务是慢任务时只考虑了任务的执行时间。现在，慢任务检测器还会考虑了任务的输入数据量。执行时间较长的任务，如果消费了更多的数据，不一定会被视为慢任务。这一改进有助于消除数据倾斜对慢任务检测的负面影响。

5.自适应批处理调度器

在此次发布中，自适应批处理调度器成为了批作业的默认调度器。该调度器可以根据每个 job vertex 处理的数据量，自动为其设置合适的并行度。这也是唯一一个支持预测执行的调度器。

自适应批调度器的配置得到了改进，以提高其易用性。用户不再需要显式将全局默认并行度设置为 - 1 来开启自动推导并行度功能。现在，如果设置了全局默认并行度，其会被用做自动推导并行度的上界。一些配置项的名称也进行了改进，以便于用户理解。

此外，自适应批处理调度器的能力也得到了增强。现在它可以根据细粒度的数据分布信息，将数据更均匀的分配给下游任务。自动推导的并行度现在也不再被限制为 2 的幂。

6.混合 Shuffle 模式

此次发布中，混合 Shuffle 模式带来了多个重要改进：

混合 Shuffle 模式现在支持自适应批调度器和预测执行。
混合 Shuffle 模式现在支持重用中间数据，这带来了显着的性能改进。
提高了稳定性，避免了在大规模生产环境中出现的稳定性问题。

更多详细信息可以在混合 Shuffle 部分找到。

7.TPC-DS

从 Flink 1.16 开始，Flink 社区持续优化批处理引擎的性能。在 Flink 1.16 中，引入了动态分区裁剪优化，但并非所有的 TPC-DS 查询都可以被优化。Flink 1.17 对该优化的算法进行了改进，使得大部分 TPC-DS 查询都可以被优化。此外，Flink 1.17 中引入了动态规划 join-reorder 算法，与之前版本的算法相比，该算法效果更好，但搜索空间更大。优化器可以根据查询中 join 个数自动选择合适的 join-reorder 算法，用户无需关心 join-reorder 算法的细节（注意：join-reorder 默认未开启，在运行 TPC-DS 时需要显式启用）。在算子层面，Flink 1.17 引入了动态 local hash aggregation 策略，可以根据数据的分布动态确定是否需要在本地进行聚合操作以提高性能。在运行时层面上，此次发布移除了一些不必要的虚拟函数调用，以加快执行速度。从整体测试结果上看，相比 Flink 1.16，对于分区表在 10T 数据集下 Flink 1.17 有 26% 的性能提升。

8.SQL Client/Gateway

Apache Flink 1.17 引入了一个名为 “gateway 模式” 的新功能，允许用户将 SQL 查询提交到远程的 SQL Gateway 从而像 embedded 模式一样来使用 Gateway 的各种功能。这种新模式为用户在使用 SQL Gateway 时提供了更多的便利。

此外，SQL Client/SQL Gateway 现在支持通过 SQL 语句来管理作业生命周期。用户可以使用 SQL 语句显示存储在 JobManager 中的所有作业信息，可以使用作业的唯一作业 ID 来停止运行中的作业。借助这个新功能，SQL Client/SQL Gateway 现在几乎拥有了与 Flink CLI 相同的功能，成为管理 Flink 作业的另一个更强大的工具。

9.SQL API

在现代大数据工作流中，SQL 引擎的行级删除和更新能力变得越来越重要。应用场景包括为了符合监管要求而删除特定一组数据、为了进行数据订正而更新一行数据等。许多流行的计算引擎比如 Trino、Hive 等已经提供了这类支持。Flink 1.17 为 Batch 模式引入了新的 Delete 和 Update API，并将其暴露给连接器，这样外部存储系统便可以基于这个 API 实现行级更新和删除。此外，此次发布还扩展了 ALTER TABLE 语法，包括 ADD/MODIFY/DROP 列、主键和 Watermark 的能力。这些功能增强提升了用户按需维护元数据的灵活性。

Apache Flink 1.17 支持了 SQL Client 的 gateway 模式，允许用户将 SQL 查询提交给 SQL Gateway 来使用 Gateway 的各种功能。用户可以使用 SQL 语句来管理作业的生命周期，包括显示作业信息和停止正在运行的作业，这为管理 Flink 作业提供了一个强大的工具。

10.Hive 兼容

Apache Flink 1.17 对 Hive connector 进行了一系列改进，使其更加生产可用。在之前的版本中，对于 Hive 的写入，只支持在流模式下自动地进行文件合并，而不支持批模式。从 Flink 1.17 开始，在批模式下也能自动地进行文件合并，这个特性可以大大减少小文件的数量。同时，对于通过加载 HiveModule 来使用 Hive 内置函数的场景，此次发布引入了一些原生的 Hive 聚合函数如 SUM/COUNT/AVG/MIN/MAX 进 HiveModule 中，这些函数可以在基于哈希的聚合算子上执行，从而带来显著的性能提升。

11.流处理

Flink 1.17 解决了一些棘手的 Streaming SQL 语义和正确性问题，优化了 Checkpoint 性能，完善了 watermark 对齐机制，扩展了 Streaming FileSink，升级了 Calcite 和 FRocksDB 到更新的版本。这些提升进一步巩固了 Flink 在流处理领域的领先地位。

12 Streaming SQL 语义完善

为了解决正确性问题并完善 Streaming SQL 语义，Flink 1.17 引入了一个实验性功能叫 PLAN_ADVICE ，该功能可以检测用户 SQL 潜在的正确性风险，并提供优化建议。例如，如果用户通过 EXPLAIN PLAN_ADVICE 命令发现查询存在 NDU (非确定性更新) 问题，优化器会在物理计划输出的末尾追加建议，建议会标记到对应操作节点上，并提示用户更新查询和配置。通过提供这些具体的建议，优化器可以帮助用户提高查询结果的准确性。

== Optimized Physical Plan With Advice == ... advice[1]: [WARNING] The column(s): day(generated by non-deterministic function: CURRENT_TIMESTAMP ) can not satisfy the determinism requirement for correctly processing update message('UB'/'UA'/'D' in changelogMode, not 'I' only), this usually happens when input node has no upsertKey(upsertKeys=[{}]) or current node outputs non-deterministic update messages. Please consider removing these non-deterministic columns or making them deterministic by using deterministic functions.

PLAN_ADVICE 功能还可以帮助用户提高查询的性能和效率。例如，如果检测到聚合操作可以优化为更高效的 local-global 聚合操作，优化器会提供相应的优化建议。通过应用这些具体的建议，优化器可以帮用户提高其查询的性能和效率。

== Optimized Physical Plan With Advice == ... advice[1]: [ADVICE] You might want to enable local-global two-phase optimization by configuring ('table.optimizer.agg-phase-strategy' to 'AUTO').

此外 Flink 1.17 还修复了多个可能影响数据正确性的 plan 优化问题，如： FLINK-29849 , FLINK-30006 , 和 FLINK-30841 等。

13.Watermark 对齐增强

在早期版本中， FLIP-182 提出了一种称为 watermark 对齐的解决方案，以解决 event time 作业中的源数据倾斜问题。但是，该方案存在一个限制，即 Source 并行度必须和分区数匹配。这是因为具有多个分区的 Source 算子中，如果一个分区比另一个分区更快地发出数据，此时需要缓存大量数据。为了解决这个限制，Flink 1.17 引入了 FLIP-217 ，它增强了 watermark 对齐考虑 watermark 边界的情况下对 Source 算子内的多个分区进行数据发射对齐。这个增强功能确保了 Source 中的 Watermark 前进更加协调，避免了下游算子缓存过多的数据，从而提高了流作业的执行效率。

14.Streaming FileSink 扩展

在添加 ABFS 支持之后，Streaming FileSink 现在可以支持五种不同的文件系统：HDFS、S3、OSS、ABFS 和 Local。这个扩展有效地覆盖了主流文件系统，为用户提供了更多的选择和更高的灵活性。

15.Checkpoint 改进

通用增量 Checkpoint（Generic Incremental Checkpont，简称 GIC）旨在提高 Checkpoint 过程的速度和稳定性。WordCount 案例中的一些实验结果如下所示。请参考这篇性能测评文章获取更多详细信息，该文结合理论分析和实践结果展示了 GIC 的收益和成本。

表格 - 1: 在 WordCount 中开启 GIC 后的收益

表格 - 2: 在 WordCount 中开启 GIC 后的开销

Unaligned Checkpoint (UC) 可以大大提高反压下 Checkpoint 的完成率。之前版本的 UC 会写入过多的小文件，进一步可能会导致 HDFS 的 namenode 负载过高。社区在 1.17 版本中解决了该问题，使 UC 在生产环境中更加可用。

Flink 1.17 版本提供了一个 REST API ，用户基于该 API 可以在作业运行时手动触发具有自定义 Checkpoint 类型的 Checkpoint。例如，对于使用增量 Checkpoint 运行的作业，用户可以定期或手动触发全量 Checkpoint 来去除多个增量 Checkpoint 之间的关联关系，从而避免引用很久以前的文件。

16.RocksDBStateBackend 升级

Flink 1.17 版本将 FRocksDB 的版本升级到 6.20.3-ververica-2.0，为 RocksDBStateBackend 带来了一些改进：

支持在 Apple 芯片上构建 FRocksDB Java
通过避免昂贵的 ToString () 操作提高 Compaction Filter 的性能
升级 FRocksDB 的 ZLIB 版本，避免 Memory Corruption
为 RocksJava 添加 periodic_compaction_seconds 选项
可以参考 FLINK-30836 了解更多详细信息。

Flink 1.17 版本还提供了参数扩大 TaskManager 的 slot 之间共享内存的范围，这种方式可以在 TaskManager 中 slot 内存使用不均匀时提高内存效率。基于此在调整参数后可以以资源隔离为代价来降低整体内存消耗。请参考 state.backend.rocksdb.memory.fixed-per-tm 了解更多相关信息。

17.Calcite 升级

Flink 1.17 将 Calcite 版本升级到 1.29.0 以提高 Flink SQL 系统的性能和效率。Flink 1.16 使用的是 Calcite 1.26.0 版本，该版本存在 SEARCH 操作符引发的 RexNode 简化等严重问题，这些问题会导致查询优化后产生错误的数据，如 CALCITE-4325 和 CALCITE-4352 所报告的案例。通过升级到该版本的 Calcite，Flink 可以在 Flink SQL 中利用其功能改进和新特性。这不仅修复了多个 bug，同时加快了查询处理速度。

18.其他

PyFlink

在 Flink 1.17 中，PyFlink 也完成了若干功能，PyFlink 是 Apache Flink 的 Python 语言接口。PyFlink 中，一些比较重要的改进包括支持 Python 3.10、支持在 Mac M1 和 M2 电脑上运行 PyFlink 等。此外，在该版本中还完成了一些小的功能优化，比如改进了 Java 和 Python 进程之间的跨进程通信的稳定性、支持以字符串的方式声明 Python UDF 的结果类型、支持在 Python UDF 中访问作业参数等。总体来说，该版本主要专注于改进 PyFlink 的易用性，而不是引入一些新的功能，期望通过这些易用性改进，改善用户的使用体验，使得用户可以更高效地进行数据处理。

性能监控 Benchmark

这个版本周期中，我们也在 Slack 频道（ #flink-dev-benchmarks ）中加入了性能日常监控汇报来帮助开发者快速发现性能回退问题，这对代码质量保证非常有意义。通过 Slack 频道或 Speed Center 发现性能回退后，开发者可以按照 Benchmark’s wiki 中方式处理它。

Task 级别火焰图

从 Flink 1.17 版本开始，Flame Graph 功能提供了针对 task 级别的可视化支持，使得用户可以更详细地了解各个 task 的性能。该功能是相比于之前版本的 Flame Graph 的重大改进，因为它可以让用户选择感兴趣的 subtask 并查看相应的火焰图。通过这种方式，用户可以确定任务可能出现性能问题的具体区域，然后采取措施加以解决。这可以显著提高用户数据处理管道的整体效率。

通用的令牌机制

在 Flink 1.17 之前，Flink 只支持 Kerberos 认证和基于 Hadoop 的令牌。随着 FLIP-272 的实现，Flink 的委托令牌框架更加通用，使其认证协议不再局限于 Hadoop。这将允许贡献者在未来可以添加对非 Hadoop 框架的支持，这些框架的认证协议可以不用基于 Kerberos。此外， FLIP-211 改进了 Flink 与 Kerberos 的交互，减少了在 Flink 中交换委托令牌所需的请求数量。

升级说明

Apache Flink 社区努力确保升级过程尽可能平稳，但是升级到 1.17 版本可能需要用户对现有应用程序做出一些调整。请参考 Release Notes 获取更多的升级时需要的改动与可能的问题列表细节。

如何针对大Excel做文件读取？ F_windy excel
针对大Excel文件（如超过百万行）的读取，传统的一次性加载到内存的方式会导致内存溢出（OOM），需采用流式读取（Streaming）或分块读取（Chunk）的策略。以下是具体方案及优化建议：一、核心解决方案1.使用ApachePOI的SAX模式（事件驱动）适用场景：处理.xlsx文件（不支持.xls），逐行解析避免内存溢出。代码示例（Java）：importorg.apache.poi.open
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
【SoC基础】第2节：CPU简介望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录CPU结构设计CPU生产厂商CPU工作原理CPU的组成CPU的类型CPU内核与CPU的关系CPU内核种类参考CPU结构设计结构类型结构特点优点
ubuntu20.04系统安装zookeeper简单教程楼下创了电瓶车 zookeeper 分布式云原生
Ubuntu系统中安装和配置Zookeeper的完整指南ApacheZookeeper是一个开源的分布式协调服务，广泛用于分布式应用程序中管理配置、提供命名服务、分布式同步以及组服务等。在本教程中，我们将详细介绍如何在Ubuntu系统中安装Zookeeper，并进行相关配置，使其能够正常运行。环境准备在开始之前，请确保你的Ubuntu系统版本为18.04或更高版本。此外，Zookeeper依赖于J
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
【SoC基础】单片机之RCC模块望闻问嵌 #SoC 单片机
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处RCC模块简介RCC（ResetandClockControl）即复位和时钟控制模块，其基本功能总结如下：时钟源管理多源选择：支持多种时钟源，包含内部
ActiveMQ学习总结（10）——ActiveMQ采用Spring注解方式发送和监听一杯甜酒 ActiveMQ
对于ActiveMQ消息的发送，原声的api操作繁琐，而且如果不进行二次封装，打开关闭会话以及各种创建操作也是够够的了。那么，Spring提供了一个很方便的去收发消息的框架，springjms。整合Spring后，代码不仅变得非常优雅，而且易用性和扩展性更好。1.maven依赖org.apache.xbeanxbean-spring3.16org.springframeworkspring-jms
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
爬虫基础 20岁30年经验的码农 1024程序员节
mavenpomorg.jsoupjsoup1.16.1org.apache.httpcomponentshttpcore4.4.16org.apache.httpcomponentshttpclient4.5.14commons-iocommons-io2.13.0====================================遍历网站内容爬取网站网址packagecom.xiaocao
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
kafka详细介绍以及使用酷爱码经验分享 kafka 分布式
ApacheKafka是一个由Apache软件基金会开发的开源流式数据平台和消息系统。它被设计用于处理实时数据流，并能够支持高容错性、可伸缩性和可靠性。Kafka最初是由LinkedIn开发，并于2011年捐赠给Apache软件基金会。它现在被许多公司广泛应用于构建实时数据流架构和事件驱动型应用程序。Kafka提供了一种高性能、持久性的消息传递系统，通过将消息发布到主题（topic）和订阅这些主题
Shiro授权斗-匕 oracle 数据库
在Java安全领域，ApacheShiro以其强大的功能和灵活性备受开发者青睐。其中，授权机制是Shiro的核心功能之一，它确保了用户只能访问其被授权的资源。本文将深入探讨Shiro授权，涵盖静态和动态授权、权限、角色、隐式角色、显式角色、授权流程以及授权方式等方面。一、Shiro简介ApacheShiro是一个功能强大的Java安全框架，它提供了认证、授权、加密和会话管理等功能。Shiro的设计
Kafka 同步机制关键点 2分钟讲明白大博士.J kafka
ApacheKafka通过副本同步机制来保证数据的高可用性和可靠性。Kafka的同步机制主要涉及以下几个核心概念：副本（Replication）Kafka的每个Partition都会有多个副本（Replica），分为：Leader副本：负责处理生产者和消费者的所有请求。Follower副本：仅从Leader同步数据，不直接处理请求。副本数由replication.factor参数配置。例如：rep
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
Cargo deny安装指路编辑器
本博客所有文章除特别声明外，均采用CCBY-NC-SA4.0许可协议。转载请注明来自唯你简介cargodeny是一个Rust工具，用于检查项目依赖项的许可证、安全性和其他合规性问题。在RustCI（持续集成）中，cargodeny扮演着重要角色：许可证检查：确保项目使用的所有依赖项的许可证都符合项目的许可政策。安全漏洞扫描：检查依赖项是否存在已知的安全漏洞。依赖项合规性：验证依赖项是否符合项目的其
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Debezium系列之：使用Debezium采集oceanbase数据库快乐骑行^_^ debezium Debezium系列采集oceanbase数据库
Debezium系列之：使用Debezium采集oceanbase数据库一、oceanbase数据库二、安装OceanBase三、安装oblogproxy四、基于Docker的简单采集案例五、生产实际应用案例Debezium是一个开源的分布式平台，用于监控数据库变化和捕捉数据变动事件，并以事件流的形式导出到各种消费者。Debezium基于ApacheKafka实现，并支持多种数据库系统。一、oce
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
一文解秘Rust如何与Java互操作编辑器
本博客所有文章除特别声明外，均采用CCBY-NC-SA4.0许可协议。转载请注明来自唯你使用场景JAVA与Rust互操作让Rust可以背靠Java大生态来做更多事情，而Java也可以享受Rust语言特性的内存安全，所有权机制，无畏并发。互操作的典型场景包括：性能优化：利用Rust处理计算密集型任务，提高Java应用的整体性能。系统级编程：结合Rust的底层控制能力与Java的高级抽象，实现更高效的
如何将rust日志输出到android终端编辑器
本博客所有文章除特别声明外，均采用CCBY-NC-SA4.0许可协议。转载请注明来自唯你背景在Rust中，使用println!打印日志时，输出实际上是发送到标准输出（stdout），而AndroidLogcat专门用于处理和显示应用程序的日志信息，此环境下标准输出实现被重新定义。这意味着Rust日志输出不会出现在Logcat中。android_logger直接与Android的日志系统集成，确保日
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本