未来影子

Flink优化

文章目录

- - 资源配置调优
  - - 内存设置
    - 并行度设置
    - - 最优并行度计算
      - Source端并行度的配置
      - Transform端并行度的配置
      - Sink端并行度的配置
    - RocksDB大状态调优
    - Checkpoint设置
    - 用 Flink ParameterTool读取配置
    - - 读取运行参数
      - 读取系统属性
      - 读取配置文件
      - 注册全局参数
    - 压测方式
  - 反压处理
  - - 反压现象及定位
    - - 利用 Flink Web UI 定位产生反压的位置
      - 利用 Metrics 定位反压位置
    - 反压的原因及处理
    - - 系统资源
      - 垃圾收集（GC）
      - CPU/线程瓶颈
      - 线程竞争
      - 负载不平衡
      - 外部依赖
  - 数据倾斜
  - - 判断是否存在数据倾斜
    - 数据倾斜的解决
  - KafkaSource调优
  - - 动态发现分区
    - 从Kafka数据源生成watermark
    - 设置空闲等待
    - Kafka的offset消费策略
  - FlinkSQL调优
  - - Group Aggregate 优化
    - - 开启 MiniBatch（提升吞吐）
      - 开启 LocalGlobal（解决常见数据热点问题）
      - 开启 Split Distinct（解决 COUNT DISTINCT 热点问题）
      - 改写为 AGG WITH FILTER 语法（提升大量 COUNT DISTINCT 场景性能）
    - TopN 优化
    - - 使用最优算法
      - 无排名优化（解决数据膨胀问题）
      - 增加 TopN 的 Cache 大小
    - 高效去重方案
    - - 保留首行的去重策略（Deduplicate Keep FirstRow）
      - 保留末行的去重策略（Deduplicate Keep LastRow）
    - 高效的内置函数
    - - 使用内置函数替换自定义函数
      - LIKE 操作注意事项
      - 慎用正则函数（REGEXP）
      - 指定时区
      - 设置参数总结

资源配置调优

Flink性能调优的第一步，就是为任务分配合适的资源，在一定范围内，增加资源分配与性能提升是成正比的，在实现了最优的资源配置后，再此基础上考虑后面的性能调优策略

提交方式主要是yarn-per-job，资源的分配再使用脚本提交Flink任务时进行指定

标准的Flink任务提交脚本（Generic CLI模式），从1.11开始，增加了通用客户端模式，参数使用-D

bin/flink run \
-t yarn-per-job \
-d \
-p 5 \ 指定并行度
-Dyarn.application.queue=test \ 指定 yarn 队列
-Djobmanager.memory.process.size=1024mb \ 指定 JM 的总进程大小
-Dtaskmanager.memory.process.size=1024mb \ 指定每个 TM 的总进程大小
-Dtaskmanager.numberOfTaskSlots=2 \ 指定每个 TM 的 slot 数
-c com.yingzi.app.dwd.LogBaseApp \
/opt/module/gmall-flink/gmall-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar

内存设置

生产资源配置：

bin/flink run \
-t yarn-per-job \
-d \
-p 5 \ 指定并行度
-Dyarn.application.queue=test \ 指定 yarn 队列
-Djobmanager.memory.process.size=2048mb \ JM2~4G 足够
-Dtaskmanager.memory.process.size=6144mb \ 单个 TM2~8G 足够
-Dtaskmanager.numberOfTaskSlots=2 \ 与容器核数 1core：1slot 或 1core：2slot
-c com.yingzi.app.dwd.LogBaseApp \
/opt/module/gmall-flink/gmall-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar

Flink是实时流处理，关键在于资源情况能不能抗住高峰时期每秒的数据量，通常用QPS/TPS来描述数据情况

并行度设置

最优并行度计算

开发完成后，先进行压测，任务并行度给10以下，测试单个并行度的处理上限。并行度 = 总QPS/单并行度的处理能力

不能只从QPS去得出并行度

因为有些字段少、逻辑简单任务，单并行度一秒处理几万条数据
而有些数据字段多，处理逻辑复杂，单并行度一秒只能处理1000条数据

根据高峰期的QPS压测，并行度*1.2倍，富余一些资源

Source端并行度的配置

数据源端是Kafka，Source的并行度设置为Kafka对应Topic的分区数

若已经等于Kafka的分区数，消费速度仍跟不上数据生产速度，考虑Kafka扩大分区，同时调大并行度等于分区数

Flink的一个并行度可以处理一至多个分区数据，若并行度多于Kafka的分区数，会造成有的并行度空闲，浪费资源

Transform端并行度的配置

Keyby之前的算子：一般不会做太重的操作，如map、filter、flatmap等处理较快的算子，并行度可以和source一致
Keyby之后的算子：若并发较大，建议设置并行度为2的整数次幂，例如：128、256、512

小并发任务的并行度不一定需要设置成2的整数次幂

大并发任务若没有KeyBy，并行度也无需设置为2的整数次幂

Sink端并行度的配置

Sink端是数据流向下游的地方，可以根据Sink端的数据量及下游的服务抗压能力进行评估

若Sink端是Kafka，可以设为Kafa对应Topic的分区数
Sink端的数据量小，比较常见的就是监控告警场景，并行度可以设置小一些
Source端的数据量是最小的，拿到Source端流过来的数据后做了细粒度的拆分，数据量不断增加，到Sink端的数据量就非常大了，那么在Sink到下游的存储中间件的时候就需要提高并行度
Sink端要与下游的服务进行交互，并行度还得根据下游的服务抗压能力来设置，若在Flink Sink这段的数据量过大的话，且Sink处并行度也设置很大，但下游的服务完全撑不住这么大的并发写入，可能会造成下游服务直接被写挂，故最终还是要在Sink处的并行度做一定的权衡

RocksDB大状态调优

RocksDB基于LSM Tree实现（类似HBase），写数据都是先缓存到内存中，所以RocksDB的写请求效率比较高，RocksDB使用内存结合磁盘的方式来存储数据，每次获取数据时，先从内存blockcache中查找，若内存没有再去磁盘查询。优化后差不多单并行度 TPS 5000record/s，性能瓶颈主要在于RocksDB对磁盘的读请求，故当处理性能不够时，仅需要横向扩展并行度即可提高整个Job的吞吐量。

以下几个调优参数做参考

设置本地RocksDB多目录

flink-conf.yaml配置

state.backend.rocksdb.localdir: 
/data1/flink/rocksdb,/data2/flink/rocksdb,/data3/flink/rocksdb

注意：不要配置单块磁盘的多个目录，务必将目录配置到多块不同磁盘上，让磁盘来分担压力

当设置多个RocksDB本地磁盘目录时，Fink会随机选择要使用的目录，故可能存在三个并行度共用同一目录的情况。若服务器磁盘数较多，一般不会出现该情况，但若任务重启后吞吐量较低，可以检查是否发生了多个并行度共用同一块磁盘的情况

当一个TaskManager包含3个slot时，那么单个服务器上的三个并行度都对磁盘造成频繁读写，从而导致三个并行度之间相互争抢同一个磁盘IO，这样将导致三个并行度的吞吐量下降，设置多目录实现三个并行度使用不同的硬盘从而减少资源竞争

如下所示是测试过程中磁盘的 IO 使用率，可以看出三个大状态算子的并行度分别对应了三块磁盘，这三块磁盘的 IO 平均使用率都保持在 45% 左右，IO 最高使用率几乎都是 100%，而其他磁盘的 IO 平均使用率相对低很多。由此可见使用 RocksDB 做为状态后端且有大状态的频繁读取时，对磁盘 IO 性能消耗确实比较大

如下图所示，其中两个并行度共用了 sdb 磁盘，一个并行度使用 sdj 磁盘。可以看到 sdb 磁盘的 IO 使用率已经达到了 91.6%，就会导致 sdb 磁盘对应的两个并行度吞吐量大大降低，从而使得整个 Flink 任务吞吐量降低。如果每个服务器上有一两块 SSD，强烈建议将 RocksDB 的本地磁盘目录配置到 SSD 的目录下，从 HDD 改为 SSD 对于性能的提升可能比配置 10 个优化参数更有效

state.backend.incremental：开启增量检查点，默认 false，改为 true
state.backend.rocksdb.predefined-options：
- SPINNING_DISK_OPTIMIZED_HIGH_MEM 设置为机械硬盘+内存模式
- 有条件上 SSD，指定为 FLASH_SSD_OPTIMIZED
state.backend.rocksdb.block.cache-size：整个 RocksDB 享一个 block cache，读数据时内存的 cache 大小，该参数越大读数据时缓存命中率越高，默认大小为 8 MB，建议设置到 64 ~ 256 MB
state.backend.rocksdb.thread.num：用于后台 flush 和合并 sst 文件的线程数，默认为 1，建议调大，机械硬盘用户可以改为 4 等更大的值
state.backend.rocksdb.writebuffer.size: RocksDB 中，每个 State 使用一个Column Family，每个 Column Family 使用独占的 write buffer，建议调大，例如：32M
state.backend.rocksdb.writebuffer.count：每个 Column Family 对应的 writebuffer 数目，默认值是 2，对于机械磁盘来说，如果内存⾜够大，可以调大到 5 左右
state.backend.rocksdb.writebuffer.number-to-merge：将数据从 writebuffer 中 flush 到磁盘时，需要合并的 writebuffer 数量，默认值为 1，可以调成 3
state.backend.local-recovery：设置本地恢复，当 Flink 任务失败时，可以基于本地的状态信息进行恢复任务，可能不需要从 hdfs 拉取数据

Checkpoint设置

一般我们的Checkpoint时间间隔可以设置为分钟级别，例如1分钟、3分钟，对于状态很大的任务每次Checkpoint访问HDFS比较耗时，可以设置为5~10分钟一次Checkpoint，并且调大两次Checkpoint之间的暂停间隔，例如设置两次Checkpoint之间至少暂停4或8分钟

若Checkpoint语义配置为 EXACTLY_ONCE，那么在Checkpoint过程中还会存在 barrier 对齐的过程，那么可以通过Flink Web UI 的 Checkpoint 选项卡来查看 Checkpoint 过程中各阶段的耗时情况，从而确定到底时哪个阶段导致的 Checkpoint时间过长，然后针对性的解决问题

RocksDB可以在flink-conf.yaml指定，也可以在Job的代码中调用API单独指定，这里不再列出

// 使⽤ RocksDBStateBackend 做为状态后端，并开启增量 Checkpoint
RocksDBStateBackend rocksDBStateBackend = new RocksDBStateBackend("hdfs://hadoop102:8020/flink/checkpoints", true);
env.setStateBackend(rocksDBStateBackend);

// 开启 Checkpoint，间隔为 3 分钟
env.enableCheckpointing(TimeUnit.MINUTES.toMillis(3));
// 配置 Checkpoint
CheckpointConfig checkpointConf = env.getCheckpointConfig();
checkpointConf.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
// 最小间隔 4 分钟
checkpointConf.setMinPauseBetweenCheckpoints(TimeUnit.MINUTES.toMillis(4))
// 超时时间 10 分钟
checkpointConf.setCheckpointTimeout(TimeUnit.MINUTES.toMillis(10));
// 保存 checkpoint
checkpointConf.enableExternalizedCheckpoints(
CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

用 Flink ParameterTool读取配置

在实际开发中，有各种环境（开发、测试、预发、生产），作业也有很多的配置：算子的并行度配置、Kafka 数据源的配置（broker 地址、topic 名、group.id）、Checkpoint 是否开启、状态后端存储路径、数据库地址、用户名和密码等各种各样的配置，可能每个环境的这些配置对应的值都是不一样的

若直接写死在代码里，每次换环境都需要重新修改代码配置。在 Flink 中可以通过使用 ParameterTool 类读取配置，它可以读取环境变量、运行参数、配置文件

读取运行参数

可在Flink的提交脚本添加运行参数，格式：

–参数名参数值

在 Flink 程序中可以直接使用 ParameterTool.fromArgs(args) 获取到所有的参数，也可使用 parameterTool.get(“username”) 方法获取某个参数对应的值

bin/flink run \
-t yarn-per-job \
-d \
-p 5 \ 指定并行度
-Dyarn.application.queue=test \ 指定 yarn 队列
-Djobmanager.memory.process.size=1024mb \ 指定 JM 的总进程大小
-Dtaskmanager.memory.process.size=1024mb \ 指定每个 TM 的总进程大小
-Dtaskmanager.numberOfTaskSlots=2 \ 指定每个 TM 的 slot 数
-c com.yingzi.app.dwd.LogBaseApp \
/opt/module/gmall-flink/gmall-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar
\
--jobname dwd-LogBaseApp //参数名自己随便起，代码里对应上即可

在代码里获取参数值

ParameterTool parameterTool = ParameterTool.fromArgs(args);
String myJobname = parameterTool.get("jobname"); //参数名对应
env.execute(myJobname);

读取系统属性

ParameterTool 还⽀持通过 ParameterTool.fromSystemProperties() 方法读取系统属性

ParameterTool parameterTool = ParameterTool.fromSystemProperties();
System.out.println(parameterTool.toMap().toString());

读取配置文件

使用 ParameterTool.fromPropertiesFile(“/application.properties”) 读取properties 配置文件。可以将所有要配置的地方（比如并行度和一些 Kafka、MySQL 等配置）都写成可配置的，然后其对应的 key 和 value 值都写在配置文件中，最后通过ParameterTool 去读取配置文件获取对应的值

注册全局参数

在 ExecutionConfig 中可以将 ParameterTool 注册为全作业参数的参数，这样就可以被 JobManager 的 web 端以及用户⾃定义函数中以配置值的形式访问

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 
env.getConfig().setGlobalJobParameters(ParameterTool.fromArgs(args));

可以不用将 ParameterTool 当作参数传递给算子的自定义函数，直接在用户⾃定义的 Rich 函数中直接获取到参数值

env.addSource(new RichSourceFunction() { 
    @Override 
    public void run(SourceContext sourceContext) throws Exception {
    while (true) { 
    ParameterTool parameterTool = (ParameterTool)getRuntimeContext().getExecutionConfig().getGlobalJobParameters();
     	}
     } 
     @Override 
     public void cancel() {
    }
})

压测方式

先在Kafka中积压数据，之后开启Flink任务，出现反压，就是处理瓶颈。相当于水库先积水，一下子泄洪。数据可以是自己造的模拟数据，也可以是生产中的部分数据

反压处理

反压（BackPressure）通常产生于这样的场景：短时间的负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或遇到大促、秒杀活动导致流量陡增。反压如果不能得到正确的处理，可能会导致资源耗尽甚至系统崩溃

反压机制是指系统能够自己检测到被阻塞的 Operator，然后自适应地降低源头或上游数据的发送速率，从而维持整个系统的稳定。Flink 任务一般运行在多个节点上，数据从上游算子发送到下游算子需要网络传输，若系统在反压时想要降低数据源头或上游算子数据的发送速率，那么肯定也需要网络传输。所以下面先来了解一下 Flink 的网络流控（Flink 对网络数据流量的控制）机制

反压现象及定位

Flink 的反压太过于天然了，导致无法简单地通过监控 BufferPool 的使用情况来判断反压状态。Flink 通过对运行中的任务进行采样来确定其反压，如果一个 Task 因为反压导致处理速度降低了，那么它肯定会卡在向 LocalBufferPool 申请内存块上。那么该 Task 的stack trace 应该是这样

java.lang.Object.wait(Native Method)
o.a.f.[...].LocalBufferPool.requestBuffer(LocalBufferPool.java:163) 
o.a.f.[...].LocalBufferPool.requestBufferBlocking(LocalBufferPool.java:133) [...]

监控对正常的任务运行有一定影响，因此只有当 Web 页面切换到 Job 的BackPressure 页面时，JobManager 才会对该 Job 触发反压监控。默认情况下，JobManager 会触发 100 次 stack trace 采样，每次间隔 50ms 来确定反压。Web 界面看到的比率表示在内部方法调用中有多少 stack trace 被卡在LocalBufferPool.requestBufferBlocking()，例如: 0.01 表示在 100 个采样中只有 1 个被卡在 LocalBufferPool.requestBufferBlocking()。采样得到的比例与反压状态的对应关系如下：

OK：0 <= 比例 <= 0.1
LOW：0.1 < 比例 <= 0.5
HIGH：0.5 < 比例 <= 1

Task 的状态为 OK 表示没有反压，HIGH 表示这个 Task 被反压

利用 Flink Web UI 定位产生反压的位置

在 Flink Web UI 中有 BackPressure 的页面，通过该页面可以查看任务中 subtask的反压状态，如下两图所示，分别展示了状态是 OK 和 HIGH 的场景

排查的时候，先把 operator chain 禁用，方便定位

利用 Metrics 定位反压位置

当某个 Task 吞吐量下降时，基于 Credit 的反压机制，上游不会给该 Task 发送数据，所以该 Task 不会频繁卡在向 Buffer Pool 去申请 Buffer。反压监控实现原理就是监控 Task 是否卡在申请 buffer 这一步，所以遇到瓶颈的 Task 对应的反压⻚⾯必然会显示 OK，即表示没有受到反压

如果该 Task 吞吐量下降，造成该 Task 上游的 Task 出现反压时，必然会存在：该 Task 对应的 InputChannel 变满，已经申请不到可用的 Buffer 空间。如果该 Task 的 InputChannel 还能申请到可用 Buffer，那么上游就可以给该 Task 发送数据，上游 Task 也就不会被反压了，所以说遇到瓶颈且导致上游 Task 受到反压的 Task 对应的 InputChannel 必然是满的（这⾥不考虑⽹络遇到瓶颈的情况）。从这个思路出发，可以对该 Task 的 InputChannel 的使用情况进行监控，如果 InputChannel 使用率 100%，那么该 Task 就是我们要找的反压源。 Flink 1.9 及以版本 inPoolUsage 表示 inputFloatingBuffersUsage 和 inputExclusiveBuffersUsage 的总和

反压时，可以看到遇到瓶颈的该 Task 的 inPoolUage 为 1

反压的原因及处理

反压可能是暂时的，可能是由于负载高峰、CheckPoint 或作业重启引起的数据积压而导致反压。如果反压是暂时的，应该忽略它。另外，请记住，断断续续的反压会影响我们分析和解决问题

系统资源

检查涉及服务器基本资源的使用情况，如 CPU、网络或磁盘 I/O，目前 Flink 任务使用最主要的还是内存和 CPU 资源，本地磁盘、依赖的外部存储资源以及网卡资源一般都不会是瓶颈。如果某些资源被充分利用或大量使用，可以借助分析工具，分析性能瓶颈（JVM Profiler+ FlameGraph 生成火焰图）

如何生成火焰图：如何生成 Flink 作业的交互式火焰图？ | zhisheng的博客 (54tianzhisheng.cn)
如何读懂火焰图：如何读懂火焰图？ - 知乎 (zhihu.com)
针对特定的资源调优 Flink
通过增加并行度或增加集群中的服务器数量来横向扩展
减少瓶颈算子上游的并行度，从而减少瓶颈算子接收的数据量（不建议，可能造成整个 Job 数据延迟增大）

垃圾收集（GC）

长时间 GC 暂停会导致性能问题。可以通过打印调试 GC 日志（通过-XX:+PrintGCDetails）或使用某些内存或 GC 分析器（GCViewer 工具）来验证是否处于这种情况

在 Flink 提交脚本中,设置 JVM 参数，打印 GC 日志

bin/flink run \
-t yarn-per-job \
-d \
-p 5 \ 指定并行度
-Dyarn.application.queue=test \ 指定 yarn 队列
-Djobmanager.memory.process.size=1024mb \ 指定 JM 的总进程大小
-Dtaskmanager.memory.process.size=1024mb \ 指定每个 TM 的总进程大小
-Dtaskmanager.numberOfTaskSlots=2 \ 指定每个 TM 的 slot 数
-Denv.java.opts="-XX:+PrintGCDetails -XX:+PrintGCDateStamps"
-c com.yingzi.app.dwd.LogBaseApp \
/opt/module/gmall-flink/gmall-realtime-1.0-SNAPSHOT-jar-with-dependencies.jar

下载 GC 日志的方式

因为是 on yarn 模式，运行的节点一个一个找比较麻烦。可以打开 WebUI，选择 JobManager 或者 TaskManager，点击 Stdout，即可看到 GC 日志，点击下载按钮即可将 GC 日志通过 HTTP 的方式下载下来

分析 GC 日志

通过 GC 日志分析出单个 Flink Taskmanager 堆总大小、年轻代、老年代分配的内存空间、Full GC 后老年代剩余大小等，相关指标定义可以去 Github 具体查看

GCViewer 地址：https://github.com/chewiebug/GCViewer

扩展：最重要的指标是 Full GC 后，老年代剩余大小这个指标，按照《Java 性能优化权威指南》这本书 Java 堆大小计算法则，设 Full GC 后老年代剩余大小空间为 M，那么堆的大小建议 3 ~ 4 倍 M，新生代为 1 ~ 1.5 倍 M，老年代应为 2 ~ 3 倍 M

CPU/线程瓶颈

有时，一个或几个线程导致 CPU 瓶颈，而整个机器的 CPU 使用率仍然相对较低，则可能无法看到 CPU 瓶颈。例如，48 核的服务器上，单个 CPU 瓶颈的线程仅占用 2％的 CPU 使用率，就算单个线程发生了 CPU 瓶颈，我们也看不出来。可以考虑使用 2.2.1 提到的分析工具，它们可以显示每个线程的 CPU 使用情况来识别热线程

线程竞争

与上⾯的 CPU/线程瓶颈问题类似，subtask 可能会因为共享资源上高负载线程的竞争而成为瓶颈。同样，可以考虑使用 2.2.1 提到的分析工具，考虑在用户代码中查找同步开销、锁竞争，尽管避免在用户代码中添加同步

负载不平衡

如果瓶颈是由数据倾斜引起的，可以尝试通过将数据分区的 key 进行加盐或通过实现本地预聚合来减轻数据倾斜的影响。（关于数据倾斜的详细解决方案，会在下一章节详细讨论）

外部依赖

如果发现我们的 Source 端数据读取性能比较低或者 Sink 端写入性能较差，需要检查第三方组件是否遇到瓶颈。例如，Kafka 集群是否需要扩容，Kafka 连接器是否并行度较低，HBase 的 rowkey 是否遇到热点问题。关于第三方组件的性能问题，需要结合具体的组件来分析

数据倾斜

判断是否存在数据倾斜

相同Task的多个Subtask中，个别 Subtask 接收到的数据量明显大于其他 Subtask 接收到的数据量，通过Flink Web UI可以精确地看到每个 Subtask 处理了多少数据，即可判断出 Flink 任务是否存在数据倾斜，通常，数据倾斜也会引起反压

数据倾斜的解决

keyBy之前发生数据倾斜

	如果keyBy之前就存在数据倾斜，上游算子的某些实例可能处理多个数据较多，某些实例可能处理的数据较少，产生该情况可能是因为数据源的数据本身就不均匀，例如由于某些原因 Kafka 的topic 中某些parition的数据量比较大，某些partition的数据量较少，对于不存keyBy的Flink任务也会出现该情况
	这种情况，需要让Flink任务强制进行shuffle。使用shuffle、rebalance或rescale算子即可将数据均匀分配，从而解决数据倾斜问题

keyBy后的聚合操作存在数据倾斜

使用LocalKeyBy的思想：在keyBy上游算子数据发送之前，首先在上游算子的本地对数据进行聚合后再发送到下游，使下游接收到的数据量大大减少，从而使得keyBy之后的聚合操作不再是任务的瓶颈。类似于MapReduce中Combiner的思想，但是这要求聚合操作必须是多条数据或者一批数据才能聚合，单条数据没有办法通过聚合来减少数据量。从Flink LocalKeyBy 实现原理来讲，必然会存在一个积攒批次的过程，在上游算子中必须攒够一定的数据量，对这些数据聚合后再发送到下游

注意：Flink 是实时流处理，如果 keyby 之后的聚合操作存在数据倾斜，且没有开窗口的情况下，简单的认为使用两阶段聚合，是不能解决问题的。因为这个时候 Flink 是来一条处理一条，且向下游发送一条结果，对于原来 keyby 的维度（第二阶段聚合）来讲，数据量并没有减少，且结果重复计算（非 FlinkSQL，未使用回撤流）

keyBy后的聚合操作存储数据倾斜

因为使用了窗口，变成了有界数据处理，窗口默认是触发时才会输出一条结果发往下游，故可使用两阶段聚合的方式：
第一阶段聚合：key拼接随机数前缀或后缀，进行keyby、开窗、聚合
	注意：聚合完不再是WindowedStream，要获取WindowEnd作为窗口标记作为第二阶段分组依据，避免不同窗口的结果聚合到一起
第二阶段聚合：去掉随机数前缀或后缀，按照原来的key及windowEnd作keyby、聚合

KafkaSource调优

动态发现分区

当 FlinkKafkaConsumer 初始化时，每个 subtask 会订阅一批 partition，但是当Flink 任务运行过程中，如果被订阅的 topic 创建了新的 partition，FlinkKafkaConsumer如何实现动态发现新创建的 partition 并消费呢？

在使用 FlinkKafkaConsumer 时，可以开启 partition 的动态发现。通过 Properties指定参数开启（单位是毫秒）：
FlinkKafkaConsumerBase.KEY_PARTITION_DISCOVERY_INTERVAL_MILLIS
该参数表示间隔多久检测一次是否有新创建的 partition。默认值是 Long 的最小值，表示不开启，大于 0 表示开启。开启时会启动一个线程根据传入的 interval 定期获取 Kafka最新的元数据，新 partition 对应的那一个 subtask 会自动发现并从 earliest 位置开始消费，新创建的 partition 对其他 subtask 并不会产生影响，示例代码如下：
properties.setProperty(FlinkKafkaConsumerBase.KEY_PARTITION_DISCOVERY_INTERVAL_MILLIS, 30 * 1000 + "");

从Kafka数据源生成watermark

Kafka 单分区内有序，多分区间无序。在这种情况下，可以使用 Flink 中可识别 Kafka 分区的 watermark 生成机制。使用此特性，将在 Kafka 消费端内部针对每个 Kafka 分区生成 watermark，并且不同分区 watermark 的合并方式与在数据流 shuffle 时的合并方式相同

在单分区内有序的情况下，使用时间戳单调递增按分区生成的 watermark 将生成完美的全局 watermark

StreamExecutionEnvironment env = 
StreamExecutionEnvironment.getExecutionEnvironment();
Properties properties = new Properties();
properties.setProperty("bootstrap.servers", "hadoop1:9092,hadoop2:9092,hadoop3:9092");
properties.setProperty("group.id", "fffffffffff");

FlinkKafkaConsumer<String> kafkaSourceFunction = new FlinkKafkaConsumer<>(
 "flinktest",
 new SimpleStringSchema(),
 properties
 );
kafkaSourceFunction.assignTimestampsAndWatermarks(
     WatermarkStrategy
     .forBoundedOutOfOrderness(Duration.ofMinutes(2))
);
env.addSource(kafkaSourceFunction)

设置空闲等待

如果数据源中的某一个分区/分片在一段时间内未发送事件数据，则意味着WatermarkGenerator 也不会获得任何新数据去生成 watermark。我们称这类数据源为空闲输入或空闲源。在这种情况下，当某些其他分区仍然发送事件数据的时候就会出现问题。比如 Kafka 的 Topic 中，由于某些原因，造成个别 Partition 一直没有新的数据
由于下游算子 watermark 的计算方式是取所有不同的上游并行数据源 watermark 的最小值，则其 watermark 将不会发生变化，导致窗口、定时器等不会被触发

StreamExecutionEnvironment env = 
StreamExecutionEnvironment.getExecutionEnvironment();
Properties properties = new Properties();
properties.setProperty("bootstrap.servers", "hadoop1:9092,hadoop2:9092,hadoop3:9092");
properties.setProperty("group.id", "fffffffffff");

FlinkKafkaConsumer<String> kafkaSourceFunction = new FlinkKafkaConsumer<>(
 "flinktest",
 new SimpleStringSchema(),
 properties
 );
kafkaSourceFunction.assignTimestampsAndWatermarks(
     WatermarkStrategy
     .forBoundedOutOfOrderness(Duration.ofMinutes(2))
     .withIdleness(Duration.ofMinutes(5))
);
env.addSource(kafkaSourceFunction)

Kafka的offset消费策略

FlinkKafkaConsumer 可以调用以下 API，注意与”auto.offset.reset”区分开

setStartFromGroupOffsets：默认消费策略，默认读取上次保存的 offset 信息，如果是应用第一次启动，读取不到上次的 offset 信息，则会根据这个参数 auto.offset.reset 的值来进行消费数据。建议使用这个
setStartFromEarliest：从最早的数据开始进行消费，忽略存储的 offset 信息
setStartFromLatest：从最新的数据进行消费，忽略存储的 offset 信息
setStartFromSpecificOffsets(Map)：从指定位置进行消费
setStartFromTimestamp(long)：从 topic 中指定的时间点开始消费，指定时间点之前的数据忽略
当 checkpoint 机制开启的时候，KafkaConsumer 会定期把 kafka 的 offset 信息还有其他 operator 的状态信息一块保存起来。当 job 失败重启的时候，Flink 会从最近一次的 checkpoint 中进行恢复数据，重新从保存的 offset 消费 kafka 中的数据（也就是说，上面几种策略，只有第一次启动的时候起作用）
为了能够使用支持容错的 kafka Consumer，需要开启 checkpoint

FlinkSQL调优

Group Aggregate 优化

开启 MiniBatch（提升吞吐）

MiniBatch 是微批处理，原理是缓存一定的数据后再触发处理，以减少对 State 的访问，从而提升吞吐并减少数据的输出量。MiniBatch 主要依靠在每个 Task 上注册的 Timer 线程来触发微批，需要消耗一定的线程调度性能

MiniBatch 默认关闭，开启方式如下：

// 初始化 table environment
TableEnvironment tEnv = ...
// 获取 tableEnv 的配置对象
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置参数：
// 开启 miniBatch
configuration.setString("table.exec.mini-batch.enabled", "true");
// 批量输出的间隔时间
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
// 防止 OOM 设置每个批次最多缓存数据的条数，可以设为 2 万条
configuration.setString("table.exec.mini-batch.size", "20000");

适用场景：微批处理通过增加延迟换取高吞吐，如果有超低延迟的要求，不建议开启微批处理。通常对于聚合的场景，微批处理可以显著的提升系统性能，建议开启
注意事项：key-value 配置项仅被 Blink planner 支持

开启 LocalGlobal（解决常见数据热点问题）

LocalGlobal 优化将原先的 Aggregate 分成 Local+Global 两阶段聚合，即 MapReduce 模型中的 Combine+Reduce 处理模式。第一阶段在上游节点本地攒一批数据进行聚合（localAgg），并输出这次微批的增量值（Accumulator）。第二阶段再将收到的Accumulator 合并（Merge），得到最终的结果（GlobalAgg）。 LocalGlobal 本质上能够靠 LocalAgg 的聚合筛除部分倾斜数据，从而降低 GlobalAgg 的热点，提升性能。结合下图理解 LocalGlobal 如何解决数据倾斜的问题

由上图可知：

未开启 LocalGlobal 优化，由于流中的数据倾斜，Key 为红色的聚合算子实例需要处理更多的记录，这就导致了热点问题
开启 LocalGlobal 优化后，先进行本地聚合，再进行全局聚合。可大大减少 GlobalAgg的热点，提高性能
- LocalGlobal 优化需要先开启 MiniBatch，依赖于 MiniBatch 的参数
- table.optimizer.agg-phase-strategy: 聚合策略。默认 AUTO，支持参数 AUTO、 TWO_PHASE(使用 LocalGlobal 两阶段聚合)、ONE_PHASE(仅使用 Global 一阶段聚合)
```
// 初始化 table environment
TableEnvironment tEnv = ...
// 获取 tableEnv 的配置对象
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置参数：
// 开启 miniBatch
configuration.setString("table.exec.mini-batch.enabled", "true");
// 批量输出的间隔时间
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
// 防止 OOM 设置每个批次最多缓存数据的条数，可以设为 2 万条
configuration.setString("table.exec.mini-batch.size", "20000");
// 开启 LocalGlobal
configuration.setString("table.optimizer.agg-phase-strategy", "TWO_PHASE");
```
- 判断是否生效：观察最终生成的拓扑图的节点名字中是否包含 GlobalGroupAggregate 或 LocalGroupAggregate
- 适用场景：LocalGlobal 适用于提升如 SUM、COUNT、MAX、MIN 和 AVG 等普通聚合的性能，以及解决这些场景下的数据热点问题
- 注意事项：
  - 需要先开启 MiniBatch
  - 开启 LocalGlobal 需要 UDAF 实现 Merge 方法

开启 Split Distinct（解决 COUNT DISTINCT 热点问题）

LocalGlobal 优化针对普通聚合（例如 SUM、COUNT、MAX、MIN 和 AVG）有较好的效果，对于 COUNT DISTINCT 收效不明显，因为 COUNT DISTINCT 在 Local 聚合时，对于 DISTINCT KEY 的去重率不高，导致在 Global 节点仍然存在热点
之前，为了解决 COUNT DISTINCT 的热点问题，通常需要手动改写为两层聚合（增加按 Distinct Key 取模的打散层）
从 Flink1.9.0 版本开始，提供了 COUNT DISTINCT 自动打散功能，不需要手动重写。Split Distinct 和 LocalGlobal 的原理对比参见下图

举例：统计一天的UV

SELECT day, COUNT(DISTINCT user_id)
FROM T
GROUP BY day

若手动实现两阶段聚合

SELECT day, SUM(cnt)
FROM (
 SELECT day, COUNT(DISTINCT user_id) as cnt
 FROM T
 GROUP BY day, MOD(HASH_CODE(user_id), 1024)
)
GROUP BY day

第一层聚合: 将 Distinct Key 打散求 COUNT DISTINCT
第二层聚合: 对打散去重后的数据进行 SUM 汇总

Split Distinct 开启方式

默认不开启，使用参数显式开启

table.optimizer.distinct-agg.split.enabled: true，默认 false
table.optimizer.distinct-agg.split.bucket-num: Split Distinct 优化在第一层聚合中，被打散的 bucket 数目。默认 1024

// 初始化 table environment
TableEnvironment tEnv = ...
// 获取 tableEnv 的配置对象
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置参数：
// 开启 Split Distinct
configuration.setString("table.optimizer.distinct-agg.split.enabled", "true");
// 第一层打散的 bucket 数目
configuration.setString("table.optimizer.distinct-agg.split.bucket-num", "1024");

判断是否生效：观察最终生成的拓扑图的节点名中是否包含 Expand 节点，或者原来一层的聚合变成了两层的聚合
适用场景：使用 COUNT DISTINCT，但无法满足聚合节点性能要求
注意事项
- 目前不能在包含 UDAF 的 Flink SQL 中使用 Split Distinct 优化方法
- 拆分出来的两个 GROUP 聚合还可参与 LocalGlobal 优化
- 从 Flink1.9.0 版本开始，提供了 COUNT DISTINCT 自动打散功能，不需要手动重写

改写为 AGG WITH FILTER 语法（提升大量 COUNT DISTINCT 场景性能）

在某些场景下，可能需要从不同维度来统计 UV，如 Android 中的 UV，iPhone 中的 UV，Web 中的 UV 和总 UV，这时，可能会使用如下 CASE WHEN 语法

SELECT
    day,
    COUNT(DISTINCT user_id) AS total_uv,
    COUNT(DISTINCT CASE WHEN flag IN ('android', 'iphone') THEN user_id ELSE 
    NULL END) AS app_uv,
    COUNT(DISTINCT CASE WHEN flag IN ('wap', 'other') THEN user_id ELSE NULL 
END) AS web_uv
    FROM T
    GROUP BY day

在这种情况下，建议使用 FILTER 语法, 目前的 Flink SQL 优化器可以识别同一唯一键上的不同 FILTER 参数。如，在上面的示例中，三个 COUNT DISTINCT 都作用在 user_id 列上。此时，经过优化器识别后，Flink 可以只使用一个共享状态实例，而不是三个状态实例，可减少状态的大小和对状态的访问

SELECT
    day,
    COUNT(DISTINCT user_id) AS total_uv,
    COUNT(DISTINCT user_id) FILTER (WHERE flag IN ('android', 'iphone')) AS app_uv,
    COUNT(DISTINCT user_id) FILTER (WHERE flag IN ('wap', 'other')) AS web_uv
FROM T
GROUP BY day

TopN 优化

使用最优算法

当 TopN 的输出是非更新流（例如 Source），TopN 只有一种算法 AppendRank。当 TopN 的输出是更新流时（例如经过了 AGG/JOIN 计算），TopN 有 2 种算法，性能从高到低分别是：UpdateFastRank 和 RetractRank。算法名字会显示在拓扑图的节点名字上

UpdateFastRank ：最优算法
需要具备2个条件
- 输入流有 PK（Primary Key）信息，例如 Group BY AVG
- 排序字段的更新是单调的，且单调方向与排序方向相反。例如，ORDER BY COUNT/COUNT_DISTINCT/SUM（正数）DESC

如果要获取到优化 Plan，则您需要在使用 ORDER BY SUM DESC 时，添加 SUM 为正数的过滤条件

AppendFast：结果只追加，不更新
RetractRank：普通算法，性能差

不建议在生产环境使用该算法。请检查输入流是否存在 PK 信息，如果存在，则可进行 UpdateFastRank 优化

无排名优化（解决数据膨胀问题）

TopN 语法：

SELECT *
FROM (
 SELECT *,
 ROW_NUMBER() OVER ([PARTITION BY col1[, col2..]]
 ORDER BY col1 [asc|desc][, col2 [asc|desc]...]) AS rownum
 FROM table_name)
WHERE rownum <= N [AND conditions]

数据膨胀问题：根据 TopN 的语法，rownum 字段会作为结果表的主键字段之一写入结果表。但是这可能导致数据膨胀的问题。例如，收到一条原排名 9 的更新数据，更新后排名上升到 1，则从 1 到 9 的数据排名都发生变化了，需要将这些数据作为更新都写入结果表。这样就产生了数据膨胀，导致结果表因为收到了太多的数据而降低更新速度
使用方式：TopN 的输出结果无需要显示 rownum 值，仅需在最终前端显式时进行 1 次排序，极大地减少输入结果表的数据量。只需要在外层查询中将 rownum 字段裁剪掉即可
```
// 最外层的字段，不写 rownum
SELECT col1, col2, col3
FROM (
SELECT col1, col2, col3
 ROW_NUMBER() OVER ([PARTITION BY col1[, col2..]]
 ORDER BY col1 [asc|desc][, col2 [asc|desc]...]) AS rownum
FROM table_name)
WHERE rownum <= N [AND conditions]
```
在无 rownum 的场景中，对于结果表主键的定义需要特别小心。如果定义有误，会直接导致 TopN 结果的不正确。无 rownum 场景中，主键应为 TopN 上游 GROUP BY 节点的 KEY 列表

增加 TopN 的 Cache 大小

TopN 为了提升性能有一个 State Cache 层，Cache 层能提升对 State 的访问效率。 TopN 的 Cache 命中率的计算公式为

cache_hit = cache_size*parallelism/top_n/partition_key_num

例如，Top100 配置缓存 10000 条，并发 50，当 PatitionBy 的 key 维度较大时，例如 10 万级别时，Cache 命中率只有 10000*50/100/100000=5%，命中率会很低，导致大量的请求都会击中 State（磁盘），性能会大幅下降。因此当 PartitionKey 维度特别大时，可以适当加大 TopN 的CacheS ize，相对应的也建议适当加大 TopN 节点的Heap Memory

// 初始化 table environment
TableEnvironment tEnv = ...
// 获取 tableEnv 的配置对象
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置参数：
// 默 认 10000 条 ， 调 整 TopN cahce 到 20 万 ， 那 么 理 论 命 中 率 能 达
200000*50/100/100000 = 100%
configuration.setString("table.exec.topn.cache-size", "200000");

高效去重方案

由于 SQL 上没有直接支持去重的语法，还要灵活的保留第一条或保留最后一条。因此我们使用了 SQL 的 ROW_NUMBER OVER WINDOW 功能来实现去重语法。去重本质上是一种特殊的 TopN

保留首行的去重策略（Deduplicate Keep FirstRow）

保留 KEY 下第一条出现的数据，之后出现该 KEY 下的数据会被丢弃掉。因为 STATE 中只存储了 KEY 数据，所以性能较优，示例如下

SELECT *
FROM (
 SELECT *,
 ROW_NUMBER() OVER (PARTITION BY b ORDER BY proctime) as rowNum
 FROM T
)
WHERE rowNum = 1;

以上示例是将 T 表按照 b 字段进行去重，并按照系统时间保留第一条数据。Proctime 在这里是源表 T 中的一个具有 Processing Time 属性的字段。如果按照系统时间去重，也可以将 Proctime 字段简化 PROCTIME()函数调用，可以省略 Proctime 字段的声明

保留末行的去重策略（Deduplicate Keep LastRow）

保留 KEY 下最后一条出现的数据。保留末行的去重策略性能略优于 LAST_VALUE 函数，示例如下

SELECT *
FROM (
 SELECT *,
 ROW_NUMBER() OVER (PARTITION BY b, d ORDER BY rowtime DESC) as 
rowNum
 FROM T
)
WHERE rowNum = 1;

以上示例是将 T 表按照 b 和 d 字段进行去重，并按照业务时间保留最后一条数据。 Rowtime 在这里是源表 T 中的一个具有 Event Time 属性的字段

高效的内置函数

使用内置函数替换自定义函数

Flink 的内置函数在持续的优化当中，请尽量使用内部函数替换自定义函数。使用内置函数好处

优化数据序列化和反序列化的耗时
新增直接对字节单位进行操作的功能

LIKE 操作注意事项

如果需要进行 StartWith 操作，使用 LIKE ‘xxx%’
如果需要进行 EndWith 操作，使用 LIKE ‘%xxx’
如果需要进行 Contains 操作，使用 LIKE ‘%xxx%’
如果需要进行 Equals 操作，使用 LIKE ‘xxx’，等价于 str = ‘xxx’
如果需要匹配 _ 字符，请注意要完成转义 LIKE ‘%seller/id%’ ESCAPE ‘/’。_在 SQL 中属于单字符通配符，能匹配任何字符。如果声明为 LIKE ‘%seller_id%’，则不单会匹配 seller_id 还会匹配 seller#id、sellerxid 或 seller1id 等，导致结果错误

慎用正则函数（REGEXP）

正则表达式是非常耗时的操作，对比加减乘除通常有百倍的性能开销，而且正则表达式在某些极端情况下可能会进入无限循环，导致作业阻塞。建议使用 LIKE。正则函数包括：

REGEXP
REGEXP_EXTRACT
REGEXP_REPLACE

指定时区

本地时区定义了当前会话时区 id。当本地时区的时间戳进行转换时使用。在内部，带有本地时区的时间戳总是以 UTC 时区表示。但是，当转换为不包含时区的数据类型时(例如 TIMESTAMP, TIME 或简单的 STRING)，会话时区在转换期间被使用。为了避免时区错乱的问题，可以参数指定时区

// 初始化 table environment
TableEnvironment tEnv = ...
// 获取 tableEnv 的配置对象
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置参数：
// 指定时区
configuration.setString("table.local-time-zone", "Asia/Shanghai");

设置参数总结

总结以上的调优参数，代码如下：

// 初始化 table environment
TableEnvironment tEnv = ...
// 获取 tableEnv 的配置对象
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置参数：
// 开启 miniBatch
configuration.setString("table.exec.mini-batch.enabled", "true");
// 批量输出的间隔时间
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
// 防止 OOM 设置每个批次最多缓存数据的条数，可以设为 2 万条
configuration.setString("table.exec.mini-batch.size", "20000");
// 开启 LocalGlobal
configuration.setString("table.optimizer.agg-phase-strategy", "TWO_PHASE");
// 开启 Split Distinct
configuration.setString("table.optimizer.distinct-agg.split.enabled", "true");
// 第一层打散的 bucket 数目
configuration.setString("table.optimizer.distinct-agg.split.bucket-num", "1024");
// TopN 的缓存条数
configuration.setString("table.exec.topn.cache-size", "200000");
// 指定时区
configuration.setString("table.local-time-zone", "Asia/Shanghai");

你可能感兴趣的:(大数据,Flink,flink,java,大数据)

Java面试题100道及答案编程大全面试题 java 开发语言
一、Java基础Java17中的sealed类和record类的作用和区别？答案：sealed类：限制继承关系，通过permits指定允许的子类。示例代码：publicsealedclassShapepermitsCircle,Square{...}；record类：不可变数据类，自动生成equals()、hashCode()和toString()。示例代码：publicrecordUser(St
知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
08_Excel 导入 - 用户信息批量导入耀耀_很无聊【后端开发】Java 碎碎念 excel java 开发语言
08_Excel导入-用户信息批量导入1.VO类java复制编辑@Data@AllArgsConstructor@NoArgsConstructorpublicclassUserInfoBatch4ExcelReq{@ExcelProperty(value="用户姓名")@Schema(description="用户姓名")privateStringuserName;@ExcelProperty(
大数据项目-Django基于大数据技术实现的农产品销售系统 IT实战课堂-玲琳娜计算机毕业设计大数据 java spark 爬虫
《[含文档+PPT+源码等]Django基于大数据技术实现的农产品销售系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScrip
LangChain4j在Java企业应用中的实战指南-2 在未来等你大模型应用开发 AI 技术编程 Java Spring
LangChain4j在Java企业应用中的实战指南文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM）的广泛应用，企业对智能应用的需求日益增长。LangChain4j作为一款专为Java生态打造的LLM集成框架，正在成为构建RAG（检索增强生成）系统和智能应用的重要工具。本
JavaScript数组方法 whhhhhhhhhw javascript 开发语言 ecmascript 前端 html
前言：JavaScript这门强大而灵活的编程语言中，数组（Array）无疑是最基础且使用最频繁的数据结构之一。它允许我们以有序的方式存储多个值，并提供了丰富的内置方法来操作这些值，包括但不限于添加、删除、搜索、遍历等。掌握JavaScript数组的方法，不仅能够提高我们的编程效率，还能让我们在处理复杂数据结构时更加得心应手。本文将全面解析JavaScript数组的各种常用方法，并通过实战示例展示
java运行python脚本同时实现传参响应接收小天丶1 java python java 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、java部分示例二、python代码示例前言提示：这里可以添加本文要记录的大概内容：主要帮助从事java开发却涉及一些计算操作的时候发现没有python库更高效的解决方式提示：以下是本篇文章正文内容，下面案例可供参考一、java部分示例//调用Python脚本//pythonl路径pythonl路径Stringpyth
【安卓笔记】注解反射，优雅的findViewById liosen 安卓笔记笔记
0.环境：电脑：Windows10AndroidStudio:2024.3.2编程语言:Java上一篇：注解的创建（重要提示，安卓新版本不再支持下面的代码。以下仅提供思路）如果需要使用findViewById的工具，推荐使用ButterKnife如果是需要优雅简单使用框架，可以使用MVVM框架，Android官方推荐的ViewBinding1.创建工具类，用于实现findViewById我这里直接
2025.06.11华为暑期实习机试真题【物流运输】Java/Python/C++/JS/C 实现 MISAYAONE python 华为 java 华为暑期实习机试 c++
目录题目思路Code题目物流公司每天都要处理很多物流的运输工作，整个城市共有N个地点。共有N-1条公路，每2个地点之间都能通过公路连通。物流公司总部位于1号地点。今天有一辆物流运偷车共有M条物流运输任务，物流运输车每天的工作流程如下:先要从总部出发去收取所有的寄件货物，收到所有货物后回到总部扫描货物，再从总部出发将货物送至所有的送件地址,送完后最终回到总部，算作完成了今天的运输工作，请问该辆物流运
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
基于 Vue + RuoYi 架构设计的商城Web/小程序实训课程速易达网络 spring boot uni-app vue.js
以下是基于Vue+RuoYi架构设计的商城Web/小程序实训课程方案，结合企业级开发需求与教学实践，涵盖全栈技术栈与实战模块：一、课程概述目标：通过Vue前端+RuoYi后端（SpringBoot）开发企业级电商系统，实现多终端（Web/H5/小程序）适配，覆盖从架构设计到部署上线的全流程。周期：8周（建议每日3小时）适合人群：具备基础Java/Vue知识的开发者，熟悉HTML/CSS/JavaS
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
拦截器和过滤器的区别 MaxBruce 工作专栏拦截器过滤器
拦截器和过滤器的区别①拦截器是基于java的反射机制的，而过滤器是基于函数回调。②拦截器不依赖与servlet容器，过滤器依赖与servlet容器。③拦截器只能对action请求起作用，而过滤器则可以对几乎所有的请求起作用。④拦截器可以访问action上下文、值栈里的对象，而过滤器不能访问。⑤在action的生命周期中，拦截器可以多次被调用，而过滤器只能在容器初始化时被调用一次。⑥拦截器可以获取I
LangChain4j在Java企业应用中的实战指南-3 在未来等你大模型应用开发 AI 技术编程 Java Spring
【LangChain4j在Java企业应用中的实战指南】文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM）的广泛应用，企业对智能应用的需求日益增长。LangChain4j作为一款专为Java生态打造的LLM集成框架，正在成为构建RAG（检索增强生成）系统和智能应用的重要工具
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
关于java通过背景图生成图片 a未来永远是个未知数 #java的图片处理 java java intellij-idea maven spring boot 图像处理
目录对接部分（碎碎念，可跳过）引入本地jar包文件路径错误尝试解决方案开发部分获取字体的方法关于二维码的生成关于在背景图上添加内容关于在背景图上写字关于在背景图上叠加图片关于保存图片第一次尝试第二次尝试第三次尝试最终方案关于文件读取为MultipartFile类型关于BufferedImage转MultipartFile最近用到了需要生成图片的开发，作为一个没有接触过这个的后端，实在头秃，记录一下
【Docker】容器中Spring boot项目 Graphics2D 画图中文乱码解决方案 ladymorgana 日常工作总结 docker spring boot 容器
@TOC一、容器中Springboot项目Graphics2D画图中文乱码解决方案在Docker容器中运行Java应用使用Graphics2D绘制中文时出现乱码，通常是因为容器缺少中文字体支持。以下是完整的解决方案：1.基础解决方案：安装中文字体方法一：基于Alpine镜像的解决方案FROMopenjdk:8-jdk-alpine#安装中文字体RUNapkadd--updatettf-dejavu
设计模式精讲 Day 20：状态模式（State Pattern）在未来等你 23种设计模式精讲设计模式状态模式 Java开发面向对象设计软件架构设计模式实战 Java应用开发
【设计模式精讲Day20】状态模式（StatePattern）文章标签设计模式,状态模式,Java开发,面向对象设计,软件架构,设计模式实战,Java应用开发文章简述状态模式是行为型设计模式中的重要一员，用于管理对象在不同状态下的行为变化。在实际项目中，状态模式能够有效解耦状态逻辑，提升系统的可维护性和扩展性。本文作为“设计模式精讲”系列的第20天，深入讲解了状态模式的核心思想、实现方式和实际应用
Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
java方法：复制一个文件内容到另一个文件东方-教育技术博主 java 文件复制
importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.FileWriter;importjava.io.IOException;publicclasscopyfile{publicstaticvoidmain(String[]args){StringsourceFile="E:/Workspaces/M
java依赖注入方法 hqxstudying log4j java spring ioc 依赖
依赖注入主要有以下几种方式，每种方式各有特点，适用于不同场景：构造函数注入方式：通过类的构造函数将依赖对象传入。示例：publicclassUserService{privatefinalUserRepositoryuserRepository;publicUserService(UserRepositoryuserRepository){this.userRepository=userRepos
Oracle ORA-3137[12333] 关闭的连接 java.sql.SQLRecoverableException: 无法从套接字读取更多的数据 ... iteye_9244 ORALCE oracle sql
今天在项目中遇到一个异常：OracleORA-3137[12333]关闭的链接java.sql.SQLRecoverableException:无法从套接字读取更多的数据，后来我在网上找了一下解决方案发现有两个：第一个解决方案：换oracle驱动，把驱动版本换成11.2的，但是尝试了一下没有效果，所以使用了第二个解决方案：在PLSQL执行altersystemset"_optim_peek_use
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
spring中maven缺少包如何重新加载，报错java: 程序包org.springframework.web.reactive.function不存在东方-教育技术博主 java java spring maven
错误原因分析java:程序包org.springframework.web.reactive.function不存在这个错误是由于项目中缺少SpringWebFlux相关依赖导致的。org.springframework.web.reactive.function包属于SpringWebFlux模块（用于响应式Web开发），如果你的项目需要使用该包下的类（如RouterFunction、Serve
WSL快速在Ubuntu或者Debian安装golang、python、deno、nodejs、java前后端全栈一体化开发环境配置怪我冷i 云原生 ubuntu debian golang AI写作 AI编程
安装golang#移除旧版本（如有）sudoaptremove--autoremove-ygolang#下载最新版（替换为官网最新版本号）wgethttps://go.dev/dl/go1.24.4.linux-amd64.tar.gz#解压到/usr/localsudorm-rf/usr/local/gosudotar-C/usr/local-xzfgo1.24.4.linux-amd64.ta
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Java开发的智能新时代——如何利用AI工具提升编程效率 inscode_055
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java开发的智能新时代——如何利用AI工具提升编程效率引言在当今快速发展的科技时代，Java作为一门广泛应用的编程语言，在企业级应用、Web开发、移动应用等领域占据着重要地位。然而，随着项目复杂度的增加和开发周期的缩短，传统的开发方式已难以满足现代开发的需求。幸运的是，智能化的工具软件如InsCodeAIIDE正逐
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后