忄凝^

Flink 容错机制CheckPoint 与反压机制

这里目录

- 1.简介
- 2、Flink 搭建
- 3、Flink 运行架构
- 4、程序与数据流（DataFlow）
- 5、Flink 流处理API
- 6、Window 窗口机制
- 7、时间语义与watermark
- 8、状态管理State
- 9、ProcessFunction API(底层API)
- 10、容错机制CheckPoint
- - 10.1、容错机制
  - 10.2、一致性检查点 checkPoint
  - - 10.2.2、Barriers(栅栏)
  - 10.3、先决条件
  - 10.4、checkpoint barrier 算法
  - 10.5、恢复Recovery
  - 10.6、启用和配置检查点
  - 10.8、保存点Savepoint
  - 10.9、连接器 Connector
  - 10.10. 状态一致性
  - - 10.10.2 端到端 exactly-once
    - 10.10.3、Flink+Kafka 端到端状态一致性的保证
- 13、Flink 反压机制
- - 13.1、网络监控的意义
  - 13.2、1.5版本之前
  - - 13.2.1. TCP流控机制
    - 13.2.2.跨TaskManager反压过程
    - 6.2.3. TaskManager内反压过程
    - 13.2.4. Before1.5缺点
  - 13.3、1.5版本以后

1.简介

Flink 简介 + 运行架构 + 程序与 DataFlow数据流
链接: https://blog.csdn.net/weixin_43660536/article/details/120126980.

2、Flink 搭建

Flink 1.9.3 搭建:
https://blog.csdn.net/weixin_43660536/article/details/120089661..

3、Flink 运行架构

4、程序与数据流（DataFlow）

Flink 简介 + 运行架构 + 程序与 DataFlow数据流
链接: https://blog.csdn.net/weixin_43660536/article/details/120126980.

5、Flink 流处理API

Flink 流处理 API 详解
https://blog.csdn.net/weixin_43660536/article/details/120142486.

6、Window 窗口机制

7、时间语义与watermark

Flink Windows机制 + 时间语义与水位线watermark
https://blog.csdn.net/weixin_43660536/article/details/120142618.

8、状态管理State

9、ProcessFunction API(底层API)

Flink state状态与 ProcessFunction API 详解
https://blog.csdn.net/weixin_43660536/article/details/120142911.

10、容错机制CheckPoint

10.1、容错机制

Flink提供了一种容错机制，可以持续恢复数据流应用程序的状态。
保障即使出现故障，经过恢复，程序的状态也会回到以前的状态。
Flink通过定期地做checkpoint来实现容错和恢复，容错机制不断地生成数据流的快照。
Flink的检查点由分布快照实现，以下的“检查点”和“快照”是同意义的。
快照非常轻量级并且可以经常生成快照，而不会对性能产生太大的影响；
状态存储在一个可配置的地方(例如主节点或HDFS)。
如果出现程序故障(由于机器、网络或软件故障)，Flink将停止分布式流数据流。然后系统重新启动 operator,并将其设置为最近一批的检查点。
要使得容错机制正常运行，数据流source需要能够将流倒回到指定的之前的点。flink与Kafka的connector可以利用重置kafka topic的偏移量来达到数据重新读取的目的。

10.2、一致性检查点 checkPoint

Flink 故障恢复机制的核心，就是应用状态的一致性检查点
有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照）；
这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候；
保存算子的当前状态，当集群出现故障的时候可以进行恢复
默认情况下，禁用checkpoint(检查点)；
Flink可以恢复检查点的数据，数据源也要求可以重复被消费
在流式计算中，算子的状态非常宝贵，因为有的状态很难进行重现
分布式快照：集群中的算子可以并行的去拍摄快照，不需要等待一起拍摄

10.2.2、Barriers(栅栏)

分布式快照的核心元素是stream barriers，轻量级的。
这些barriers被注入到数据流中，作为数据流的一部分和其他数据一同流动，barriers不会超过其他数据提前到达（乱序到达）。
每个Barrier带有一个ID，该 ID为将处于该Barrier之前的数据归入快照的检查点的ID。
不同的快照可以并行同时发生。

Barrier是在source处被插入到数据流中的。
快照n的barrier被插入的点（记为Sn），这个点就是在源数据流中快照n能覆盖到的数据的最近位置。
如在Kafaka中，这个位置就是上一个数据（record）在分区（partition）中的偏移量（offset）。
这个位置Sn将会交给checkpoint 协调器（它位于Flink的 JobManager中）。

10.3、先决条件

Flink的checkpoint机制一般来说，它需要：

持续的数据源。比如消息队列（例如，Apache Kafka，RabbitMQ）或文件系统（例如，HDFS， S3，GFS，NFS，Ceph，…）。
状态存储的持久化，通常是分布式文件系统（例如，HDFS，S3，GFS，…）

10.4、checkpoint barrier 算法

在分布式一致性算法Chandy-Lamport的基础上实现。
有一种特殊的record叫checkpoint barrier（由 JM产生），它带有checkpoint ID来把流进行划分。
在CB前面的记录（records）会被包含到checkpoint；

以前快照时，数据源禁止发送数据；现在检查点会发送一个栅栏（CB），数据会在栅栏后继续被发出；
下游获得其中一个CB时，会暂时处理后续数据，并将这些数据存入缓冲区；完成checkpoint后才开始处理在缓冲区的数据。
checkpoint完成后，上游会广播CB到所有下游；下游接受到所有上游的CB才会开始快照。

10.5、恢复Recovery

在系统失效时，Flink选择最近的已完成的检查点k，系统接下来重部署整个数据流图，然后给每个Operator在检查点k时的相应状态。
数据源则被设置为从数据流的Sk位置开始读取。
例如，在Apache Kafka执行恢复时，系统会通知消费者从偏移Sk开始获取数据。

10.6、启用和配置检查点

开启checkpoint的方式：调用env.enableCheckpointing(n),其中N是以毫秒为单位的检查点间隔。
checkpoint的相关参数

// 默认checkpoint功能是disabled的，想要使用的时候须要先启用
StreamExecutionEnvironment env =
StreamExecutionEnvironment.getExecutionEnvironment();
// 每隔1000 ms进行启动一个检查点【设置checkpoint的周期】
env.enableCheckpointing(1000);
// 高级选项：
// 设置模式为exactly-once （这是默认值）
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
// 确保检查点之间有至少500 ms的间隔【checkpoint最小间隔】
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
// 检查点必须在一分钟内完成，或者被丢弃【checkpoint的超时时间】
env.getCheckpointConfig().setCheckpointTimeout(60000);
// 同一时间只容许进行一个检查点
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
// 表示一旦Flink处理程序被cancel后，会保留Checkpoint数据，以便根据实际须要恢复到指定的
Checkpoint
env.getCheckpointConfig().enableExternalizedCheckpoints(ExternalizedCheckpointCl
eanup.RETAIN_ON_CANCELLATION);
// ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION:表示一旦Flink处理程序被
cancel后，会保留Checkpoint数据，以便根据实际须要恢复到指定的Checkpoint
// ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION: 表示一旦Flink处理程序被
cancel后，会删除Checkpoint数据，只有job执行失败的时候才会保存checkpoint
// 设置 checkpoint 保存目录
env.setStateBackend(new RocksDBStateBackend("hdfs:///checkpoints-data/");

10.8、保存点Savepoint

checkpoint的主要目的是在job意外失败时提供恢复机制。生命周期由Flink管理，即Flink创建，拥有和发布Checkpoint 。
Savepoints由用户创建，拥有和删除。他们一般是有计划的进行手动备份和恢复。
例如，在 Flink版本需要更新的时候，或者更改你的流处理逻辑，更改并行性等等。
使用

保存当前流的状态到指定目录：

[root@node01 flink]# flink savepoint jobID target_directory

重启，恢复数据流；

10.9、连接器 Connector

Flink 内置了一些基本数据源(source)和接收器(sink),除了这些之外，除此之外它还提供了其他的连接器用于与各种第三方系统进行连接。目前支持如下系统的连接：

Apache Kafka (source/sink)
Elasticsearch (sink)
Hadoop FileSystem (sink)
RabbitMQ (source/sink)
Apache NiFi (source/sink)
Apache Cassandra (sink)
Amazon Kinesis Streams (source/sink)
Twitter Streaming API (source)

在这些连接器中，当启动了Flink的容错机制之后，它分别能够保证不同的语义(at least once 和 exactly once)。如下图：当连接器是source的时候：

当连接器是sink的时候：

10.10. 状态一致性

流处理器的内部状态需要保证一致性。要注意保证应用程序状态的一致性，并不是保证应用程序的输出结果的一致性。一旦输出结果被持久化，结果的准确性就很难保证了。

AT-MOST-ONCE
- Atmost-once语义的含义是最多处理一次事件。
AT-LEAST-ONCE
- 所有的事件都得到了处理，而且最少处理一次事件。
EXACTLY-ONCE
- 恰好处理一次是最严格的保证；必须有至少处理一次语义的保证才行，同时还需要数据重放机制。

目前我们看到的一致性保证都是由流处理器实现的，也就是说都是在Flink流处理器内部保证的。而在真实世界中，流处理应用除了流处理器以外还包含了数据源（例如Kafka）和持久化系统。端到端的一致性保证意味着结果的正确性贯穿了整个流处理应用的始终。每一个组件都保证了它自己的一致性。而整个端到端的一致性级别取决于所有组件中一致性最弱的组件。要注意的是，我们可以通过弱一致性来实现更强的一致性语义。例如，当任务的操作具有幂等性时，比如流的最大值或者最小值的计算。在这种场景下，我们可以通过最少处理一次这样的一致性来实现恰好处理一次这样的最高级别的一致性。

10.10.2 端到端 exactly-once

内部保证 —— checkpoint
source 端 —— 可重设数据的读取位置
sink 端 —— 从故障恢复时，数据不会重复写入外部系统
- 幂等写入
- 事务写入 --预写日志，两阶段提交

10.10.3、Flink+Kafka 端到端状态一致性的保证

内部 —— 利用 checkpoint 机制，把状态存盘，发生故障的时候可以恢复，保证内部的状态一致性
source —— kafka consumer 作为 source，可以将偏移量保存下来，如果后续任务出现了故障，恢复的时候可以由连接器重置偏移量，重新消费数据，保证一致性
sink —— kafka producer 作为sink，采用两阶段提交 sink，需要实现一个 TwoPhaseCommitSinkFunction
Exactly-once 两阶段提交
1. 第一条数据来了之后，开启一个 kafka 的事务（transaction），正常写入 kafka 分区日志但标记为未提交，这就是“预提交”
2. jobmanager 触发 checkpoint 操作，barrier 从 source 开始向下传递，遇到 barrier 的算子将状态存入状态后端，并通知 jobmanager
3. sink 连接器收到 barrier，保存当前状态，存入 checkpoint，通知 jobmanager，并开启下一阶段的事务，用于提交下个检查点的数据
4. jobmanager 收到所有任务的通知，发出确认信息，表示 checkpoint 完成
5. sink 任务收到 jobmanager 的确认信息，正式提交这段时间的数据
6. 外部kafka关闭事务，提交的数据可以正常消费了。

13、Flink 反压机制

13.1、网络监控的意义

为了解决这个问题，我们就需要网络流控来解决上下游速度差的问题，传统的做法可以在Producer 端实现一个类似 Rate Limiter 这样的静态限流，Producer 的发送速率是 2MB/s，但是经过限流这一层后，往 Send Buffer 去传数据的时候就会降到 1MB/s 了，这样的话 Producer 端的发送速率跟 Consumer 端的处理速率就可以匹配起来了，就不会导致上述问题。但是这个解决方案有两点限制：

事先无法预估 Consumer 到底能承受多大的速率
Consumer 的承受能力通常会动态地波动

针对静态限速的问题我们就演进到了动态反馈（自动反压）的机制，我们需要 Consumer 能够及时的给 Producer 做一个 feedback，即告知 Producer 能够承受的速率是多少。动态反馈分为两种：

负反馈：接受速率小于发送速率时发生，告知 Producer 降低发送速率
正反馈：发送速率小于接收速率时发生，告知 Producer 可以把发送速率提上来

flink的反压又分为两个阶段，一个是1.5版本之前，一个是1.5版本以后

13.2、1.5版本之前

Flink的反压是通过TCP的反压机制来控制的。
Flink 在做网络传输的时候基本的数据的流向，发送端在发送网络数据前要经历自己内部的一个流程，会有一个自己的 Network Buffer，在底层用 Netty 去做通信，Netty 这一层又有属于自己的ChannelOutbound Buffer，因为最终是要通过 Socket 做网络请求的发送，所以在 Socket 也有自己的 Send Buffer，同样在接收端也有对应的三级 Buffer。学过计算机网络的时候我们应该了解到，TCP 是自带流量控制的。实际上 Flink （before V1.5）就是通过 TCP 的流控机制来实现feedback 的。

13.2.1. TCP流控机制

TCP包的格式结构。首先，他有 Sequence number 这样一个机制给每个数据包做一个编号，还有ACK number 这样一个机制来确保 TCP 的数据传输是可靠的，除此之外还有一个很重要的部分就是 Window Size，接收端在回复消息的时候会通过 Window Size 告诉发送端还可以发送多少数据。
TCP 当中有一个 ZeroWindowProbe 的机制，发送端会定期的发送 1 个字节的探测消息，这时候接收端就会把 window 的大小进行反馈。当接收端的消费恢复了之后，接收到探测消息就可以将window size 反馈给发送端端了从而恢复整个流程。TCP就是通过这样一个滑动窗口的机制实现feedback。

上游task向下游task传输数据的时候，有ResultPartition和InputGate两个组件。
- RP用来发送数据，IG用来接收数据
反压处理的阶段
- 跨 TaskManager ，反压如何从 InputGate 传播到 ResultPartition
- TaskManager 内，反压如何从 ResultPartition 传播到 InputGate

13.2.2.跨TaskManager反压过程

6.2.3. TaskManager内反压过程

13.2.4. Before1.5缺点

在一个 TaskManager 中可能要执行多个 Task，如果多个 Task 的数据最终都要传输到下游的同一个 TaskManager 就会复用同一个 Socket 进行传输，这个时候如果单个 Task 产生反压，就会导致复用的 Socket 阻塞，其余的 Task 也无法使用传输，checkpoint barrier 也无法发出导致下游执行checkpoint 的延迟增大。
依赖最底层的 TCP 去做流控，会导致反压传播路径太长，导致生效的延迟比较大。

13.3、1.5版本以后

ResultSubPartition 直接与Inputchannel 建立联系，询问是否能接受多少数据。
在 Flink 层面实现反压机制，就是每一次 ResultSubPartition 向 InputChannel 发送消息的时候都会发送一个 backlog size 告诉下游准备发送多少消息，下游就会去计算有多少的 Buffer 去接收消息，算完之后如果有充足的 Buffer 就会返还给上游一个 Credit 告知他可以发送消息
假设我们上下游的速度不匹配，上游发送速率为 2，下游接收速率为 1，可以看到图上在ResultSubPartition 中累积了两条消息，10 和 11， backlog 就为 2，这时就会将发送的数据<8,9> 和 backlog = 2 一同发送给下游。下游收到了之后就会去计算是否有 2 个 Buffer 去接收，可以看到 InputChannel 中已经不足了这时就会从 Local BufferPool 和 Network BufferPool 申请，好在这个时候 Buffer 还是可以申请到的。
过了一段时间后由于上游的发送速率要大于下游的接受速率，下游的 TaskManager 的 Buffer 已经到达了申请上限，这时候下游就会向上游返回 Credit = 0，ResultSubPartition 接收到之后就不会向 Netty 去传输数据，上游 TaskManager 的 Buffer 也很快耗尽，达到反压的效果，这样在ResultSubPartition 层就能感知到反压，不用通过 Socket 和 Netty 一层层地向上反馈，降低了反压生效的延迟。同时也不会将 Socket 去阻塞，解决了由于一个 Task 反压导致 TaskManager 和TaskManager 之间的 Socket 阻塞的问题。

Uniapp之自定义图片预览会功夫的李白 #uniapp uni-app 前端 javascript 图片预览
场景在一些场景，uniapp的原生图片预览无法满足要求，比如自定义图片预览元素。另外原生的图片预览无法阻止截屏问题。示例exportdefault{data(){return{allDownload:false}},onBackPress(){//返回时判断是否关闭图片预览，否则关闭并阻止返回if(this.$refs.preImgPopup.isOpen()){this.$refs.preImg
推客小程序系统开发全面解析：从0到1构建社交电商平台 ywyy6798 大数据短剧小程序开发推客系统推客小程序推客系统开发推客小程序开发
一、系统概述与市场背景推客小程序是近年来在微信生态中迅速崛起的社交电商模式，它通过"分享赚钱"的激励机制，将普通用户转化为产品的推广者，形成病毒式传播效应。这类系统特别适合中小型企业、个体商户以及内容创作者，能够以较低成本实现用户增长和销售转化。1.1推客模式的核心价值对于商家：降低获客成本，利用用户社交关系实现精准营销对于推广者：通过分享商品获得佣金收益，实现副业创收对于消费者：通过熟人推荐获得
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
【可信数据空间】 flyair_China 安全
分阶段设计可信数据空间（TrustedDataSpace,TDS）方案，覆盖数据处理、存储、加密及AI工作流全生命周期。一、预备阶段（Preliminary）目标：定义数据空间治理框架组织对齐设立TDS治理委员会（含安全官、数据科学家、合规专家），制定《可信数据共享宪章》：数据主权原则：所有权、使用权、存储权分离（GDPR/CCPA合规）最小授权机制：基于用途的访问控制（Purpose-based
可信数据空间（Trusted Data Space）核心能力及行业赋能分析小赖同学啊 test Technology Precious 算法
可信数据空间（TrustedDataSpace）作为新一代数据共享基础设施，通过技术创新和治理框架的结合，为多行业提供安全、可控的数据流通能力。以下是其核心能力及行业赋能分析：一、可信数据空间的六大核心能力能力维度技术实现关键价值数据主权保障基于区块链的分布式身份（DID）属性基加密（ABE）数据所有者保持控制权，实现"数据可用不可见"安全共享计算联邦学习（FL）多方安全计算（MPC）可信执行环境
spring中spring-boot-configuration-processor的使用七七&556 面试学习路线阿里巴巴 spring java 后端
spring-boot-configuration-processor是SpringBoot提供的注解处理器，用于在编译阶段生成配置元数据文件（spring-configuration-metadata.json），从而优化开发体验。以下是其核心功能和使用指南：一、核心功能IDE智能提示为自定义的配置类（使用@ConfigurationProperties）生成元数据，使得在application
工业物联网中的时序数据库应用
1.引言工业物联网（IndustrialInternetofThings,IIoT）通过传感器、边缘计算和云计算等技术，实现设备数据的实时采集、存储与分析，以提高生产效率、预测设备故障并优化资源管理。然而，IIoT环境通常涉及高频、海量、多源异构的时序数据，传统数据库（如MySQL、Oracle）难以满足其高吞吐写入、低延迟查询和高效存储的需求。时序数据库（Time-SeriesDatabase,
践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
学院来信511：关于美联储加息，市场的主流观点是什么？ TK_20ad
关于美联储加息，目前市场的主流观点分为两派：①下跌派：资金外流，市场承压。这也是大多数人的观点，约70%的人赞同这个观点。依据是2016年的12月，当时美联储加息就引发了国内股票和债券市场的快速下跌。其中，债市崩的尤为猛烈。2016年12月15日，近期、远期国债期货全线跌停，有些国债期货则直接以跌停开盘。这是从1992年国债期货开始交易以来，从未出现过的情况。对此，证监会发出了暂停国债期货交易的指
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
可信数据空间：概念、架构与应用实践小赖同学啊 test Technology Precious 架构
可信数据空间：概念、架构与应用实践一、可信数据空间的核心定义可信数据空间（TrustedDataSpace）是一种基于技术架构与制度设计的安全数据共享生态，通过构建“数据可用不可见、可控可追溯”的流通环境，解决数据要素市场化过程中的隐私保护、主权确认、流通合规等核心问题。其本质是通过密码学、区块链、智能合约等技术组合，实现数据在不同主体间的可信交互，同时保障数据所有者的权益与安全。二、核心技术要素
MySQL 多表关联执行计划全面解析：从 N-LJ 到子查询优化
在实际企业开发中，多表关联查询更为常见，也是导致SQL执行效率低下的重要原因之一。今天，我们将系统性地解析MySQL多表关联查询的执行机制，重点包括：多表关联底层执行机制（N-LJ嵌套循环连接）为什么多表查询容易性能差，以及驱动表的选择有多重要多表查询执行计划分析与优化技巧（附实际案例）一、MySQL多表关联的执行机制：N-LJ嵌套循环连接在MySQL中，多表连接最常见的执行策略就是NestedL
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
Redis缓存四件套的学习(七) 冷崖 Redis redis 缓存
一、缓存四件套1.1、缓存预热1.1.1、什么是缓存预热缓存预热就是在系统启动前，将数据提前加载到缓存中，这样就可以避免在用户请求的时候，先查询数据库，然后再将数据回写到缓存中1.1.2、如何实现缓存预热什么都不做，只对数据库操作，利用redis回写机制，逐步将数据库的数据同步到缓存中。-------最好晚上部署完成之后，自己人提前做一次，让数据写回缓存，别把这个问题交给用户。通过中间件或程序自行
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
如何清除 npm 缓存 BIBI2049 前端开发 Windows npm 缓存前端 node.js
清除npm缓存：利弊分析与操作指南在使用Node.js和npm进行项目开发时，我们经常会与npminstall命令打交道。这个过程中，npm会在本地建立一个缓存机制，用以存储已下载的包，从而显著提升后续安装的速度。然而，有时这个缓存也可能成为问题的根源。本文将探讨清除npm缓存的利弊，并提供清晰的操作指引。清除npm缓存的好处清除npm缓存主要能带来以下几点好处：解决依赖安装失败问题：当缓存中的包
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
RDS Proxy提高数据库可扩展性可用性GenAI taibaili2023 AWS
亚马逊云科技-RDSProxy改善数据库可扩展性GenAI关键字:[yt,AmazonRDSProxy,DatabaseScalability,RdsProxy,ConnectionPooling,SeamlessFailover,IamAuthentication]本文字数:400,阅读完需:2分钟导读演讲者介绍了”亚马逊云科技-RDSProxy改善数据库可扩展性GenAI”。在演讲中,他阐释了
aws rds mysql 连接_使用 Amazon RDS 代理连接到 Amazon RDS MySQL 数据库实例或 Aurora MySQL 数据库集群... 仁安同学 aws rds mysql 连接
如何使用AmazonRDS代理连接到我的AmazonRDSMySQL数据库实例或AuroraMySQL数据库集群？上次更新时间：2020年9月21日如何使用AmazonRDS代理连接到运行MySQL的AmazonRelationalDatabaseService(AmazonRDS)数据库实例或AmazonAurora数据库集群？简短描述您可以使用AmazonRDS代理来管理与应用程序之间的连接。
遥感云平台-GEE下载Landsat8/9影像数据（python）
内容介绍上期文章介绍如何在网页端导出Landsat8/9数据，本期主要介绍如何在本地GEE-python端导出数据以及出图。环境配置：Vscode+Jupyternotebook+gee+geemap+python3.10#导出所需要的包，注意提前安装ee和geemapimporteeimportosimportnumpyasnpimportgeemapfromgeemap.datasetsimp
659、反者道之动，弱者道之用。快乐_d0b5
常听晓平老师说到这句“反者道之动，弱者道之用。”有时候觉得一下子就明了了，有时候又觉模模糊糊，似懂非懂！今天百度了一下！此句出自于老子的《道德经》，原文为：“反者道之动，弱者道之用。天下万物生于有，有生于无。”意为：循环往复的运动变化，是道的运动，道的作用是微妙、柔弱的。天下的万物产生于看得见的有形质，有形质又产生于不可见的无形质。老子在《道德经》里，多次涉及到“事物的矛盾和对立转化是永恒不变的规
重庆医科大RFect siRNA转染试剂成功转染人骨髓白血病OCI/AML3细胞清风拂面vv
重庆医科大学研究团队在NPM1蛋白突变的急性髓性白血病中免疫逃逸机制的相关研究中，使用RFect小核酸转染试剂将相关siRNA转染到人骨髓白血病细胞系OCI/AML3细胞内，qRT-PCR结果显示转染后细胞内相关mRNA敲除率高达75%以上。
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
创新人才引进机制优化人才发展环境焕梧
12月16日出版的第24期《求是》杂志将发表中共中央总书记、国家主席、中央军委主席习近平的重要文章《深入实施新时代人才强国战略加快建设世界重要人才中心和创新高地》。文章强调，必须坚持党管人才，坚持面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康，深入实施新时代人才强国战略，全方位培养、引进、用好人才，加快建设世界重要人才中心和创新高地，为2035年基本实现社会主义现代化提供人才
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

Flink 容错机制CheckPoint 与 反压机制