pucheung

Flink 基于Log 的增量Checkpoint

作者｜梅源（Yuan Mei）& Roman Khachatryan

流处理系统最重要的特性是端到端的延迟，端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink，作为流式计算的标杆，其端到端延迟包括容错的快慢主要取决于检查点机制（Checkpointing），所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们在 “Flink 新一代流计算和容错——阶段总结和展望”^[1] 一文中介绍了 Flink 从社区 1.12 版本开始所做的提升 Checkpointing 机制的努力，本文将着重介绍其中刚刚在 Flink 1.15 版本发布的 Generic Log-Based Incremental Checkpointing 这个功能。

点击查看 Apache Flink 1.15 发布公告

一、概述

Generic Log-Based Incremental Checkpointing 的设计初衷是我们将全量的状态快照和增量的检查点机制分隔开，通过持续上传增量 Changelog 的方法，来确保每次 Checkpointing 可以稳定快速的完成，从而减小 Checkpointing 之间的间隔，提升 Flink系统端到端的延迟。拓展开来说，主要有如下三点提升：

更短的端到端延迟：尤其是对于 Transactional Sink。Transactional Sink 在 Checkpoint 完成的时候才能完成两阶段提交，因此减小 Checkpointing 的间隔意味着可以更频繁的提交，达到更短的端到端的延迟。
更稳定的 Checkpoint 完成时间：目前 Checkpoint 完成时间很大程度上取决于在 Checkpointing 时需要持久化的（增量）状态的大小。在新的设计中，我们通过持续上传增量，以达到减少 Checkpoint Flush 时所需要持久化的数据，来保证 Checkpoint 完成的稳定性。
容错恢复需要回滚的数据量更少：Checkpointing 之间的间隔越短，每次容错恢复后需要重新处理的数据就越少。

那是怎么做到的呢？我们知道影响 Flink Checkpointing 时间的主要因素有以下几点：

Checkpoint Barrier 流动和对齐的速度；
将状态快照持久化到非易失性高可用存储（例如 S3）上所需要的时间。

对 Flink Checkpoint 机制不太了解的读者可以参考：

Flink 1.12 版本引入的 Unaligned Checkpoint^[2]和 1.14 版本中引入的 Buffer Debloating^[3]主要解决了上述第 1 个问题，尤其是在反压的情况下。更早之前引入的 Incremental Checkpoint^[4]是为了减少每次 Checkpointing 所需要持久化存储状态的大小，以减小第 2 个影响因素，但在实际中也不完全能做到：现有 Incremental Checkpoint 是基于 RocksDB 来完成的，RocksDB 出于空间放大和读性能的考虑会定期做 Compaction。Compaction 会产生新的、相对较大的文件，会增加上传所需要的时间。每一个执行 Flink 作业的物理节点（Task）至少有一个 RocksDB 实例，所以 Checkpoint 被延迟的概率会随着物理节点增多而变大。这导致在 Flink 的大型作业中，几乎每次完成 Checkpointing 时都有可能会因为某个节点而延迟，如下图所示。

图1: 每次 Checkpoint 都可能因为某个节点上传文件缓慢而延迟

另外值得一提的是在现有的 Checkpointing 机制下，Task 只有在收到至少一个 Checkpoint Barrier 之后，才会做状态快照并且开始持久化状态快照到高可用存储，从而增加了 Checkpoint 完成时间，如下图所示。

图2: 在现有机制下，快照在 Checkpoint Barrier 到达之后才会开始上传

在新的设计中，我们通过持续上传增量 Changelog 的方法，可以避免这个限制，加速 Checkpoint 完成时间。下面我们来看看详细的设计。

二、设计

Generic Log-Based Incremental Checkpointing 的核心思想是引入 State Changelog（状态变化日志），这样可以更细粒度地持久化状态：

算子在更新状态的时候写双份，一份更新写入状态表 State Table 中，一份增量写入 State Changelog 中。
Checkpoint 变成由两个部分组成，第一个部分是当前已经持久化的存在远端存储上的 State Table，第二个部分是增量的 State Changelog。
State Table 的持久化和 Checkpointing 过程独立开来，会定期由 background thread 持久化，我们称为 Materialization（物化）的过程。
在做 Checkpoint 的时候，只要保证新增的 State Changelog 被持久化就可以了。

新的设计中需要在做 Checkpoint 的时候上传的数据量变得很少，不仅可以把 Checkpoint 做得更稳定，还可以做得更高频。整个工作流程如下图所示：

图3: Generic Log-Based Incremental Checkpointing 工作流程

Generic Log-Based Incremental Checkpointing 类似传统数据库系统的 WAL 机制：

数据的增量更改（插入/更新/删除）会被写入到 Transaction Log 中。一旦这部分更改的日志被同步到持久存储中，我们就可以认为 Transaction 已经完成了。这个过程类似于上述方法中的 Checkpointing 的过程。
同时，为了方便数据查询，数据的更改也会异步持久化在数据表（Table）中。一旦 Transaction Log 中的相关部分也在数据表中被持久化了，Transaction Log 中相关部分就可以删除了。这个过程类似于我们方法中的 State Table 持久化过程。

这种和 WAL 类似的机制可以有效提升 Checkpoint 完成的速度，但也带来一些额外的开销：

额外的网络 IO 和额外的 Changelog 持久存储开销；
缓存 Changelog 带来的额外的内存使用；
容错恢复需要额外的重放 Changelog 带来的潜在的恢复时间的增加。

我们在后面的 Benchmark 对比中，也会对这三方面的影响进行分析。特别对于第 3 点，额外的重放 Changelog 所带来的容错恢复时间增加会在一定程度上因为可以做更频繁的 Checkpoint 所弥补，因为更频繁的 Checkpoint 意味着容错恢复后需要回放的处理数据更少。

三、Changelog 存储（DSTL）

Generic Log-Based Incremental Checkpointing 的很重要的一个组件是 State Changelog 存储这个部分，我们称之为 Durable Short-term Log（DSTL，短存 Log）。DSTL 需要满足以下几个特性：

短期持久化
State Changelog 是组成 Checkpoint 的一个部分，所以也需要能持久化存储。同时，State Changelog 只需要保存从最近一次持久化 State Table 到当前做 Checkpoint 时的 Changelog，因此只需要保存很短时间（几分钟）的数据。

写入频率远远大于读取频率
只有在 Restore 或者 Rescale 的情况下才需要读取 Changelog，大部分情况下只有 append 操作，并且一旦写入，数据就不能再被修改。

很短的写延迟
引入 State Changelog 是为了能将 Checkpoint 做得更快（1s 以内）。因此，单次写请求需要至少能在期望的 Checkpoint 时间内完成。

保证一致性
如果我们有多个 State Changelog 的副本，就会产生多副本之间的一致性问题。一旦某个副本的 State Changelog 被持久化并被 JM 确认，恢复时需要以此副本为基准保证语义一致性。

从上面的特性也可以看出为什么我们将 Changelog 存储命名为 DSTL 短存 Log。

3.1 DSTL 方案的选择

DSTL 可以有多种方式实现，例如分布式日志（Kafka）、分布式文件系统（DFS），甚至是数据库。在 Flink 1.15 发布的 Generic Log-Based Incremental Checkpointing MVP 版本中，我们选择 DFS 来实现 DSTL，基于如下考虑：

没有额外的外部依赖：目前 Flink Checkpoint 持久化在 DFS 中，所以以 DFS 来实现 DSTL 没有引入额外的外部组件。
没有额外的状态管理：目前的设计方案中 DSTL 的状态管理是和 Flink Checkpointing 机制整合在一起的，所以也不需要额外的状态管理。
DFS 原生提供持久化和一致性保证：如果实现多副本分布式日志，这些都是额外需要考虑的成本。

另一方面，使用 DFS 有以下缺点：

更高的延迟：DFS 相比于写入本地盘的分布式日志系统来讲一般来说有更高的延迟。
网络 I/O 限制：大部分 DFS 供应商出于成本的考虑都会对单用户 DFS 写入限流限速，极端情况有可能会造成网络过载。

经过一些初步实验，我们认为目前大部分 DFS 实现（例如 S3，HDFS 等）的性能可以满足 80% 的用例，后面的 Benchmark 会提供更多数据。

3.2 DSTL 架构

下图以 RocksDB 为例展示了基于 DFS 的 DSTL 架构图。状态更新通过 Changelog State Backend 双写，一份写到 RocksDB，另一份写到 DSTL。RocksDB 会定期进行 Materialization，也就是将当前的 SST 文件上传到 DFS；而 DSTL 会将 state change 持续写入 DFS，并在 Checkpointing 的时候完成 flush，这样 Checkpoint 完成时间只取决于所需 flush 的数据量。需要注意的是 Materialization 完全独立于 Checkpointing 的过程，并且 Materialization 也可以比 Checkpointing 的频率慢很多，系统默认值是 10 分钟。

图4: 以 RocksDB 为例基于 DFS 的 DSTL 架构图

这里还有几个问题值得补充讨论一下：

状态清理问题
前面有提到在新的架构中，一个 Checkpoint 由两部分组成：1）State Table 和 2）State Change Log。这两部分都需要按需清理。1）这个部分的清理复用 Flink 已有的 Checkpoint 机制；2）这个部分的清理相对较复杂，特别是 State Change Log 在当前的设计中为了避免小文件的问题，是以 TM 为粒度的。在当前的设计中，我们分两个部分来清理 State Change Log：一是 Change Log 本身的数据需要在 State Table 物化后删除其相对应的部分；二是 Change Log 中成为 Checkpoint 的部分的清理融合进已有的 Flink Checkpoint 清理机制^[4]。

DFS 相关问题
- 长尾延迟问题
  为了解决 DFS 高长尾延迟问题，DFS 写入请求会在允许超时时间（默认为 1 秒）内无法完成时重试。
- 小文件问题
  DFS 的一个问题是每个 Checkpoint 会创建很多小文件，并且因为 Changleog State Backend 可以提供更高频的 Checkpoint，小文件问题会成为瓶颈。为了缓解这种情况，我们将同一个 Task Manager 上同一作业的所有 State Change 写到同一个文件中。因此，同一个 Task Manager 会共享同一个 State Change Log。

四、Benchmark 测试结果分析

Generic Log-Based Incremental Checkpointing 对于 Checkpoint 速度和稳定性的提升取决于以下几个因素：

State Change Log 增量的部分与全量状态大小之比，增量越小越好。
不间断上传状态增量的能力。这个和状态访问模式相关，极端情况下，如果算子只在 Checkpointing 前更新 Flink State Table 的话，Changelog 起不到太大作用。
能够对来自多个 Task 的 changelog 分组批量上传的能力。Changelog 分组批量写 DFS 可以减少需要创建的文件数量并降低 DFS 负载，从而提高稳定性。
底层 State Backend 在刷磁盘前对同一个 key 的更新的去重能力。因为 state change log 保存的是状态更新，而不是最终值，底层 State Backend 这种能力会增大 Changelog 增量与 State Table 全量状态大小之比。
写持久存储 DFS 的速度，写的速度越快 Changelog 所带来的提升越不明显。

4.1 Benchmark 配置

在 Benchmark 实验中，我们使用如下配置：

算子并行度：50
运行时间：21h
State Backend：RocksDB (Incremental Checkpoint Enabled)
持久存储：S3 (Presto plugin)
机器型号：AWS m5.xlarge（4 slots per TM）
Checkpoint 间隔: 10ms
State Table Materialization 间隔：3m
Input Rate：50K Events /s

4.2 ValueState Workload

我们第一部分的实验，主要针对每次更新的 Key 值都不一样的负载；这种负载因为上述第 2 点和第 4 点的原因，Changelog 的提升是比较明显的：Checkpoint 完成时间缩短了 10 倍（99.9 pct），Checkpoint 大小增加 30%，恢复时间增加 66% - 225%，如下表所示。

表1: 基于 ValueState Workload 的 Changelog 各项指标对比

下面我们来更详细的看一下 Checkpoint Size 这个部分：

表2: 基于 ValueState Workload 的 Changelog（开启/关闭）的 Checkpoint 相关指标对比

Checkpointed Data Size 是指在收到 Checkpoint Barrier，Checkpointing 过程开始后上传数据的大小。对于 Changelog 来说，大部分数据在 Checkpointing 过程开始前就已经上传了，所以这就是为什么开启 Changelog 时这个指标要比关闭时小得多的原因。
Full Checkpoint Data Size 是构成 Checkpoint 的所有文件的总大小，也包括与之前 Checkpoint 共享的文件。与通常的 Checkpoint 相比，Changelog 的格式没有被压缩过也不够紧凑，因此占用更多空间。

4.3 Window Workload

这里使用的是 Sliding Window。如下表所示，Changelog 对 checkpoint 完成时间加速 3 倍左右；但存储放大要高得多（消耗的空间接近 45 倍）：

表3: 基于 Window Workload 的 Changelog（开启/关闭）的 Checkpoint 相关指标对比

Full Checkpoint Data 存储空间放大主要原因来自于：

对于 Sliding Window 算子，每条数据会加到多个滑动窗口中，因此为造成多次更新。Changelog 的写放大问题会更大。
前面有提到，如果底层 State Backend（比如 RocksDB）在刷磁盘前对同一个 key 的更新去重能力越强，则快照的大小相对于 Changelog 会越小。在 Sliding Window 算子的极端情况下，滑动窗口会因为失效被清理。如果更新和清理发生在同一个 Checkpoint 之内，则很可能该窗口中的数据不包含在快照中。这也意味着清除窗口的速度越快，快照的大小就可能越小。

五、结论

Flink 1.15 版本实现了 Generic Log-Based Incremental Checkpointing 的 MVP 版本。这个版本基于 DFS 可以提供秒级左右的 Checkpoint 时间，并极大的提升了 Checkpoint 稳定性，但一定程度上也增加了空间的成本，本质上是用空间换时间。1.16 版本将进一步完善使其生产可用，比如我们可以通过 Local Recovery 和文件缓存来加速恢复时间。另一个方面，Changelog State Backend 接口是通用的，我们可以用同样的接口对接更快的存储来实现更短的延迟，例如 Apache Bookkeeper。除此之外，我们正在研究 Changelog 的其他应用，例如将 Changelog 应用于 Sink 来实现通用的端到端的 exactly-once 等。

附录

如果您想试用 Generic Log-Based Incremental Checkpointing 的话，可以在 flink-conf.yaml 中进行如下简单的设置：

state.backend.changelog.enabled: true


state.backend.changelog.storage: filesystem 


dstl.dfs.base-path:

完整的设置文档可以参考 [5]

致谢

我们感谢 Stephan Ewen 提出了这个功能的最初设想，也感谢 Piotr Nowojski, Yu Li 和 Yun Tang 的讨论和代码 Review。

[1] https://mp.weixin.qq.com/s/XbcipgrM8v2lr0_LdnMTtA

[2] https://cwiki.apache.org/confluence/display/FLINK/FLIP-76%3A+Unaligned+Checkpoints

[3] https://cwiki.apache.org/confluence/display/FLINK/FLIP-183%3A+Dynamic+buffer+size+adjustment

[4] https://flink.apache.org/features/2018/01/30/incremental-checkpointing.html

[5] https://nightlies.apache.org/flink/flink-docs-master/docs/ops/state/state_backends/#enabling-changelog

Python爬虫实战：高效提取与解析JSON格式数据 Python爬虫项目 python 爬虫宽度优先数据库 json 深度优先开发语言
1.JSON数据爬取概述在当今互联网时代，JSON(JavaScriptObjectNotation)已成为最流行的数据交换格式之一。相比传统的HTML页面，JSON格式数据具有结构清晰、体积小、解析方便等优势，使得它成为API接口的首选数据格式。1.1为什么选择JSON数据爬取数据结构化：JSON数据本身就是结构化的，不需要像HTML那样进行复杂的解析传输高效：JSON通常比HTML体积小，传输
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
手绘电路图的节点和端点检测一个简化版的算法实现框架 zhangfeng1133 算法
于论文描述，我将提供一个简化版的算法实现框架，用于手绘电路图的节点和端点检测，并整合生成电路原理图。以下代码结合了YOLOv5目标检测和传统图像处理技术，符合论文中提到的98.2%mAP和92%节点识别准确率的关键指标。核心算法实现（Python+OpenCV+YOLOv5）importcv2importnumpyasnpimporttorchfromyolov5importYOLOv5#需要安装
2020-12-09 幸福大黑鸭
IT1.LeetCode：汇总区间Java编写2020-12-09（228.汇总区间）2.《Java从入门到精通》明日科技：P351~355阅读记xmind笔记，并自己实现实例。知识点之前确实都学过，但还是再系统复习一下吧。3.《Semantic-awareWorkflowConstructionandAnalysisforDistributedDataAnalyticsSystems》：粗读关键
Spring - BeanFactory 和 ApplicationContext 有什么区别撸帝
学习完整课程请移步互联网Java全栈工程师BeanFactory可以理解为含有bean集合的工厂类。BeanFactory包含了种bean的定义，以便在接收到客户端请求时将对应的bean实例化。BeanFactory还能在实例化对象的时生成协作类之间的关系。此举将bean自身与bean客户端的配置中解放出来。BeanFactory还包含了bean生命周期的控制，调用客户端的初始化方法（initia
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
使用LangChain构建多代理系统实现复杂任务自动化 LCG元工具 langchain 自动化运维
目录一、系统架构设计模块说明：二、核心工作流程（双流程图对比）横向对比：单代理vs多代理纵向核心流程三、企业级实现方案1.Python核心代码（LangChain0.1.8+）2.TypeScript前端集成代码四、性能对比测试五、生产级部署方案安全审计要点：高可用部署拓扑：六、技术前瞻性分析附录：完整技术图谱摘要：本文深度解析如何基于LangChain框架构建企业级多代理系统，通过模块化架构设计
时序数据库选型避坑全攻略：IoTDB性能与成本双杀的秘密！ LCG元数据库时序数据库 iotdb java
文章目录一、架构设计深度解析1.1IoTDB架构图谱1.2核心流程对比二、企业级实战代码2.1Python数据写入示例2.2TypeScript客户端实现2.3集群配置YAML三、性能对比分析四、生产部署方案4.1安全加固配置4.2安全策略实施五、技术前瞻分析5.1云原生演进路径5.2新型存储引擎预测六、技术图谱附录一、架构设计深度解析1.1IoTDB架构图谱数据写入协议适配层内存表管理持久化引擎
大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案 LCG元系统服务架构负载均衡网络运维
目录一、系统架构设计与核心流程1.1原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五、生产级部署方案5.1Kubernetes部署配置（YAML）5.2安全审计配置六、技术前瞻与演进附录：完整技术图谱一、系统架构设计与核心流程1.1原创
用Python实现神经网络(四)
使用多层神经网络我们展示如何用TensorFlow构建多层神经网络###低出生率数据LowBirthratedata:#Columns Variable Abbreviation#---------------------------------------------------------------------#Lo
自平衡摩托车控制系统设计：Python实现方案神经网络15044 仿真模型算法机器学习 python 开发语言
自平衡摩托车控制系统设计：Python实现方案摘要本文针对5CCE2MCT机电一体化补考项目要求，提出了一种基于Python的自平衡摩托车控制系统完整实现方案。该系统结合PID控制、状态空间方法和数字信号处理技术，实现了稳定的平衡与运动控制。我们从数学模型建立到硬件测试进行了完整展示，提供了可替代MATLAB/Simulink方案的可行解决方案。该实现方案在保持与参考Arduino工程套件相当性能
探索阿里云DMS：解锁高效数据管理新姿势云资源服务商 oracle 数据库阿里云云计算
一、阿里云DMS是什么阿里云DMS，全称为DataManagementService，即数据管理服务，是一种集数据管理、结构管理、安全管理于一体的全面数据库服务平台。它能够有效地支持各类数据库产品，包括但不限于MySQL、SQLServer、PostgreSQL、PPAS、DRDS、OceanBase、MongoDB、Redis等，对用户的数据库进行全方位的维护和管理，提供了一站式的数据库解决方案
阿里云 RabbitMQ 可观测性最佳实践观测云阿里云 rabbitmq 云计算
阿里云RabbitMQ阿里云RabbitMQ是一款高性能、高可靠的消息中间件，支持多种消息协议和丰富的功能特性。它提供消息队列功能，能够实现应用间的消息解耦和异步通信，提升系统扩展性和稳定性。其支持多种消息持久化策略，确保消息不丢失；具备灵活的路由和负载均衡能力，可高效分发消息；还提供丰富的管理功能，如队列监控、消息追踪和权限管理等，帮助用户轻松管理和优化消息队列，广泛应用于分布式系统、微服务架构
Java云原生安全矩阵：从代码到运行时的量子级防御墨夶 Java学习资料6 java 云原生安全
核心架构：SpringSecurity与Envoy的“量子态防御”基于声明式安全的“波函数坍缩”API网关的“暗物质过滤”代码示例：SpringSecurity的量子态权限控制威胁检测的“超弦理论”基于行为分析的“量子隧穿”异常检测实时日志的“引力波监测”代码示例：机器学习驱动的异常行为检测加密与密钥管理的“暗能量引擎”敏感数据的“量子态加密”密钥的“黑洞事件视界”保护代码示例：BCrypt与JW
python基础语法9，用os库实现系统操作并用sys库实现文件操作（简单易上手的python语法教学） AI 嗯啦 python 开发语言
一、os库os.system()是Pythonos库中用于执行操作系统命令的重要方法，它允许在Python程序中直接调用系统shell命令（如Linux的bash命令或Windows的cmd命令）。基本语法importosos.system(command)command：要执行的系统命令字符串（与在终端/命令提示符中输入的命令格式一致）返回值：命令执行的退出状态码（0表示成功，非0表示执行出错）
Python教程：你一定要知道的26个Python魔术方法（快记下来）旦莫 Python进阶 python 开发语言
Python中的魔术方法是指以双下划线__开头和结尾的特殊方法，也被称为特殊方法或魔术方法。这些方法在类中具有特殊的用途，它们可以让你自定义类的行为，使得你的对象可以像内置类型一样工作。这些方法由解释器调用，而不是你直接调用它们。例如，当你使用+运算符时，实际上是调用了对象的__add__方法。这些方法允许你重载运算符、改变对象的构造和初始化行为、自定义属性访问等等。使用魔术方法可以使你的代码更具
快捷删除python中pip安装的所有外部库 m0_74366096 python pip 开发语言
windows环境首先，列出所有安装的第三方库并导出到一个文件：pipfreeze>requirements.txt然后，批量卸载这些库：pipuninstall-y-rrequirements.txt最后，用del命令删除requirements.txt文件：delrequirements.txt这样就能在Windows系统上完成卸载并清理文件的操作。
Python与Java互操作性的桌面应用开发 master_chenchengg python python Python python开发 IT
Python与Java互操作性的桌面应用开发跨语言协作的魅力：Python遇上Java为什么选择Python和Java进行桌面应用开发？两种语言的优势互补：Python的简洁与Java的强大实际案例分享：当Python遇见Java，会发生什么奇妙的化学反应？搭建桥梁：Jython与JPype介绍Jython：用Python编写Java程序安装与配置：轻松几步让你上手调用Java类库：如何在Pyth
Python常见的魔术方法和魔术属性景天科技苑 python轻松入门基础语法到高阶实战教学 python 开发语言魔术方法魔术属性
文章目录魔术方法1、`__new__`魔术方法(1)基本使用(2)`__new__`触发时机要快于`__init__`(3)`__new__`的参数要和`__init__`参数一一对应。参数个数一致就行(4)`__new__`和`__init__`之间的注意点2、单态模式:同一个类,无论实例化多少次,都有且只有一个对象3、`__del__`魔术方法(析构方法)(1)基本语法(2)模拟文件操作4、`
Docker 基本操作 dufufd other
https://zhuanlan.zhihu.com/p/23599229Docker是什么？Docker是一个虚拟环境容器，可以将你的开发环境、代码、配置文件等一并打包到这个容器中，并发布和应用到任意平台中。比如，你在本地用Python开发网站后台，开发测试完成后，就可以将Python3及其依赖包、Flask及其各种插件、Mysql、Nginx等打包到一个容器中，然后部署到任意你想部署到的环境。
工作流引擎Conductor William一直在路上职业重启计划工作心得 conductor java
Conductor是Netflix开源的分布式工作流编排引擎，用于协调微服务、API和任务的执行顺序。它通过声明式工作流定义，实现复杂业务流程的自动化管理，特别适合电商订单处理、数据管道、CI/CD等场景。核心概念1.工作流（Workflow）由多个任务组成的有向无环图（DAG），定义业务流程逻辑。示例：电商订单流程（创建订单→支付验证→库存锁定→物流分配）。2.任务（Task）工作流的基本执行单
python调用java的方法月下老葫 python自动化测试 python java
最近自己开发的一套测试平台，因为上游系统经常修改主数据，导致其中一个功能经常失败，要频繁找上游测试帮忙修改数据。基于此种原因，对于这种过于依赖上游系统的接口，决定放弃直接调上游系统的http请求下发数据，改成调本地系统的java接口，直接构造数据。而这有两个难点，一个python怎么调用java方法，一个是我不会java编程。。。经常不懈的努力，终于解决了这2个问题，这里做个简单的记录。这里有同学
北京-4年功能测试2年空窗-报培训班学测开-第四十五天
今天自习，在教室白天都在复习python的面向对象之所以先复习以前的课而不是复习昨天的，一是因为这块还没复习，二是因为，新学的unittest框架，用到封装继承的部分太多了，面向对象学的都忘了，所以昨天很多部分都不理解面向对象三大特征，封装，继承，多态封装是把属性和方法封装到一个类里方便复用，继承是类之间的从属关系，子类可以继承父类的所有属性和方法在类里，类对象用cls表示，实例对象用self表示
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
JS 表达式和操作符-解构坚定的小辣鸡在努力前端 javascript 开发语言
JavaScript的解构（Destructuring）语法是一种从数组或对象中快速提取值并赋值给变量的方式。它能让代码更简洁、清晰，常用于函数参数、变量赋值等场景。ThedestructuringsyntaxinJavaScriptisapowerfulfeaturethatmakesitpossibletounpackvaluesfromarraysorpropertiesfromobject
在python程序中调用java代码 Meryoufdd java jvm 开发语言
在python程序中调用java代码Python是一门“胶水”语言，非常灵活多变，但是在一些特殊的时候，也需要调用其它语言来协助实现更多的功能；在公司使用python进行接口测试的时候，会遇到有些接口数据是由公司的开发人员进行自定义的加密算法进行加密的，此时，要开发告诉加密代码是不太可能的。跟开发小哥沟通时，很多时候都是由他给一个jar包，然后剩下的就由测试人员来发挥了。那python该如何使用这
WorkManager CentForever
1.WorkManager简介https://developer.android.google.cn/topic/libraries/architecture/viewmodel?hl=zh-cn#java2.https://developer.android.com/topic/libraries/architecture/workmanager/how-to/intermediate-prog
学习日志14 python im_AMBER 学习 python 开发语言
1divmod(a,b)divmod(a,b)是Python内置函数,用于返回两个数相除的商和余数,返回值是一个元组(tuple)。divmod(a,b)是Python的内置函数，用于同时计算两个数值的商和余数，返回一个包含这两个结果的元组(商,余数)。该函数在处理需要同时获取整除结果和余数的场景（如时间单位转换、分页计算）时非常高效。基本用法python运行result=divmod(a,b)#
Web开发 03
今天在学习JavaScript，我其实需要很多练习才可以巩固一点！需要更多！1const用于声明常量的规则在JavaScript中，const用于声明常量，其核心规则是：声明时【必须】同时初始化（赋值），且后续无法重新赋值。关键知识点拆解const声明规则用const声明变量时，必须直接赋初始值，否则会触发SyntaxError:Missinginitializerinconstdeclarati
离线部署视觉模型Qwen2.5-VL方案【企业应用级】 LensonYuan 机器视觉自然语言处理 qwenvl 视觉模型大模型部署 qwen2.5 qwen2.5环境 qwen2.5-vl镜像包
离线多卡部署视觉模型Qwen2.5-VL企业级服务方案一、背景公司网络是有严格限制，所有涉及境外服务器的网站都无法访问，包括docker等镜像源。本教程，是在提前下载或构建好资源，通过上传到服务器后，做离线部署。二、参考环境大模型服务发布工具：VLLM=0.7.2。大模型版本：qwen2.5-vl-7b，其他版本也可。python版本：python==3.12。环境可选：docker或直接pyth
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s