TiDB_PingCAP

Rust 编译模型之殇

作者介绍:

Brian Anderson 是 Rust 编程语言及其姊妹项目 Servo Web 浏览器的共同创始人之一。他目前在 PingCAP 担任高级数据库工程师。

感谢 Rust 中文社区翻译小组对本文翻译及审校上的贡献：

翻译：张汉东、黄珏珅

审校：吴聪

Rust 编译缓慢的根由在于语言的设计。

我的意思并非是此乃 Rust 语言的设计目标。正如语言设计者们相互争论时经常说的那样，编程语言的设计总是充满了各种权衡。其中最主要的权衡就是：运行时性能和编译时性能。而 Rust 团队几乎总是选择运行时而非编译时。

因此，Rust 编译时间很慢。这有点让人恼火，因为 Rust 在其他方面的表现都非常好，唯独 Rust 编译时间却表现如此糟糕。

Rust 与 TiKV 的编译时冒险：第 1 集

在 PingCAP，我们基于 Rust 开发了分布式存储系统 TiKV 。然而它的编译速度慢到足以让公司里的许多人不愿使用 Rust。我最近花了一些时间，与 TiKV 团队及其社区中的其他几人一起调研了 TiKV 编译时间缓慢的问题。

通过这一系列博文，我将会讨论在这个过程中的收获：
为什么 Rust 编译那么慢，或者说让人感觉那么慢；
Rust 的发展如何造就了编译时间的缓慢；
编译时用例；
我们测量过的，以及想要测量但还没有或者不知道如何测量的项目；
改善编译时间的一些思路；
事实上未能改善编译时间的思路；
TiKV 编译时间的历史演进；
有关如何组织 Rust 项目可加速编译的建议；
最近和未来，上游将对编译时间的改进。

PingCAP 的阴影：TiKV 编译次数 “余额不足”

在 PingCAP，我的同事用 Rust 写 TiKV。它是我们的分布式数据库 TiDB 的存储节点。采用这样的架构，是因为他们希望该系统中作为最重要的节点，能被构造得快速且可靠，至少是在一个最大程度的合理范围内（译注：通常情况下人们认为快和可靠是很难同时做到的，人们只能在设计/构造的时候做出权衡。选择 Rust 是为了尽可能让 TiKV 能够在尽可能合理的情况下去提高它的速度和可靠性）。

这是一个很棒的决定，并且团队内大多数人对此都非常满意。

但是许多人抱怨构建的时间太长。有时，在开发模式下完全重新构建需要花费 15 分钟，而在发布模式则需要 30 分钟。对于大型系统项目的开发者而言，这看上去可能并不那么糟糕。但是它与许多开发者从现代的开发环境中期望得到的速度相比则慢了很多。TiKV 是一个相当巨大的代码库，它拥有 200 万行 Rust 代码。相比之下，Rust 自身包含超过 300 万行 Rust 代码，而 Servo 包含 270 万行（请参阅此处的完整行数统计）。

TiDB 中的其他节点是用 Go 编写的，当然，Go 与 Rust 有不同的优点和缺点。PingCAP 的一些 Go 开发人员对于不得不等待 Rust 组件的构建而表示不满。因为他们习惯于快速的构建-测试迭代。

在 Go 开发人员忙碌工作的同时，Rust 开发人员却在编译时间休息（喝咖啡、喝茶、抽烟，或者诉苦）。Rust 开发人员有多余的时间来跨越内心的“阴影（译注：据说，TiKV 一天只有 24 次编译机会，用一次少一次）。

概览：TiKV 编译时冒险历程

本系列的第一篇文章只是关于 Rust 在编译时间方面的历史演进。因为在我们深入研究 TiKV 编译时间的具体技术细节之前，可能需要更多的篇章。所以，这里先放一个漂亮的图表，无需多言。

造就编译时间缓慢的 Rust 设计

Rust 编译缓慢的根由在于语言的设计。

刻意的运行时/编译时权衡不是 Rust 编译时间差劲的唯一原因，但这是一个大问题。还有一些语言设计对运行时性能并不是至关重要，但却意外地有损于编译时性能。Rust 编译器的实现方式也抑制了编译时性能。

所以，Rust 编译时间的差劲，既是刻意为之的造就，又有出于设计之外的原因。尽管编译器的改善、设计模式和语言的发展可能会缓解这些问题，但这些问题大多无法得到解决。还有一些偶然的编译器架构原因导致了 Rust 的编译时间很慢，这些需要通过大量的工程时间和精力来修复。

如果迅速地编译不是 Rust 的核心设计原则，那么 Rust 的核心设计原则是什么呢？下面列出几个核心设计原则：

实用性（Practicality） ：它应该是一种可以在现实世界中使用的语言；
务实（Pragmatism）：它应该是符合人性化体验，并且能与现有系统方便集成的语言；
内存安全性（Memory-safety） ：它必须加强内存安全，不允许出现段错误和其他类似的内存访问违规操作；
高性能（Performance） ：它必须拥有能和 C++ 比肩的性能；
高并发（Concurrency） ：它必须为编写并发代码提供现代化的解决方案。

但这并不是说设计者没有为编译速度做任何考虑。例如，对于编译 Rust 代码所要做的任何分析，团队都试图确保合理的算法复杂度。然而，Rust 的设计历史也是其一步步陷入糟糕的编译时性能沼泽的历史。

讲故事的时间到了。

Rust 的自举

我不记得自己是什么时候才开始意识到，Rust 糟糕的编译时间其实是该语言的一个战略问题。在面对未来底层编程语言的竞争时可能会是一个致命的错误。在最初的几年里，我几乎完全是对 Rust 编译器进行 Hacking（非常规暴力测试），我并不太关心编译时间的问题，我也不认为其他大多数同事会太关心该问题。我印象中大部分时间 Rust 编译时总是很糟糕，但不管怎样，我能处理好。

针对 Rust 编译器工作的时候，我通常都会在计算机上至少保留三份存储库副本，在其他所有的编译器都在构建和测试时，我就会 Hacking 其中的一份。我会开始构建 Workspace 1，切换终端，记住在 Workspace 2 发生了什么，临时做一下修改，然后再开始构建 Workspace 2，切换终端，等等。整个流程比较零碎且经常切换上下文。

这（可能）也是其他 Rust 开发者的日常。我现在对 TiKV 也经常在做类似的 Hacking 测试。

那么，从历史上看，Rust 编译时间有多糟糕呢？这里有一个简单的统计表，可以看到 Rust 的自举（Self-Hosting）时间在过去几年里发生了怎样的变化，也就是使用 Rust 来构建它自己的时间。出于各种原因，Rust 构建自己不能直接与 Rust 构建其他项目相比，但我认为这能说明一些问题。

首个 Rust 编译器叫做 rustboot，始于 2010 年，是用 OCaml 编写的，它最终目的是被用于构建第二个由 Rust 实现的编译器 rustc，并由此开启了 Rust 自举的历程。除了基于 Rust 编写之外，rustc 还使用了 LLVM 作为后端来生成机器代码，来代替之前 rustboot 的手写 x86 代码生成器。

Rust 需要自举，那样就可以作为一种“自产自销（Dog-Fooding）”的语言。使用 Rust 编写编译器意味着 Rust 的作者们需要在语言设计过程的早期，使用自己的语言来编写实用的软件。在实现自举的过程中让 Rust 变成一种实用的语言。

Rust 第一次自举构建是在 2011 年 4 月 20 日。该过程总共花了一个小时，这个编译时间对当时而言，很漫长，甚至还觉得有些可笑。

最初那个超级慢的自举程序慢的有些反常，在于其包含了糟糕的代码生成和其他容易修复的早期错误（可能，我记不清了）。rustc 的性能很快得到了改善，Graydon 很快就抛弃了旧的 rustboot 编译器，因为没有足够的人力和动力来维护两套实现。

在 2010 年 6 月首次发布的 11 个月之后，Rust 漫长而艰难的编译时代就此开始了。

注意

我本想在这里分享一些有历史意义的自举时间，但在经历了数小时，以及试图从2011年开始构建 Rust 修订版的障碍之后，我终于放弃了，决定在没有它们的情况下发布这篇文章。作为补充，这里作一个类比：

兔子飞奔几米（7）：rustboot 构建 Rust 的时间；
仓鼠狂奔一公里（49）：在 rustboot 退役后使用 rustc 构建 Rust 的时间；
树獭移动一万米（188）：在 2020 年构建 rustc 所需的时间。

反正，几个月前我构建 Rust 的时候，花了五个小时。

Rust 语言开发者们已经适应了 Rust 糟糕的自举时间，并且在 Rust 的关键早期设计阶段未能识别或处理糟糕编译时间问题的严重性。

（非）良性循环

在 Rust 项目中，我们喜欢能够增强自身基础的流程。无论是作为语言还是社区，这都是 Rust 取得成功的关键之一。

一个明显非常成功的例子就是 Servo。Servo 是一个基于 Rust 构建的 Web 浏览器，并且 Rust 也是为了构建 Servo 而诞生。Rust 和 Servo 是姊妹项目。它们是由同一个（初始）团队，在（大致）同一时间创造的，并同时进化。不只是为了创造 Servo 而创建 Rust，而且 Servo 也是为了解 Rust 的设计而构建的。

这两个项目最初的几年都非常困难，两个项目都是并行发展的。此处非常适合用忒修斯之船做比喻——我们不断地重建 Rust，以便在 Sevro 的海洋中畅行。毫无疑问，使用 Rust 构建 Servo 的经验，来构建 Rust 语言本身，直接促进了很多好的决定，使得 Rust 成为了实用的语言。

这里有一些关于 Servo-Rust 反馈回路的例子：

为了自动生成HTML解析器，实现了带标签的 break 和 continue 。
在分析了 Servo 内闭包使用情况之后实现了，所有权闭包（Owned closures）。
外部函数调用曾经被认为是安全的。这部分变化（改为了 Unsafe）得益于 Servo 的经验。
从绿色线程迁移到本地线程，也是由构建 Sevro、观察 Servo 中 SpiderMonkey 集成的 FFI 开销以及剖析“hot splits”的经验所决定的，其中绿色线程堆栈需要扩展和收缩。

Rust 和 Servo 的共同发展创造了一个良性循环，使这两个项目蓬勃发展。今天，Servo 组件被深度集成到火狐（Firefox）中，确保在火狐存活的时候，Rust 不会死去。

任务完成了。

前面提到的早期自举对 Rust 的设计同样至关重要，使得 Rust 成为构建 Rust 编译器的优秀语言。同样，Rust 和 WebAssembly 是在密切合作下开发的（我与 Emscripten 的作者，Cranelift 的作者并排工作了好几年)，这使得 WASM 成为了一个运行 Rust 的优秀平台，而 Rust 也非常适合 WASM。

遗憾的是，没有这样的增强来缩短 Rust 编译时间。事实可能正好相反——Rust 越是被认为是一种快速语言，它成为最快的语言就越重要。而且，Rust 的开发人员越习惯于跨多个分支开发他们的 Rust 项目，在构建之间切换上下文，就越不需要考虑编译时间。

直到 2015 年 Rust 1.0 发布并开始得到更广泛的应用后，这种情况才真正有所改变。

多年来，Rust 在糟糕的编译时间的“温水中”被慢慢“烹煮”，当意识到它已经变得多么糟糕时，已为时已晚。已经 1.0 了，那些（设计）决策早已被锁定了。

这一节包含了太多令人厌倦的隐喻，抱歉了。

运行时优先于编译时的早期决策

如果是 Rust 设计导致了糟糕的编译时间，那么这些设计具体又是什么呢？我会在这里简要地描述一些。本系列的下一集将会更加深入。有些在编译时的影响比其他的更大，但是我断言，所有这些都比其他的设计耗费更多的编译时间。

现在回想起来，我不禁会想，“当然，Rust 必须有这些特性”。确实，如果没有这些特性，Rust 将会是另一门完全不同的语言。然而，语言设计是折衷的，这些并不是注定要成 Rust 的部分。

借用（Borrowing）——Rust 的典型功能。其复杂的指针分析以编译时的花费来换取运行时安全。
单态化（Monomorphization）——Rust 将每个泛型实例转换为各自的机器代码，从而导致代码膨胀并增加了编译时间。
栈展开（Stack unwinding）——不可恢复异常发生后，栈展开向后遍历调用栈并运行清理代码。它需要大量的编译时登记（book-keeping）和代码生成。
构建脚本（Build scripts）——构建脚本允许在编译时运行任意代码，并引入它们自己需要编译的依赖项。它们未知的副作用和未知的输入输出限制了工具对它们的假设，例如限制了缓存的可能。
宏（Macros）——宏需要多次遍历才能展开，展开得到的隐藏代码量惊人，并对部分解析施加限制。过程宏与构建脚本类似，具有负面影响。
LLVM 后端（LLVM backend）——LLVM 产生良好的机器代码，但编译相对较慢。
过于依赖LLVM优化器（Relying too much on the LLVM optimizer）——Rust 以生成大量 LLVM IR 并让 LLVM 对其进行优化而闻名。单态化则会加剧这种情况。
拆分编译器/软件包管理器（Split compiler/package manager）——尽管对于语言来说，将包管理器与编译器分开是很正常的，但是在 Rust 中，至少这会导致 cargo 和 rustc 同时携带关于整个编译流水线的不完善和冗余的信息。当流水线的更多部分被短路以便提高效率时，则需要在编译器实例之间传输更多的元数据。这主要是通过文件系统进行传输，会产生开销。
每个编译单元的代码生成（Per-compilation-unit code-generation）——rustc 每次编译单包（crate）时都会生成机器码，但是它不需要这样做，因为大多数 Rust 项目都是静态链接的，直到最后一个链接步骤才需要机器码。可以通过完全分离分析和代码生成来提高效率。
单线程的编译器（Single-threaded compiler）——理想情况下，整个编译过程都将占用所有 CPU 。然而，Rust 并非如此。由于原始编译器是单线程的，因此该语言对并行编译不够友好。目前正在努力使编译器并行化，但它可能永远不会使用所有 CPU 核心。
trait 一致性（trait coherence）——Rust 的 trait（特质）需要遵循“一致性（conherence）”，这使得开发者不可能定义相互冲突的实现。trait 一致性对允许代码驻留的位置施加了限制。这样，很难将 Rust 抽象分解为更小的、易于并行化的编译单元。
“亲密”的代码测试（Tests next to code）——Rust 鼓励测试代码与功能代码驻留在同一代码库中。由于 Rust 的编译模型，这需要将该代码编译和链接两次，这份开销非常昂贵，尤其是对于有很多包（crate）的大型项目而言。

改善 Rust 编译时间的最新进展

现状并非没有改善的希望。一直有很多工作在努力改善 Rust 的编译时间，但仍有许多途径可以探索。我希望我们能持续看到进步。以下是我最近一两年所知道的一些进展。感谢所有为该问题提供帮助的人。

Rust 编译时主要问题：
- 跟踪各种工作以缩短编译时间。
- 全面概述了影响 Rust 编译性能的因素和潜在的缓解策略。
流水线编译 (1,2,3)
- 与上游代码生成并行地对下游包进行类型检查。现在默认情况下在稳定（Stable）频道上。
- 由 @alexcrichton 和 @nikomatsakis 开发。
并行 rustc (1,2,3)
- 并行运行编译器的分析阶段。稳定（Stable）频道尚不可用。
- 由 @Zoxc , @michaelwoerister , @oli-obk , 以及其他一些人开发。
MIR 级别的常量传播（constant propagation）
- 在 MIR 上执行常量传播，从而减少了 LLVM 对单态函数的重复工作。
- 由 @wesleywiser 开发。
MIR 优化
- 优化 MIR 应该比优化单态 LLVM IR 更快。
- 稳定（Stable）编译器尚不可用。
- 由 @wesleywiser 和其他人一起开发。
cargo build -Ztimings (1,2)
- 收集并图形化有关 Cargo 并行建造时间的信息。
- 由 @ehuss 和 @luser 开发。
rustc -Zself-profile (1,2,3)
- 生成有关 rustc 内部性能的详细信息。
- 由 @wesleywiser 和 @michaelwoerister 开发。
共享单态化（Shared monomorphizations）
- 通过消除多个包（crate）中出现的单态化来减少代码膨胀。
- 如果优化级别小于 3，则默认启用。
- 由@michaelwoerister 开发。
Cranelift 后端
- 通过使用 cranelift 来生成代码，减少了 Debug 模式的编译时间。
- 由 @bjorn3 开发。
perf.rust-lang.org
- 详细跟踪了 Rust 的编译时性能，基准测试持续增加中。
- 由 @nrc , @Mark-Simulacrum , @nnethercote 以及其他人一起开发。
cargo-bloat
- 查找二进制文件中占用最多空间的地方。膨胀（Bloat）会影响编译时间。
- 由 @RazrFalcon 和其他人一起开发。
cargo-feature-analyst
- 发现未使用的特性（features）。
- 由 @psinghal20 开发。
cargo-udeps
- 发现未使用的包（crate）。
- 由 @est31 开发。
twiggy
- 分析代码大小，该大小与编译时间相关。
- 由 @fitzgen , @data-pup 以及其他人一起开发。
rust-analyzer
- 用于Rust的新语言服务器，其响应时间比原始 RLS 更快。
- 由 @matklad , @flodiebold , @kjeremy 以及其他人一起开发。
“如何缓解 Rust 编译时间带来的痛苦”
- vfoley 写的博文。
“关于 Rust 代码膨胀的思考”
- @raphlinus 写的博文。
Nicholas Nethercote 对 rustc 的优化工作：
- “2019 年 Rust 编译器如何提速”
- “Rust 编译器的速度持续变快”
- “可视化 Rust 编译”
- “如何在 2019 年进一步提升 Rust 编译器的速度”
- “如何在 2019 年最后一次提升 Rust 编译器”

对于未上榜的人员或项目，我需要说一声抱歉。

下集预告

所以多年来，Rust 把自己深深地逼进了一个死角，而且很可能会持续逼进，直到玩完。Rust 的编译时能否从 Rust 自身的运行时成功中得到拯救？TiKV 的构建速度能否让我的管理者满意吗？

在下一集中，我们将深入讨论 Rust 语言设计的细节，这些细节会导致它编译缓慢。

继续享受 Rust 吧，朋友们！

鸣谢:

很多人参与了本系列博客。特别感谢 Niko Matsakis、Graydon Hoare 和 Ted Mielczarek 的真知卓见，以及 Calvin Weng 的校对和编辑。

有兴趣可点击查看英文原版。

2020年10月国产数据库排行：GoldenDB跃升异军突起 PolarDB和GaussDB云化融合数据和云微软 informix 分布式存储 microsoft cloudera
墨墨导读：2020年10月国产数据库流行度的前三位由TiDB、达梦数据库、GBase（南大通用）获得，其中TiDB以超过100分的优势领先第二位的达梦数据库。数据技术嘉年华，十周年盛大开启，点我立即报名！大会以“自研·智能·新基建——云和数据促创新生态融合新十年”为主题，相邀数据英雄，总结过往十年历程与成绩，展望未来十年趋势与目标！近60场演讲，大咖云集，李飞飞、苏光牛、林晓斌、黄东旭...，快来
TiDB数据库傲雪凌霜，松柏长青后端 tidb 数据库
TiDB是由PingCAP开发的开源分布式SQL数据库，设计初衷是为了解决传统单机关系型数据库在处理大规模数据和高并发事务时的扩展性和性能问题。它结合了传统关系型数据库（如MySQL）的易用性和分布式系统的扩展能力，属于新一代的分布式SQL数据库。TiDB的关键特性兼容MySQL协议：TiDB兼容MySQL协议，用户可以直接使用MySQL客户端或MySQL的各种生态工具（如MySQLWorkben
TDsql 大数据- 数据库大数据中间件
TDsql的特点TDengineDistributedSQL（TDsql）是一个基于TDengine时序数据库技术的开源分布式关系型数据库管理系统。作为TDengine团队开发和维护的产品，TDsql已经广泛应用于互联网、电信、金融等领域，为用户提供高效、可靠的数据存储和查询服务。一、TDsql的特点高度优化的查询计划和执行引擎：TDsql可以快速响应大量的查询请求。其查询计划和执行引擎采用了多种
HTAP 深入探索指南每天读点书学堂大数据数据库数据库开发
本指南介绍如何进一步探索并使用TiDB在线事务与在线分析处理(HybridTransactionalandAnalyticalProcessing,HTAP)功能。注意如果你对TiDBHTAP功能还不太了解，希望快速试用体验，请参阅快速上手HTAP。要快速了解TiDB在HTAP场景下的体系架构与HTAP的适用场景，建议先观看下面的培训视频（时长15分钟）。注意本视频只作为学习参考，如需了解详细的H
TiDB备份与恢复简介每天读点书学堂大数据数据库架构数据库数据库开发运维
本文档介绍如何对Kubernetes上的TiDB集群进行数据备份和数据恢复。备份与恢复中所使用的工具有Dumpling、TiDBLightning和BR。Dumpling是一个数据导出工具，该工具可以把存储在TiDB/MySQL中的数据导出为SQL或者CSV格式，可以用于完成逻辑上的全量备份或者导出。TiDBLightning是一个数据导入工具，该工具可以把Dumpling或CSV输出格式的数据快
等保2.0--安全计算环境--TiDB数据库魔同等保测评安全 tidb 数据库
在使用本博客提供的学习笔记及相关内容时，请注意以下免责声明：信息准确性：本博客的内容是基于作者的个人理解和经验，尽力确保信息的准确性和时效性，但不保证所有信息都完全正确或最新。非专业建议：博客中的内容仅供参考，不能替代专业人士的意见和建议。在做出任何重要决定之前，请咨询相关领域的专业人士。个人责任：使用本博客内容的风险由用户自行承担。作者不对因使用本博客内容而导致的任何直接或间接损失承担责任。版权
窥一斑而知全豹薛晓刚数据库
说几个DTCC大会的插曲由于经济形势的不好，我看参展商少了一点。可能不少都是为了生计而挣扎。2023年1月明叔主持的栏目有一期特别节目《数据库诸神之战》，请来了OB、TiDB、TDSQL和TDEngine的掌门人来讨论数据库的未来，那时候结论是3年后国内健康运营的数据库公司不超过30家。目前已经快过去2年了。现在日子的确越来越难过了。现实可能和预测差不多。从出版社少到图书劵少每次大会都有各家出版社
开源项目精选：Bookshop Demo - 您的云端书店解决方案毛彤影
开源项目精选：BookshopDemo-您的云端书店解决方案tidb-prisma-vercel-demoVirtualonlinebookstoreapplicationdemowhichyoucanfindbooksofvariouscategoriesandratethebooks.项目地址:https://gitcode.com/gh_mirrors/ti/tidb-prisma-verc
OLAP和OLTP以及HTAP的区别霸王龙的日常数据库概念数据库数据仓库
数据处理一般可以分成两大类：OLAP和OLTP那么有没有一种情况，将OLTP和OLAP相融合，在同一个系统中同时提供这两种服务，答案是有的。即HTAP产品。在这方面，国内的数据库厂商PingCAP的TiDB就不错。还有华为的GaussDB(openGauss)也对外公布六大关键技术特性其中之一就是高度支持HTAP混合负载。什么是OLAP？联机分析处理OLAP（OnLineAnalyticalPro
【数据库】GaussDB 一起学架构数据库数据库
目录一、GaussDB是什么数据库？二、GaussDB与Tidb、OcceanBase数据库的差别有哪些三、GaussDB的整体架构是怎么样的？四、GaussDB的核心技术特点是什么？五、GaussDB的适用场景有哪些？六、GaussDB在不同场景的一些最佳实践案例七、GaussDB性能优化技巧八、GaussDB使用的注意事项一、GaussDB是什么数据库？Gauss数据库是基于PostgreSQ
MYSQL的读写扩展 hailang86 mysql 数据库
1.分布式数据库有很多种：采用分库分表方式将数据路由拆分到多个数据库上；以greenplum未代表的mpp数据库架构；以tidb为代表的newSQl数据库架构。2.mpp数据架构是一种处理大规模数据分析任务的分布式数据架构，大规模并行处理。当执行一条SQL语句时，会将语句发送到所有数据节点进行查询处理，利用多节点的计算能力进行计算。3.分库分表主要用于简单的业务场景，OLTP场景，onlinetr
MySQL8.3 可以给 GTID 打标签了！ mysqlgtid事务
本文介绍了MySQL8.3的一个新特性，给GTID打标签~作者：李富强，爱可生DBA团队成员，熟悉MySQL，TiDB，OceanBase等数据库。相信持续把对的事情做好一点，会有不一样的收获。爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。本文约900字，预计阅读需要3分钟。摘要MySQL8.3创新版于2024年1月16号发布，该版本扩展了MySQL复制和组复制中使用
读TiDB源码聊设计：浅析HTAP的SQL优化器 tidbgo性能优化分布式系统
版本日期备注1.02024.2.18文章首发本文的的源码分析全部基于TiDB6.5来做分析。1.引子如果让你做一个分布式数据库的优化器，面对以下的SQL，你会想到什么好的方法去执行他们呢？SELECTid,nameFROMpersonWHEREage>=18orheight>180limit100;：从条件上看，我们看到条件其实是二选一的：age>=18orheight>180。基于这种情况，我们
从 20 多套 MySQL 到 1 套 TiDB丨骏伯网络综合运营管理平台应用实践 TiDB_PingCAP tidb 分布式云原生数据库 TiDB
导读骏伯网络是一家聚焦移动互联网营销服务的公司，综合运营管理平台是其核心业务系统，包括营销系统、订单、支付以及与外部系统的交互服务接口。为满足多元化的业务发展需求，降低系统间交互链路的复杂性，提升业务连续性，以及实现降本增效的整体规划，骏伯网络选择将TiDB作为综合运营管理平台的底层数据库。经过上线实践证明，TiDB为骏伯在业务连续性、性能提升、数据资源整合、降本增效等方面带来了显著价值。未来，骏
通过 Prometheus 编写 TiDB 巡检脚本（脚本已开源，内附链接） TiDB_PingCAP prometheus tidb 开源分布式云原生数据库
作者丨caiyfc来自神州数码钛合金战队神州数码钛合金战队是一支致力于为企业提供分布式数据库TiDB整体解决方案的专业技术团队。团队成员拥有丰富的数据库从业背景，全部拥有TiDB高级资格证书，并活跃于TiDB开源社区，是官方认证合作伙伴。目前已为10+客户提供了专业的TiDB交付服务，涵盖金融、证券、物流、电力、政府、零售等重点行业。背景笔者最近在驻场，发现这里的tidb集群是真的多，有将近150
使用 Coze 搭建 TiDB 助手 TiDB_PingCAP 数据库开源分布式 TiDB tidb
导读本文介绍了使用Coze平台搭建TiDB文档助手的过程。通过比较不同AIBot平台，突出了Coze在插件能力和易用性方面的优势。文章深入讨论了实现原理，包括知识库、functioncall、embedding模型等关键概念，最后成功演示了如何在Coze平台上快速创建TiDBHelpBot。本文作者Weaxs，TiDB社区布道师。引言目前市面上有很多搭建AIBot的平台和应用，开源的有langch
一篇文章彻底搞懂 TiDB 集群各种容量计算方式 TiDB_PingCAP 数据库 tidb TiDB 云原生开源
作者丨hey-hoho来自神州数码钛合金战队神州数码钛合金战队是一支致力于为企业提供分布式数据库TiDB整体解决方案的专业技术团队。团队成员拥有丰富的数据库从业背景，全部拥有TiDB高级资格证书，并活跃于TiDB开源社区，是官方认证合作伙伴。目前已为10+客户提供了专业的TiDB交付服务，涵盖金融、证券、物流、电力、政府、零售等重点行业。背景TiDB集群的监控面板里面有两个非常重要、且非常常用的指
“分布式透明化”在杭州银行核心系统上线之思考 TiDB_PingCAP 分布式云原生 tidb 数据库银行
导读随着金融行业数字化转型的需求，银行核心系统的升级改造成为重要议题。杭州银行成功上线以TiDB为底层数据库的新一代核心业务系统，该实践采用应用与基础设施解耦、分布式透明化的设计开发理念，推动银行核心系统的整体升级。本文聚焦银行核心系统演进，结合TiDB在杭州银行新一代核心的实践，深入解析“分布式透明化”理念，希望能为同行业的转型升级提供参考。本文作者：韩锋，CCIA（中国计算机协会）常务理事，前
作业帮 x TiDB丨多元化海量数据业务的支撑 TiDB_PingCAP 数据库 tidb TiDB 云原生开源
导读作业帮是一家成立于2015年的在线教育品牌，致力于用科技手段助力教育普惠。经过近十年的积累，作业帮运用人工智能、大数据等技术，为学生、老师、家长提供学习、教育解决方案，智能硬件产品等。随着公司产品和业务场景越来越丰富，数据量越来越大，业务方对数据库的使用需求也越来越多元化。本文介绍了作业帮对TiDB的探索历程，以及逐渐落地多个业务场景的使用实践。TiDB在作业帮的探索和推广作业帮内部最开始接触
TiDB 7.5.0 LTS 高性能数据批处理方案 TiDB_PingCAP tidb 分布式云原生数据库
过去，TiDB由于不支持存储过程、大事务的使用也存在一些限制，使得在TiDB上进行一些复杂的数据批量处理变得比较复杂。TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升○到了TiDB6.1版本，引入了BATCHDML(https://docs.pi
作业帮 x TiDB丨多元化海量数据业务的支撑 tidb
导读作业帮是一家成立于2015年的在线教育品牌，致力于用科技手段助力教育普惠。经过近十年的积累，作业帮运用人工智能、大数据等技术，为学生、老师、家长提供学习、教育解决方案，智能硬件产品等。随着公司产品和业务场景越来越丰富，数据量越来越大，业务方对数据库的使用需求也越来越多元化。本文介绍了作业帮对TiDB的探索历程，以及逐渐落地多个业务场景的使用实践。TiDB在作业帮的探索和推广作业帮内部最开始接触
TiDB 7.5.0 LTS 高性能数据批处理方案 tidb数据库
过去，TiDB由于不支持存储过程、大事务的使用也存在一些限制，使得在TiDB上进行一些复杂的数据批量处理变得比较复杂。TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升○到了TiDB6.1版本，引入了BATCHDML(https://docs.pi
JeecgBoot集成TiDB，打造高效可靠的数据存储解决方案
TiDB简介TiDB是PingCAP公司自主设计、研发的开源分布式关系型数据库，同时支持在线事务处理与在线分析处理(HybridTransactionalandAnalyticalProcessing,HTAP)的融合型分布式数据库产品，具备水平扩容或者缩容、金融级高可用、实时HTAP、云原生的分布式数据库、兼容MySQL5.7协议和MySQL生态等重要特性。TIDB安装部署TiDB是一个分布式系
读TiDB源码聊设计：浅析HTAP的SQL优化器 tidbgo性能优化分布式系统
版本日期备注1.02024.2.18文章首发本文的的源码分析全部基于TiDB6.5来做分析。1.引子如果让你做一个分布式数据库的优化器，面对以下的SQL，你会想到什么好的方法去执行他们呢？SELECTid,nameFROMpersonWHEREage>=18orheight>180limit100;：从条件上看，我们看到条件其实是二选一的：age>=18orheight>180。基于这种情况，我们
使用 Coze 搭建 TiDB 助手 tidb数据库
导读本文介绍了使用Coze平台搭建TiDB文档助手的过程。通过比较不同AIBot平台，突出了Coze在插件能力和易用性方面的优势。文章深入讨论了实现原理，包括知识库、functioncall、embedding模型等关键概念，最后成功演示了如何在Coze平台上快速创建TiDBHelpBot。本文作者Weaxs，TiDB社区布道师。引言目前市面上有很多搭建AIBot的平台和应用，开源的有langch
从 20 多套 MySQL 到 1 套 TiDB丨骏伯网络综合运营管理平台应用实践 tidb数据库
导读骏伯网络是一家聚焦移动互联网营销服务的公司，综合运营管理平台是其核心业务系统，包括营销系统、订单、支付以及与外部系统的交互服务接口。为满足多元化的业务发展需求，降低系统间交互链路的复杂性，提升业务连续性，以及实现降本增效的整体规划，骏伯网络选择将TiDB作为综合运营管理平台的底层数据库。经过上线实践证明，TiDB为骏伯在业务连续性、性能提升、数据资源整合、降本增效等方面带来了显著价值。未来，骏
一篇文章彻底搞懂 TiDB 集群各种容量计算方式 tidb数据库
作者丨hey-hoho来自神州数码钛合金战队神州数码钛合金战队是一支致力于为企业提供分布式数据库TiDB整体解决方案的专业技术团队。团队成员拥有丰富的数据库从业背景，全部拥有TiDB高级资格证书，并活跃于TiDB开源社区，是官方认证合作伙伴。目前已为10+客户提供了专业的TiDB交付服务，涵盖金融、证券、物流、电力、政府、零售等重点行业。背景TiDB集群的监控面板里面有两个非常重要、且非常常用的指
TiDB in 2023，一次简单的回顾丨PingCAP 唐刘 TiDB_PingCAP 开源分布式数据库 TiDB tidb
2023年已经过去，TiDB经过了一年的迭代，又往前进步了一点点，我们非常自豪的看到，TiDB正在不断地帮助我们的客户成功，包括但不限于：○首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB×杭州银行○国产数据库的珠穆朗玛峰，到底在哪里？○ScalingTiDBTo1MillionQPS(https://blog.flipkart.tech/scaling-tidb-to-1-mil
TiDB 在医疗保障信息平台的应用实践 TiDB_PingCAP tidb 开源分布式数据库 TiDB
文章介绍了TiDB在医疗保障信息平台中的应用。东软医保云应用管理平台通过与TiDB联合，成功满足了医疗保障业务中高并发、实时性和复杂查询的要求。在某地市医疗保障信息平台的实践中，TiDB分布式数据库有效实现了在线交易和实时分析服务，日均QPS达22,000，总数据量接近30TB，降低了系统开发和维护成本，推动医疗保障信息平台的数字化和智能化发展。医疗保障信息平台简介医疗保障信息平台是涉及国计民生的
首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行 tidb银行卡云原生分布式全栈
日前，杭州银行新一代核心业务系统成功投产上线。新核心系统是业内首个实际投产的云原生、分布式、全栈国产化的银行核心系统，是金融科技领域突破关键核心技术应用的重大实践。新核心系统自上线以来运行安全稳定，大幅提升了业务处理效率，已支撑日均交易量1000+万笔，平均交易耗时小于100毫秒，较原核心业务系统缩减54%，日终跑批的处理速度为原核心业务系统的2.1倍，能够有效支撑未来业务的快速发展。标志着杭州银
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S