TiDB_PingCAP

TiFlink：使用 TiKV 和 Flink 实现强一致的物化视图丨TiDB Hackathon 项目分享

编者按：

本文为 TiDB Hackathon 2020 比赛中 TiFlink 项目最新进展的介绍，使用 TiKV 和 Flink 实现了强一致的物化视图的功能。

作者张茄子，算法、分布式技术和函数式编程爱好者。个人博客：https://io-meter.com/

在本年初的 TiDB Hackathon 上，我和一众队友尝试使用 Flink 为 TiDB 添加物化视图功能，并摘得了 “最佳人气奖”。可以说，物化视图在这届比赛中可谓是一个热点。单单是结合 Flink 实现相关功能的队伍就有三四个。必须承认的是，在比赛结束时我们项目的完成度很低，虽然基本思路已经定型，最终呈现的结果却远没达到预期。经过半年多断断续续的修补，在今天终于可以发布一个预览版本给大家试用。这篇文章就是对我们思路和成果的一个介绍。
相比其他队伍，我们的主要目标是实现强一致的物化视图构建。也就是保证查询时的物化视图可以达到接近快照隔离（Snapshot Isolation）的隔离级别，而不是一般流处理系统的最终一致性（Eventual Consistency）。关于实现一致性的讨论在下文有详细介绍。

使用简介

尽管是一个实验性的项目，我们仍然探索了一些方便实用的特性，包括：

零外部依赖：除了 TiDB 集群和 Flink 部署环境之外，无需维护任何其他组件（包括 Kafka 集群和 TiCDC）。这是因为 TiFlink 直接从 TiKV 读写数据，不经过任何中间层，为更高吞吐、更低延迟和更易维护创造了可能。

易用的接口：尽管为了实现强一致性 TiFlink 引进了一些新的概念，但是通过特别编写的TiFlinkApp 接口，用户可以快速启动一个任务，也无需手动创建写入目标表。

批流结合：任务启动后会先批量消费源表当前已有的数据，随后自动切换到 CDC 日志消费。这个过程也会确保视图的一致性。

关于 TiFlink 实用的详细信息，请参考 README。下面是快速启动一个任务的代码片段：

TiFlinkApp.newBuilder()   .setJdbcUrl("jdbc:mysql://root@localhost:4000/test") // Please make sure the user has correct permission   .setQuery(       "select id, "           + "first_name, "           + "last_name, "           + "email, "           + "(select count(*) from posts where author_id = authors.id) as posts "           + "from authors")   // .setColumnNames("a", "b", "c", "d") // Override column names inferred from the query   // .setPrimaryKeys("a") // Specify the primary key columns, defaults to the first column   // .setDefaultDatabase("test") // Default TiDB database to use, defaults to that specified by JDBC URL   .setTargetTable("author_posts") // TiFlink will automatically create the table if not exist   // .setTargetTable("test", "author_posts") // It is possible to sepecify the full table path   .setParallelism(3) // Parallelism of the Flink Job   .setCheckpointInterval(1000) // Checkpoint interval in milliseconds. This interval determines data refresh rate   .setDropOldTable(true) // If TiFlink should drop old target table on start   .setForceNewTable(true) // If to throw an error if the target table already exists   .build()   .start(); // Start the app

物化视图（流处理系统）的一致性

目前主流的物化视图（流处理）系统主要使用最终一致性。也就是说尽管最终结果会收敛到一致的状态，但在处理期间终端用户仍可能查询到一些不一致的结果。最终一致性在很多应用中被证明是足够的，那么更强的一致性是否真的需要呢？这里的一致性和 Flink 的 Exact Once 语义又有什么关系呢？有必要进行一些介绍。

ACID

ACID 是数据库的一个基本的概念。一般来说，作为 CDC 日志来源的数据库已经保证了这四条要求。但是在使用 CDC 数据进行流式处理的时候，其中的某些约束却有可能被破坏。
最典型的情况是失去 Atomic 特性。这是因为在 CDC 日志中，一个事务的修改可能覆盖多条记录，流处理系统如果以行为单位进行处理，就有可能破坏原子性。也就是说，在结果集上进行查询的用户看到的事务是不完整的。
一个典型的案例如下：

Change Log 与事务的原子性

在上述案例中，我们有一个账户表，账户表之间会有转账操作，由于转账操作涉及多行修改，因此往往会产生多条记录。假设我们有如下一条 SQL 定义的物化视图，计算所有账户余额的总和：

SELECT SUM(balance) FROM ACCOUNTS;

显然，如果我们只存在表内账户之间的转账，这个查询返回的结果应该恒为某一常数。但是由于目前一般的流处理系统不能处理事务的原子性，这条查询产生的结果却可能是不断波动的。实际上，在一个不断并发修改的源表上，其波动甚至可能是无界的。

尽管在最终一致的模型下，上述查询的结果在经过一段时间之后将会收敛到正确值，但没有原子性保证的物化视图仍然限制的应用场景：假设我想实现一个当上述查询结果偏差过大时进行报警的工具，我就有可能会接收到很多虚假报警。也就是说此时在数据库端并没有任何异常，数值的偏差只是来源于流处理系统内部。
在分布式系统中，还有另一种破坏原子性的情况，就是当一个事务修改产生的副作用分布在多个不同的节点处。如果在这时不使用 2PC 等方法进行分布式提交，则也会破坏原子性：部分节点（分区）上的修改先于其他节点生效，从而出现不一致。

线性一致性

不同于由单机数据库产生的 CDC 日志（如 MySQL 的 Binlog），TiDB 这类分布式数据库产生的日志会有线性一致性的问题。在我们的场景下，线性一致性的问题可以描述为：从用户的角度先后执行的一些操作，其产生的副作用（日志）由于消息系统传递的延迟，以不同的先后顺序被流处理系统处理。
假设我们有订单表（ORDERS）和付款信息表（PAYMENTS）两个表，用户必须先创建订单才能进行支付，因此下列查询的结果必然是正数：

WITH order_amount AS (SELECT SUM(amount) AS total FROM ORDERS),WITH payment_amount AS (SELECT SUM(amount) AS total FROM PAYMENTS)SELECT order_amount.total - payment_amount.totalFROM order_amount, payment_amount;

但是由于 ORDERS 表和 PAYMENTS 表在分别存储在不同的节点上，因此流处理系统消费他们的速度可能是不一致的。也就是说，流处理系统可能已经看到了支付信息的记录，但是其对应的订单信息还没到达。因此就可能观察到上述查询出现负数的结果。

在流处理系统中，有一个 Watermark 的概念可以用来同步不同表的数据的处理进度，但是它并不能避免上述线性一致性问题。这是因为 Watermark 只要求时间戳小于其的所有记录都已经到达，不要求时间戳大于其的记录都没有到达。也就是说，尽管 ORDERS 表和 PAYMENTS 表现在拥有相同的 Watermark，后者仍然可能会有一些先到的记录已经生效。
由此可见，单纯依靠 Watermark 本身是无法处理线性一致性问题的，必须和源数据库的时间产生系统和消息系统配合。

更强一致性的需求

尽管最终一致性在很多场景下是够用的，但其依然存在很多问题：

误导用户：由于很多用户并不了解一致性相关的知识，或者对其存在一定的误解，导致其根据尚未收敛的查询结果做出了决策。这种情况在大部分关系型数据库都默认较强一致性的情况下是应该避免的。
可观测性差：由于最终一致性并没有收敛时间的保证，再考虑到线性一致性问题的存在，很难对流处理系统的延迟、数据新鲜度、吞吐量等指标进行定义。比如说用户看到的 JOIN 的结果可能是表 A 当前的快照和表 B 十分钟前的快照联接的结果，此时应如何定义查询结果的延迟度呢？
限制了部分需求的实现：正如上文所提到的，由于不一致的内部状态，导致某些告警需求要么无法实现，要么需要延迟等待一段时间。否则用户就不得不接受较高的误报率。

实际上，更强一致性的缺乏还导致了一些运维操作，特别是 DDL 类的操作难以利用之前计算好的结果。参考关系型数据库和 NoSQL 数据库的发展历史，我们相信目前主流的最终一致性只是受限于技术发展的权宜之计，随着相关理论和技术研究的进步，更强的一致性将会慢慢成为流处理系统的主流。

技术方案简介

这里详细介绍一下 TiFlink 在技术方案上的考虑，以及如何实现了强一致的物化视图（StreamSQL）维护。

TiKV 和 Flink

尽管这是一个 TiDB Hackthon 项目，因此必然会选择 TiDB/TiKV 相关的组件，但是在我看来 TiKV 作为物化视图系统的中间存储方案具备很多突出的优势：

TiKV 是一个比较成熟分布式 KV 存储，而分布式环境是下一代物化视图系统必须要支持的场景。利用 TiKV 配套的 Java Client，我们可以方便的对其进行操作。同时 TiDB 本身作为一个 HTAP 系统，正好为物化视图这个需求提供了一个 Playground。
TiKV提供了基于 Percolator 模型的事务支持和 MVCC，这是 TiFlink 实现强一致流处理的基础。在下文中可以看到，TiFlink 对 TiKV 的写入主要是以接连不断的事务的形式进行的。
TiKV 原生提供了对 CDC 日志输出的支持。实际上 TiCDC 组件正是利用这一特性实现的 CDC 日志导出功能。在 TiFlink 中，为了实现批流一体并简化系统流程，我们选择直接调用 TiKV 的 CDC GRPC 接口，因此也放弃了 TiCDC 提供的一些特性。

我们最初的想法本来是直接将计算功能集成进 TiKV，选择 Flink 则是在比赛过程中进一步思考后得到的结论。选择 Flink 的主要优势有：

Flink 是目前市面上最成熟的 Stateful 流处理系统，其对处理任务的表达能力强，支持的语义丰富，特别是支持批流一体的 StreamSQL 实现，是我们可以专心于探索我们比较关注的功能，如强一致性等。
Flink 比较完整的 Watermark，而我们发现其基于 Checkpoint 实现的 Exactly Once Delivery 语义可以很方便地和 TiKV 结合来实现事务处理。实际上，Flink 自己提供的一些支持 Two Phase Commit 的 Sink 就是结合 Checkpoint 来进行提交的。
Flink 的流处理（特别是 StreamSQL）本身就基于物化视图的理论，在比较新的版本开始提供的 DynamicTable 接口，就是为了方便将外部的 Change Log 引入系统。它已经提供了对 INSERT、DELETE、UPDATE 等多种 CDC 操作的支持。

当然，选择 TiKV+Flink 这样的异构架构也会引入一些问题，比如 SQL 语法的不匹配，UDF 无法共享等问题。在 TiFlink 中，我们以 Flink 的 SQL 系统和 UDF 为准，将其作为 TiKV 的一个外挂系统使用，但同时提供了方便的建表功能。
强一致的物化视图的实现思路

这一部分将介绍 TiFlink 如何在 TiDB/TiKV 的基础上实现一个比较强的一致性级别：延迟快照隔离（Stale Snapshot Isolation）。在这种隔离级别下，查询者总是查询到历史上一个一致的快照状态。在传统的快照隔离中，要求查询者在 T时间能且只能观察到 Commit 时间小于 T 的所有事务。而延迟快照隔离只能保证观察到 T−Δt 之前所有已提交的事务。
在 TiDB 这样支持事务的分布式数据库上实现强一致的物化视图，最简单的思路就是使用一个接一个的事务来更新视图。事务在开始时读取到的是一个一致的快照，而使用分布式事务对物化视图进行更新，本身也是一个强一致的操作，且具有 ACID 的特性，因此得以保证一致性。

使用连续事务更新物化视图

为了将 Flink 和这样的机制结合起来且实现增量维护，我们利用了 TiKV 本身已经提供的一些特性：

TiKV 使用 Time Oracle 为所有的操作分配时间戳，因此虽然是一个分布式系统，其产生的 CDC 日志中的事务的时间戳实际上是有序的。
TiKV 的节点（Region）可以产生连续不断的增量日志（Change Log），这些日志包含了事务的各种原始信息并包含时间戳信息。
TiKV 的增量日志会定期产生 Resolved Timestamp，声明当前 Region 不再会产生时间戳更老的消息。因此很适合用来做 Watermark。
TiKV 提供了分布式事务，允许我们控制一批修改的可见性。

因此 TiFlink 的基本实现思路就是：

利用流批一体的特性，以某全局时间戳对源表进行快照读取，此时可以获得所有源表的一个一致性视图。
切换到增量日志消费，利用 Flink 的 DynamicTable 相关接口，实现物化视图的增量维护和输出。
以一定的节奏 Commit 修改，使得所有的修改以原子的事务方式写入目标表，从而为物化视图提供一个又一个更新视图。

以上几点的关键在于协调各个节点一起完成分布式事务，因此有必要介绍一下 TiKV 的分布式事务执行原理。

TiKV 的分布式事务

TiKV 的分布式事务基于著名的 Percolator 模型。Percolator 模型本身要求存储层的 KV Store 有 MVCC 的支持和单行读写的原子性和乐观锁（OCC）。在此基础上它采用以下步骤完成一次事务：

指定一个事务主键（Primary Key）和一个开始时间戳并写入主键。
其他行在 Prewrite 时以副键（Secondary Key）的形式写入，副键会指向主键并具有上述开始时间戳。
在所有节点 Prewrite 完成后，可以提交事务，此时应先 Commit 主键，并给定一个 Commit 时间戳。
主键 Commit 成功后事务实际上已经提交成功，但此时为了方便读取，可以多节点并发地对副键进行 Commit 并执行清理工作，之后写入的行都将变为可见。

上述分布式事务之所以可行，是因为对主键的 Commit 是原子的，分布在不同节点的副键是否提交成功完全依赖于主键，因此其他的读取者在读到 Prewrite 后但还没 Commit 的行时，会去检查主键是否已 Commit。读取者也会根据 Commit 时间戳判断某一行数据是否可见。Cleanup 操作如果中途故障，在之后的读取者也可以代行。
为了实现快照隔离，Percolator 要求写入者在写入时检查并发的 Prewrite 记录，保证他们的时间戳符合一定的要求才能提交事务。本质上是要求写入集重叠的事务不能同时提交。在我们的场景中假设物化视图只有一个写入者且事务是连续的，因此无需担心这点。
在了解了 TiKV 的分布式事务原理之后，要考虑的就是如何将其与 Flink 结合起来。在 TiFlink 里，我们利用 Checkpoint 的机制来实现全局一致的事务提交。

使用 Flink 进行分布式事务提交

从上面的介绍可以看出，TiKV 的分布式事务提交可以抽象为一次 2PC。Flink 本身有提供实现2PC 的 Sink，然而并不能直接用在我们的场景下。原因是 Percolator 模型在提交时需要有全局一致的事务开始时间戳和提交时间戳。而且仅仅是在 Sink 端实现 2PC 是不足以实现强一致隔离级别的：我们还需要在 Source 端配合，使得每个事务恰好读入所需的增量日志。
幸运的是，Flink 的 2PC 提交机制实际上是由 Checkpoint 驱动的：当 Sink 接收到 Checkpoint 请求时，会完成必要的任务以进行提交。受此启发，我们可以实现一对 Source 和 Sink，让他们使用 Checkpoint 的 ID 共享 Transaction 的信息，并配合 Checkpoint 的过程完成 2PC。而为了使不同节点可以对事务的信息（时间戳，主键）等达成一致，需要引入一个全局协调器。事务和全局协调器的接口定义如下：

public interface Transaction {  public enum Status {    NEW,    PREWRITE,    COMMITTED,    ABORTED;  };  long getCheckpointId();  long getStartTs();  default long getCommitTs();  default byte[] getPrimaryKey();  default Status getStatus();}public interface Coordinator extends AutoCloseable, Serializable {  Transaction openTransaction(long checkpointId);  Transaction prewriteTransaction(long checkpointId, long tableId);  Transaction commitTransaction(long checkpointId);  Transaction abortTransaction(long checkpointId);}

使用上述接口，各个 Source 和 Sink 节点可以使用 CheckpointID 开启事务或获得事务 ID，协调器会负责分配主键并维护事务的状态。为了方便起见，事务 Commit 时对主键的提交操作也放在协调器中执行。协调器的实现有很多方法，目前 TiFlink 使用最简单的实现：在 JobManager 所在进程中启动一个 GRPC 服务。基于 TiKV 的 PD（ETCD）或 TiKV 本身实现分布式的协调器也是可能的。

事务与 Checkpoint 的协调执行

上图展示了在 Flink 中执行分布式事务和 Checkpoint 之间的协调关系。一次事务的具体过程如下：

Source 先从 TiKV 接收到增量日志，将他们按照时间戳 Cache 起来，等待事务的开始。
当 Checkpoint 进程开始时，Source 会先接收到信号。在 Source 端的 Checkpoint 与日志接收服务运行在不同的线程中。
Checkpoint 线程先通过全局协调器获得当前事务的信息（或开启一个新事务），分布式情况下一个 CheckpointID 对应的事务只会开启一次。
得到事务的开始时间戳后，Source 节点开始将 Cache 中小于此时间戳的已提交修改 Emit 到下游计算节点进行消费。此时 Source 节点也会 Emit 一些 Watermark。
当所有 Source 节点完成上述操作后，Checkpoint 在 Source 节点成功完成，此后会向后继续传播，根据 Flink 的机制，Checkpoint 在每个节点都会保证其到达之前的所有 Event 都已被消费。
当 Checkpoint 到达 Sink 时，之前传播到 Sink 的 Event 都已经被 Prewrite 过了，此时可以开始事务的提交过程。Sink 在内部状态中持久化事务的信息，以便于错误时恢复，在所有 Sink 节点完成此操作后，会在回调中调用协调器的 Commit 方法从而提交事务。
提交事务后，Sink 会启动线程进行 Secondary Key 的清理工作，同时开启一个新的事务。

注意到，在第一个 Checkpoint 开始前，Sink 可能已经开始接收到写入的数据了，而此时它还没有事务的信息。为了解决这一问题，TiFlink在任务开始时会直接启动一个初始事务，其对应的 CheckpointID 是 0，用于提交最初的一些写入。这样的话，在 CheckpointID=1 的 Checkpoint 完成时，实际上提交的是这个 0 事务。事务和 Checkpoint 以这样的一种错位的方式协调执行。
下图展示了包含协调器在内的整个 TiFlink 任务的架构：

TiFlink 的系统架构

基于以上的系统设计，我们就得到了一个在 TiKV 上实现延迟快照隔离的物化视图。

其他设计考虑

众所周知，KSQL 是 Flink 之外另一个流行的流处理系统，它直接与 Kafka 消息队列系统结合，用户无需部署两套处理系统，因此受到一些用户的青睐。很多用户也使用 KSQL 实现类似物化视图这样的需求。然而在我看来，这种强耦合于消息队列的流处理系统并不适合物化视图的使用场景。
KSQL 可以说是 Log Oriented 数据处理系统的的代表，在这种系统中，数据的本源在于日志信息，所有的表都是为了方便查询而消费日志信息从而构建出来的视图。这种系统具有模型简单、容易实现、可以长时间保存日志记录等优点。
与之相对是 Table Oriented 数据处理系统，MySQL、TiDB/TiKV 都属于这一类系统。这一类系统的所有修改操作都作用于表数据结构，虽然期间也会有日志生成，但往往对表数据结构和日志的修改是一起协调进行的。这里日志的主要是为持久化和事务服务，往往不会留存太长时间。相比于 Log Oriented 数据处理系统，这类系统对写入和事务的处理都更为复杂一点，然而却拥有更强可扩展性的要求。
归根结底，这是因为 Log Oriented 系统中的数据是以日志的形式存储，因此在扩展时往往需要进行成本较高的 Rehash，也更难实现再平衡。而 Table Oriented 的系统，数据主要以表的形式存储，因此可以以某些列进行有序排列，从而方便在一致性 Hash 的支持下实现 Range 的切分、合并和再平衡。
个人认为，在批流一体的物化视图场景下，长时间保存日志并无太大的意义（因为总是可以从源表的快照恢复数据）。相反，随着业务的发展不断扩展数据处理任务和视图是一件比较重要的事。从这个角度来看 Table Oriented 系统似乎更适合作为物化视图需求的存储承载介质。
当然，在实时消费增量 Log 时发生的分区合并或分裂是一个比较难处理的问题。TiKV 在这种情况下会抛出一个 GRPC 错误。TiFlink 目前使用的是比较简单的静态映射方法处理任务和分区之间的关系，在未来可以考虑更为合理的解决方案。

总结

本文介绍了使用 Flink 在 TiKV 上实现强一致的物化视图的基本原理。以上原理已经基本上在 TiFlink 系统中实现，欢迎各位读者试用。以上所有的讨论都基于 Flink 的最终一致模型的保证，即：流计算的结果只与消费的 Event 和他们在自己流中的顺序有关，与他们到达系统的顺序以及不同流之间的相对顺序无关。

目前的 TiFlink 系统还有很多值得提高的点，如：

支持非 Integer 型主键和联合主键
更好的 TiKV Region 到 Flink 任务的映射
更好的 Fault Tolerance 和任务中断时 TiKV 事务的清理工作
完善的单元测试

如果各位读者对 TiFlink 感兴趣的话，欢迎试用并提出反馈意见，如果能够贡献代码帮助完善这个系统那就再好不过了。

关于物化视图系统一致性的思考是我今年最主要的收获之一。实际上，最初我们并没有重视这一方面，而是在不断地交流当中才认识到这是一个有价值且很有挑战性的问题。通过 TiFlink 的实现，可以说是基本上验证了上述方法实现延迟快照一致性的可行性。当然，由于个人的能力水平有限，如果存在什么纰漏，也欢迎各位提出讨论。

最后，如果我们假设上述延迟快照一致性的论述是正确的，那么实现真正的快照隔离的方法也就呼之欲出。不知道各位读者能否想到呢？

深度剖析分布式数据库：突破数据存储与管理的界限 Darryl大数据数据库大数据分布式
“”"深度剖析分布式数据库：突破数据存储与管理的界限在当今这个数字化浪潮汹涌澎湃、势不可挡的时代背景之下，数据量正以一种令人惊叹的指数级增长态势不断攀升。传统的数据库在面对海量数据的处理以及高并发读写等复杂场景时，逐渐开始显得力不从心、捉襟见肘。而分布式数据库则恰似一场及时雨，在这样的关键时刻顺势而生，为现代企业的数字化转型成功开辟出一片崭新的天地。此时此刻，让我们一同深入地探究分布式数据库这一神
20240731软考架构------软考6-10答案解析上铺的老杨软考架构程序人生
每日打卡题6-10答案6、【2012年真题】难度：一般若系统中的某子模块需要为其他模块提供访问不同数据库系统的功能，这些数据库系统提供的访问接口有一定的差异，但访问过程却都是相同的，例如，先连接数据库，再打开数据库，最后对数据进行查询。针对上述需求，可以采用（1）设计模式抽象出相同的数据库访问过程，该设计模式（2）。（1）A．外观B．装饰C．桥接D．享元（2）A．可以动态、透明地给单个对象添加职责
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
Hive全面解析精讲绿萝蔓蔓绕枝生 hive 数据库大数据 Hive精讲
目录一、Hive概述1、定义2、起源3、Hive的优势和特点4、Hive下载安装二、Hive的命令行模式1、Hive命令行模式2、Beenline命令行模式三、Hive的交互模式1、Hive元数据管理1、Hive交互模式2、Beeline交互模式3、交互模式操作四、Hive数据1、数据库(Database)2、数据表3、Hive数据类型4、Hive数据结构5、HQL五、Hive建表语句1、默认分隔
python做个游戏辅助_8个用于辅助项目的出色Python库 cumj63710 数据库 python java 大数据编程语言
python做个游戏辅助在Python/Django世界中我们有一句俗语：我们是为语言而来的，而是为社区而留下的。对我们大多数人来说都是如此，但是让我们留在Python世界中的另一件事是，有了一个想法并在午餐或晚上几个小时内快速地解决它是多么容易。本月，我们将深入研究我们喜欢用来快速擦除那些附带项目或午餐时间痒的Python库。即时将数据保存在数据库中：数据集当我们快速想要收集数据并将其保存到数据
Python开发FastAPI从入门到精通赵梓宇 Python权威教程合集 fastapi python 前端
想用Python写API快到飞起？FastAPI就是你的“代码瑞士军刀”！这本书不讲玄学，只教真功夫——从零搭建高性能API，到微服务、分布式事务、熔断限流，连异步编程都能玩成魔法！小白也能变大神：路由、依赖注入、数据库集成手把手教学；老鸟直呼内行：服务网格、Saga模式、K8s部署实战全覆盖。附赠三个硬核项目：任务管理、在线商城、实时聊天系统，代码跑起来比老裁缝织毛衣还丝滑！别说我没提醒你：翻开
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
SQLite 数据类型 zhang.fang sqlite jvm java
SQLite数据类型是一个用来指定任何对象的数据类型的属性。SQLite中的每一列，每个变量和表达式都有相关的数据类型。您可以在创建表的同时使用这些数据类型。SQLite使用一个更普遍的动态类型系统。在SQLite中，值的数据类型与值本身是相关的，而不是与它的容器相关。SQLite存储类每个存储在SQLite数据库中的值都具有以下存储类之一：存储类描述NULL值是一个NULL值。INTEGER值是
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
mysql 高级（进阶学习）欣21 Mysql mysql 学习数据库
视图视图就是将某个查询语句存储在数据中，并为其命名，视图中并不存储数据，数据还是在基本表中存储。定义视图createview视图名as查询语句（selecta,bfrom表）使用视图select*from视图名删除视图dropview视图名存储过程存储过程就是把一段处理逻辑存入到数据库中，使用是就由JDBC调用即可。调用存储过程可以减少应用程序和数据库交互次数，在数据库内部执行，执行效率高。存储事
基于SpringBoot+Vue+uniapp的4S店客户管理系统(源码+lw+部署文档+讲解等) 百奇的代码小屋 #微信小程序毕设 spring boot vue.js uni-app 小程序
文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言博主介绍：✌全网粉丝15W+,CSDN特邀作者、211毕业、高级全栈开发程序员、大厂多年工作经验、码云/掘金/华为云/阿里云/InfoQ/StackOverflow/github等平台优质作者、专注
Python 四大主流 Web 编程框架_python web开发主流 2401_87373506 python 前端 php
在目前Python语言的几十个开发框架中，几乎所有的全栈网络框架都强制或引导开发者使用MVC架构开发Web应用。所谓全栈网络框架，是指除了封装网络和线程操作，还提供HTTP栈、数据库读写管理、HTML模板引擎等一系列功能的网络框架。本文重点讲解的Django、Tornado和Flask是全栈网络框架的典型标杆；而Twisted更专注于网络底层的高性能封装而不提供HTML模板引擎等界面功能，所以不能
实验八数据的增删改操作无尽罚坐的人生 #数据库原理数据库
实验八数据的增删改操作一、实验目的1．掌握ManagementStudio的使用。2．掌握SQL中INSERT、UPDATE、DELETE命令的使用。二、实验内容及要求用SQL语句完成下列功能。使用数据库为SCHOOL数据库。1、新开设一门课程，名叫网络安全与防火墙，学时40，编号为“0118”，主要介绍网络的安全与主要的防火墙软件。insertcourse(course_id,course_na
MySQL 高级(进阶) SQL 语句 yyytucj 数据库
MySQL是一种功能强大的关系型数据库管理系统。为了有效地利用其高级功能，需要掌握一些进阶的SQL语句和技巧。本文将介绍几种常用的高级SQL语句，包括窗口函数、子查询、联合查询、复杂的连接操作以及事务处理等。1.窗口函数窗口函数是一种高级的SQL功能，用于在查询结果集中计算某些聚合值，同时保留详细数据行。常用的窗口函数包括ROW_NUMBER(),RANK(),DENSE_RANK(),SUM()
Django 4.0常见问题及其解决方案汇总昏睡的大熊猫 django python
Django4.0，常见问题及其解决方案汇总前言当涉及Django4.0框架时，开发人员经常会面临各种挑战和问题。解决这些问题需要深入了解框架的功能和最佳实践。以下是针对Django4.0常见问题的解决方案汇总，涵盖了从安全性到性能优化的多个方面。这些解决方案旨在帮助开发人员更好地理解和应对在开发过程中可能遇到的困难，确保他们能够构建稳健、高效的Web应用程序。1.如何处理数据库迁移？2.如何处理
RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术 AI学习不迷路人工智能数据库 llama 语言模型 RAG 大模型 AI大模型
RAG：AI大模型联合向量数据库和Llama-index，助力检索增强生成技术在大模型爆发的时代，快速准确地从大量数据中检索出有价值的信息变得至关重要。检索增强生成（RAG）技术，结合了传统的信息检索和最新的大语言模型（LLM），不仅能够回答复杂的查询，还能在此基础上生成信息丰富的内容。RAG技术的核心在于其能够将大型语言模型的生成能力与特定数据源的检索相结合。这意味着，当模型面对用户提出的问题时
MySQL 查数据转Json 大乔乔布斯 mysql json 数据库
将数据库表里的字段查询出来并且连接成json格式的实现方法SELECTCONCAT('[',GROUP_CONCAT(JSON_OBJECT('key-name',col1,'keyname2',col2,……,'key-namen',coln)),']')asjson_resultFROMtablenamewherecol1=83结果会将查询的数据一行行用{}返回，行之间","分隔,最终结果[]
MySQL（1） memorycx mysql 数据库
数据库基础篇MYSQL概述SQL函数约束多表查询事务进阶篇存储索引索引SQL优化试图/存储过程/触发器锁InnoDB核心MySQL管理运维篇日志主从复制分库本表读写分离基础篇MySQL数据库概念：存储数据的仓库，数据是有组织的进行存储（DataBase，DB）数据库管理系统：操作和管理数据库的大型软件（DataManagementSystem，DBMS）SQL：操作关系型数据库的编程语言，定义了一
Python web框架——Django xiabe python python django web开发
简介django是一个免费的开源的pythonweb框架。它遵循了model-view-template（MVT）的架构模式。由DjangoSoftwareFoundation维护，一个以501©(3)非营利组织形式成立的独立组织。django的主要目标是简单的去开发一个复杂的数据库驱动的网站。该框架强调组件的可重用性和“可插拔性”、代码更少、低耦合、快速开发以及“不要重复自己”的原则。Pytho
MySQL时间戳与日期格式的相互转换 DfsnVue mysql 数据库
在MySQL数据库中，时间戳（timestamp）和日期格式（dateformat）是常用的数据类型。时间戳表示从1970年1月1日零时到特定日期时间的秒数，而日期格式则以年-月-日的形式表示日期。在MySQL中，我们可以使用函数来相互转换时间戳和日期格式。下面我将详细介绍如何进行这些转换，并提供相应的源代码示例。将时间戳转换为日期格式要将时间戳转换为日期格式，在MySQL中可以使用FROM_UN
Python SQLAlchemy库详解寒秋丶 Python python 开发语言数据库测试开发软件测试软件开发自动化测试
大家好，在Python生态系统中，SQLAlchemy库是一个强大的工具，为开发人员提供了便捷的方式来处理与数据库的交互。无论是开发一个小型的Web应用程序，还是构建一个大型的企业级系统，SQLAlchemy都能满足你的需求，并提供灵活性和性能上的优势。本文将带你深入探索SQLAlchemy库，从基础概念到高级用法，让你对其有一个全面的了解。一、介绍SQLAlchemy是Python中一个强大的开
ArcGIS连接达梦数据库创建空间数据库山雨同学数据库 arcgis
1.安装64位或32位达梦数据库；2.用DM管理工具连接数据库运行一下代码，创建DMGEO系统包。SP_INIT_GEO_SYS(1);3.若在本机使用ArcGIS连接，数据库安装的是64位数据库，必须安装32位的客户端（另建文件夹），将32位客户端的bin文件夹下文件复制到ArcGIS的bin文件夹下，重复文件跳过处理。远程连接，在安装ArcGIS的电脑安装安装32位DM客户端，同样将32位客户
Flask教程5：flask数据库SQLAlchemy Cachel wood Flask入门教程数据库 flask oracle python 阿里云开发语言 LLM
文章目录SQLAlchemy为什么使用ORM初始化数据库配置表模型的定义与数据库映射数据的增、删、改、查操作数据的添加数据的查找数据的修改数据的删除init_app作用详解SQLAlchemySQLAlchemy是一个基于Python实现的ORM(ObjectRelationalMapping，对象关系映射）框架。该框架建立在DBAPI(数据库应用程序接口系统)之上，使用关系对象映射进行数据库操作
【Innodb阅读笔记】之二进制文件 ꧁瀟洒辵１恛꧂ 笔记
一、什么是二进制文件二进制文件记录了对mySQL数据库执行修改的所有操作，不包括select和show这类操作，因为这类操作对数据库本身没有修改。但是，当执行修改操作，数据库没有发生变化，这类操作也会写入二进制文件中。通过配置参数log-bin开启二进制日志。如：#配置文件写入开启二进制指定文件名称为:mysql-bin#log-bin#不指定名称默认使用主机名log-bin=mysql-bin#
PHP代码段，用于连接MySQL数据库并查询数据黄聪的笔记本数据库 php mysql
connect_error){die("连接失败:".$conn->connect_error);}//SQL查询语句$sql="SELECTid,firstname,lastnameFROMMyGuests";$result=$conn->query($sql);if($result->num_rows>0){//输出数据while($row=$result->fetch_assoc()){ec
mysql存储函数小冯爱编程 mysql 数据库 sql
文章目录存储函数一、创建存储函数二、调用存储函数存储函数我们学过很多函数，使用这些函数可以对数据进行的各种处理操作，极大地提高用户对数据库的管理效率。MySQL支持自定义函数，定义好之后，调用方式与调用MySQL预定义的系统函数一样，比如AVG、COUNT、SUBSTR等。一、创建存储函数CREATEFUNCTION函数名(参数名参数类型,...)RETURNS返回值类型[characterist
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
mysql有rac吗_现在的国产数据库有类似于oracle Rac 的功能吗？ weixin_39623050 mysql有rac吗
有的，优炫软件今年就在软博会重磅推出了UXDBSuperRAC(超级实时应用集群)，发布了优炫数据库UXDB新版本。长久以来，大型联机交易系统，特别是作为典型应用的银行核心业务系统对数据库要求极为严苛，要保证业务连续性，零RTO、RPO，强一致性ACID、业务不可分割性需求。因此，基于共享存储概念的RAC模式和完全支持ACID强一致性的数据库系统，依然是银行业核心数据库系统的首选，优炫数据库Sup
大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
宝塔面板部署java项目用公网ip或者域名都可以访问高明峰少 java java tomcat 数据库 web
和本地tomcat一样，war包放在webapps下，配置tomcat默认访问路径，即在host标签里加入这个analysis-tool-web-1.0-SNAPSHOT是你war包名字可以随意改，只要和webapps下名字相同就行，安装软件添加数据库打开数据库—>添加数据库，数据库名字，用户名密码等等，如果用户名不能用root，就在网站—>添加站点中创建站点同时添加数据库，在这里可以添加数据库名
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb