目录
一. 前言
二. 认识 MVCC
2.1. 什么是 MVCC?
2.2. 什么是当前读和快照读?
2.3. 当前读、快照读和 MVCC 的关系
2.4. MVCC 能解决什么问题,好处是什么?
2.5. 小结
三. MVCC 的实现原理
3.1. 隐式字段
3.2. undo 日志
3.3. Read View(读视图)
四. MVCC 整体流程
五. MVCC 的相关问题
5.1. RR 是如何在 RC 级的基础上解决不可重复读的?
5.2. RC、RR 级别下的 InnoDB 快照读有什么不同?
MySql 中的 InnoDB 实现了事务(多版本并发控制 MVCC + 锁), 其中通过 MVCC 解决隔离性问题。具体而言,MVCC 就是为了实现 读-写 冲突不加锁,而这个读指的就是快照读,而非当前读,当前读实际上是一种加锁的操作,是悲观锁的实现;这里写一篇文章带你理解 InnoDB 中MVCC 的实现机制。
MVCC,全称 Multi-Version Concurrency Control,即多版本并发控制。MVCC 是一种并发控制的方法,一般在数据库管理系统中,实现对数据库的并发访问,在编程语言中实现事务内存。
MVCC 在 MySql InnoDB 中的实现主要是为了提高数据库并发性能,用更好的方式去处理 读-写冲突,做到即使有读写冲突时,也能做到不加锁,非阻塞并发读。
当前读:像 select lock in share mode(共享锁)、select for update、insert、update、delete(排他锁)这些操作都是一种当前读,为什么叫当前读?就是它读取的是记录的最新版本,读取时还要保证其他并发事务不能修改当前记录,会对读取的记录进行加锁。
快照读:像不加锁的 select 操作就是快照读,即不加锁的非阻塞读;快照读的前提是隔离级别不是串行级别,串行级别下的快照读会退化成当前读;之所以出现快照读的情况,是基于提高并发性能的考虑,快照读的实现是基于多版本并发控制,即 MVCC,可以认为 MVCC 是行锁的一个变种,但它在很多情况下,避免了加锁操作,降低了开销;既然是基于多版本,即快照读可能读到的并不一定是数据的最新版本,而有可能是之前的历史版本。
准确的说,MVCC 多版本并发控制指的是“维持一个数据的多个版本,使得读写操作没有冲突” 这么一个概念。仅仅是一个理想概念。
而在 MySql 中,实现这么一个 MVCC 理想概念,我们就需要 MySql 提供具体的功能去实现它,而快照读就是 MySql 为我们实现 MVCC 理想模型的其中一个具体非阻塞读功能。相对而言,当前读就是悲观锁的具体功能实现。
要说得再细致一些,快照读本身也是一个抽象概念,再深入研究。MVCC 模型在 MySql 中的具体实现则是由 4个隐式字段,undo 日志,Read View 等去完成的,具体可以看下面的 MVCC 实现原理。
数据库并发场景有三种,分别为:
MVCC 带来的好处是:
多版本并发控制(MVCC)是一种用来解决 读-写 冲突的无锁并发控制,也就是为事务分配单向增长的时间戳,为每个修改保存一个版本,版本与事务时间戳关联,读操作只读该事务开始前的数据库的快照。
所以 MVCC 可以为数据库解决以下问题:在并发读写数据库时,可以做到在读操作时不用阻塞写操作,写操作也不用阻塞读操作,提高了数据库并发读写的性能,同时还可以解决脏读、幻读、不可重复读等事务隔离问题,但不能解决更新丢失问题。
总之,MVCC 就是因为大牛们,不满意只让数据库采用悲观锁这样性能不佳的形式去解决 读-写冲突问题,而提出的解决方案,所以在数据库中,因为有了 MVCC,所以我们可以形成两个组合:
这种组合的方式就可以最大程度的提高数据库并发性能,并解决读写冲突和写写冲突导致的问题。
MVCC 的目的就是多版本并发控制,在数据库中的实现,就是为了解决读写冲突,它的实现原理主要是依赖记录中的 4个隐式字段、undo 日志、Read View 来实现的。
每行记录除了我们自定义的字段外,还有数据库隐式定义的 DB_ROW_ID、DB_TRX_ID、DB_ROLL_PTR、DELETED_BIT 等字段。
如上图,DB_ROW_ID 是数据库默认为该行记录生成的唯一隐式主键;DB_TRX_ID 是当前操作该记录的事务 ID; 而 DB_ROLL_PTR 是一个回滚指针,用于配合 undo 日志,指向上一个旧版本;delete flag 没有展示出来。
InnoDB 把这些为了回滚而记录的这些东西称之为 undo log。这里需要注意的一点是,由于查询操作(SELECT)并不会修改任何用户记录,所以在查询操作执行时,并不需要记录相应的 undo log。undo log 主要分为3种:
1. Insert undo log:插入一条记录时,至少要把这条记录的主键值记下来,之后回滚的时候只需要把这个主键值对应的记录删掉就好了。
2. Update undo log:修改一条记录时,至少要把修改这条记录前的旧值都记录下来,这样之后回滚时再把这条记录更新为旧值就好了。
3. Delete undo log:删除一条记录时,至少要把这条记录中的内容都记下来,这样之后回滚时再把由这些内容组成的记录插入到表中就好了。
对 MVCC 有帮助的实质是 update undo log,undo log 实际上就是存在 rollback segment 中旧记录链,它的执行流程如下:
1. 比如一个有个事务往 persion 表插入了一条新记录,记录如下,name 为 Jerry,age 为24岁,隐式主键是 1,事务 ID 和回滚指针,我们假设为 NULL:
2. 现在来了一个事务1对该记录的 name 做出了修改,改为 Tom:
3. 又来了个事务2修改 person 表的同一个记录,将 age 修改为30岁:
从上面,我们就可以看出,不同事务或者相同事务对同一记录的修改,会导致该记录的 undo log 成为一条记录版本线性表,即链表,undo log 的链首就是最新的旧记录,链尾就是最早的旧记录(当然就像之前说的该 undo log 的节点可能会被 purge 线程清除掉,向图中的第一条 insert undo log,其实在事务提交之后可能就被删除丢失了,不过这里为了演示,所以还放在这里)。
什么是 Read View,说白了 Read View 就是事务进行快照读操作的时候生产的读视图(Read View),在该事务执行快照读的那一刻,会生成数据库系统当前的一个快照,记录并维护系统当前活跃事务的 ID(当每个事务开启时,都会被分配一个 ID,这个 ID 是递增的,所以最新的事务,ID 值越大)。
所以我们知道 Read View 主要是用来做可见性判断的,即当我们某个事务执行快照读的时候,对该记录创建一个 Read View 读视图,把它当作条件用来判断当前事务能够看到哪个版本的数据,即可能是当前最新的数据,也有可能是该行记录的 undo log 里面的某个版本的数据。
Read View 遵循一个可见性算法,主要是将要被修改的数据的最新记录中的 DB_TRX_ID(即当前事务 ID)取出来,与系统当前其他活跃事务的 ID 去对比(由 Read View 维护),如果DB_TRX_ID 跟 Read View 的属性做了某些比较,不符合可见性,那就通过 DB_ROLL_PTR 回滚指针去取出 Undo Log 中的 DB_TRX_ID 再比较,即遍历链表的 DB_TRX_ID(从链首到链尾,即从最近的一次修改查起),直到找到满足特定条件的 DB_TRX_ID,那么这个 DB_TRX_ID 所在的旧记录就是当前事务能看见的最新老版本。
那么这个判断条件是什么呢?
看上面这张源码图,如上,它是一段 MySql 判断可见性的一段源码,即 changes_visible 方法(代码不完全,但能看出大致逻辑),该方法展示了我们拿 DB_TRX_ID 去跟 Read View 某些属性进行怎么样的比较。
在展示之前,我先简化一下 Read View,我们可以把 Read View 简单的理解成有三个全局属性:
判断流程:
我们在了解了隐式字段,undo log,以及 Read View 的概念之后,就可以来看看 MVCC 实现的整体流程是怎么样了,我们可以模拟一下:
当事务2对某行数据执行了快照读,数据库为该行数据生成一个 Read View 读视图,假设当前事务ID 为2,此时还有事务1和事务3在活跃中,事务4在事务2快照读前一刻提交更新了,所以 Read View 记录了系统当前活跃事务1,3的 ID,维护在一个列表上,假设我们称为 trx_list。
事务1 | 事务2 | 事务3 | 事务4 |
---|---|---|---|
事务开始 | 事务开始 | 事务开始 | 事务开始 |
… | … | … | 修改且已提交 |
进行中 | 快照读 | 进行中 | |
… | … | … |
Read View 不仅仅会通过一个列表 trx_list 来维护事务2执行快照读那刻系统正活跃的事务 ID,还会有两个属性 up_limit_id(记录 trx_list 列表中事务 ID 最小的 ID),low_limit_id(记录 trx_list 列表中下一个事务 ID,也就是目前已出现过的事务 ID 的最大值+1);所以在这个例子中 up_limit_id就是1,low_limit_id 就是4 + 1 = 5,trx_list 集合的值是1,3,Read View 如下图:
我们的例子中,只有事务4修改过该行记录,并在事务2执行快照读前,就提交了事务,所以当前该行当前数据的 undo log 如下图所示;我们的事务2在快照读该行记录的时候,就会拿该行记录的DB_TRX_ID 去跟 up_limit_id、low_limit_id 和活跃事务 ID 列表(trx_list)进行比较,判断当前事务2能看到该记录的版本是哪个。
所以先拿该记录 DB_TRX_ID 字段记录的事务 ID 4去跟 Read View 的的 up_limit_id 比较,看4是否小于 up_limit_id(1),所以不符合条件,继续判断 4 是否大于等于 low_limit_id(5),也不符合条件,最后判断4是否处于 trx_list 中的活跃事务, 最后发现事务 ID 为4的事务不在当前活跃事务列表中,符合可见性条件,所以事务4修改后提交的最新结果对事务2快照读时是可见的,所以事务2能读到的最新数据记录是事务4所提交的版本,而事务4提交的版本也是全局角度上最新的版本。
也正是 Read View 生成时机的不同,从而造成 RC、RR 级别下快照读的结果的不同。
RC:读取已提交(READ COMMITTED)的简称。
RR:可重复读(REPEATABLE READ)的简称。
当前读和快照读在 RR 级别下的区别:
事务A | 事务B |
---|---|
开启事务 | 开启事务 |
快照读(无影响)查询金额为500 | 快照读查询金额为500 |
更新金额为400 | |
提交事务 | |
SELECT 快照读 金额为500 | |
SELECT LOCK IN SHARE MODE 当前读 金额为400 |
而在表2这里的顺序中,事务 B 在事务 A 提交后的快照读和当前读都是实时的新数据400,这是为什么呢?
这里与上表的唯一区别仅仅是表1的事务 B 在事务 A 修改金额前快照读过一次金额数据,而表2的事务 B 在事务 A 修改金额前没有进行过快照读。
所以我们知道事务中快照读的结果是非常依赖该事务首次出现快照读的地方,即某个事务中首次出现快照读的地方非常关键,它有决定该事务后续快照读结果的能力。
我们这里测试的是更新,同时删除和更新也是一样的,如果事务 B 的快照读是在事务 A 操作之后进行的,事务 B 的快照读也是能读取到最新的数据的。
正是 Read View 生成时机的不同,从而造成RC、RR级别下快照读的结果的不同:
总之在 RC 隔离级别下,是每个快照读都会生成并获取最新的 Read View;而在 RR 隔离级别下,则是同一个事务中的第一个快照读才会创建 Read View,之后的快照读获取的都是同一个 Read View。