(2022.04.26 Tues)
数据库的MVCC,multi-version concurrency control,用于保证事务的ACID特性中的一致性C和隔离性I。
事务并发存在的问题
事务的并发会带来若干问题,比如
- 脏读
- 不可重复读
- 幻读
脏读
一个事务读到了另一个事务修改但未提交的数据,称为脏读。
不可重复读
同一个数据前后多次读,读取的数据不一样。
幻读phantom read
如果一个事务先根据某些搜索条件查询出一些记录,在该事务未提交时,另一个事务写入了一些符合那些搜索条件的记录(如insert、delete、update),就意味着发生了幻读。
作为准备,首先了解一下数据库中不同事务的隔离级别。所谓隔离级别,可以理解为多个事务同时写入数据库时互相的影响程度。
隔离级别
数据有四个隔离级别,隔离程度从高到底,分别为
- 串行化 serializable
- 可重复读 repeatable read
- 读已提交 read committed
- 读未提交 read uncommitted
简单来说,
串行化是从时间维度上隔绝了不同事务对数据的访问使得事务彼此分时复用数据库;
可重复读相当于读数据的临时备份,而读备份期间对原数据的其他修改并不能影响读取,事务完成读数据并提交之后临时备份丢弃;
读已提交是只读提交后的在硬盘上的结果;
读未提交则能够对事务未提交的对数据的更改(buffer pool中的数据?)进行读取。
串行化可以避免脏读、不可重复读和幻读问题;
可重复读可避免脏读和不可重复读问题,但有幻读问题;
读已提交可避免脏读,但有不可重复读和幻读问题;
读未提交有所有问题。
串行化
串行化值得是同一个时间只有一个事务对数据库做写操作,对外界来说事务像是串行操作一样。该级别的隔离程度最高。用下面案例演示串行化隔离。
有事务A和B,两个事务都要插入数据到关系salary,分别插入(1007, 'jz', 'm', 'rd', 9999)和(1008, 'zz', 'm', 'rd', 20000)到关系中。首先开始事务A,并设置为串行化操作,但不提交commit
# 设定隔离级别
mysql> set session transaction isolation level serializable;
# or
mysql> set transaction_isolation = 'SERIALIZABLE';
mysql> SET SESSION transaction_isolation = 'SERIALIZABLE';
Query OK, 0 rows affected (0.00 sec)
# 查看隔离级别
mysql> select @@transaction_isolation;
+-------------------------+
| @@transaction_isolation |
+-------------------------+
| SERIALIZABLE |
+-------------------------+
1 row in set (0.01 sec)
# 开始事务
mysql> start transaction;
Query OK, 0 rows affected (0.00 sec)
# 添加数据
mysql> insert salary values(1007, 'jz', 'm', 'rd', 9999);
Query OK, 1 row affected (0.00 sec)
在另一个窗口进入MySQL开始事务B
# 隔离级别是否设置均可。开启事务
mysql> start transaction;
Query OK, 0 rows affected (0.00 sec)
mysql> insert salary values(1008, 'zz', 'm', 'rd', 20000)
在事务B执行插入操作之后,会看到mysql进入等待状态。因为此时事务A正在锁定数据,导致其他事务无法进行写入。
下面对事务A执行提交,随后会在事务B的窗口看到插入成功。
# A
mysql> commit;
Query OK, 0 rows affected (0.01 sec)
# B
Query OK, 1 row affected (21.26 sec)
mysql> commit;
Query OK, 0 rows affected (0.01 sec)
可以看到,串行化没有任何事务并行可能产生的问题,但资源耗费严重。
可重复读
可重复读,相当于事务在提交前对所读取的数据和关系做一个备份,从备份中读数据。而事务提交前如果有其他事务对数据和关系做修改和提交,并不影响事务读取的结果。之后在事务提交后,重新开启一个事务再次读取相同的数据和关系,才能得到最近的更新。
事务A和B,A设置为可重复读,查询数据。B插入数据,提交前后查看A的查询结果。
mysql> set session transaction isolation level repeatable read;
Query OK, 0 rows affected (0.00 sec)
mysql> select @@transaction_isolation;
+-------------------------+
| @@transaction_isolation |
+-------------------------+
| REPEATABLE-READ |
+-------------------------+
1 row in set (0.00 sec)
mysql> start transaction;
Query OK, 0 rows affected (0.00 sec)
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
| 1001 | john | m | sales | 1000 |
...
| 1009 | z17 | m | quant | 11000 |
+------+-------+--------+------------+--------+
9 rows in set (0.00 sec)
B插入数据
mysql> start transaction;
Query OK, 0 rows affected (0.00 sec)
mysql> insert salary values(1010,'z17','m','pm',16000);
Query OK, 1 row affected (0.00 sec)
A事务查询数据,没有变化
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
| 1001 | john | m | sales | 1000 |
...
| 1009 | z17 | m | quant | 11000 |
+------+-------+--------+------------+--------+
9 rows in set (0.01 sec)
B提交,再次在A中查看
mysql> commit;
Query OK, 0 rows affected (0.00 sec)
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
| 1001 | john | m | sales | 1000 |
...
| 1009 | z17 | m | quant | 11000 |
+------+-------+--------+------------+--------+
9 rows in set (0.00 sec)
A的事务提交,重新开启事务,看到数据更新了
mysql> commit;
Query OK, 0 rows affected (0.00 sec)
mysql> set session transaction isolation level repeatable read;
Query OK, 0 rows affected (0.00 sec)
mysql> start transaction;
Query OK, 0 rows affected (0.01 sec)
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
| 1001 | john | m | sales | 1000 |
...
| 1010 | z17 | m | pm | 16000 |
+------+-------+--------+------------+--------+
10 rows in set (0.00 sec)
读已提交
该隔离级别只读取已经提交的数据。
事务A和B,A只用于读取数据,并设定隔离级别为read committed,B向关系中插入数据。查看B未提交之前A的读取结果
mysql> set session transaction isolation level read committed;
Query OK, 0 rows affected (0.00 sec)
mysql> start transaction;
Query OK, 0 rows affected (0.00 sec)
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
...
| 1007 | zzz | m | rb | 25000 |
| 1008 | zz | m | rd | 28000 |
+------+-------+--------+------------+--------+
8 rows in set (0.00 sec)
此时开始事务B,插入数据但不提交
mysql> start transaction;
Query OK, 0 rows affected (0.00 sec)
mysql> insert salary values(1009,'z17', 'm','quant',11000);
Query OK, 1 row affected (0.00 sec)
在A中查询数据
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
...
| 1007 | zzz | m | rb | 25000 |
| 1008 | zz | m | rd | 28000 |
+------+-------+--------+------------+--------+
8 rows in set (0.00 sec)
在B中提交
mysql> commit;
Query OK, 0 rows affected (0.00 sec)
在A中查看,看到数据已经更新
mysql> select * from salary;
+------+-------+--------+------------+--------+
| eid | ename | gender | department | salary |
+------+-------+--------+------------+--------+
...
| 1008 | zz | m | rd | 28000 |
| 1009 | z17 | m | quant | 11000 |
+------+-------+--------+------------+--------+
9 rows in set (0.00 sec)
读未提交
事务可以读取其他事务对数据和关系的未commit的修改。具体展示略。
MVCC
多版本进程控制MVCC是一种并发控制的方法,在DBMS中实现对数据库的并发访问。
数据库中同时存在多个版本的数据,并不是整个数据库的多个版本,而是某一条记录的多个版本同时存在,在某个事务对其进行操作的时候,需要查看这一条记录的隐藏列事务版本id,比对事务id并根据事物隔离级别去判断读取哪个版本的数据。
数据库隔离级别读已提交和可重复读都是基于MVCC实现的,相对于加锁简单粗暴的方式,它用更好的方式去处理读写冲突,能有效提高数据库并发性能。
MVCC中的隐藏字段
trx_id、roll_pointer和row_id
事务ID trx_id
事务每次开启前,都会从数据库获得一个自增长的事务ID,可以从事务ID判断事务的执行先后顺序。这就是事务版本号。
回滚指针roll_pointer
指向前一个事务id的指针
行号row_id
当关系没有主键和非Null唯一键时生成的行号
MVCC简要流程
多个事务并行操作某一行数据时,不同事务对该行数据的修改会产生多个版本,然后通过回滚指针(roll_pointer),连成一个链表,这个链表就称为版本链。
通过版本链,可以看出事务版本号、表格隐藏的列和undo log之间的关系.
查询一条记录,基于MVCC,简要流程如下:
- 获取事务自己的版本号,即事务ID
- 获取Read View
- 查询得到的数据,然后Read View中的事务版本号进行比较。
- 如果不符合Read View的可见性规则, 即就需要Undo log中历史快照;
- 返回符合规则的数据
InnoDB 实现MVCC,是通过Read View+ Undo Log 实现的,Undo Log 保存了历史快照,Read View可见性规则帮助判断当前版本的数据是否可见。
(placeholder)
Reference
知乎,看一遍就理解:MVCC原理详解,连边