目录
1、事务的基本操作
2、事务的ACID属性
3、事务隔离级别
4、多版本并发控制( MVCC )
5、深入理解隔离级别
什么是事务?
事务就是一组 DML 语句组成,这些语句在逻辑上存在相关性,这一组 DML 语句要么全部成功,要么全部失败,是一个整体。MySQL提供一种机制,保证我们达到这样的效果。事务还规定不同的客户端看到的数据是不相同的。 事务就是要做的或所做的事情,主要用于处理操作量大,复杂度高的数据。
事务支持的版本
在 MySQL 中只有使用了 Innodb 数据库引擎的数据库或表才支持事务, MyISAM 不支持。
查看数据库引擎
show engines;
mysql> show variables like 'autocommit';
用 SET 来改变 MySQL 的自动提交模式 :
mysql> set autocommit=0;
#SET AUTOCOMMIT=0 禁止自动提交
mysql> set autocommit=1;
#SET AUTOCOMMIT=1 开启自动提交
1、事务的基本操作
start transaction;
# 开始一个事务begin 也可以,推荐 begin
savepoint save1;
# 创建一个保存点save1
rollback to save1(保存点);
# 回滚到保存点save2,直接rollback ,回滚在最开始
commit;
#提交事务
事务操作注意事项
- 如果没有设置保存点,也可以回滚,只能回滚到事务的开始。直接使用 rollback(前提是事务还没有提交)
- 如果一个事务被提交了(commit),则不可以回退(rollback)
- 可以选择回退到哪个保存点
2、事务的ACID属性
一个完整的事务,不仅仅是简单的 sql 集合,还需要满足如下四个属性ACID:
下面我们通过一些实验来更好的理解ACID属性
原子性
##为了便于演示,我们将mysql的默认隔离级别设置成读未提交
set global transaction isolation level READ UNCOMMITTED;
##需要重启终端,进行查看
select @@transaction_isolation;
创建测试表
mysql> create table student(
id int primary key auto_increment,
name varchar(10) not null,
age int not null
);
mysql> begin;
mysql> insert into student(name, age) values('张三', 25);
mysql> insert into student(name, age) values('李四', 27);
##终端B查看表数据(如下图)
mysql> Aborted ## ctrl + \ 异常终止MySQL
##终端B再次查看表数据
通过上面实验我们发现事务在执行过程中发生错误,会被回滚到事务开始前的状态,已经插入了两条数据但是最终表中却没有数据,说明一个事务要么全部完成,要么全部不完成,也就是原子性。
一个事务可能由多条SQL构成,也就意味着,任何一个事务,都有执行前,执行中,执行后的阶段。而所谓的原 子性,其实就是让用户层,要么看到执行前,要么看到执行后。执行中出现问题,可以随时回滚。所以单个事务,对用户表现出来的特性,就是原子性。
持久性
##前面操作不变,我们在异常终止前提交事务
mysql> commit
mysql> Aborted
如图:
此时客户端崩溃,MySQL数据不会在受影响,已经持久化。
隔离性
- MySQL服务可能会同时被多个客户端进程(线程)访问,访问的方式以事务方式进行
- 但,毕竟所有事务都要有个执行过程,那么在多个事务各自执行多个SQL的时候,就还是有可能会出现互相影响的情况。比如:多个事务同时访问同一张表,甚至同一行数据
- 数据库中,为了保证事务执行过程中尽量不受干扰,就有了一个重要特征:隔离性
- 数据库中,允许事务受不同程度的干扰,就有了一种重要特征:隔离级别
一致性 (Consistency)
- 事务执行的结果,必须使数据库从一个一致性状态,变到另一个一致性状态。当数据库只包含事务成功提交的结果时,数据库处于一致性状态。如果系统运行发生中断,某个事务尚未完成而被迫中断,而改未完成的事务对数据库所做的修改已被写入数据库,此时数据库就处于一种不正确(不一致)的状态。因此一致性是通过原子性来保证的。
- 其实一致性和用户的业务逻辑强相关,一般MySQL提供技术支持,但是一致性还是要用户业务逻辑做支撑,也就是一致性是由用户决定的。
- 其实原子性,隔离性、持久性最终都是为了保证一致性
3、事务隔离级别
- 读未提交【Read Uncommitted】: 在该隔离级别,所有的事务都可以看到其他事务没有提交的执行结果。(实际生产中不可能使用这种隔离级别的),但是相当于没有任何隔离性,也会有很多并发问题,如脏读,幻读,不可重复读等,我们上面做实验,用的就是这个隔离性。
- 读提交【Read Committed】 :该隔离级别是大多数数据库的默认的隔离级别(不是 MySQL 默认的)。它满足了隔离的简单定义:一个事务只能看到其他的已经提交的事务所做的改变。这种隔离级别会引起不可重复读,即一个事务执行时,如果多次 select, 可能得到不同的结果。
- 可重复读【Repeatable Read】: 这是 MySQL 默认的隔离级别,它确保同一个事务,在执行中,多次读取操作数据时,会看到同样的数据行。但是会有幻读问题。
- 串行化【Serializable】: 这是事务的最高隔离级别,它通过强制事务排序,使之不可能相互冲突,从而解决了幻读的问题。它在每个读的数据行上面加上共享锁,但是可能会导致超时和锁竞争(这种隔离级别太极端,实际生产基本不使用)
隔离级别如何实现:隔离,基本都是通过锁实现的,不同的隔离级别,锁的使用是不同的。常见有,表锁,行锁,读锁,写锁,间隙锁(GAP),Next-Key 锁 (GAP+ 行锁 ) 等。
select @@global.transaction_isolation;
#查看全局隔级别
select @@session.transaction_isolation;
#查看会话(当前)全局隔级别
set [session| global] transaction isolation level {Read Uncommitted | Read Committed | Repeatable Read | Serializable}
#设置隔离级别语法
#设置全局隔离性,会话也会被影响
#注:不同MySQL版本,查看隔离级别略有差异。上面不行的话可以将transaction_isolation换成tx_isolation试试。
下面我们通过实验来更好的理解隔离性
读未提交 【 Read Uncommitted 】
一个事务在执行中,读到另一个执行中事务的更新(或其他操作)但是未commit的数据,这种现象叫做脏读(dirty read)。读未提交几乎没有加锁,虽然效率高,但是问题太多,严重不建议采用。
读提交 【 Read Committed 】
终端 A commit前后终端 B 读到的数据不一致那么就造成了,同一个事务内,同样的读取,在不同的时间段(依旧还在事务操作中!),读取到了不同的值,这种现象叫做不可重复读(non reapeatable read)。
可重复读【Repeatable Read】
可以看到,在终端B中,事务无论什么时候进行查找,看到的结果都是一致的,这叫做可重复读!
多次查看,发现终端 A 在对应事务中 insert 的数据,在终端 B 的事务周期中,也没有什么影响,也符合可重复的特点。但是,一般的数据库在可重复读情况的时候,无法屏蔽其他事务insert 的数据 ( 为什么?因为隔离性实现是对数据加锁完成的,而insert 待插入的数据因为并不存在,那么一般加锁无法屏蔽这类问题 ), 会造成虽然大部分内容是可重复读的,但是insert 的数据在可重复读情况被读取出来,导致多次查找时,会多查找出来新的记录,就如同产生了幻觉。这种现象,叫做幻读(phantom read) 。很明显, MySQL在RR 级别的时候,是解决了幻读问题的。
串行化【 Serializable 】
总结:
- 其中隔离级别越严格安全性越高,但数据库的并发性能也就越低,往往需要在两者之间找一个平衡点
- 不可重复读的重点是修改和删除:同样的条件, 你读取过的数据,再次读取出来发现值不一样了。幻读的重点在于新增:同样的条件, 第1次和第2次读出来的记录数不一样
- 说明: mysql 默认的隔离级别是可重复读,一般情况下不要修改
- 上面的例子可以看出,事务也有长短事务这样的概念。事务间互相影响,指的是事务在并行执行的时候,即都没有commit的时候,影响会比较大
隔离级别 |
脏读 |
不可重复度 |
幻读 |
加锁读 |
读未提交【Read Uncommitted】 |
✔ |
✔ |
✔ |
不加锁 |
读提交【Read Committed】 |
✘ |
✔ |
✔ |
不加锁 |
可重复读【Repeatable Read】 |
✘ |
✘ |
✘ |
不加锁 |
串行化【Serializable】 |
✘ |
✘ |
✘ |
加锁 |
4、多版本并发控制( MVCC )
数据库并发的场景
- 读-读 :不存在任何问题,也不需要并发控制
- 读-写 :有线程安全问题,可能会造成事务隔离性问题,可能遇到脏读,幻读,不可重复读
- 写-写 :有线程安全问题,可能会存在更新丢失问题,比如第一类更新丢失,第二类更新丢失
这里我们重点谈一谈读-写
多版本并发控制( MVCC )是一种用来解决 读 - 写 冲突 的 无锁并发控制 ,为事务分配单向增长的事务ID ,为每个修改保存一个版本,版本与事务 ID 关联,读操作只读该事务开始前的数据库的 快照。 所以 MVCC 可以为数据库解决以下问题
- 在并发读写数据库时,可以做到在读操作时不用阻塞写操作,写操作也不用阻塞读操作,提高了数据库并发读写的性能
- 同时还可以解决脏读,幻读,不可重复读等事务隔离问题,但不能解决更新丢失问题
理解 MVCC 需要知道三个前提知识:
- 3个记录隐藏字段
- undo 日志
- Read View
3个记录隐藏列字段
- DB_TRX_ID :6 byte,最近修改( 修改/插入 )事务ID,记录创建这条记录/最后一次修改该记录的事务ID
- DB_ROLL_PTR : 7 byte,回滚指针,指向这条记录的上一个版本(简单理解成,指向历史版本就行,这些数据一般在 undo log 中)
-
DB_ROW_ID : 6 byte ,隐含的自增 ID (隐藏主键),如果数据表没有主键, InnoDB 会自动以 DB_ROW_ID 产生一个聚簇索引
-
实际还有一个删除 flag 隐藏字段 , 既记录被更新或删除并不代表真的删除,而是删除 flag 变了
undo 日志
模拟 MVCC
现在有事务 10、11( 仅仅为了好区分 ) ,依次对 student 表中记录进行修改 (update)
- 事务因为要修改,所以要先给该记录加行锁。
- 修改前,先将该行记录拷贝到undo log中,所以,undo log中就有了一行副本数据(原理就是写时拷贝)。此时,新的副本,我们采用头插方式,插入undo log。
- 现在修改原始数据记录,并且修改原始记录的隐藏字段 DB_TRX_ID 为当前事务1的ID。而原始记录的回滚指针 DB_ROLL_PTR 列,里面写入undo log中副本数据的地址,从而指向副本记录,既表示我的上一个版本就是它。
- 事务10提交,释放锁。
这样,我们就有了一个基于链表记录的历史版本链。所谓的回滚,无非就是用历史数据,覆盖当前数据。 上面的一个一个版本,我们可以称之为一个一个的快照。
一些思考问题
- 上面是以更新(upadte)为例,如果是delete呢?一样的,别忘了删数据不是清空,而是设置flag为删除即可。也可以形成版本。
- 如果是insert呢?因为insert是插入,也就是之前没有数据,那么insert也就没有历史版本。但是一般为了回滚操作,insert的数据也是要被放入undo log中,如果当前事务commit了,那么这个undo log 的历史insert记录就可以被清空了。
- 那么select呢?首先,select不会对数据做任何修改,所以,为select维护多版本没有意义。
不过此时有个问题,就是:select读取,是读取最新的版本呢?还是读取历史版本?
- 当前读:读取最新的记录,就是当前读。增删改,都叫做当前读,select也有可能当前读,比如:select lock in share mode(共享锁), select for update
- 快照读:读取历史版本(一般而言),就叫做快照读。
- 我们可以看到,在多个事务同时删改查的时候,都是当前读,是要加锁的。那同时有select过来,如果也要读取最新版(当前读),那么也就需要加锁,这就是串行化。
- 但如果是快照读,读取历史版本的话,是不受加锁限制的。也就是可以并行执行!换言之,提高了效率,即MVCC的意义所在。
5、深入理解隔离级别
那么,是什么决定了,select 是当前读,还是快照读呢?隔离级别 !
那为什么要有隔离级别呢?
- 事务都是原子的。所以,无论如何,事务总有先有后。但是经过上面的操作我们发现,事务从begin->CURD->commit,是有一个阶段的。也就是事务有执行前,执行中,执行后的阶段。但,不管怎么启动多个事务,总是有先有后的。
- 那么多个事务在执行中,CURD操作是会交织在一起的。那么,为了保证事务的“有先有后”,是不是应该让不同的事务看到它该看到的内容,这就是所谓的隔离性与隔离级别要解决的问题。
那么,如何保证,不同的事务,看到不同的内容呢?也就是如何如何实现隔离级别?
Read View
- Read View就是事务进行快照读操作的时候生产的 读视图 (Read View),在该事务执行的快照读的那一刻,会生成数据库系统当前的一个快照,记录并维护系统当前活跃事务的ID(当每个事务开启时,都会被分配一个ID, 这个ID是递增的,所以最新的事务,ID值越大)
- Read View 在 MySQL 源码中,就是一个类,本质是用来进行可见性判断的。 即当我们某个事务执行快照读的时候,对该记录创建一个 Read View 读视图,把它比作条件,用来判断当前事务能够看到哪个版本的数据,既可能是当前最新的数据,也有可能是该行记录的 undo log 里面的某个版本的数据。
下面是一个简化的ReadView 结构
我们在实际读取数据版本链的时候,是能读取到每一个版本对应的事务ID的,即:当前记录的 DB_TRX_ID 。 我们现在已经知道了当前快照读的 ReadView 和 版本链中的某一个记录的 DB_TRX_ID 。所以现在的问题就是,当前快照读,应不应该读到当前版本记录。我们用图来说明。
整体流程
假设当前有条记录:
事务操作
当事务2 对某行数据执行了 快照读 ,数据库为该行数据生成一个 Read View 读视图
我们的事务 2 在快照读该行记录的时候,就会拿该行记录的 DB_TRX_ID 去跟 up_limit_id,low_limit_id 和活跃事务ID 列表 (trx_list) 进行比较,判断当前事务 2 能看到该记录的版本。