CURD需要满足下面的属性:
在现实生活中使用SQL语句时,不一定一条语句就能够解决问题,我们有时候的操作,是需要一批SQL来共同组合才有意义。比如我向你转账100,是update 我账户的钱 sub 100,update 你账户的钱 add 100,这两条SQL单独拿出来在技术上来看就是两条对列操作的语句,没有什么意义。但是站在上层,即转账和被转账的人来看,两条语句和在一起对他们而言就是转账逻辑,我们把这两条SQL构成的一组DML语句就叫做事务。
事务的本质一定是要站在MySQL上层(即MySQL的使用者)去看待SQL语句。
事务:
事务就是一组DML语句组成,这些语句在逻辑上存在相关性,这一组DML语句要么全部成功,要么全部失败,是一个整体。MySQL提供一种机制,保证我们达到这样的效果。事务还规定不同的客户端看到的数据是不相同的。
正如我们上面所说,一个MySQL 数据库,可不止你一个事务在运行,同一时刻,甚至有大量的请求被包装成事务 ,在向MySQL 服务器发起事务处理请求。而每条事务至少一条SQL ,最多很多SQL ,这样如果大家都访问同样的表数据,在不加保护的情况,就绝对会出现问题。甚至,因为事务由多条SQL 构成,那么,也会存在执行到一半出错或者不想再执行的情况,那么已经执行的怎么办呢?
所以,一个完整的事务,绝对不是简单的sql 集合,还需要满足如下四个属性:
上面四个属性,可以简称为ACID。
事务被MySQL 编写者设计出来,本质是为了当应用程序访问数据库的时候,事务能够简化我们的编程模型,不需要我们去考虑各种各样的潜在错误和并发问题。可以想一下当我们使用事务时,要么提交,要么回滚,我们不会去考虑网络异常了,服务器宕机了,同时更改一个数据怎么办对吧?因此事务本质上是为了应用层服务的。而不是伴随着数据库系统天生就有的。
约定:我们后面把MySQL中的一行信息,称为一行记录。
在 MySQL中只有使用了 Innodb 数据库引擎的数据库或表才支持事务, MyISAM 不支持。
mysql> show engines \G
这里只给出了InnoDB和MyISAM
事务的提交方式常见的有两种:自动提交和手动提交
mysql> show variables like 'autocommit';
mysql> set autocommit=0; # SET AUTOCOMMIT=0 禁止自动提交
mysql> set autocommit=1; # SET AUTOCOMMIT=1 开启自动提交
查看mysql的客户端和服务端。我们使用的是mysql的客户端,mysql作为一套网络服务,也可以使用远程连接的方式操作,即一个mysqld可以被多个客户端访问。
云服务器,默认开启3306 mysqld服务
为了便于演示,我们将mysql的默认隔离级别设置成读未提交
mysql> set global transaction isolation level read uncommitted;
需要重启终端,进行查看
mysql> select @@tx_isolation;
创建测试表
mysql> create table if not exists account(
-> id int primary key,
-> name varchar(50) not null default '',
-> blance decimal(10,2) not null default 0.0
-> )ENGINE=InnoDB DEFAULT CHARSET=UTF8;
在打开两个客户端去连接mysqld
# 查看有多少人连接mysql
mysql> show processlist;
证明事务的开始与回滚
首先确认当前事务的提交方式是自动提交
开启事务
mysql> start transaction; # 开始一个事务begin也可以,推荐begin
为了方便观察,我们在右侧也开启一个事务
向左侧事务添加保存点
mysql> savepoint s1; # 创建一个保存点s1
在右侧观察表,发现没有数据
而后我们在左侧的事务插入数据,在右侧就可以观察到
继续重复上面的动作,创建一个保存点插入数据后都可以在右边的事务中观察到
但此时我们不想去插入王五了,那么我们就可以根据设置的s3保存点向前回滚,将王五这条数据撤销
mysql> rollback to s3;
通过右侧去查看左侧,发现王五这条记录已经没有了
同样我们也可以回滚到s2和s1,我们直接回滚到s1,发现整张表中数据没了
我们不想再操作左侧事务,直接结束提交
mysql> commit;
同样结束提交右侧,最终的结果依然是空的,因为事务提交时的结果就是没有数据。
在启动这两个事务,如果不设置保存点,直接进行rollback,那就是将从事务开始到目前的所有操作全都回滚掉。
再启动一次这两个事务,并且不回滚,直接commit,就会发现数据最终保存到了数据库中,即便之后rollback,也不起作用。
因此,我们所提到的回滚操作,是在事务运行期间才可以进行回滚,事务一旦结束提交,就无法回滚。
首先明确我们的提交方式仍然是自动提交
我们开启两侧的事务后,再插入新的数据
直接使用快捷键ctrl \
,营造客户端崩溃的场景
后再观察右侧,发现新插入的数据消失了,实际上就是事务因异常情况从而自动回滚
还是像上面一样,插入开启两侧事务,插入数据
此时直接将左侧客户端关闭,仍然产生回滚现象,数据未插入
还是在刚才的基础上,我们重新开启两侧事务,commit之后再ctrl \
使客户端崩溃
此时我们发现数据没有丢失,所以commit的作用是将数据持久化到MySQL中
先把事务的提交方式设置为手动提交
插入数据没有commit,客户端直接崩溃,数据还是会丢失
事务提交方式依然是手动,这时在崩溃之前commit,查看发现事务没有丢失
由此可见,mysql的提交方式无论是自动还是手动,并不会影响我们事务的手动提交。
我们这里还是手动提交
示例1:
在begin之后,删除田七的数据,并进行commit,就将这个删除永久执行了
示例2:
我们不在事务中,直接进行存粹的SQL操作,删除id=2的数据后,直接看发现是已经删除的;
但是一旦当我们的客户端异常崩溃,此时在去右侧查看这张表,发现2又回来了
示例3:
将事务提交方式改成自动
此时也是执行单纯的SQL语句,删除id=1的数据,删除后直接崩溃异常。发现数据就是真正的删除了
对比示例2与示例3:
因此,我们可以再次验证一下,单SQL如果在自动提交关闭的情况下进行commit,会发生什么情况:
我们发现,同样永久修改了数据库。
由此可以证明每一条SQL语句就是一个事务,只不过以前存在自动提交,我们并不能发现。
结论:
事务操作注意事项:
感性理解
上面是一个时间轴,假设你在2000年出生,那么你只能看到你出生后的事情,无法看到2000年之前的事情;有一个1900年出生的人他只活了100岁,那么他只能看到从他出生到2000年之间的事情,无法看到2000年之后的事情。也就是说一个人只能看到在他生命周期之间发生的事情,无法看到以外的事情,这就叫做隔离
同样一个事务在执行期间,为了防止受到干扰,于是引入了隔离性的特征,根据影响程度的不同,划分出了隔离级别。
理论推导
隔离级别如何实现:隔离,基本都是通过锁实现的,不同的隔离级别,锁的使用是不同的。常见有,表锁,行锁,读锁,写锁,间隙锁(GAP),Next-Key锁(GAP+行锁)等。
mysql> select @@global.tx_isolation;
mysql> select @@session.tx_isolation;
mysql> select @@tx_isolation;
说明:
SET [SESSION | GLOBAL] TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ
COMMITTED | REPEATABLE READ | SERIALIZABLE}
说明:
我们想以会话(session)的方式将事务设置成读提交:
mysql> set session transaction isolation level read committed;
验证其他会话的隔离没有改变
注意:一旦修改了global的隔离级别,当前会话必须重新登录,隔离级别才会被修改
在上面4.1 事务的正常操作中我们使用的就是读未提交,这里正式说明一下。
首先要把事务global隔离级别设置成读未提交,同时保证当前会话的隔离级别是读未提交
后begin开启左右两个事务,此时两个事务在并发运行
我们向左侧事务中插入一些数据,发现右侧立马就能够看到
可是我们是把在begin和commit之间的操作打成包,才叫做一个事务,所以左右两侧的事务都不完整。
由于事务具有原子性,在左侧事务没有结束(即没有commit)时,理论上右侧事务是无法看到左侧未结束的事务,但是我们设置了读未提交,结果就是在左侧事务执行的过程中,右侧事务能够看到左侧事务的一举一动。
同样我们对左侧事务的更新和回滚,右侧事务也能够立马看到。
读未提交隔离级别的问题:
脏读,一个事务在执行中,读到另一个执行中事务的更新(或其他操作)但是未commit的数据,这种现象叫做脏读
(dirty read)。
首先要把事务global隔离级别设置成读提交,同时保证当前会话的隔离级别是读提交。
现在我们开启两个事务,使它们并发运行
向左侧事务插入一条数据,此时右侧事务去查看并不能看到
此时我们更新左侧数据,和上面一样右侧事务并不能看到,但是左侧事务自己查看可以看到
一旦我们提交左侧事务,即使右侧事务并未提交,也能看到左侧事务
读未提交隔离级别的问题:
不可重复读,此时还在当前事务中,并未commit,那么就造成了,同一个事务内,同样的读取,在不同的时间段(依旧还在事务操作中),读取到了不同的值,这种现象叫做不可重复读(non reapeatable read)
问题: 不可重复读,真的是问题吗?
我们构建下面的场景,在一家公司里老板会根据员工的薪资来发放奖品。
老板把任务交给小张,小张开启一个事务准备查询。现有一名叫做tom的员工告诉老板自己今年贡献要求老板涨薪,老板同意把他的薪资由3200变4500,同时把此任务交给小王,让小王去修改数据库tom的薪资,于是小王也开启了一个事务。小张像上面一样一条一条查询,查询到3000~4000之间时,小王还未修改tom薪资,于是在这个区间内就查询到了tom,因为两个事务在并发运行,此条语句结束后,小王突然修改了tom的薪资,小张去下一个区间查询也找到了tom,整个查询完后把数据交给发奖的人,他们一看发现tom的名字竟然出现了2次,难道tom有两种薪资,要给tom发两个奖品吗?这种情况不合理。
由此可见不可重复读是存在问题的。
首先要把事务global隔离级别设置成可重复读,同时保证当前会话的隔离级别是可重复读
开启两个事务,并发运行。
对左侧的事务插入更新和删除后,commit提交左侧事务;右侧事务没有提交,右侧事务去查看是看不到的
右侧事务无论什么时候进行查找,看到的结果都是一致的,这叫做可重复读
只有右侧事务commit提交结束后,才能看到左侧事务
可重复读隔离级别的问题:
幻读,专门针对insert。
多次查看,发现左侧在对应事务中insert的数据,在右侧的事务周期中,也没有什么影响,也符合可重复的特点但是,一般的数据库在可重复读情况的时候,无法屏蔽其他事务insert的数据(为什么?因为隔离性实现是对数据加锁完成的,而insert待插入的数据因为并不存在,那么一般加锁无法屏蔽这类问题),会造成虽然大部分内容是可重复读的,但是insert的数据在可重复读情况被读取出来,导致多次查找时,会多查找出来新的记录,就如同产生了幻觉。这种现象,叫做幻读(phantom read)。很明显,MySQL在RR级别的时候,是解决了幻读问题的(解决的方式是用Next-Key锁(GAP+行锁))解决的。
首先要把事务global隔离级别设置成串行化,同时保证当前会话的隔离级别是串行化。
左右两侧开启两个事务,如果两个事务对表的操作都是读操作,那么这两个事务可以并发执行,不会阻塞
如表中有任何一个事务对表进行写操作,那么这个事务会立即被阻塞
直到访问这张表的其他事务都提交后,这个阻塞事务才会被唤醒,才能对表进行修改操作
串行化:对所有操作全部加锁,进行串行化,不会有问题,但是只要串行化,效率很低,几乎完全不会被采用
两个事务同时读取不会串行化,共享锁;一旦一个事务对表进行CURD操作时,此事务会被放入等待队列被阻塞,直到另一个事务提交,如果此事务阻塞时间过长,将会由于锁等待超时退出当前事务。
事务执行的结果,必须使数据库从一个一致性状态,变到另一个一致性状态。当数据库只包含事务成功提交的结果时,数据库处于一致性状态。
一个事务中所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚到事务开始前的状态,就像这个事务从来没有执行过一样,即一致性需要原子性来保证
数据库允许多个并发事务同时对其数据进行读写和修改的能力,不会因为多个事务并发执行时由于交叉执行而导致数据的不一致,即一致性需要隔离性来保证
事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失,即一致性需要持久性来保证
其实一致性和用户的业务逻辑强相关,一般MySQL提供技术支持,但是一致性还是要用户业务逻辑做支撑,也就是,一致性,是由用户决定的。而技术上,通过AID保证C
总结:一致性是数据库最终想要达成的效果,它不仅需要原子性,隔离性,持久性来保证,还需要用户业务逻辑做支撑。
上面的学习中我们已经能够很容易理解读未提交和串行化,那么关于读提交(RC)和可重复读(RR)是怎么做到的呢?它们的原理是什么?在RR级别中,多个事务的update,多个事务的insert,多个事务的delete,是否会有加锁现象呢?下面就来深入理解一下这部分内容。
多版本并发控制(MVCC)是一种用来解决读-写冲突的无锁并发控制
1.事务的先后顺序问题如何保证?
MySQL会为事务分配单向增长的事务ID,为每个修改保存一个版本,版本与事务ID关联。因此每个事务都要有自己的事务ID,可以根据事务ID的大小,来决定事务到来的先后顺序
2.mysqld可能会面临多个事务的情况
理解MVCC 需要知道三个前提知识:
DB_TRX_ID
:6 byte,最近修改( 修改/插入)事务ID,记录创建这条记录/最后一次修改该记录的事务IDDB_ROLL_PTR
: 7 byte,回滚指针,指向这条记录的上一个版本(简单理解成,指向历史版本就行,这些数据一般在undo log 中)DB_ROW_ID
: 6 byte,隐含的自增ID(隐藏主键),如果数据表没有主键, InnoDB 会自动以DB_ROW_ID 产生一个聚簇索引示例:我们创建一个学生表,向其中插入数据,我们查看表是只有name和age两列
实际上还会添加3个隐藏字段
我们目前并不知道创建该记录的事务ID,隐式主键,我们就默认设置成9,1。第一条记录也没有其他版本,我们设置回滚指针为null。
MySQL 将来是以服务进程的方式,在内存中运行。我们之前所讲的所有机制:索引,事务,隔离性,日志等,都是在内存中完成的,即在MySQL 内部的相关缓冲区中,保存相关数据,完成各种判断操作。然后在合适的时候,将相关数据刷新到磁盘当中的。
所以,我们这里理解undo log,简单理解成,就是MySQL 中的一段内存缓冲区,用来保存日志数据的就行。
现在有一个事务10(仅仅为了好区分),对student表中记录进行修改(update):将name(张三)改成name(李四)
备注:此时,最新的记录是’李四‘那条记录
现在又有一个事务11,对student表中记录进行修改(update):将age(28)改成age(38)。
这样,我们就有了一个基于链表记录的历史版本链。所谓的回滚,无非就是用历史数据,覆盖当前数据。
上面的一个一个版本,我们可以称之为一个一个的快照。
上面是以更新(upadte
)主讲的,下面我们就来谈论insert,delete和select
insert和delete
delete: 记录被删除并不代表真的删除,而是先将记录拷贝一份放到undo log中,设置删除flag为1,这样回滚操作时falg又变回0,删除的数据就会恢复。
insert: 因为insert是插入,也就是之前没有数据,那么insert也就没有历史版本。但是一般为了回滚操作,insert的数据也是要被放入undo log中,如果当前事务commit了,那么这个undolog 的历史insert记录就可以被清空了。
即insert和delete也能形成版本。
select
首先,select不会对数据做任何修改,所以,为select维护多版本,没有意义。不过,此时有个问题,就是:
select读取,是读取最新的版本呢?还是读取历史版本?
在多个事务同时删改查的时候,都是当前读,是要加锁的。那同时有select过来,如果也要读取最新版(当前读),那么也就需要加锁,这就是串行化。
但如果是快照读,读取历史版本的话,是不受加锁限制的。也就是可以并行执行!换言之,提高了效率,即MVCC的意义所在。
隔离级别决定了select查询时应该进行当前读还是快照读。
回到我们开始的问题:为什么要有隔离级别呢?
事务从begin->CURD->commit,是有一个阶段的。也就是事务有执行前,执行中,执行后的阶段。但,不管怎么启动多个事务,总是有先有后的。那么多个事务在执行中,CURD操作是会交织在一起的。那么,为了保证事务的“有先有后”,是不是应该让不同的事务看到它该看到的内容,这就是所谓的隔离性与隔离级别要解决的问题
即Read View 是事务可见性的一个类,不是事务创建出来就会有Read View ,而是当这个事务(已经存在),首次进行快照读的时候,mysql形成Read View
下面我们简化Read View结构:
class ReadView {
// 省略...
private:
/** 高水位:大于等于这个ID的事务均不可见*/
trx_id_t m_low_limit_id;
/** 低水位:小于这个ID的事务均可见 */
trx_id_t m_up_limit_id;
/** 创建该 Read View 的事务ID*/
trx_id_t m_creator_trx_id;
/** 创建视图时的活跃事务id列表*/
ids_t m_ids;
/** 配合purge,标识该视图不需要小于m_low_limit_no的UNDO LOG,
* 如果其他视图也不需要,则可以删除小于m_low_limit_no的UNDO LOG*/
trx_id_t m_low_limit_no;
/** 标记视图是否被关闭*/
bool m_closed;
// 省略...
};
成员说明:
我们在实际读取数据版本链的时候,是能读取到每一个版本对应的事务ID的,即:当前记录的DB_TRX_ID。
我们现在得到了当前快照读的ReadView 和 版本链中的某一个记录的DB_TRX_ID。
问题:当前快照读,应不应该读到当前版本记录呢?
结论:一个事务在进行读操作时,只应该看到自己或已经提交的事务所作的修改,因此我们可以根据Read View来判断当前事务能否看到另一个事务所作的修改
源码策略如下:
如果查到不应该看到当前版本,接下来就是遍历下一个版本,直到符合条件,即可以看到。上面的readview 是当你进行select的时候,会自动形成。
假设当前有条记录:
事务操作:
事务4:修改name(张三) 变成name(李四)
当事务2 对某行数据执行了快照读,数据库为该行数据生成一个Read View 读视图
//事务2的 Read View
m_ids; // 1,3
up_limit_id; // 1
low_limit_id; // 4 + 1 = 5,原因:ReadView生成时刻,系统尚未分配的下一个事务ID
creator_trx_id // 2
只有事务4修改过该行记录,并在事务2执行快照读前,就提交了事务。
我们的事务2在快照读该行记录的时候,就会拿该行记录的DB_TRX_ID 去跟up_limit_id,low_limit_id和活跃事务ID列表(trx_list) 进行比较,判断当前事务2能看到该记录的版本。
//事务2的 Read View
m_ids; // 1,3
up_limit_id; // 1
low_limit_id; // 4 + 1 = 5,原因:ReadView生成时刻,系统尚未分配的下一个事务ID
creator_trx_id // 2
//事务4提交的记录对应的事务ID
DB_TRX_ID=4
//比较步骤
DB_TRX_ID(4)< up_limit_id(1) ? 不小于,下一步
DB_TRX_ID(4)>= low_limit_id(5) ? 不大于,下一步
m_ids.contains(DB_TRX_ID) ? 不包含,说明,事务4不在当前的活跃事务中。
//结论
故,事务4的更改,应该看到。
所以事务2能读到的最新数据记录是事务4所提交的版本,而事务4提交的版本也是全局角度上最新的版本
演示1:
启动两个终端,将事务的隔离级别都改为可重复读。在两个终端各自启动一个事务,在左终端中的事务操作之前,先让右终端中的事务查看一下表中的信息。如下:
左终端中的事务对表中的信息进行修改并提交,针对可重复读的隔离级别,右终端中的事务看不到修改后的数据,即便左侧commit,在右侧的事务只要未停止,那么右终端中的事务就看不到修改后的数据,因为这种读都被称之为快照读。如下:
在右终端中使用select ... lock in share mode
命令进行当前读,可以看到表中的数据确实是被修改了,只是右终端中的事务看不到而已。如下:
演示2:
我们将左右两侧事务begin以后,不让右侧进行快照读,仅仅只是让左侧的事务进行修改数据并提交,提交之后,右侧的事务在进行快照读与当前读,我们发现这两个结果是一样的,都是当前读的数据: