完整性和事务是数据库基本完成的基础
事务(Transaction)是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可分割的工作单位。
事务的开始和结束可以由用户显示控制,如果没有显式定义,则由数据库管理系统按默认规定自动划分事务
a.在关系数据库中,一个事务可以是一条SQL语句,一组SQL语句或整个程序
b.一个程序通常包含多个事务
在SQL中,事务通常以BEGIN TRANSACTION开始,以COMMIT或ROLLBACK结束
COMMIT:
a.事务正常结束
b.提交事务的所有操作(读+更新)
c.事务中所有对数据库的更新写回到磁盘上的物理数据库中
ROLLBACK:
a.事务异常终止
b.事务运行的过程中发生了故障,不能继续执行
c.系统将事务中对数据库的所有已完成的操作全部撤销
d.事务滚回到开始时的状态
总结:
COMMIT:提交事务的所有操作,事务正常结束。
ROLLBACK:回滚,即在事务运行的过程中发生了某种故障,事务不能继续执行,系统将事务中对数据库的所有已完成的操作全部车削,回滚到事务开始的状态。
事务是数据库的逻辑工作单位,所有操作要么都做要么都不做
如果事务的部分成功,部分失败,这就是“不一致”的状态,要么完成失败的,要么撤销成功的
一个事务的执行不能被其他事务干扰,即并发事务之间是隔离的,互不干扰的
一个事务一旦提交,对数据库中数据的改变就应该是永久的
保证事务ACID特性是事务处理的任务
破坏事务ACID特性的因素:
a.多个事务并行运行时,不同事务的操作交叉执行
——数据库管理系统必须保证多个事务的交叉运行不影响这些事务的隔离性
b.事务在运行过程中被强行停止
——数据库管理系统必须保证被强行终止的事务对数据库和其他事务没有任何影响
这就是数据库管理系统中恢复机制和并发控制机制的责任。
注:故障是不可避免的
计算机硬件故障、软件的错误、操作员的失误、恶意的破坏
运行事务非正常中断,影响数据库中数据的正确性
破坏数据库,全部或部分丢失数据
数据库管理系统必须具有把数据库从错误状态恢复到某一已知的正确状态(亦称为一致状态或完整状态)的功能,这就是数据库的恢复管理系统对故障的对策
恢复子系统是数据库管理系统的一个重要组成部分
恢复技术是衡量系统优劣的重要指标
事务没有达到预期的终点(COMMIT或者显式的ROLLBACK)
数据库可能处于不正确状态。
有的是可以通过事务程序本身发现的
有的是非预期的,不能由事务程序处理的
事务内部更多的故障是非预期的,是不能由应用程序处理的
a.运算溢出
b.并发事务发生死锁而被选中撤销该事务
c.违反了某些完整性限制而被终止等
注意:事务故障仅指这类非预期的故障
恢复程序要在不影响其他事务运行的情况下,强行撤销事务的已完成的修改
a.强行回滚(ROLLBACK)该事务
b.撤销该事务已经作出的任何对数据库的修改,使得该事务象根本没有启动一样
称为软故障,是指造成系统停止运转的任何事件,使得系统要重新启动
a.整个系统的正常运行突然被破坏
b.所有正在运行的事务都非正常终止
c.不破坏数据库
d.内存中数据库缓冲区的信息全部丢失
a.特定类型的硬件错误(如CPU故障)
b.操作系统故障
c.数据库管理系统代码错误
d.系统断电
a.发生系统故障时,一些尚未完成的事务的结果可能已送入物理数据库,造成数据库可能处于不正确状态
恢复策略:系统重新启动时,恢复程序让所有非正常终止的事务回滚,强行撤消(UNDO)所有未完成事务
b.发生系统故障时,有些已完成的事务可能有一部分甚至全部留在缓冲区,尚未写回到磁盘上的物理数据库中,系统故障使得这些事务对数据库的修改部分或全部丢失
恢复策略:系统重新启动时,恢复程序需要重做(REDO)所有已提交的事务
磁盘损坏、磁头碰撞、瞬时强磁场干扰等破坏数据库或部分数据库并影响正在存取这部分数据的所有事务
介质故障破坏数据库或部分数据库,并影响正在存取这部分数据的所有事务
介质故障比前两类故障的可能性小得多,但破坏性大得多
一种人为的故障或破坏,可以繁殖和传播,造成对计算机系统包括数据库的危害
有的病毒传播很快,一旦侵入系统就马上摧毁系统
有的病毒有较长的潜伏期,计算机在感染后数天或数月才开始发病
有的病毒感染系统所有的程序和数据
有的只对某些特定的程序和数据感兴趣
计算机病毒已成为计算机系统的主要威胁,自然也是数据库系统的主要威胁
数据库一旦被破坏仍要用恢复技术把数据库加以恢复
各类故障,对数据库的影响有两种可能性
一是数据库本身被破坏
二是数据库没有被破坏,但数据可能不正确,这是由于事务的运行被非正常终止造成的。
恢复操作的基本原理:冗余,即利用存储在系统别处的冗余数据,来重建数据库中已被破坏或不正确的那部分数据
恢复机制涉及的关键问题
转储是数据库回复中采用的基本技术,即指数据库管理员定期地将整个数据库复制到磁带、磁盘或其他存储介质上保存起来的过程。这些备用的数据文本称为后备副本(backup) 或 后援副本。
数据库遭到破坏后可以将后备副本重新装入,但是重装后备副本只能将数据库恢复到转储时的状态,要想恢复到故障发生时的状态,必须重新运行自转储以后的所有更新事务。同时,转储是十分耗费时间和资源的,不能频繁进行。
静态转储:
即在系统中无运行事务时进行的转储操作,转储开始时数据库处于一致性状态,转储期间不允许对数据库的任何存取、修改活动,得到的一定是一个数据一致性的副本。
优点是实现简单,但缺点是降低了数据库的可用性,转储必须等待正运行的用户事务结束,而且新的事务必须等转储结束。
动态转储:
即转储操作与用户事务并发进行,转储期间允许对数据库进行存取或修改。
优点是不用等待正在运行的用户事务结束,也不会影响新事务的运行,但缺点是不能保证副本中的数据正确有效。
可以看到,动态转储必须与日志文件(log file)相配合,把动态转储期间各事务对数据库的修改活动登记下来,建立日志文件,后备副本加上日志文件就能把数据库恢复到某一时刻的正确状态
海量转储: 每次转储全部数据库
增量转储: 只转储上次转储后更新过的数据
海量转储与增量转储比较
从恢复角度看,使用海量转储得到的后备副本进行恢复往往更方便;如果数据库很大,事务处理又十分频繁,则增量转储方式更实用更有效
日志文件(log file)是用来记录事务对数据库的更新操作的文件
以记录为单位的日志文件
以数据块为单位的日志文件
各个事务的开始标记(BEGIN TRANSACTION)
各个事务的结束标记(COMMIT或ROLLBACK)
各个事务的所有更新操作
以上均作为日志文件中的一个日志记录 (log record),每条日志记录的内容包括
事务标识(标明是哪个事务)
操作类型(插入、删除或修改)
操作对象(记录ID、Block NO.)
更新前数据的旧值(对插入操作而言,此项为空值)
更新后数据的新值(对删除操作而言, 此项为空值)
以数据块为单位的日志文件,每条日志记录的内容只有事务标识和被更新的数据块,即把更新后的整个块放入日志文件,操作类型和操作对象就不必放入日志记录中了
a.进行事务故障恢复,系统故障恢复,必须用日志文件协助后备副本进行介质故障恢复
b.在动态转储方式中必须建立日志文件,后备副本和日志文件结合起来才能有效地恢复数据库。
c.在静态转储方式中,也可以建立日志文件。当数据库毁坏后可重新装入后援副本把数据库恢复到转储结束时刻的正确状态,利用日志文件,把已完成的事务进行重做处理,对故障发生时尚未完成的事务进行撤销处理,就不必重新运行那些已完成的事务程序就可把数据库恢复到故障前某一时刻的正确状态。
为保证数据库是可恢复的,登记日志文件必须遵循两条原则:
a.登记的次序严格按并发事务执行的时间次序
b.必须先写日志文件,后写数据库
为什么要先写日志文件?
写数据库和写日志文件是两个不同的操作,在这两个操作之间可能发生故障,如果先写了数据库修改,
而在日志文件中没有登记下这个修改,则以后就无法恢复这个修改了,如果先写日志,但没有修改数据库,
按日志文件恢复时只不过是多执行一次不必要的UNDO操作,并不会影响数据库的正确性。
如何利用冗余数据进行恢复
(事务在运行至正常终止点前被终止)
由恢复子系统利用日志文件撤消(UNDO)此事务已对数据库进行的修改
事务故障的恢复由系统自动完成,对用户是透明的,不需要用户干预
a.反向扫描文件日志(即从最后向前扫描日志文件),查找该事务的更新操作。
b.对该事务的更新操作执行逆操作。即将日志记录中 “更新前的值” 写入数据库。
插入操作, “更新前的值”为空,则相当于做删除操作
删除操作,“更新后的值”为空,则相当于做插入操作
若是修改操作,则相当于用修改前值代替修改后值
c.继续反向扫描日志文件,查找该事务的其他更新操作,并做同样处理。
d.如此处理下去,直至读到此事务的开始标记,事务故障恢复就完成了。
(事务未完成,有些事务在缓冲区)
Undo 故障发生时未完成的事务,Redo 已完成的事务
系统故障的恢复由系统在重新启动时自动完成,不需要用户干预
a.正向扫描日志文件(即从头扫描日志文件),得到重做队列和撤销队列
重做(REDO) 队列:在故障发生前已经提交的事务,这些事务既有BEGIN TRANSACTION记录,也有 COMMIT记录
撤销 (UNDO)队列:故障发生时尚未完成的事务,这些事务只有BEGIN TRANSACTION记录,无相应的 COMMIT记录
b.对撤销(UNDO)队列事务进行撤销(UNDO)处理
反向扫描日志文件,对每个撤销事务的更新操作执行逆操作
c.对重做(REDO)队列事务进行重做(REDO)处理
正向扫描日志文件,对每个重做事务重新执行登记的操作
(物理数据和日志文件被破坏)
重装数据库,然后重做已完成的事务
介质故障的恢复需要数据库管理员介入,数据库管理员重装最近转储的数据库副本和有关的各日志文件副本,然后执行系统提供的恢复命令,具体的恢复操作仍由数据库管理系统完成
a.装入最新的后备数据库副本(离故障发生时刻最近的转储副本) ,使数据库恢复到最近一次转储时的一致性状态。对于动态转储的数据库副本,还须同时装入转储时刻的日志文件副本,利用恢复系统故障的方法(即REDO+UNDO), 才能将数据库恢复到一致性状态。
b.装入有关的日志文件副本(转储结束时刻的日志文件副本) ,重做已完成的事务。这里要首先扫描日志文件,找出故障发生时已提交的事务的标识,将其记入重做队列。然后正向扫描日志文件,对重做队列中的所有事务进行重做处理。即将日志记录中“更新后的值”写入数据库。
在上述恢复技术中,搜索整个日志将耗费大量的时间,而且许多重做处理实际上是已经完成了的,要重新执行,也浪费了大量时间。因此产生具有检查点(checkpoint)的恢复技术,在日志文件的内容中增加检查点记录(checkpoint),增加重新开始文件,恢复子系统在登录日志文件期间动态地维护日志。
>>>具有检查点的恢复技术
>>>数据库镜像
事务是数据库的逻辑工作单位
事务不仅是恢复的基本单位,也是并发控制的基本单位
数据库管理系统保证系统中一切事务的原子性、一致性、隔离性和持续性,就保证了事务处于一致状态
故障的种类:事务故障、系统故障、介质故障
恢复中最经常使用的技术:数据库转储、登记日志文件
恢复的基本原理:利用存储在后备副本、日志文件和数据库镜像中的冗余数据来重建数据库