当前台进程发出SELECT或者其他DML语句时,oracle根据SQL语句的执行计划所找到的数据块,会构造一个名为数据块描述(bufferdescriptor)的内存结构。该bufferdescriptor位于session的PGA中,所包含的内容主要是数据块所在的物理地址、数据块的类型、数据块所属对象的objectid等信息。
随后,oracle会把对数据块请求的锁定模式以及所构造出来的bufferdescriptor传入专门搜索数据块的函数中。在该函数中,oracle根据bufferdescriptor所记录的信息,应用hash算法以后,得到要找的数据块所处的hash bucket,也就是确定该数据块在哪条hashchain上。然后,oracle进入该hash chain,从上面所挂的第一个bufferheader开始搜索,一直搜索到最后一个buffer header。
在hash chain上搜索的逻辑如下:
1) 比较buffer header上所记录的数据块的地址,如果不符合,则跳过该bufferheader。
2) 跳过状态为CR的buffer header。
3) 如果遇到状态为READING的buffer header,则等待,一直等到该bufferheader的状态改变以后再比较所记录的数据块的地址是否符合。
4) 如果发现数据块地址符合的buffer header,则查看该bufferheader是否位于正在使用的列表上,如果是,则判断已存在的锁定模式与当前所要求的锁定模式是否兼容,如果是,则返回该bufferheader所记录的数据块地址,并将当前进程号放入该buffer header所处的正在使用的列表上。
5) 如果发现锁定模式不兼容,则根据找到的bufferheader所指向的数据块的内容,构建一个新的、内容一样的、状态为XCURRENT的复制数据块,并且构造一个状态为CR的bufferheader,同时该buffer header指向所新建立的复制数据块。然后,返回该复制数据块的地址,并将当前进程号放入该bufferheader所处的正在使用的列表上。
6) 如果比较完整个hash chain以后还没发现所要找的bufferheader,则从磁盘上读取数据文件。并将读取到的数据块所对应的buffer header挂到hash chain上。
3.2 LRU和LRUW链表结构及其管理机制
3.2.1 LRU和LRUW链表结构概述
在前面,我们已经知道了oracle是如何在hash chain中搜索要找的数据块所对应的bufferheader的过程,我们也知道如果在hash chain上没有找到所要的bufferheader时,oracle会发出I/O调用,到磁盘上的数据文件中获取数据块,并将该数据块的内容拷贝一份到buffercache中的内存数据块里(顺带提一句,内存数据块通常叫做buffer,而数据文件里的数据块通常叫做block,二者是一个意思)。这个时候,假如buffercache是空的,比较好办,直接拿一个空的内存数据块来用即可。但是如果buffercache中的内存数据块全都被用掉了,没有空的内存数据块了,怎么办?应该重新使用哪一个内存数据块?当然我们可以一个一个的比较内存数据块与其对应在数据文件中的数据块的内容是否一致,如果一致则可以将该数据块拿来,将其内容清空,然后拷贝上当前数据块的内容;如果不一致,则跳过,再找下一个。毫无疑问,这种方式效率低下。为了高效的管理buffercache中的内存数据块,oracle引入了LRU和LRUW等链表等结构。
在buffercache中,最耳熟能详的链表可能就是LRU链表了。在前面描述buffercache结构的图上,也可以看到有两个链表:LRU和LRUW。在介绍LRU和LRUW前,先说明几个概念。
1)脏数据块(dirty buffer):buffercache中的内存数据块的内容与数据文件中的数据块的内容不一致。
2)可用数据块(free buffer):buffercache中的内存数据块为空或者其内容与数据文件中的一致。注意,可用数据块不一定是空的。
3)钉住的数据块(ping buffer):当前正在更新的内存数据块。
4)数据库写进程(DBWR):这是一个很底层的数据库后台进程。既然是后台进程,就表示该进程是不能被用户调用的。由oracle内置的一些事件根据需要启动该进程,该进程用来将脏数据块写入磁盘上的数据文件。
LRU表示LeastRecently Used,也就是指最近最少使用的buffer header链表。LRU链表串连起来的bufferheader都指向可用数据块。而LRUW则表示Least Recently Used Write,也叫做dirtylist,也就是脏数据块链表,LRUW串起来的都是修改过但是还没有写入数据文件的内存数据块所对应的bufferheader。某个buffer header要么挂在LRU上,要么挂在LRUW上,不能同时挂在这两个链表上。
随着硬件技术的发展,电脑的内存越来越大。buffer cache也是越来越大,只用一条LRU和一条LRUW来管理bufferheader已经不够用了。同时oracle还引入了多个DBWR后台进程来帮助将buffercache中的脏数据块写入数据文件,显然,多个DBWR后台进程都去扫描相同的LRUW链表会引起争用。为此oracle引入了workingset的概念。每个working set都具有它自己的一组LRU和LRUW链表。每个working set都由一个名为“cachebuffers lru chain”的latch(也叫做lru latch)来管理,所以从这个意义上说,每一个lrulatch就是一个working set。而每个被加载到buffer cache的bufferheader都以轮询的方式挂到working set上去。也就是说,当buffercache加载一个新的数据块时,其对应的buffer header会去找一个可用的lru latch,如果没有找到,则再找下一个lrulatch,直到找到为止。如果轮询完所有的lru latch也没能找到可用的lru latch,该进程只有等待latchfree等待事件,同时出现在v$session_wait中,并增加“latchmisses”。如果启用了多个DBWR后台进程的话,每个DBWR进程都会对应一个不同的workingset,而且每个DBWR只会处理分配给它的working set,不会处理其他的working set。
我们已经知道一个lrulatch就是一个working set,那么working set的数量也就是lru latch的数量。而lrulatch的数量是由一个隐藏参数:_db_block_lru_latches决定的。该参数缺省值为DBWR进程的数量×8。
该参数最小必须为8,如果强行设置比8小的数值,oracle将忽略你设置的值,而使用8作为该参数值。
3.2.2 深入LRU链表
我们已经知道LRU链表是用来查找可以重用的内存数据块的,那么oracle是怎么使用LRU链表的呢?这里需要分为8i之前和8i以后两种情况。
在8i之前,我们举一个例子。假设buffercache只能容纳4个数据块,同时只有一个hash chain和一个LRU。当数据库刚刚启动,buffercache是空的。这时前台进程发出SELECT语句获取数据块时,oracle找一个空的内存数据块,并将其对应的bufferheader挂到hash chain上。同时,oracle还会把该bufferheader挂到LRU的最尾端。随后前台进程又发出SELECT语句,这时所找到的bufferheader在LRU上会挂到前一个buffer header的后面,也就是说第二次SELECT语句所找到的bufferheader现在变成了LRU的最尾端了。假设发出4句SELECT以后找到了4个buffer header,从而用完了所有的buffercache空间。这个时候的LRU可以用下图二来表示。
这个时候,发来了第五句SELECT语句。这时的buffercache里已经没有空的内存数据块了。但是既然需要容纳下第五个数据块,就必然需要找一个可以被替换(后面会看到类似牺牲、重用的字样,它们和替换都是一个意思)的内存数据块。这个内存数据块会到LRU上去找。按照oracle设定的最近最少使用的原则,位于LRU最尾端的BH1将成为牺牲者,oracle会把该BH1对应的内存数据块的内容清空,并将当前第五句SQL所获得的数据块的内容拷贝进去。这个时候,BH1就成了LRU的首端,而BH2则成为了LRU的尾端。如下图三所示。在这种方式下,经常被访问的数据块可以一直靠近LRU的首端,也就保证了这些数据块可以尽可能的不被替换掉,从而保证了访问的效率。
图三
到了8i以后,oracle引入了一种更加复杂的机制来管理LRU上的数据块。8i以后,LRU和LRUW链表都具有两个子链表,分别叫做辅助链表和主链表。同时还对bufferheader增加了一个属性:touch数量,也就是每个bufferheader曾经被访问过的次数,来对LRU链表进行管理。oracle每访问一次buffer header,就会将该bufferheader上的touch数量增加1,因此,touch数量“近似”的体现了某个内存数据块总共被访问的次数。注意,这只是近似,并不精确。因为touch的增加并没有使用latch来管理并发性。这只是一个大概值,表示趋势的,不用百分百的精确。
还是用上面的这个例子来说明。还是假设buffer cache只能容纳4个数据块,同时只有一个hashchain和一个LRU(确切的说应该是一对LRU主链表和辅助链表)。读入第一个数据块时,该数据块对应的bufferheader会挂到LRU辅助链表(注意,这里是辅助链表,而不是主链表)的最末端,同时touch数量为1。读取第二个不同的数据块时,该数据块对应的bufferheader会挂到前一个bufferheader的后面,从而位于LRU辅助链表的最末端,同样touch为1。假设4个数据块全都用完以后的LRU链表可以用下图四描述。每个bufferheader的touch数量都为1。
从上图中我们可以看到辅助LRU链表都挂满了,而主LRU链表还是空的。这个时候,前台发出第五句SQL语句,要求返回指定的数据块。这时,oracle发现buffercache里已经没有空的内存数据块了,于是从辅助LRU链表的尾部开始扫描,也就是从BH1开始扫描,以查找可以被替代的数据块。扫描的过程中按照下面的逻辑来选择被牺牲的(也就是可以被替代的)数据块:
1) 如果被扫描到的bufferheader的touch数量小于隐藏参数_db_aging_hot_criteria(该参数缺省为2)的值,则选中该bufferheader作为牺牲者,并立即返回该buffer header所含有的数据块的地址。
2) 如果当前buffer header的touch数量大于_db_aging_hot_criteria的值,则不会使用该bufferheader。但是如果当前的_db_aging_stay_count的值小于_db_aging_hot_criteria的值,则会将当前该bufferheader的touch值赋值给_db_aging_stay_count;否则将当前bufferheader的touch数量减掉一半。
按照上述的逻辑,这时将选出BH1作为牺牲者(因为BH1的touch数量为1,小于_db_aging_hot_criteria
的值),并将其对应的内存数据块的内容清空,同时将当前第五个数据块的内容拷贝进去。但是这里要注意,这个时候该BH1在LRU链表上的位置并不会发生任何的变化。而不会像8i之前的那样,BH1变成LRU链表的首端。
接下来,前台发来了第六句和第七句SQL,分别要返回与第五句和第四句SQL一样的数据块,也就是要返回当前的BH1和BH4。这个时候,oracle会增加BH1和BH4的touch数量,同时将该BH1和BH4从辅助LRU链表上摘下,转移到主LRU链表的中间位置。可以用下图五描述。
图五
这个时候,如果发来了第八句SQL,要求返回与第三句SQL相同的数据块,也就是当前的BH3,则这时该BH3会插入主LRU链表上的BH1和BH4中间,注意每次向主LRU列表插入bufferheader时都是向中间位置插入。如果发来了第九句SQL要求返回BH2,则我们可以知道,BH2会转移到主LRU链表的中间。这个时候,辅助LRU链表就空了,没有bufferheader了。
这时,如果又发来第十句SQL,要求返回一个新的、buffercache中不存在所需内容的数据块时。oracle会先扫描辅助LRU链表,发现上面没有任何的bufferheader时,则必须扫描主LRU链表。从尾部开始扫描,采用前面说到的与扫描辅助LRU链表相同的规则挑选牺牲者。挑出的可以被替代的bufferheader将从主LRU链表上摘下,放入辅助LRU链表。
从上面所描述的bufferheader在辅助LRU链表和主LRU链表之间交替的过程中,我们可以看出,oracle改进LRU链表的管理方式的目的,就是想千方百计的能够将多次被访问的数据块保留在内存里,同时又要平衡有限的内存资源。这种方式相比较8i之前而言,无疑是进步很多的。在8i之前中,某个数据块可能只会被访问一次,但是就这么一次的访问就将该数据块放到了LRU的首端,从而可能就挤掉了一个LRU上不是那么经常被访问,但是也会多次访问的数据块。而8i以后,将访问一次的数据块和访问一次以上的数据块彻底分开,而且查找可用数据块时,始终都是从辅助LRU链表开始扫描。实际上也就使得越倾向于只访问一次的数据块越快的从内存中清理出去。
随着内存的不断增加,1个DBWR进程可能不够用了。所以从8i起,我们可以为系统配置多个DBWR进程。初始化参数:db_writer_processe决定了启动多少个DBWR进程。每个DBWR进程都会分配一个lrulatch,也就是说每个DBWR进程对应一个working set。因此oracle建议配置的DBWR进程的数量应该等于lrulatch的数量,同时应该小于CPU的数量。系统启动时,就确定好了workingset与DBWR进程的对应关系,每个DBWR进程只会将分配给自己的working set上的脏数据块写入数据文件。
DBWR作为一个后台进程,只有在某些条件满足了才会触发。这些条件包括:
1)当进程在辅助LRU链表和主LRU链表上扫描以查找可以覆盖的buffer header时,如果已经扫描的bufferheader的数量到达一定的限度(由隐藏参数:_db_block_max_scan_pct决定)时,触发DBWR进程。_db_block_max_scan_pct表示已经扫描的bufferheader的个数占整个LRU链表上buffer header总数的百分比。这时,搜索可用bufferheader的进程挂起,在v$session_wait中表现为等待“free bufferwait”事件,同时增加v$sysstat中的“dirty buffers inspected”的值。
2) 当DBWR在主LRUW链表上查找已经更新完而正在等待被写入数据文件的buffer header时,如果找到的bufferheader的数量超过一定限度(由隐藏参数:_db_writer_scan_depth_pct决定)时,DBWR就不再继续往下扫描了,而转到辅助LRUW链表上将其上的脏数据块写入数据文件。_db_writer_scan_depth_pct表示已经扫描的脏数据块的个数占整个主LRUW链表上bufferheader总数的百分比。
3)如果主LRUW链表和辅助LRUW链表上的脏数据块的总数超过一定限度,也将触发DBWR进程。该限度由隐藏参数:_db_large_dirty_queue决定。
4) 发生增量检查点(incremental checkpoint)或完全检查点(completecheckpoint)时触发DBWR。
5) 每隔三秒钟启动一次DBWR。
6) 将表空间设置为离线(offline)状态时触发DBWR。
7) 发出命令:alter tablespace … beginbackup,从而将表空间设置为热备份状态时触发DBWR。
8) 将表空间设置为只读状态时,触发DBWR。
9) 删除对象时(比如删除某个表)会触发DBWR。
当DBWR要写脏数据块时,并不是说立即将所有的脏数据块都同时写入磁盘。为了尽量减少物理的
I/O的次数,DBWR会将要写的脏数据块所对应的buffer header拷贝到一个名为批量写(writebatch)的结构中。每个working set所对应的DBWR进程都可以向该结构里拷贝buffer header。当writebatch的bufferheader的个数达到一定限额时,才会发生实际的I/O,从而将脏数据块写入磁盘。这个限额为硬件平台所能支持的同时并发的异步I/O的最大数量。8i之前是可以用隐藏参数(_db_block_write_batch)来控制这个限额的。但是8i以后,取消了该参数,而由oracle自己来计算。
为了能够最佳的确定这个起点,oracle引入了名为CKPT的后台进程,通常也叫作检查点进程(checkpointprocess)。这个进程与DBWR共同合作,从而确定这个起点。同时,这个起点也有一个专门的名字,叫做检查点位置(checkpointposition)。
oracle为了在检查点的算法上更加的具有可扩展性(也就是为了能够在巨大的buffercache下依然有效工作),引入了检查点队列(checkpoint queue),该队列上串起来的都是脏数据块所对应的bufferheader。而DBWR每次写脏数据块时,也是从检查点队列上扫描脏数据块,并将这些脏数据块实际写入数据文件的。当写完以后,DBWR会将这些已经写入数据文件的脏数据块从检查点队列上摘下来。这样即便是在巨大的buffercache下工作,CKPT也能够快速的确定哪些脏数据块已经被写入了数据文件,而哪些还没有写入数据文件,显然,只要在检查点队列上的数据块都是还没有写入数据文件的脏数据块。而且,为了更加有效的处理单实例和多实例(RAC)环境下的表空间的检查点处理,比如将表空间设置为离线状态或者为热备份状态等,oracle还专门引入了文件队列(filequeue)。
文件队列的原理与检查点队列是一样的,只不过每个数据文件会有一个文件队列,该数据文件所对应的脏数据块会被串在同一个文件队列上;同时为了能够尽量减少实例崩溃后恢复的时间,oracle还引入了增量检查点(incrementalcheckpoint),从而增加了检查点启动的次数。如果每次检查点启动的间隔时间过长的话,再加上内存很大,可能会使得恢复的时间过长。因为前一次检查点启动以后,标识出了这个起点。然后在第二次检查点启动的过程中,DBWR可能已经将很多脏数据块已经写入了数据文件,而假如在第二次检查点启动之前发生实例崩溃,导致在日志文件中,所标识的起点仍然是上一次检查点启动时所标识的,导致oracle不知道这个起点以后的很多重做条目所对应的脏数据块实际上已经写入了数据文件,从而使得oracle在实例恢复时再次重复的处理一遍,效率低下,浪费时间。
上面说到了有关CKPT的两个重要的概念:检查点队列(包括文件队列)和增量检查点。检查点队列在我们上面转储出来的bufferheader里可以看到,就是类似ckptq: [65abceb4,63bec66c]和fileq:[65abcfbc,63becd10]的结构,记录的同样都是指向前一个buffer header和指向后一个bufferheader的指针。这个队列上面挂的也是脏数据块对应的bufferheader链表,但是它与LRUW链表不同。检查点队列上的bufferheader是按照数据块第一次被修改的时间的先后顺序来排列的。越早修改的数据块的bufferheader排在越前面,同时如果一个数据块被修改了多次的话,在该链表上也只出现一次。而且,检查点队列上的bufferheader还记录了脏数据块在第一次被修改时,所对应的重做条目在重做日志文件中的地址,也就是RBA(Redo BlockAddress)。同样在转储出来的buffer header中可以看到类似LRBA:[0xe9.229.0]的结构,这就是RBA,L表示Low,也就是第一次被修改的时候的RBA。但是注意,在检查点队列上的bufferheader,并不表示一定会有一个对应的RBA,比如控制文件重做(controlfileredo)就不会有相应的RBA。对于没有对应RBA的bufferheader来说,在检查点队列上始终处于最尾端,其优先级永远比有RBA的脏数据块的bufferheader要低。8i以前,每个workingset都有一个检查点队列以及多个文件队列(因为一个数据文件对应一个文件队列);而从8i开始,每个workingset都有两个检查点队列,每个检查点都会由checkpoint queue latch来保护。
而增量检查点是从8i开始出现的,是相对于8i之前的完全检查点(completecheckpoint)而言的。完全检查点启动时,会标识出buffercache中所有的脏数据块,然后启动DBWR进程将这些脏数据块写入数据文件。8i之前,日志切换的时候会触发完全检查点。而到了8i及以后,完全检查点只有在两种情况下才会被触发:1)发出命令:altersystem checkpoint;2)除了shutdownabort以外的正常关闭数据库。注意,这个时候,日志切换不会触发完全检查点,而是触发增量检查点。8i所引入的增量检查点每隔三秒钟或发生日志切换时启动。它启动时只做一件事情:找出当前检查点队列上的第一个bufferheader,并将该buffer header中所记录的LRBA(这个LRBA也就是checkpointposition了)记录到控制文件中去。如果是由日志切换所引起的增量检查点,则还会将checkpointposition记录到每个数据文件头中。也就是说,如果这个时候发生实例崩溃,oracle在下次启动时,就会到控制文件中找到这个checkpointposition作为在日志文件中的起点,然后从这个起点开始向后,依次取出每个重做条目进行处理。
上面所描述的概念,用一句话来概括,其实就是DBWR负责写检查点队列上的脏数据块,而CKPT负责记录当前检查点队列的第一个数据块所对应的的重做条目在日志文件中的地址。从这个意义上说,检查点队列比LRUW还要重要,LRUW主要就是区分出哪些数据块是脏的,不可以被重用的。而到底应该写哪些脏数据块,写多少脏数据块,则还是要到检查点队列上才能确定的。
我们用一个简单的例子来描述这个过程。假设系统中发生了一系列的事务,导致日志文件如下所示: