详细解读 STATSPACK 报告(一)

1、报表头信息

/* 报表头信息,数据库实例相关信息,包括数据库名称、ID、版本号及主机明等信息。

   另外,重点还需要关注一下报告产生的时间跨度(在这里是14分钟),以及并发数(在这里是272)。

DB Name         DB Id    Instance     Inst Num Release     Cluster Host

------------ ----------- ------------ -------- ----------- ------- ------------

ORA92         1924035339 ora92               1 9.2.0.6.0   NO      jsdxh_db02

              Snap Id     Snap Time      Sessions Curs/Sess Comment

            --------- ------------------ -------- --------- -------------------

Begin Snap:        13 14-Jul-07 00:18:52      274  55,345.0

  End Snap:        14 14-Jul-07 00:32:55      272  55,823.8

   Elapsed:               14.05 (mins)

Cache Sizes (end)

~~~~~~~~~~~~~~~~~

               Buffer Cache:     5,120M      Std Block Size:          8K

           Shared Pool Size:       400M          Log Buffer:      2,048K

2、实例负载档信息

Load Profile

~~~~~~~~~~~~                            Per Second       Per Transaction

                                   ---------------       ---------------

                  Redo size:            422,086.46              4,706.23

              Logical reads:             23,200.54                258.68

              Block changes:              3,080.59                 34.35

             Physical reads:                 31.46                  0.35

            Physical writes:                104.38                  1.16

                 User calls:                409.32                  4.56

                     Parses:                227.20                  2.53

                Hard parses:                  7.22                  0.08

                      Sorts:                213.87                  2.38

                     Logons:                  0.85                  0.01

                   Executes:              1,191.32                 13.28

               Transactions:                 89.69

/* 下面详细说明Load Profile各项含义

Redo size:每秒产生的日志大小(单位字节),可标志数据变更频率, 数据库任务的繁重与否。

Logical reads:平决每秒产生的逻辑读的block数。Logical Reads= Consistent Gets + DB Block Gets

Block changes:每秒block变化数量,数据库事物带来改变的块数量。

Physical reads:平均每秒数据库从磁盘读取的block数。

Physical writes:平均每秒数据库写磁盘的block数。

User calls:每秒用户调用次数。

Parses:每秒解析次数,包括fast parse,soft parse和hard parse三种数量的综合。 软解析每秒超过300次意味着你的"应用程序"效率不高,调整session_cursor_cache。在这里,fast parse指的是直接在PGA中命中的情况(设置了session_cached_cursors=n);soft parse是指在shared pool中命中的情形;hard parse则是指都不命中的情况。

Hard parses:每秒产生的硬解析次数, 每秒超过100次,就可能说明你绑定使用的不好,也可能是共享池设置不合理。这时候可以启用参数cursor_sharing=similar|force,该参数默认值为exact。但该参数设置为similar时,存在bug,可能导致执行计划的不优。

Sorts:每秒产生的排序次数。

Logons:每秒登陆的次数。

Executes:每秒执行次数。

Transactions:每秒产生的事务数,反映数据库任务繁重与否。

  % Blocks changed per Read:   13.28    Recursive Call %:     80.21

 Rollback per transaction %:    0.03       Rows per Sort:      2.84

/* Load Profile

  1. % Blocks changed per Read:在每一次逻辑读中更改的块的百分比。
  2. Rollback per transaction %:看回滚率是不是很高,因为回滚很耗资源 ,如果回滚率过高,可能说明你的数据库经历了太多的无效操作 ,过多的回滚可能还会带来Undo Block的竞争 该参数计算公式如下: Round(User rollbacks / (user commits + user rollbacks) ,4)* 100% 。
  3. Recursive Call %:递归调用的百分比,如果有很多PL/SQL,那么这个值就会比较高。
  4. Rows per Sort:平均每次排序操作的行数。

3、实例有效性信息

Instance Efficiency Percentages (Target 100%)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

            Buffer Nowait %:   99.98       Redo NoWait %:    100.00

            Buffer  Hit   %:   99.87    In-memory Sort %:    100.00

            Library Hit   %:   99.67        Soft Parse %:     96.82

         Execute to Parse %:   80.93         Latch Hit %:     96.10

Parse CPU to Parse Elapsd %:    6.93     % Non-Parse CPU:     99.88

/* 实例的有效性,这部分值越接近100越好,分项内容详细说明如下:

  1. Buffer Nowait %:在缓冲区中获取Buffer的未等待比率。Buffer Nowait的这个值一般需要大于99%。否则可能存在争用,可以在后面的等待事件中进一步确认。
  2. Redo NoWait %:在Redo缓冲区获取Buffer空间的未等待比率。当redo buffer达到1M时,就需要写到redo log文件,所以一般当redo buffer设置超过1M,不太可能存在等待buffer空间分配的情况。当前,一般设置为2M的redo buffer,对于内存总量来说,应该不是一个太大的值。
  3. Buffer Hit %:数据块在数据缓冲区中的命中率,通常应在95%以上。否则,小于95%,需要调整重要的参数,小于90%可能是要加db_cache_size。一个高的命中率,不一定代表这个系统的性能是最优的,比如大量的非选择性的索引被频繁访问,就会造成命中率很高的假相(大量的db file sequential read),但是一个比较低的命中率,一般就会对这个系统的性能产生影响,需要调整。命中率的突变,往往是一个不好的信息。如果命中率突然增大,可以检查top buffer get SQL,查看导致大量逻辑读的语句和索引,如果命中率突然减小,可以检查top physical reads SQL,检查产生大量物理读的语句,主要是那些没有使用索引或者索引被删除的。
  4. In-memory Sort %:在内存中的排序率。如果低于95%,可以通过适当调大初始化参数PGA_AGGREGATE_TARGET或者SORT_AREA_SIZE来解决,注意这两个参数设置作用的范围时不同的,SORT_AREA_SIZE是针对每个session设置的,PGA_AGGREGATE_TARGET则时针对所有的sesion的。
  5. Library Hit %:STATEMENT在共享区的命中率,通常应该保持在95%以上,否则需要要考虑:加大共享池;使用绑定变量;修改cursor_sharing等参数。
  6. Soft Parse %:sql在共享区的命中率,小于<95%,需要考虑绑定,如果低于80%,那么就可以认为sql基本没有被重用。
  7. Execute to Parse %:一个语句执行和分析了多少次的度量。计算公式为:Execute to Parse =100 * (1 - Parses/Executions)。本例中,差不多每execution 5次需要一次parse。所以如果系统Parses > Executions,就可能出现该比率小于0的情况。该值<0通常说明shared pool设置或者语句效率存在问题,造成反复解析,reparse可能较严重,或者是可能同snapshot有关,通常说明数据库性能存在问题。
  8. Latch Hit %:要确保>99%,否则存在严重的性能问题。当该值出现问题的时候,我们可以借助后面的等待时间和latch分析来查找解决问题。
  9. Parse CPU to Parse Elapsd %:计算公式为:Parse CPU to Parse Elapsd %= 100*(parse time cpu / parse time elapsed)。即:解析实际运行时间/(解析实际运行时间+解析中等待资源时间)。如果该比率为100%,意味着CPU等待时间为0,没有任何等待。
  10. % Non-Parse CPU:计算公式为:% Non-Parse CPU =round(100*1-PARSE_CPU/TOT_CPU),2)。如果这个值比较小,表示解析消耗的CPU时间过多。与PARSE_CPU相比,如果TOT_CPU很高,这个比值将接近100%,这是很好的,说明计算机执行的大部分工作是执行查询的工作,而不是分析查询的工作。

Shared Pool Statistics        Begin   End

                               ------  ------

             Memory Usage %:   32.87   33.12

    % SQL with executions>1:   80.00   82.69

  % Memory for SQL w/exec>1:   77.62   80.70

  1. Memory Usage %:正在使用的共享池的百分率。这个数字应该长时间稳定在75%~90%。如果这个百分比太低,表明共享池设置过大,带来额外的管理上的负担,从而在某些条件下会导致性能的下降。如果这个百分率太高,会使共享池外部的组件老化,如果SQL语句被再次执行,这将使得SQL语句被硬解析。在一个大小合适的系统中,共享池的使用率将处于75%到略低于90%的范围内。
  2. % SQL with executions>1:这是在共享池中有多少个执行次数大于一次的SQL语句的度量。在一个趋向于循环运行的系统中,必须认真考虑这个数字。在这个循环系统中,在一天中相对于另一部分时间的部分时间里执行了一组不同的SQL语句。在共享池中,在观察期间将有一组未被执行过的SQL语句,这仅仅是因为要执行它们的语句在观察期间没有运行。只有系统连续运行相同的SQL语句组,这个数字才会接近100%。这里显示,在这个共享池中几乎有80%的SQL语句在14分钟的观察窗口中运行次数多于一次。剩下的20%的语句可能已经在那里了--系统只是没有去执行。
  3. % Memory for SQL w/exec>1:这是与不频繁使用的SQL语句相比,频繁使用的SQL语句消耗内存多少的一个度量。这个数字将在总体上与% SQL with executions>1非常接近,除非有某些查询任务消耗的内存没有规律。在稳定状态下,总体上会看见随着时间的推移大约有75%~85%的共享池被使用。如果Statspack报表的时间窗口足够大到覆盖所有的周期,执行次数大于一次的SQL语句的百分率应该接近于100%。这是一个受观察之间持续时间影响的统计数字。可以期望它随观察之间的时间长度增大而增大。

小结:通过ORACLE的实例有效性统计数据,我们可以获得大概的一个整体印象,然而我们并不能由此来确定数据运行的性能。当前性能问题的确定,我们主要还是依靠下面的等待事件来确认。我们可以这样理解两部分的内容,hit统计帮助我们发现和预测一些系统将要产生的性能问题,由此我们可以做到未雨绸缪。而wait事件,就是表明当前数据库已经出现了性能问题需要解决,所以是亡羊补牢的性质。

接下来,开始查看wait事件。

4、TOP 5及其他等待事件信息

/* oracle等待事件是衡量oracle运行状况的重要依据及指示,等待事件分为两类:空闲等待事件和非空闲等待事件, TIMED_STATISTICS = TRUE 那么等待事件按等待的时间排序,= FALSE那么事件按等待的数量排序。运行statspack期间必须session上设置TIMED_STATISTICS = TRUE,否则统计的数据将失真。空闲等待事件是oracle正等待某种工作,在诊断和优化数据库时候,不用过多注意这部分事件,非空闲等待事件专门针对oracle的活动,指数据库任务或应用程序运行过程中发生的等待,这些等待事件是我们在调整数据库应该关注的。

    对于常见的等待事件,说明如下:

  1. db file scattered read
    该事件通常与全表扫描或者fast full index scan有关。因为全表扫描是被放入内存中进行的进行的,通常情况下基于性能的考虑,有时候也可能是分配不到足够长的连续内存空间,所以会将数据块分散(scattered)读入Buffer Cache中。该等待过大可能是缺少索引或者没有合适的索引(可以调整optimizer_index_cost_adj) 。这种情况也可能是正常的,因为执行全表扫描可能比索引扫描效率更高。当系统存在这些等待时,需要通过检查来确定全表扫描是否必需的来调整。因为全表扫描被置于LRU(Least Recently Used,最近最少适用)列表的冷端(cold end),对于频繁访问的较小的数据表,可以选择把他们Cache 到内存中,以避免反复读取。当这个等待事件比较显著时,可以结合v$session_longops 动态性能视图来进行诊断,该视图中记录了长时间(运行时间超过6 秒的)运行的事物,可能很多是全表扫描操作(不管怎样,这部分信息都是值得我们注意的)。
    关于参数OPTIMIZER_INDEX_COST_ADJ=n:该参数是一个百分比值,缺省值为100,可以理解为FULL SCAN COST/INDEX SCAN COST。当n%* INDEX SCAN COST
  2. db file sequential read:该事件说明在单个数据块上大量等待,该值过高通常是由于表间连接顺序很糟糕(没有正确选择驱动行源),或者使用了非选择性索引。通过将这种等待与statspack报表中已知其它问题联系起来(如效率不高的sql),通过检查确保索引扫描是必须的,并确保多表连接的连接顺序来调整。
  3. buffer busy wait:当缓冲区以一种非共享方式或者如正在被读入到缓冲时,就会出现该等待。该值不应该大于1%。当出现等待问题时,可以检查缓冲等待统计部分(或V$WAITSTAT),确定该等待发生在什么位置:
    1. 如果等待是否位于段头(Segment Header)。这种情况表明段中的空闲列表(freelist)的块比较少。可以考虑增加空闲列表(freelist,对于Oracle8i DMT)或者增加freelist groups(在很多时候这个调整是立竿见影的(alter table tablename strorage(freelists 2)),在8.1.6之前,这个freelists参数不能动态修改;在8.1.6及以后版本,动态修改feelists需要设置COMPATIBLE至少为8.1.6)。也可以增加PCTUSED与PCTFREE之间距离PCTUSED-to-pctfree gap),其实就是说降低PCTUSED的值,尽快使块返回freelist列表被重用。如果支持自动段空间管理(ASSM),也可以使用ASSM模式,这是在ORALCE 920以后的版本中新增的特性。
    2. 如果这一等待位于undo header,可以通过增加回滚段(rollback segment)来解决缓冲区的问题。
    3. 如果等待位于undo block上,我们需要增加提交的频率,使block可以尽快被重用;使用更大的回滚段;降低一致读所选择的表中数据的密度;增大DB_CACHE_SIZE。
    4. 如果等待处于data block,表明出现了hot block,可以考虑如下方法解决: ①将频繁并发访问的表或数据移到另一数据块或者进行更大范围的分布(可以增大pctfree值 ,扩大数据分布,减少竞争),以避开这个"热点"数据块。②也可以减小数据块的大小,从而减少一个数据块中的数据行数,降低数据块的热度,减小竞争;③检查对这些热块操作的SQL语句,优化语句。④增加hot block上的initrans值。但注意不要把initrans值设置的过于高了,通常设置为5就足够了。因为增加事务意味着要增加ITL事务槽,而每个ITL事务槽将占用数据块中24个字节长度。默认情况下,每个数据块或者索引块中是ITL槽是2个,在增加initrans的时候,可以考虑增大数据块所在的表的PCTFREE值,这样Oracle会利用PCTFREE部分的空间增加ITL slot数量,最大达到maxtrans指定。
    5. 如果等待处于index block,应该考虑重建索引、分割索引或使用反向键索引。为了防止与数据块相关的缓冲忙等待,也可以使用较小的块,在这种情况下,单个块中的记录就较少,所以这个块就不是那么"繁忙"。或者可以设置更大的PCTFREE,使数据扩大物理分布,减少记录间的热点竞争。在执行DML (insert/update/ delete)时,Oracle向数据块中写入信息,对于多事务并发访问的数据表,关于ITL的竞争和等待可能出现,为了减少这个等待,可以增加initrans,使用多个ITL槽。在Oracle9i 中,可以使用ASSM这个新特性Oracle 使用位图来管理空间使用,减小争用。
  4. latch free:当闩锁丢失率高于0.5%时,需要调整这个问题。详细的我们在后面的Latch Activity for DB部分说明。
  5. Enqueue 队列是一种锁,保护一些共享资源,防止并发的DML操作。队列采用FIFO策略,注意latch并不是采用的FIFO机制。比较常见的有3种类型的队列:ST队列,HW队列,TX4队列。
    ST Enqueue的等待主要是在字典管理的表空间中进行空间管理和分配时产生的。解决方法:1)将字典管理的表空间改为本地管理模式 2)预先分配分区或者将有问题的字典管理的表空间的next extent设置大一些。
    HW Enqueue是用于segment的HWM的。当出现这种等待的时候,可以通过手工分配etents来解决。
    TX4 Enqueue等待是最常见的等待情况。通常有3种情况会造成这种类型的等待:1)唯一索引中的重复索引。解决方法:commit或者rollback以释放队列。 2)对同一个位图索引段(bitmap index fragment)有多个update,因为一个bitmap index fragment可能包含了多个rowid,所以当多个用户更新时,可能一个用户会锁定该段,从而造成等待。解决方法同上。3)有多个用户同时对一个数据块作update,当然这些DML操作可能是针对这个数据块的不同的行,如果此时没有空闲的ITL槽,就会产生一个block-level锁。解决方法:增大表的initrans值使创建更多的ITL槽;或者增大表的pctfree值,这样oracle可以根据需要在pctfree的空间创建更多的ITL槽;使用smaller block size,这样每个块中包含行就比较少,可以减小冲突发生的机会。
  6. Free Buffer:这个等待事件表明系统正在等待内存中的可用空间,这说明当前Buffer 中已经没有Free 的内存空间。如果应用设计良好,SQL 书写规范,充分绑定变量,那这种等待可能说明Buffer Cache 设置的偏小,你可能需要增大DB_CACHE_SIZE。该等待也可能说明DBWR 的写出速度不够,或者磁盘存在严重的竞争,可以需要考虑增加检查点、使用更多的DBWR 进程,或者增加物理磁盘的数量,分散负载,平衡IO。
  7. Log file single write:该事件仅与写日志文件头块相关,通常发生在增加新的组成员和增进序列号时。头块写单个进行,因为头块的部分信息是文件号,每个文件不同。更新日志文件头这个操作在后台完成,一般很少出现等待,无需太多关注。
  8. log file parallel write:从log buffer 写redo 记录到redo log 文件,主要指常规写操作(相对于log file sync)。如果你的Log group 存在多个组成员,当flush log buffer 时,写操作是并行的,这时候此等待事件可能出现。尽管这个写操作并行处理,直到所有I/O 操作完成该写操作才会完成(如果你的磁盘支持异步IO或者使用IO SLAVE,那么即使只有一个redo log file member,也有可能出现此等待)。这个参数和log file sync 时间相比较可以用来衡量log file 的写入成本。通常称为同步成本率。改善这个等待的方法是将redo logs放到I/O快的盘中,尽量不使用raid5,确保表空间不是处在热备模式下,确保redo log和data的数据文件位于不同的磁盘中。
  9. log file sync:当一个用户提交或回滚数据时,LGWR将会话的redo记录从日志缓冲区填充到日志文件中,用户的进程必须等待这个填充工作完成。在每次提交时都出现,如果这个等待事件影响到数据库性能,那么就需要修改应用程序的提交频率, 为减少这个等待事件,须一次提交更多记录,或者将重做日志REDO LOG 文件访在不同的物理磁盘上,提高I/O的性能。
  10. log buffer space:日志缓冲区写的速度快于LGWR写REDOFILE的速度,可以增大日志文件大小,增加日志缓冲区的大小,或者使用更快的磁盘来写数据。
  11. logfile switch:通常是因为归档速度不够快。表示所有的提交(commit)的请求都需要等待"日志文件切换"的完成。Log file Switch 主要包含两个子事件:
    log file switch (archiving needed) 这个等待事件出现时通常是因为日志组循环写满以后,第一个日志归档尚未完成,出现该等待。出现该等待,可能表示io 存在问题。解决办法:①可以考虑增大日志文件和增加日志组;②移动归档文件到快速磁盘;③调整log_archive_max_processes。
    log file switch (checkpoint incomplete) 当日志组都写完以后,LGWR 试图写第一个log file,如果这时数据库没有完成写出记录在第一个log file 中的dirty 块时(例如第一个检查点未完成),该等待事件出现。该等待事件通常表示你的DBWR 写出速度太慢或者IO 存在问题。为解决该问题,你可能需要考虑增加额外的DBWR 或者增加你的日志组或日志文件大小,或者也可以考虑增加checkpoint的频率。
  12. DB File Parallel Write:文件被DBWR并行写时发生。解决办法:改善IO性能。
  13. DB File Single Write:当文件头或别的单独块被写入时发生,这一等待直到所有的I/O调用完成。解决办法:改善IO性能。
  14. DB FILE Scattered Read:当扫描整个段来根据初始化参数db_file_multiblock_read_count读取多个块时发生,因为数据可能分散在不同的部分,这与分条或分段)相关,因此通常需要多个分散的读来读取所有的数据。等待时间是完成所有I/O调用的时间。解决办法:改善IO性能。
  15. DB FILE Sequential Read:当前台进程对数据文件进行常规读时发生,包括索引查找和别的非整段扫描以及数据文件块丢弃等待。等待时间是完成所有I/O调用的时间。解决办法:改善IO性能。
  16. Direct Path Read:一般直接路径读取是指将数据块直接读入PGA中。一般用于排序、并行查询和read ahead操作。这个等待可能是由于I/O造成的。使用异步I/O模式或者限制排序在磁盘上,可能会降低这里的等待时间。
  17. direct path write:直接路径写该等待发生在,系统等待确认所有未完成的异步I/O 都已写入磁盘。对于这一写入等待,我们应该找到I/O 操作最为频繁的数据文件(如果有过多的排序操作,很有可能就是临时文件),分散负载,加快其写入操作。如果系统存在过多的磁盘排序,会导致临时表空间操作频繁,对于这种情况,可以考虑使用Local管理表空间,分成多个小文件,写入不同磁盘或者裸设备。
  18. control file parallel write:当server 进程更新所有控制文件时,这个事件可能出现。如果等待很短,可以不用考虑。如果等待时间较长,检查存放控制文件的物理磁盘I/O 是否存在瓶颈。
    多个控制文件是完全相同的拷贝,用于镜像以提高安全性。对于业务系统,多个控制文件应该存放在不同的磁盘上,一般来说三个是足够的,如果只有两个物理硬盘,那么两个控制文件也是可以接受的。在同一个磁盘上保存多个控制文件是不具备实际意义的。减少这个等待,可以考虑如下方法:①减少控制文件的个数(在确保安全的前提下)。②如果系统支持,使用异步IO。③转移控制文件到IO 负担轻的物理磁盘。
  19. control file sequential read
    control file single write
    :控制文件连续读/控制文件单个写对单个控制文件I/O 存在问题时,这两个事件会出现。如果等待比较明显,检查单个控制文件,看存放位置是否存在I/O 瓶颈。

对于常见的一些IDLE wait事件举例:

dispatcher timer                  

lock element cleanup              

Null event                         

parallel query dequeue wait       

parallel query idle wait - Slaves 

pipe get                          

PL/SQL lock timer                 

pmon timer- pmon                  

rdbms ipc message                 

slave wait                         

smon timer                        

SQL*Net break/reset to client     

SQL*Net message from client       

SQL*Net message to client         

SQL*Net more data to client       

virtual circuit status            

client message                     

SQL*Net message from client  

下面是关于这里的常见的等待事件和解决方法的一个快速预览

等待事件

一般解决方法

Sequential Read

调整相关的索引和选择合适的驱动行源

Scattered Read

表明出现很多全表扫描。优化code,cache小表到内存中。

Free Buffer

增大DB_CACHE_SIZE,增大checkpoint的频率,优化代码

Buffer Busy Segment header

增加freelist或者freelistgroups

Buffer Busy Data block

隔离热块;使用反转索引;使用更小的块;增大表的initrans

Buffer Busy Undo header

增加回滚段的数量或者大小

Buffer Busy Undo block

Commit more;增加回滚段的数量或者大小

Latch Free

检查具体的等待latch类型,解决方法参考后面介绍

Enqueue–ST

使用本地管理的表空间或者增加预分配的盘区大小

Enqueue–HW

在HWM之上预先分配盘区

Enqueue–TX4

在表或者索引上增大initrans的值或者使用更小的块

Log Buffer Space

增大LOG_BUFFER,改善I/O

Log File Switch

增加或者增大日志文件

Log file sync

减小提交的频率;使用更快的I/O;或者使用裸设备

Write complete waits

增加DBWR;提高CKPT的频率;

Top 5 Timed Events

~~~~~~~~~~~~~~~~~~                                                     % Total

Event                                               Waits    Time (s) Ela Time

-------------------------------------------- ------------ ----------- --------

CPU time                                                          361    54.14

log file sync                                      74,324         101    15.22

enqueue                                               729          88    13.28

db file sequential read                             7,303          65     9.76

SQL*Net message from dblink                           482          20     3.05

Wait Events for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> s  - second

-> cs - centisecond -     100th of a second

-> ms - millisecond -    1000th of a second

-> us - microsecond - 1000000th of a second

-> ordered by wait time desc, waits desc (idle events last)

                                                                   Avg

                                                     Total Wait   wait    Waits

Event                               Waits   Timeouts   Time (s)   (ms)     /txn

---------------------------- ------------ ---------- ---------- ------ --------

log file sync                      74,324          0        101      1      1.0

enqueue                               729          0         88    121      0.0

db file sequential read             7,303          0         65      9      0.1

SQL*Net message from dblink           482          0         20     42      0.0

db file parallel write                725          0         14     19      0.0

db file scattered read              2,415          0          6      3      0.0

process startup                         8          0          4    440      0.0

latch free                          1,307      1,300          2      1      0.0

log file parallel write            67,042          0          2      0      0.9

control file sequential read          269          0          1      3      0.0

single-task message                    24          0          1     33      0.0

control file parallel write           325          0          1      2      0.0

buffer busy waits                   3,368          0          1      0      0.0

log file switch completion             19          0          0     20      0.0

direct path read                      288          0          0      0      0.0

LGWR wait for redo copy             1,032          0          0      0      0.0

SQL*Net more data to client         1,390          0          0      0      0.0

kksfbc child completion                 1          1          0     10      0.0

log file sequential read                2          0          0      5      0.0

direct path write                     128          0          0      0      0.0

library cache pin                      14          0          0      0      0.0

SQL*Net more data from dblin            4          0          0      0      0.0

log file single write                   2          0          0      1      0.0

SQL*Net message to dblink             482          0          0      0      0.0

buffer deadlock                        30         30          0      0      0.0

SQL*Net message from client       436,773          0    143,221    328      5.8

jobq slave wait                     2,688      1,664      6,688   2488      0.0

wakeup time manager                    27         27        791  29297      0.0

SQL*Net message to client         436,772          0          0      0      5.8

Background Wait Events for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> ordered by wait time desc, waits desc (idle events last)

                                                                   Avg

                                                     Total Wait   wait    Waits

Event                               Waits   Timeouts   Time (s)   (ms)     /txn

---------------------------- ------------ ---------- ---------- ------ --------

db file parallel write                725          0         14     19      0.0

log file parallel write            67,044          0          2      0      0.9

control file sequential read          186          0          1      4      0.0

control file parallel write           325          0          1      2      0.0

db file scattered read                 38          0          0      7      0.0

direct path read                      288          0          0      0      0.0

LGWR wait for redo copy             1,032          0          0      0      0.0

db file sequential read                 3          0          0      6      0.0

log file sequential read                2          0          0      5      0.0

direct path write                     128          0          0      0      0.0

log file single write                   2          0          0      1      0.0

rdbms ipc message                  63,167      1,061      4,970     79      0.8

smon timer                              3          3        879 ######      0.0

pmon timer                            292        292        823   2819      0.0

5、SQL统计信息

接下来的部分,是关于SQL的统计信息,分为6块来统计排序:

ordered by buffer gets

ordered by Physical reads

ordered by Executions

ordered by Parse Calls

ordered by Sharable Memory

ordered by Version Count

5.1 SQL统计信息-逻辑读

这一部分,通过Buffer Gets对SQL语句进行排序,即通过它执行了多少个逻辑I/O来排序。顶端的注释表明一个PL/SQL单元的缓存获得(Buffer Gets)包括被这个代码块执行的所有SQL语句的Buffer Gets。因此将经常在这个列表的顶端看到PL/SQL过程,因为存储过程执行的单独的语句的数目被总计出来。

在这里的Buffer Gets是一个累积值,所以这个值大并不一定意味着这条语句的性能存在问题。通常我们可以通过对比该条语句的Buffer Gets和physical reads值,如果这两个比较接近,肯定这条语句是存在问题的,我们可以通过执行计划来分析,为什么physical reads的值如此之高。另外,我们在这里也可以关注gets per exec的值,这个值如果太大,表明这条语句可能使用了一个比较差的索引或者使用了不当的表连接。

另外说明一点:大量的逻辑读往往伴随着较高的CPU消耗。所以很多时候我们看到的系统CPU将近100%的时候,很多时候就是SQL语句造成的,这时候我们可以分析一下这里逻辑读大的SQL。

SQL ordered by Gets for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> End Buffer Gets Threshold:     10000

-> Note that resources reported for PL/SQL includes the resources used by

   all SQL statements called within the PL/SQL code.  As individual SQL

   statements are also reported, it is possible and valid for the summed

   total % to exceed 100

                                                     CPU      Elapsd

  Buffer Gets    Executions  Gets per Exec  %Total Time (s)  Time (s) Hash Value

--------------- ------------ -------------- ------ -------- --------- ----------

     13,367,435          171       78,172.1   68.3   259.36    353.19 3790040751

DECLARE job BINARY_INTEGER := :job; next_date DATE := :mydate;

broken BOOLEAN := FALSE; BEGIN P_DXH_DEALOVERTIMEDXHREC; :mydate

 := next_date; IF broken THEN :b := 1; ELSE :b := 0; END IF; END

……

5.2 SQL统计信息-物理读

这部分通过物理读对SQL语句进行排序。这显示引起大部分对这个系统进行读取活动的SQL,即物理I/O。当我们的系统如果存在I/O瓶颈时,需要关注这里I/O操作比较多的语句。

SQL ordered by Reads for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> End Disk Reads Threshold:      1000

                                                     CPU      Elapsd

 Physical Reads  Executions  Reads per Exec %Total Time (s)  Time (s) Hash Value

--------------- ------------ -------------- ------ -------- --------- ----------

          4,187           24          174.5   15.8     0.79     52.99 1895519470

DECLARE job BINARY_INTEGER := :job; next_date DATE := :mydate;

broken BOOLEAN := FALSE; BEGIN p_dxh_tmp_importUserInfo2(500); :

mydate := next_date; IF broken THEN :b := 1; ELSE :b := 0; END I

F; END;

            538       21,504            0.0    2.0     5.92    241.61 1725988165

Module: Das.exe

 begin P_DXH_AddSms(I_CALLERNO=>:V001,I_CALLEENO=>:V002,I_CALLTY

PE=>:V003,I_DXHHFLAG=>:V004,O_RET=>:V005);end;

……

5.3 SQL统计信息-执行次数

这部分告诉我们在这段时间中执行次数最多的SQL语句。为了隔离某些频繁执行的查询,以观察是否有某些更改逻辑的方法以避免必须如此频繁的执行这些查询,这可能是很有用的。或许一个查询正在一个循环的内部执行,而且它可能在循环的外部执行一次,可以设计简单的算法更改以减少必须执行这个查询的次数。即使它运行的飞快,任何被执行几百万次的操作都将开始耗尽大量的时间。

SQL ordered by Executions for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> End Executions Threshold:       100

                                                CPU per    Elap per

 Executions   Rows Processed   Rows per Exec    Exec (s)   Exec (s)  Hash Value

------------ --------------- ---------------- ----------- ---------- ----------

     102,491               0              0.0       0.00        0.00 1053795750

Module: Das.exe

COMMIT

      48,861          38,275              0.8       0.00        0.00  947217968

Module: Das.exe

SELECT T.AREAID FROM T_DXH_MOBILE S, T_DXH_AREA T WHERE S.MOBILE

SEGMENT = SUBSTR(:B1 ,1,7) AND T.AREACODE = S.AREACODE AND ROWNU

M = 1

5.4 SQL统计信息-调用、解析次数

在这一部分,主要显示PARSE与EXECUTIONS的对比情况。如果PARSE/EXECUTIONS>1,往往说明这个语句可能存在问题:没有使用绑定变量,共享池设置太小,cursor_sharing被设置为exact,没有设置session_cached_cursors等等问题。

SQL ordered by Parse Calls for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> End Parse Calls Threshold:      1000

                           % Total

 Parse Calls  Executions   Parses  Hash Value

------------ ------------ -------- ----------

      61,404       30,650    32.06 3303409220

Module: SvcProcessor.exe

begin P_DXH_UPDATESUBMITSTATUS(:V00001,:V00002,:V00003,:V00004);

 end;

       1,661        1,661     0.87  140223014

Module: SvcProcessor.exe

SELECT SERIALNO, PID, SERVICEID, SMSCONTENT, REPORTFLAG, ORGADDR

, DESTADDR, FEEADDR, FEETYPE, FEEUSERTYPE, FEECODE, SPID FROM T_

DXH_OPENDETECT WHERE LOCKFLAG = :B1

5.5 SQL统计信息-共享内存占用

在这一部分,主要是针对shared memory占用的情况进行排序。

SQL ordered by Sharable Memory for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> End Sharable Memory Threshold:   1048576

Sharable Mem (b)  Executions  % Total  Hash Value

---------------- ------------ ------- ------------

       1,115,384       15,112     0.2   3531895589

Module: Das.exe

INSERT INTO T_DXH_DXHRECLOG (CALLERNO, CALLEENO, NOTIFYFLAG, SMS

TYPE, AREAID, LOGDATE) VALUES (:B4 , :B3 , 1, :B2 , :B1 , TO_CHA

R(SYSDATE, 'MMDD'))

5.6 SQL统计信息-多版本缓存

在这一部分,主要是针对SQL语句的多版本进行排序。相同的SQL文本,但是不同属性,比如对象owner不同,会话优化模式不同、类型不同、长度不同和绑定变量不同等等的语句,他们是不能共享的,所以再缓存中会存在多个不同的版本。这当然就造成了资源上的更多的消耗。

SQL ordered by Version Count for DB: ORA92  Instance: ora92  Snaps: 13 -14

-> End Version Count Threshold:        20

 Version

   Count  Executions   Hash Value

-------- ------------ ------------

      30       15,112   3531895589

Module: Das.exe

INSERT INTO T_DXH_DXHRECLOG (CALLERNO, CALLEENO, NOTIFYFLAG, SMS

TYPE, AREAID, LOGDATE) VALUES (:B4 , :B3 , 1, :B2 , :B1 , TO_CHA

R(SYSDATE, 'MMDD'))

小结:

对于出现在上面的可疑的sql语句,我们可以查看语句相关的执行计划,然后分析相关索引等是否合理。

通过语句查看执行计划的方法:

SELECT id,parent_id,LPAD(' ',4*(LEVEL-1))||operation||' '||options||' '||object_name "Execution plan" ,cost,cardinality,bytes

FROM (

SELECT p.* FROM v$sql_plan p,v$sql s WHERE p.address = s.ADDRESS

AND p.hash_value = s.HASH_VALUE

and p.hash_value = '&hash_value'

)

CONNECT BY PRIOR id = parent_id

START WITH id = 0;

    查看,分析,优化索引等在这里就不再一一描述了。

6、实例的活动信息

这部分数据主要是从V$SYSSTAT表中统计出来的,一些条目的详细内容会在后面逐条标注。

Instance Activity Stats for DB: ORA92  Instance: ora92  Snaps: 13 -14

Statistic                                      Total     per Second    per Trans

--------------------------------- ------------------ -------------- ------------

CPU used by this session                      36,055           42.8          0.5

CPU used when call started                     9,526           11.3          0.1

CR blocks created                              9,509           11.3          0.1

DBWR buffers scanned                          12,962           15.4          0.2

DBWR checkpoint buffers written               87,437          103.7          1.2

DBWR checkpoints                                  1            0.0          0.0

DBWR free buffers found                       12,700           15.1          0.2

DBWR lru scans                                   116            0.1          0.0

DBWR make free requests                          124            0.2          0.0

DBWR summed scan depth                        12,962           15.4          0.2

DBWR transaction table writes                     23            0.0          0.0

DBWR undo block writes                        18,974           22.5          0.3

PX local messages recv'd                           0            0.0          0.0

PX local messages sent                             0            0.0          0.0

SQL*Net roundtrips to/from client            436,777          518.1          5.8

SQL*Net roundtrips to/from dblink                482            0.6          0.0

active txn count during cleanout               8,651           10.3          0.1

background checkpoints completed                   2            0.0          0.0

background checkpoints started                     1            0.0          0.0

background timeouts                           1,288            1.5          0.0

branch node splits                                 6            0.0          0.0

buffer is not pinned count                 2,170,225        2,574.4         28.7

buffer is pinned count                     2,694,289        3,196.1         35.6

bytes received via SQL*Net from c         35,743,183       42,400.0        472.8

bytes received via SQL*Net from d            123,793          146.9          1.6

bytes sent via SQL*Net to client          25,187,619       29,878.6        333.1

bytes sent via SQL*Net to dblink              76,754           91.1          1.0

calls to get snapshot scn: kcmgss          1,533,555        1,819.2         20.3

calls to kcmgas                              149,646          177.5          2.0

calls to kcmgcs                               10,190           12.1          0.1

change write time                                762            0.9          0.0

cleanout - number of ktugct calls             13,095           15.5          0.2

cluster key scan block gets                      424            0.5          0.0

cluster key scans                                202            0.2          0.0

commit cleanout failures: block l                  1            0.0          0.0

commit cleanout failures: buffer                  18            0.0          0.0

commit cleanout failures: callbac                 63            0.1          0.0

commit cleanout failures: cannot               2,087            2.5          0.0

commit cleanouts                            643,505          763.4          8.5

commit cleanouts successfully com            641,336          760.8          8.5

commit txn count during cleanout              35,188           41.7          0.5

consistent changes                           63,943           75.9          0.9

consistent gets                          16,616,758       19,711.5        219.8

由consistent gets,db block gets和physical reads这三个值,我们也可以计算得到buffer hit ratio,计算的公式如下: buffer hit ratio = 100*(1-physical reads /(consistent gets+ db block gets)),例如在这里,我们可以计算得到:buffer hit ratio =100*(1-26524/(16616758+2941398))= 99.86

consistent gets - examination              1,168,584        1,386.2         15.5

current blocks converted for CR                    0            0.0          0.0

cursor authentications                            2            0.0          0.0

data blocks consistent reads - un             63,873           75.8          0.8

db block changes                           2,596,938        3,080.6         34.4

db block gets                              2,941,398        3,489.2         38.9

deferred (CURRENT) block cleanout            130,783          155.1          1.7

dirty buffers inspected                          166            0.2          0.0

脏数据从LRU列表中老化,A value here indicates that the DBWR is not keeping up。如果这个值大于0,就需要考虑增加DBWRs。

dirty buffers inspected: This is the number of dirty (modified) data buffers that were aged out on the LRU list. You may benefit by adding more DBWRs.If it is greater than 0, consider increasing the database writes.

enqueue conversions                             485            0.6          0.0

enqueue deadlocks                                 0            0.0          0.0

enqueue releases                            318,825          378.2          4.2

enqueue requests                            318,825          378.2          4.2

enqueue timeouts                                  0            0.0          0.0

Instance Activity Stats for DB: ORA92  Instance: ora92  Snaps: 13 -14

Statistic                                      Total     per Second    per Trans

--------------------------------- ------------------ -------------- ------------

enqueue waits                                   728            0.9          0.0

exchange deadlocks                               30            0.0          0.0

execute count                             1,004,280        1,191.3         13.3

free buffer inspected                            188            0.2          0.0

这个值包含dirty,pinned,busy的buffer区域,如果free buffer inspected - dirty buffers inspected - buffer is pinned count的值还是比较大,表明不能被重用的内存块比较多,这将导致latch争用,需要增大buffer cache。

free buffer requested                        116,422          138.1          1.5

hot buffers moved to head of LRU              17,750           21.1          0.2

immediate (CR) block cleanout app              1,916            2.3          0.0

immediate (CURRENT) block cleanou             81,385           96.5          1.1

index fast full scans (full)                       0            0.0          0.0

index fetch by key                           335,907          398.5          4.4

index scans kdiixs1                          692,053          820.9          9.2

leaf node 90-10 splits                           418            0.5          0.0

leaf node splits                               1,941            2.3          0.0

logons cumulative                               716            0.9          0.0

messages received                            67,830           80.5          0.9

messages sent                                67,830           80.5          0.9

no buffer to keep pinned count                     0            0.0          0.0

no work - consistent read gets            14,240,381       16,892.5        188.4

opened cursors cumulative                     84,306          100.0          1.1

parse count (failures)                         6,074            7.2          0.1

parse count (hard)                             6,090            7.2          0.1

parse count (total)                          191,531          227.2          2.5

通过parse count (hard)和parse count (total),可以计算soft parse率为:

100-100*(parse count (hard)/parse count (total)) =100-100*(1-6090/191531)=96.82

parse time cpu                                    44            0.1          0.0

parse time elapsed                               635            0.8          0.0

physical reads                               26,524           31.5          0.4

physical reads direct                            288            0.3          0.0

physical writes                              87,993          104.4          1.2

physical writes direct                           128            0.2          0.0

physical writes non checkpoint                29,010           34.4          0.4

pinned buffers inspected                           0            0.0          0.0

prefetch clients - default                         0            0.0          0.0

prefetched blocks                            16,550           19.6          0.2

prefetched blocks aged out before                  0            0.0          0.0

process last non-idle time                         0            0.0          0.0

recursive calls                           1,398,277        1,658.7         18.5

recursive cpu usage                           27,349           32.4          0.4

redo blocks written                          749,639          889.3          9.9

redo buffer allocation retries                    13            0.0          0.0

redo entries                              1,343,828        1,594.1         17.8

redo log space requests                           19            0.0          0.0

redo log space wait time                          38            0.1          0.0

redo ordering marks                                0            0.0          0.0

redo size                               355,818,888      422,086.5      4,706.2

redo synch time                               10,483           12.4          0.1

redo synch writes                             74,372           88.2          1.0

redo wastage                             15,765,096       18,701.2        208.5

redo write time                                6,171            7.3          0.1

redo writer latching time                          3            0.0          0.0

redo writes                                  67,055           79.5          0.9

rollback changes - undo records a                250            0.3          0.0

rows fetched via callback                    310,070          367.8          4.1

session connect time                               0            0.0          0.0

session cursor cache count                     1,818            2.2          0.0

session cursor cache hits                    168,798          200.2          2.2

session logical reads                     19,558,052       23,200.5        258.7

session pga memory                       549,909,680      652,324.7      7,273.4

Instance Activity Stats for DB: ORA92  Instance: ora92  Snaps: 13 -14

Statistic                                      Total     per Second    per Trans

--------------------------------- ------------------ -------------- ------------

session pga memory max                 1,185,992,768    1,406,871.6     15,686.5

session uga memory                 3,015,076,014,672 ############## ############

session uga memory max                   175,484,416      208,166.6      2,321.0

shared hash latch upgrades - no w            675,962          801.9          8.9

shared hash latch upgrades - wait              3,460            4.1          0.1

sorts (disks)                                 0              0            0

磁盘排序一般不能超过5%。如果超过5%,需要设置参数PGA_AGGREGATE_TARGET或者 SORT_AREA_SIZE,注意,这里SORT_AREA_SIZE是分配给每个用户的,PGA_AGGREGATE_TARGET则是针对所有的session的一个总数设置。

sorts (memory)                              180,293          213.9          2.4

内存中的排序数量

sorts (rows)                                511,574          606.9          6.8

summed dirty queue length                        430            0.5          0.0

switch current to new buffer                  59,534           70.6          0.8

table fetch by rowid                       2,094,274        2,484.3         27.7

这是通过索引或者where rowid=语句来取得的行数,当然这个值越大越好。

table fetch continued row                        408            0.5          0.0

这是发生行迁移的行。当行迁移的情况比较严重时,需要对这部分进行优化。

检查行迁移的方法:

  1. 运行$ORACLE_HOME/rdbms/admin/utlchain.sql
  2. analyze table table_name list chained rows into CHAINED_ROWS
  3. select * from CHAINED_ROWS where table_name='table_name';

清除的方法:

方法1:create table table_name_tmp as select * from table_name where rowed in (select head_rowid from chained_rows);

       Delete from table_name where rowed in (select head_rowid from chained_rows);

       Insert into table_name select * from table_name_tmp;

方法2:create table table_name_tmp select * from table_name ;

truncate table table_name

insert into table_name select * from table_name_tmp

方法3:用exp工具导出表,然后删除这个表,最后用imp工具导入这表

方法4:alter table table_name move tablespace tablespace_name,然后再重新表的索引

上面的4种方法可以用以消除已经存在的行迁移现象,但是行迁移的产生很多情况下时由于PCT_FREE参数设置的太小所导致,所以需要调整PCT_FREE参数的值。

table scan blocks gotten                     299,249          355.0          4.0

table scan rows gotten                     1,912,851        2,269.1         25.3

table scans (long tables)                          0            0.0          0.0

longtables就是表的大小超过buffer buffer* _SMALL_TABLE_THRESHOLD的表。如果一个数据库的大表扫描过多,那么db file scattered read等待事件可能同样非常显著。如果table scans (long tables)的per Trans值大于0,你可能需要增加适当的索引来优化你的SQL语句。

table scans (short tables)                   143,830          170.6          1.9

short tables是指表的长度低于buffer chache 2%(2%是有隐含参数_SMALL_TABLE_THRESHOLD定义的,这个参数在oracle不同的版本中,有不同的含义。在9i和10g中,该参数值定义为2%,在8i中,该参数值为20个blocks,在v7中,该参数为5个blocks)的表。这些表将优先使用全表扫描。一般不使用索引。_SMALL_TABLE_THRESHOLD值的计算方法如下(9i,8K): (db_cache_size/8192)*2%。

注意:_SMALL_TABLE_THRESHOLD参数修改是相当危险的操作。

transaction rollbacks                            70            0.1          0.0

transaction tables consistent rea                  0            0.0          0.0

transaction tables consistent rea                  0            0.0          0.0

user calls                                  345,054          409.3          4.6

user commits                                 75,587           89.7          1.0

user rollbacks                                   19            0.0          0.0

workarea executions - optimal                247,121          293.1          3.3

write clones created in backgroun                  0            0.0          0.0

write clones created in foregroun                 25            0.0          0.0

你可能感兴趣的:(数据库)