Oracle优化器CBO、RBO

Oracle数据库中优化器(Optimizer)是SQL分析和执行的优化工具,它负责指定SQL的执行计划,也就是它负责保证SQL执行的效率最高,比如优化器决定Oracle以什么样的方式来访问数据,是全表扫描(FullTableScan),索引范围扫描(IndexRangeScan)还是全索引快速扫描(INDEXFastFullScan:INDEX_FFS);对于表关联查询,它负责确定表之间以一种什么方式来关联,比如HASH_JOHN还是NESTEDLOOPS或者MERGEJOIN。这些因素直接决定SQL的执行效率,所以优化器是SQL执行的核心,它做出的执行计划好坏,直接决定着SQL的执行效率。

Oracle的优化器有两种:

RBO(Rule-BasedOptimization):基于规则的优化器

CBO(Cost-BasedOptimization):基于代价的优化器

从Oracle10g开始,RBO已经被弃用,但是我们依然可以通过Hint方式来使用它。

一.RBO基于规则的优化器

在8i之前,Oracle使用的是一种叫作RBO(RuleBasedOptimizer)的优化器,它的执行机制非常简单,就是在优化器里面嵌入若干种规则,执行的SQL语句符合哪种规则(RANK),则按照规则(RANK)制定出相应的执行计划,比如说表上有个索引,如果谓词上有索引的列存在,则Oracle会选择索引,否则选择全表扫描;又比如,两个表关联的时候,按照表在SQL中的位置来决定哪个是驱动表,哪个是被驱动表。

RBO选择执行计划的一个优先级列表

Rank

AccessPath

1

SinglerowbyROWID

2

Singlerowbyclusterjoin

3

Singlerowbyhashclusterkeywithuniqueorprimarykey

4

Singlerowbyuniqueorprimarykey

5

ClusterJoin

6

Hashclusterkey

7

Indexedclusterkey

8

Compositeindex

9

Single-columnindex

10

Boundedrangesearchonindexedcolumns

11

Unboundedrangesearchonindexedcolumns

12

Sort-mergejoin

13

MAXORMINofindexedcolumn

14

ORDERbyonindexedcolumn

15

Fulltablescan

由于RBO只是简单的去匹配Rank,所以它的执行计划有时并不是最佳的。比如我们有一张数据分布非常不均匀的表。90%的数据内容是一样的,并且在这个字段上有索引。如果我们的SQL谓词里有这个字段,那么RBO就会选择走索引。这就会增加额外的开销。因为Oracle要先访问索引数据块,在索引上找到相应的键值,然后按照键值上的rowid在去访问表中的相应数据。在这种情况下,我们选择全表扫描是最优的,但是RBO不会这么选择。

二.CBO基于成本的优化器

从8i开始,Oracle引入了CBO(CostBasedOptimizer),它的思路是让Oracle获取所有执行计划相关的信息,通过对这些信息做计算分析,最后得出一个代价最小的执行计划作为最终的执行计划。

CBO是一种比RBO更理性化的优化器。从10g开始,Oracle已经彻底丢弃了RBO。即使在表,索引没有被分析的时候,Oracle依然会使用CBO。此时,Oracle会使用一种叫做动态采样的技术,在分析SQL的时候,动态的收集表,索引上的一些数据块,使用这些数据块的信息及字典表中关于这些对象的信息来计算出执行计划的代价,从而挑出最优的执行计划。

当表没有做分析的时候,Oracle会使用动态采样来收集统计信息,这个动作只有在SQL执行的第一次,即硬分析阶段使用,后续的软分析将不在使用动态采样,直接使用第一次SQL硬分析时生成的执行计划。

OracleSQL的硬解析和软解析

http://blog.csdn.net/tianlesoftware/archive/2010/04/08/5458896.aspx

在Oracle10g中,CBO可选的运行模式有2种:

(1)FIRST_ROWS(n)

(2)ALL_ROWS--10g中的默认值

查看CBO模式:

SQL>showparameteroptimizer_mode

NAMETYPEVALUE

------------------------------------------------------------

optimizer_modestringALL_ROWS

修改CBO模式的三种方法:

(1)SQL语句:

Sessions级别:

SQL>altersessionsetoptimizer_mode=all_rows;

(2)修改pfile参数:

OPTIMIZER_MODE=RULE/CHOOSE/FIRST_ROWS/ALL_ROWS

(3)语句级别用Hint(/*+...*/)来设定

Select/*+first_rows(10)*/namefromtable;

Select/*+all_rows*/namefromtable;

OPTIMIZER_INDEX_COST_ADJ参数

参数OPTIMIZER_INDEX_COST_ADJ可以理解为Oracle执行多块(MultiBlock)I/O(比如全表扫描)的代价与执行单块(Single-block)I/O代价的相对比例。OPTIMIZER_INDEX_COST_ADJ通过指明索引I/O代价与扫描全表I/O代价的相对比值来影响CBO的行为,取值越小,CBO越倾向于使用索引,取值越大,越倾向于全表扫描。而缺省值100,指明缺省下,二者的代价是相等。

官方文档(Reference)中对这个参数描述如下:

OPTIMIZER_INDEX_COST_ADJ

Property

Description

Parametertype

Integer

Defaultvalue

100

Modifiable

ALTERSESSION,ALTERSYSTEM

Rangeofvalues

1to10000

OPTIMIZER_INDEX_COST_ADJletsyoutuneoptimizerbehaviorforaccesspathselectiontobemoreorlessindexfriendly—thatis,tomaketheoptimizermoreorlesspronetoselectinganindexaccesspathoverafulltablescan.

Thedefaultforthisparameteris100percent,atwhichtheoptimizerevaluatesindexaccesspathsattheregularcost.Anyothervaluemakestheoptimizerevaluatetheaccesspathatthatpercentageoftheregularcost.Forexample,asettingof50makestheindexaccesspathlookhalfasexpensiveasnormal.

Note:

Theadjustmentdoesnotapplytouser-definedcostfunctionsfordomainindexes.

http://download.oracle.com/docs/cd/B28359_01/server.111/b28320/initparams160.htm#REFRN10143

FIRST_ROWS(n)模式说明

当CBO的优化模式设置为FIRST_ROWS(n)时,Oracle在执行SQL时,优先考虑将结果集中的前n条记录以最快的速度反馈回来,而其他的结果并不需要同时返回。

这种需求在一些网站或者BBS的分页上经常看到,比如每次只显示查询信息的前20条或者BBS上的前20个帖子,这时候设置FIRST_ROWS(20)就非常合适,优化器并不需要同事将所有符合条件的结果返回,用户也不需要。这时,CBO将考虑用一种最快的返回前20条记录的执行计划,这种执行计划对于SQL的整体执行时间也不不是最快的,但是在返回前20条记录的处理上,确实最快的。

如:

Select/*+first_rows(10)*/b.x,b.yfrom

(

Select/*+first_rows(10)*/a.*,rownumrnumfrom

(

Select/*+first_rows(20)*/*fromtorderbyx

)a

Whererownum<20

)bwherernum>=10;

在这个分页例子中,每次从结果集中取10条记录,记录按照x字段排序。

注意:排序使用的字段x必须创建有索引,否则CBO会忽略FIRST_ROWS(n),而使用ALL_ROWS.

ALL_ROWS模式说明

当CBO模式设置为ALL_ROWS时,Oracle会用最快的速度将SQL执行完毕,将结果集全部返回,它和FIRST_ROWS(n)的区别在于,ALL_ROWS强调以最快的速度将SQL执行完毕,并将所有的结果集反馈回来,而FIRST_ROWS(n)则侧重于返回前n条记录的执行时间。

ALL_ROWS在OLAP系统中使用得比较多,它用最快的速度获得SQL执行的最后一条记录,而不是前N条记录。和FIRST_ROWS(n)正好相反。ALL_ROWS强调SQL整体的执行效率,而FIRST_ROWS(n)强调用最快的速度返回前N行,而不管所有的结果返回的时长,可能最后一条要很长时间才能获得。

CBO下写SQL语句的注意事项:

1RBOORACLE6版以来被采用,有着一套严格的使用规则,只要你按照它去写SQL语句,无论数据表中的内容怎样,也不会影响到你的执行计划,也就是说对数据不敏感CBO计算各种可能执行计划代价,即cost,从中选用cost最低的方案,作为实际运行方案。各执行计划cost的计算根据,依赖于数据表中数据的统计分布,ORACLE数据库本身对该统计分布并不清楚,必须要分析表和相关的索引(使用ANALYZE命令),才能搜集到CBO所需的数据。

2使用CBO时,编写SQL语句时,不必考虑"FROM"子句后面的表或视图的顺序和"WHERE"子句后面的条件顺序;ORACLE7版以来采用的许多新技术都是基于CBO的,如星型连接排列查询,哈希连接查询,函数索引,和并行查询等。

3一般而言,CBO所选择的执行计划都不会比RBO执行计划差,而且相对而言,CBO对程序员的要求没有RBO那么苛刻,节省了程序员为了从多个可能的执行计划中选择一个最优的方案而花费的调试时间,但在某些场合下也会存在问题。较典型的问题有:有时,表明明建有索引,但查询过程显然没有用到相关的索引,导致查询过程耗时漫长,占用资源巨大,这时就需要仔细分析执行计划,找出原因。例如,可以看连接顺序是否允许使用相关索引。假设表empdeptno列上有索引,表dept的列deptno上无索引,WHERE语句有emp.deptno=dept.deptno条件。在做NL连接时,emp做为外表,先被访问,由于连接机制原因,外表的数据访问方式是全表扫描,emp.deptno上的索引显然是用不上,最多在其上做索引全扫描或索引快速全扫描。

4如果一个语句使用RBO的执行计划确实比CBO好,则可以通过加"rule"提示,强制使用RBO

5使用CBO时,SQL语句"FROM"子句后面的表,必须全部使用ANALYZE命令分析过,如果"FROM"子句后面的是视图,则此视图的基础表,也必须全部使用ANALYZE命令分析过;否则,ORACLE会在执行此SQL语句之前,自动进行ANALYZE命令分析,这会极大导致SQL语句执行极其缓慢。

6使用CBO时,SQL语句"FROM"子句后面的表的个数不宜太多,因为CBO在选择表连接顺序时,会对"FROM"子句后面的表进行阶乘运算,选择最好的一个连接顺序。假如"FROM"子句后有6个表,则其可选择的连接顺序就是6*5*4*3*2*1=720种,CBO选择其中一种,而如果"FROM"子句后有12个表,则其可选择的连接顺序就是12*11*10*9*8*7*6*5*4*3*2*1=479001600种,可以想象从中选择一种,会消耗多少CPU时间?如果实在是要访问很多表,则最好使用ORDER提示,强制使用"FROM"子句表固定的访问顺序。

7使用CBO时,SQL语句中不能引用系统数据字典表或视图,因为系统数据字典表都未被分析过,可能导致极差的执行计划但是不要擅自对数据字典表做分析,否则可能导致死锁,或系统性能严重下降。

8、使用CBO时,要注意看采用了哪种类型的表连接方式ORACLE的共有SortMergeJoinSMJ)、HashJoinHJ)和NestedLoopJoinNL)。CBO有时会偏重于SMJHJ,但在OLTP系统中,NL一般会更好,因为它高效的使用了索引。在两张表连接,且内表的目标列上建有索引时,只有NestedLoop才能有效地利用到该索引。SMJ即使相关列上建有索引,最多只能因索引的存在,避免数据排序过程。HJ由于须做HASH运算,索引的存在对数据查询速度几乎没有影响。

9、使用CBO时,必须保证为表和相关的索引搜集足够的统计数据。对数据经常有增、删、改的表最好定期对表和索引进行分析,可用SQL语句“analyzetablexxxcomputestatisticsforallindexes;"ORACLE掌握了充分反映实际的统计数据,才有可能做出正确的选择。

10使用CBO时,要注意被索引的字段的值的数据分布,会影响SQL语句的执行计划。例如:表emp,共有一百万行数据,但其中的emp.deptno列,数据只有4种不同的值,如10203040。虽然emp数据行有很多,ORACLE缺省认定表中列的值是在所有数据行均匀分布的,也就是说每种deptno值各有25万数据行与之对应。假设SQL搜索条件DEPTNO=10,利用deptno列上的索引进行数据搜索效率,往往不比全表扫描的高,ORACLE理所当然对索引视而不见,认为该索引的选择性不高。

我们考虑另一种情况,如果一百万数据行实际不是在4deptno值间平均分配,其中有99万行对应着值105000行对应值203000行对应值302000行对应值40。在这种数据分布图案中对除值为10外的其它deptno值搜索时,毫无疑问,如果索引能被应用,那么效率会高出很多。我们可以采用对该索引列进行单独分析,或用analyze语句对该列建立直方图,对该列搜集足够的统计数据,使ORACLE在搜索选择性较高的值能用上索引。