(一)实现分页及性能
Oracle的分页查询语句基本上可以按照本文给出的格式来进行套用。
分页查询格式:
SELECT * FROM
(
SELECT A.*, ROWNUM RN
FROM (SELECT * FROM TABLE_NAME) A
WHERE ROWNUM <= 40
)
WHERE RN >= 21
其中最内层的查询SELECT * FROM TABLE_NAME表示不进行翻页的原始查询语句。ROWNUM <= 40和RN >= 21控制分页查询的每页的范围。
上面给出的这个分页查询语句,在大多数情况拥有较高的效率。分页的目的就是控制输出结果集大小,将结果尽快的返回。在上面的分页查询语句中,这种考虑主要体现在WHERE ROWNUM <= 40这句上。
选择第21到40条记录存在两种方法,一种是上面例子中展示的在查询的第二层通过ROWNUM <= 40来控制最大值,在查询的最外层控制最小值。而另一种方式是去掉查询第二层的WHERE ROWNUM <= 40语句,在查询的最外层控制分页的最小值和最大值。这是,查询语句如下:
SELECT * FROM
(
SELECT A.*, ROWNUM RN
FROM (SELECT * FROM TABLE_NAME) A
)
WHERE RN BETWEEN 21 AND 40
对比这两种写法,绝大多数的情况下,第一个查询的效率比第二个高得多。
这是由于CBO优化模式下,Oracle可以将外层的查询条件推到内层查询中,以提高内层查询的执行效率。对于第一个查询语句,第二层的查询条件WHERE ROWNUM <= 40就可以被Oracle推入到内层查询中,这样Oracle查询的结果一旦超过了ROWNUM限制条件,就终止查询将结果返回了。
而第二个查询语句,由于查询条件BETWEEN 21 AND 40是存在于查询的第三层,而Oracle无法将第三层的查询条件推到最内层(即使推到最内层也没有意义,因为最内层查询不知道RN代表什么)。因此,对于第二个查询语句,Oracle最内层返回给中间层的是所有满足条件的数据,而中间层返回给最外层的也是所有数据。数据的过滤在最外层完成,显然这个效率要比第一个查询低得多。
上面分析的查询不仅仅是针对单表的简单查询,对于最内层查询是复杂的多表联合查询或最内层查询包含排序的情况一样有效。
下面简单讨论一下多表联合的情况。对于最常见的等值表连接查询,CBO一般可能会采用两种连接方式NESTED LOOP和HASH JOIN(MERGE JOIN效率比HASH JOIN效率低,一般CBO不会考虑)。在这里,由于使用了分页,因此指定了一个返回的最大记录数,NESTED LOOP在返回记录数超过最大值时可以马上停止并将结果返回给中间层,而HASH JOIN必须处理完所有结果集(MERGE JOIN也是)。那么在大部分的情况下,对于分页查询选择NESTED LOOP作为查询的连接方法具有较高的效率(分页查询的时候绝大部分的情况是查询前几页的数据,越靠后面的页数访问几率越小)。
因此,如果不介意在系统中使用HINT的话,可以将分页的查询语句改写为:
SELECT /*+ FIRST_ROWS */ * FROM
(
SELECT A.*, ROWNUM RN
FROM (SELECT * FROM TABLE_NAME) A
WHERE ROWNUM <= 40
)
WHERE RN >= 21
(二)FIRST_ROWS和FIRST_ROWS(N)的区别
按照Oracle文档的说法,FIRST_ROWS并不完全是CBO模式,还包含了大量的基于规则的优化方式。而9i新增的FIRST_ROWS(N)则完全基于代价的方式。
SQL> CREATE TABLE T (ID NUMBER PRIMARY KEY, NAME VARCHAR2(30), DOCS VARCHAR2(4000));
表已创建。
SQL> INSERT INTO T
2 SELECT ROWNUM, OBJECT_NAME,
3 OWNER || ' ' || OBJECT_TYPE || ' ' || OBJECT_NAME
4 FROM DBA_OBJECTS;
已创建31313行。
SQL> CREATE INDEX IND_T_NAME ON T (NAME);
索引已创建。
SQL> CREATE INDEX IND_T_DOCS ON T (DOCS) INDEXTYPE IS CTXSYS.CONTEXT;
索引已创建。
SQL> EXEC DBMS_STATS.GATHER_TABLE_STATS(USER, 'T', METHOD_OPT => 'FOR ALL INDEXED COLUMNS SIZE 100')
PL/SQL 过程已成功完成。
SQL> EXEC DBMS_STATS.GATHER_INDEX_STATS(USER, 'IND_T_DOCS')
PL/SQL 过程已成功完成。
SQL> SET AUTOT ON EXP
SQL> COL DOCS FORMAT A50
SQL> SELECT * FROM T
2 WHERE CONTAINS(DOCS, 'SYS', 1) > 0
3 AND NAME = 'DUAL'
4 ORDER BY SCORE(1);
ID NAME DOCS
---------- ------------------------------ ---------------------------------
7112 DUAL SYS TABLE DUAL
执行计划
----------------------------------------------------------
0 SELECT STATEMENT Optimizer=CHOOSE (Cost=5 Card=1 Bytes=74)
1 0 SORT (ORDER BY) (Cost=5 Card=1 Bytes=74)
2 1 TABLE ACCESS (BY INDEX ROWID) OF 'T' (Cost=2 Card=1 Bytes=74)
3 2 INDEX (RANGE SCAN) OF 'IND_T_NAME' (NON-UNIQUE) (Cost=1 Card=2)
根据列的数据的分布以及索引的统计信息,Oracle在这里选择了普通索引,而没有选择全文索引。
下面就可以看到两个提示FIRST_ROWS和FIRST_ROWS(N)的区别了:
SQL> SELECT /*+ FIRST_ROWS */ * FROM T
2 WHERE CONTAINS(DOCS, 'SYS', 1) > 0
3 AND NAME = 'DUAL'
4 ORDER BY SCORE(1);
ID NAME DOCS
---------- ------------------------------ ----------------------------------
7112 DUAL SYS TABLE DUAL
执行计划
----------------------------------------------------------
0 SELECT STATEMENT Optimizer=HINT: FIRST_ROWS (Cost=2643 Card=1 Bytes=74)
1 0 TABLE ACCESS (BY INDEX ROWID) OF 'T' (Cost=2640 Card=1 Bytes=74)
2 1 DOMAIN INDEX OF 'IND_T_DOCS' (Cost=2369 Card=2)
SQL> SELECT /*+ FIRST_ROWS(1) */ * FROM T
2 WHERE CONTAINS(DOCS, 'SYS', 1) > 0
3 AND NAME = 'DUAL'
4 ORDER BY SCORE(1);
ID NAME DOCS
---------- ------------------------------ ----------------------------------
7112 DUAL SYS TABLE DUAL
执行计划
----------------------------------------------------------
0 SELECT STATEMENT Optimizer=HINT: FIRST_ROWS (Cost=5 Card=1 Bytes=74)
1 0 SORT (ORDER BY) (Cost=5 Card=1 Bytes=74)
2 1 TABLE ACCESS (BY INDEX ROWID) OF 'T' (Cost=2 Card=1 Bytes=74)
3 2 INDEX (RANGE SCAN) OF 'IND_T_NAME' (NON-UNIQUE) (Cost=1 Card=2)
FIRST_ROWS(N)完全根据统计信息来进行判断,而FIRST_ROWS包含了一些默认的规则在其中,因此,FIRST_ROWS选择了域索引,而没有选择代价更小的普通索引。
可能也是出于上述的考虑,Oracle选择默认的CBO模式时,选择了ALL_ROWS而不是FIRST_ROWS。