在公司做了半年的oracle的sql语句优化,现在总结一下,方便以后回顾,也希望水友们指正一下,共同进步。
首先不考虑硬件上的瓶颈问题,也不涉及表的分区,只是平时优化sql语句常碰到的细节地方,基于oracle9i。
从表的连接、索引的使用、记录的排序几个方面先总结一下。
1、表的连接,表连接分为:sort merge join(SMJ)排序合并连接、nested loops(NL)嵌套循环、hash join(HJ)哈希连接。还有一种笛卡尔积连接,就是不加连接条件,那是一种特殊情况。
其中SMJ首先需要排序,效率比较差,一般不要使用;
NL方式,最好情况是驱动表(连接的表a,b中a表;b表称作被内部表或被探测表)记录越少越好,也就是外层循环次数少;内部表有唯一索引时也能提高效率(驱动表概念在10g版本后,貌似被取消了);
HJ方式,效率比较高。(通过索引字段关联)
2、索引的使用,有一些比较容易忽视和迷糊的地方,记录在案。
in(。。。)能使用索引,但是not in(。。。) 不能使用索引;
>, < , <= , >= 能用索引,但是<> 不能使用索引;
like ‘abc%’ 能用索引,但是 like ‘%abc%’ 不能使用索引,后导模糊查询才能使用索引;
function(index_column)=?不能使用索引,除非是函数索引;同时出来一个问题: 不同类型的字段比较时候会类型转换,相当于加了函数,也不能使用索引,需要注意,比如number_index_column = 'abc',不要转换类型,oracle自动加上to_char()函数;
index_column || 'abc' = ? 和 index_column + 1 = ?也不能使用索引,所以一般写成这样: index_column = ? - 1,经过运算的列也不能用索引。
index_column is null不能使用索引,因为b_tree索引不能保存null值。
3、记录的排序,排序非常耗时间和资源,所以影响效率,能避免就避免,以下情况会出现排序:
Order by
Group by
Distinct
Exists子查询
Not Exists子查询
In子查询
Not In子查询
Union(并集),Union All也是一种并集操作,但是不会发生排序,如果你确认两个数据集不需要执行去除重复数据 操作,那请使用Union All 代替Union。
Minus(差集)
Intersect(交集)
Merge Join,这是一种两个表连接的内部算法,执行时会把两个表先排序好再连接,应用于两个大表连接的操作。