[转] Oracle的三种表连接方式

http://blog.sina.com.cn/s/blog_475e7d8901011byi.html

在做表join的时候, Oracle有三种方式, 与其说有三种方式, 不如说是三种策略。

分别是:

sort merge join(SMJ)
nest loop(NL)
hash join(HJ)

根据我的理解来讲讲这三种策略。

首先讲讲Row Source, 根据Oracle官方的解释,

Row source is a row set returned by a step in the execution plan along with a control structure that can iteratively process the rows. The row source can be a table, a view or result of a join or grouping operation.

总之, Row source是oracle根据执行计划生成的可操作数据集, 这种说法比Table更为严谨,因为join的两侧可能是view或者其他的object.

  1. sort merge join.

例如:

select * from t1 inner join t2 on t1.id=t2.id

首先会把row source1(t1)先载入内存, 进行排序, 然后把row source2(t2)载入内存,进行排序,然后进行merge操作。

什么是merge 操作?就是将两边的行按照连接条件连起来, (t1.id=t2.id)。

不难看出,这种方式将需要连接的两张表中的列都放到内存中,然后进行排序,而排序是一个消耗资源的操作,这样对于两张比较大的表,性能恐怕会比较差。

所以, 这种策略适合于表比较小, 或者在连接列上有索引的表。因为索引列已经排过序了。

  1. Nested loops

选定一张表做为驱动表,Oracle会遍历驱动表中的每一行,根据连接条件去匹配第二张表中的行。

比如第一张表中有50行数据, 第二张表中有100行数据, 这样遍历的时间约等于50100+50磁头切换时间

如果选择第二张表作为驱动表,遍历时间约等于10050+100磁头切换时间。

可见使用小表作为驱动表可以减少I/O,性能会比较好。

例如:

select from t1 inner join t2 on t1.id=t2.id

以上的这个hint 代表的是按照sql中指定的表顺序进行连接。也就是我把t1作为驱动表(Driving table).

Orace会根据t1中的每一行, 去寻找t2中满足t1.id=t2.id的行,然后返回到结果集。

不难看出, 如果在内部表的查询列上有索引的话, 查询的效率将提升。

据说,对于可并行执行的大表, 使用分区了的大表作为Driving table,性能会比较好,因为会在每个分区上并行执行,但是取决于硬件是否支持多个磁盘,多个CPU并行执行,这个我并没有试过,所以不敢妄加定论。

  1. Hash Join

仅针对CBO有效。

使用较小的Row source 作为Hash table和Bitmap. 而第二个row source被hashed,根据bitmap与第一个row source生成的hash table 相匹配,bitmap查找的速度极快。

例如:

select * from t1 inner join t2 on t1.id=t2.id

特别的,当Hash Table很大而不能全部留存在内存中的时候,这种Join策略更为实用。

但是,由于Bitmap本身的限制, 这种join策略只适用在等值连接的情况下。

而且,在计算Hash Table的时候, 需要考虑系统Hash_Area_Size参数设置。

show parameter hash_area_size

你可能感兴趣的:([转] Oracle的三种表连接方式)