join算法原理和优化

数据准备

t1 100行
    id 主键
    a 
t2 1000行
    id 主键
    a 索引
    b

Index Nested-Loop Join

sql

select * from t1 straight_join t2 on (t1.a=t2.a);
t1为驱动表,t2为被驱动表

执行流程

1.从表 t1 中读入一行数据 R;
2.从数据行 R 中,取出 a 字段到表 t2 里去查找;
3.取出表 t2 中满足条件的行,跟 R 组成一行,作为结果集的一部分;
4.重复执行步骤 1 到 3,直到表 t1 的末尾循环结束

join算法原理和优化_第1张图片

执行效率

由于t2的a有索引,所以大约扫描了200行

Block Nested-Loop Join

sql

select * from t1 straight_join t2 on (t1.a=t2.b);
t1为驱动表,t2为被驱动表

执行流程

1.把表 t1 的数据读入线程内存 join_buffer 中,由于我们这个语句中写的是 select *,因此是把整个表 t1 放入了内存;
2.扫描表 t2,把表 t2 中的每一行取出来,跟 join_buffer 中的数据做对比,满足 join 条件的,作为结果集的一部分返回。

join算法原理和优化_第2张图片

执行效率

由于t2的b没有有索引,没查t1一条数据,t2差不多都是一次全表查询,扫描最多为100X1000=100000

如果表t1过大

因为join_buffer大小有限,所以出现了下面的执行流程

执行流程2

1.扫描表 t1,顺序读取数据行放入 join_buffer 中,放完第 88 行 join_buffer 满了,继续第 2 步;
2.扫描表 t2,把 t2 中的每一行取出来,跟 join_buffer 中的数据做对比,满足 join 条件的,作为结果集的一部分返回;
3.清空 join_buffer;
4.继续扫描表 t1,顺序读取最后的 12 行数据放入 join_buffer 中,继续执行第 2 步

join算法原理和优化_第3张图片

执行效率

由于涉及join_buffer,清空和加数据,他的效率更低

优化

小表

综合字段数,记录数小的表作为驱动表

join_buffer设置更大空间

可以减少join_buffer的清空次数

重要:加索引

200和10w,你自己选,如果是10w和10w呢,无法想象

你可能感兴趣的:(join算法原理和优化)