这两个关键字的区别主要是在于子查询上面,in是独立子查询,exists是相关子查询,例如:
用in查询有员工的部门 :select dept_name from dept where id in (select dept_id from emp);
用exists查询有员工的部门:select dept_name from dept where exists (select 1 from emp where dept.id=emp.dept_id);
当然,执行结果完全一致。
上面的SQL语句执行的完全结果一样,那么这两个的效率如何呢?
网上也是有很多文章进行解读,总的来说就是体现一种小数据集驱动大数据集的思想。很多文章是直接说小表驱动大表,其实这样是很不准确的,因为我们可以这样【select dept_name from dept where id in (select dept_id from emp where id>5;)】这样对于子查询来说他返回的结果集与他的表没太大关系了,所以小数据集驱动大的数据集是一种更精准的说法。参考【知乎 MySQL查询语句中的IN 和Exists 对比分析】
下面分析它的执行原理(关于版本5.5和5.6的区别在文章后面会说):
对于in来说,他是先执行子查询然后得到子查询的结果集,再用子查询的结果去匹配外部表。这样的话需要遍历一边刚刚的结果集,如果外部表的相应字段建立了索引的话,在匹配外部表的时候就能使用上外部表的索引了。假设子查询结果大小为M,外部表的大小为N,外部表使用B+Tree索引匹配每一条数据的时间复杂度是O(log N),那么这个总的时间复杂度就相当于O(M*log N)。
对于exists来说,他是执行外表的遍历操作(不一定是全表扫描也可能是索引扫描,但是差别不是很大),然后里面的相关子查询会利用外部表的数据对内部表进行匹配,这个时候如果内部表的相关字段建立了索引的话,匹配的时候就能走索引了。同样假设子查询结果大小为M,外部表的大小为N,内部表使用B+Tree索引匹配每一条数据的时间复杂度是O(log M),那么这个总的时间复杂度就相当于O(N*log M)。
很明显:当外表大,内部数据集小,适合适使用in。当外表小,内部数据集大,适合使用exists。
mysql是一代版本一代神,很多人写博客的时候都不标注出系统环境,这样可能会造成不必要的困扰。
准备数据表如下:
可以看出在emp表的dept_id上有索引。两个表的主键都是id。
首先检验exists:执行 explain select dept_name from dept where exists (select 1 from emp where dept.id=emp.dept_id);
结果和我们想像的一样,dept表的访问类型是全表扫描,emp表的访问类型是ref。
接下来检验in:执行 explain select dept_name from dept where id in (select dept_id from emp);
咦?不对啊,没有用上外部表的主键索引,外部表的访问类型是全表扫描啊!
这是因为:mysql5.5会把in的独立子查询语句转化为exists相关子查询语句,所以才出现了上面的结果。参考【搜狐科技】
在mysql5.6中则不会了,在mysql5.6中的表现和我们期待的一致,具体可以参考【深入理解MySql子查询IN的执行和优化】。
由于我的本机和服务器使用的都是5.5版本,已经是非常老的一个版本了,所以在考虑是否换成5.6或者5.7,搞不好直接换8.0了,哈哈。
这个就比较明朗了,对于not exists来说,和exists一样会利用内部表建立好的索引,唯一的区别在于当有数据匹配的时候exists返回true而not exists返回false。
实践如下:执行SQL,explain select emp_name from emp where not exists (select 1 from dept where dept.id=dept_id);
和预期一致,外表全表扫描,内表使用上了索引。
对于not in来说,哪个表的索引的用不上,除非覆盖索引的时候用一下。
外表外表扫描,内表的查询覆盖索引,因为extra字段出现了using index,但是效率比使用索引进行查找低多了。
所以对于 not exists 和 not in 来说毫不犹豫的使用 not exists 。
确实,对于只查询的in和exists来说,可以用join来替代。而且用join的话我们可以更好的控制使用索引的情况,对于非外连接来说,join可以自动判断表的大小,从而使小的数据集驱动大的数据集。关于join可以参考我的另一篇文章【MySQL系列-优化之join多表连接】。