MySQL(三)——连接

连接的原理

嵌套连接

  • 两表连接,驱动表(比如左连接的左表)

    • 步骤1:选取驱动表,使用与驱动表相关的过滤条件,选取代价最低的单表访问方法来执行对驱动表的单表查询。
    • 步骤2:对上一步骤中查询驱动表得到的结果集中每一条记录,都分别到被驱动表中查找匹配的记录。
  • 可以对被驱动表加索引

  • 有时候连接查询的查询列表和过滤条件中可能只涉及被驱动表的部分列,而这些列都是某个索引的一部分,这种情况下即使不能使用eq_refrefref_or_null或者range这些访问方法执行对被驱动表的查询的话,也可以使用索引扫描,也就是index的访问方法来查询被驱动表。所以我们建议在真实工作中最好不要使用*作为查询列表,最好把真实用到的列作为查询列表。

基于块的嵌套循环连接

  • 嵌套连接中被驱动表可能需要访问很多次,如果不能用索引或者数据量大,则IO压力很大,要尽量减少被驱动表的访问次数
  • 每次访问被驱动表会加载到内存,然后去和驱动表中的一条记录做匹配,然后又从内存中删掉,循环很多次。所以提出了join buffer的概念,就是执行连接查询前申请一块固定大小的内存,先把若干条驱动表结果集中的记录装在这个join buffer中,然后开始扫描被驱动表,每一条被驱动表的记录一次性和join buffer中的多条驱动表记录做匹配,且都是在内存中完成的,减少了很多IO操作。且只有查询列表和过滤条件中的列会放到join buffer中,所以尽可能不要用*,这样join buffer可以存放更多的记录。

查询优化

  • 移除不必要的括号

  • 常量传递: a=5 and b>a -> a=5 and b>5

  • 等值传递

  • 移除没用的条件

  • HAVING和WHERE合并:如果没有sum、max等聚集函数以及group by,那么会把having和where合并。

  • 优先执行常量表,即主键或唯一二级索引的等值匹配

  • 外连接消除:内连接的驱动与被驱动表可以互相转换,而外连接不行。指定的WHERE子句中包含被驱动表中的列不为NULL值的条件称之为空值拒绝(英文名:reject-NULL)。在被驱动表的WHERE子句符合空值拒绝的条件后,外连接和内连接可以相互转换。这种转换带来的好处就是查询优化器可以通过评估表的不同连接顺序的成本,选出成本最低的那种连接顺序来执行查询。

  • 子查询

    • 对于包含不相关的标量子查询或者行子查询的查询语句来说,MySQL会分别独立的执行外层查询和子查询,就当作两个单表查询就好了。如:会先查询子查询, 然后用子查询的值当做常数值进行外层查询

      SELECT * FROM s1 WHERE key1 = (SELECT common_field FROM s2 WHERE key3 = 'a' LIMIT 1);
      
      
    • 对于相关的标量子查询,对外层查询的表进行扫描,每次获取一条记录,取出子查询中涉及到的列的值进行子查询,依次循环。如:

      SELECT * FROM s1 WHERE key1 = (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3 LIMIT 1);
      
      
  • IN子查询

    物化表:如果子查询的结果集非常的大,那父查询的每条记录都要判断查询条件,会很耗性能,所以mysql会把子查询的结果集写入一个临时表(采用Memory存储引擎)里,列就是子查询的列,且结果会去重,并对列建立哈希索引,这样判断某个操作值在不在子查询结果集里就会很快。或者如果子查询结果集太大了,则会变成基于磁盘保存,索引变为B+树。这个过程叫做物化表。转换之后其实就可以变成内连接了

    SELECT * FROM s1 
        WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
    等价于
    SELECT s1.* FROM s1 INNER JOIN materialized_table ON key1 = m_val;
    
  • semi-join:如果想要不通过临时表,直接转换成连接查询,则会产生问题,如果子查询的结果集中有多条数据没有经过去重直接内连接会有多条记录,于是提出了semi-join半连接,对s1的某条记录,我们只关心在s2表中是否存在与之匹配的记录,不关心有多少条,最终的结果集中只保留s1表的记录。

    • 转成半连接的条件:
      • 该子查询必须是和IN语句组成的布尔表达式,并且在外层查询的WHERE或者ON子句中出现。
      • 外层查询也可以有其他的搜索条件,只不过和IN子查询的搜索条件必须使用AND连接起来。
      • 该子查询必须是一个单一的查询,不能是由若干查询由UNION连接起来的形式。
      • 该子查询不能包含GROUP BY或者HAVING语句或者聚集函数。
    • 对于不能转为半连接的查询有两种优化方法:
      • 1、先物化再查询
      • 2、IN转EXISTS
  • 执行带有派生表的语句时,会延迟物化。或者把派生表和外层的表合并来消除派生表。

你可能感兴趣的:(MySQL(三)——连接)