学习丁琦老师的 MYSQL课程,整理一下学习笔记。
现在有一条查询语句:
mysql> select * from T where ID=10;
在 mysql 连接客户端中我们看到的只是输入一条语句,返回一个结果,却不知道这条语句在 Mysql 内部的执行过程。
要了解执行过程,先了解 Mysql 的基本架构,从中就可以看出 SQL 语句在 MySQL 的各个功能模块的执行过程。
大体来说,MySQL 可以分为 Server 层和 存储引擎层 两部分。
Server 层 包括连接器、查询缓存、分析器、优化器、执行器 ,涵盖 MySQL 的大多数核心服务功能,以及所有的内置函数如(日期,时间,数学和加密函数)所有跨存储引擎的功能都在这一层实现,比如,存储过程,触发器,视图等。
存储引擎层 负责数据的存储和提取,其架构模式是插件式的,支持 InnoDB, MyISAM, Memory 等多个存储引擎。从图中可以看出,不同的存储引擎共用一个 Server 层,也就是从连接器到执行器的部分。
连接器:连接器负责跟客户端建立连接,获取权限,维持和管理连接。
连接命令一般格式:
mysql -h$ip -P$port -u$user -p$passwd
这就意味着 ,一个用户成功建立连接后,即使你用管理员账号对这个用户的权限做了修改,也不会影响已经存连接的权限。修改完成后,只有再新建的连接才会使用新的权限设置。
查询缓存:连接建立完成后,就可以执行 select 语句了。执行逻辑就会来到第二步:查询缓存 。MySQL 拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。之前执行过的语句及其结果可能会以 K-V 对的形式缓存在内存中。K 是查询的语句,V 是返回的结果。如果在缓存中存在K,直接返回 K 对应的 V 给客户端。如果不存在就会继续后面的执行阶段,执行完成后,执行结果会存入查询缓存中。
但是大多数情况下不建议使用查询缓存,查询缓存的失效非常频繁,只要有对一个表的更新这个表上的所有查询缓存都会被清空。尤其对于更新压力大的数据库来说,查询缓存的命中率会非常低。
Mysql 可以使用 query_cache_type 设置成 DEMAND 这样对于默认的SQL语句都不使用查询缓存。对于确定用缓存的语句可以使用 SQL_CACHE 显示指定:
mysql> select SQL_CACHE * from T where ID=10;
需要注意: MYSQL 8.0 版本直接将查询缓存的整块功能删掉了。
分析器:如果没有命中查询缓存,就要开始真正执行语句了,首先,MySQL 需要知道你要做什么,因此,需要对 SQL 语句做解析。分析器先做“词法分析”。你输入的是由多个字符串和空格组成的一条 SQL 语句,MySQL 需要识别里面的字符串分别是什么,代表什么。
MySQL 从输入的 “select” 这个关键字识别出来,这是一个查询语句。它也要把字符串 “T” 识别成“表名 T”, 把字符串 “ID” 识别成“列 ID”。做完了这些识别后,就要做 “语法分析”。根据 词法分析的结果,语法分析器会根据语法规则,判断输入的这个SQL 语句是否满足 MySQL 的语法。如果输入的不对,就会收到“ You have an error in your SQL syntax” 的错误提醒
优化器:经过了 分析器, MySQL 就知道你要做什么了,在开始执行之前,还要进过优化器的处理。优化器是在表里面有多个索引的时候,决定使用哪个索引;或者在一个语句有多表关联(join)的时候,决定各个表的连接顺序。比如:
mysql> select * from t1 join t2 using(ID) where t1.c=10 and t2.d=20;
既可以先从表 t1 里面取出 c=10 的记录 的 ID值,再根据 ID 的值关联到表 t2,再判断 t2里面 d 的值是否等于 20。
也可以先从表 t2 里面取出 d=20 的记录 的 ID值,再根据 ID 的值关联到表 t1,再判断 t1里面 c 的值是否等于 10。
这两种执行方法的逻辑结果是一样的,但是执行的效率会有不同,而优化器的作用就是决定选择使用哪一个方案。
执行器:MySQL 通过分析器知道了你要做什么,通过优化器知道了该怎么做,于是就进入了执行器阶段,开始执行语句。
开始执行的时候,要先判断一下你对这个表 T 有没有执行查询的权限,如果没有,就会返回没有权限的错误,如果有权限就打开表继续执行。打开表的时候,执行器就会根据表的引擎定义,去使用这个引擎提供的接口。
比如 例子中 表 T,ID 字段没有索引,那么执行器的执行流程使这样的:
1:调用 InnoDB 引擎接口取这个表的第一行,判断 ID 值是不是 10,如果不是则跳过,如果是 则将这行存在结果集中。
2:调用引擎接口取“下一行”,重复相同的判断逻辑,直到取到这个表的最后一行。
3:执行器将上述变量过程中所有满足条件的行组成的记录集作为结果集返回给客户端。
至此,这个语句就执行完成了。
对于有索引的表,执行的逻辑也差不多,第一次调用的是“取满足条件的第一行”这个接口,之后循环取“满足条件的下一行”这个接口,这些接口都是引擎中已经定义好的。
你会在 数据库的慢查询日志中看到一个 rows_examined 的字段,表示这个语句执行过程中扫描了多少行。这个值就是在执行器每次调用引擎获取数据行的时候累加的。
有些场景下,执行器调用一次,在引擎内部则扫描了多行,因此,引擎扫描行数 rows_examined 并不是完全相同的。