注
:查询缓存:Server如果在查询缓存中发现了这条SQL语句,就会直接将结果返回给客户端;如果没有,如果进入到解析器阶段。需要说明的是,因为查询混窜往往效率不高,所以在MySQL8.0之后就抛弃了这个功能
如上图所示一个sql执行的流程大致如下
半双工协议
将查询发送到服务器端缓存
如果缓存中有相关查询的结果,直接放回,否则进入3解析器
,构建语法树,这一步主要检测是否出现语法错误。预处理器
进一步解析,做预编译操作。主要是将要查询的表的列提取出来看看是否会有字段不存在这样的错误查询优化器
将 预处理器
的结果计算出若干个计划,然后选择最优的计划查询引擎
执行计划通过API调用 存储引擎
,最终调用到数据库拿到数据。半双工
:任何一个时刻都只能是一方发送一方接受。
优点:不需要切分数据。因为只要服务器端在发客户端就得接着
缺点:不方便做流量控制。
mysql有对max_allow_packet的设置,如果一个包的大小超过了这个设置,那么就会出现异常。
https://dev.mysql.com/doc/refman/8.0/en/packet-too-large.html
这里我有一个疑问,如果有一个极大的文件需要存储到数据库呢?
由于是半双工
的协议,那么就要接收全部服务器端发送的包。如果像之前说的打开结果集读取若干行之后断开链接这个是不可取的。
方向: 实际上是服务器向客户端推送数据,所以客户端无法中断这个推送,也就是说上述打开结果集但是只选择几行,实际上还是耗费了内存的。
所以我门在设计查询的时候一定一定要做到简单高效。
根据查询SQL的hash来找的缓存,如果命中了缓存,在返回之前会检查一下数据库的权限,如果权限正确就直接返回,将不会解析sql生成执行计划等。
MySQL怎么看懂和理解这些SQL?比如现在有个这样的SQL,我们人脑处理一下,只要懂SQL语法的人,立马就明白什么意思了。但是MySQL是一个数据库管理系统,他是没法直接理解这些SQL语句的!此时就有一个关键组件出场了:查询解析器。
查询解析器(Parser)是负责对SQL语句进行解析的,比如上面那个sql语句进行一下拆解,可以拆解为以下几部分:
所谓的SQL解析,就是按照既定的sql语法,对我们按照sql语法规则编写的sql语句进行解析,然后理解这个sql语句要干什么事情,如下图所示:
主要针对之前执行的语句,找出多种执行计划,在众多执行计划里面找出一个最优的执行计划
优化器有自己的评估逻辑,主要就是计算大致的IO次数,需要注意的是即便是使用了缓存他依旧会计算其中的IO耗时。
这就导致了:
当通过解析器理解了SQL要干什么之后,并不是马上去执行,而是要通过查询优化器(Optimizer)来选择一个最优的查询路径。就以上面那个sql查询为例,看下所谓最优查询路径是什么。
要完成这个事,我们有以下几个查询路径:
所以查询优化器就是针对你编写的几十行、几百行甚至上千行的复杂sql语句生成查询路径树,然后从里面选择一条最优的查询路径出来。相当于他告诉sql执行器,按照一个什么样的步骤和顺序,去执行哪些操作,然后一步一步把SQL语句就完成了。
静态优化:和查询上下文无关,比方说简单的代数替换。
动态优化:和查询上下文有关,比方说利用索引来确定最值。
如下几种:
mysql> explain select film.film_id, film_actor.actor_id from film inner join film_actor using(film_id) where film_id = 1;
mysql> explain select film.film_id from film inner join film_actor using(film_id) where film_actor.film_id is null;
mysql> explain select film.film_id from film inner join film_actor using(film_id) where film.film_id > 500;
执行逻辑:找出最外部的关联表的数据,然后使用这个数据便利去和内部查询的关联对比,如果成功就返回一条,如果内层处理完之后就找外层拿下一条接着处理。
mysql> explain extended select film.film_id from film inner join film_actor using(film_id) where film.film_id > 500;
决定关联表的顺序。通常多表关联的时候可以有不同的执行顺序来获取相同的结果,关联查询优化器通过评估不同的顺序时的成本来获取一个最快的。
以下两个例子可以展示关联优化器的作用:
使用优化器的时候只需扫描部分行就能完成工作。
不过关联多的时
候会出现关联的组合种类太多了,mysql会使用贪心算法来解决这一问题。
尽量使用索引来排序,file_sortings 性能差。
算法:
一些细节: 如果orderby的字段来自关联的第一个表,那么在第一个表查出来的时候就会排序,其他的都会搞到一个临时表里面再排序。
如果排序加上limit,那么会先排序之后再计算limit,会先扫描大量的列再返回较少的列。
一些共有的特性都是在服务端做
查询引擎拿到执行计划,完成整个查询。整个过程就是调用存储引擎的API完成的。
数据库就是一个编程语言写出来的系统而已,然后启动之后也是个进程,执行池里面的各种代码,也就是我们上面所说的那些东西。所以对数据库而言,我们的数据要不然是放在内存里,要不然是放在磁盘文件里,没什么特殊的地方!
所以我们来思考一下,假设我们的数据有的存放在内存里,有的存放在磁盘文件里如下图所示。
那么问题来了,我们执行的时候是先更新内存数据?还是磁盘数据?我们如果先更新磁盘数据,是先查询哪个磁盘文件,再更新哪个磁盘文件?
这个时候就需要存储引擎了。存储引擎其实就是执行sql语句的,它会按照一定的步骤去查询内存缓存数据,更新磁盘数据,查询磁盘数据等等,执行一系列数据的操作,如下图所示:
MySQL的架构设计中,SQL接口、SQL解析器、查询优化器都是用的一套组件。但是存储引擎像插件一样,支持各种各样的存储引擎的,比如我们常见的InnoDB、MylSam、Momery等。我们可以自由选择哪种存储引擎来负责具体的SQL执行。不过现在大家一般都使用InnoDB作为MySQL的存储引擎。
那么看完存储引擎之后,我们知道存储引擎可以帮助我们去访问内存以及磁盘上的数据,那么是谁来调用存储引擎的接口呢?其实我们现在还漏了一个执行器的概念,这个执行器会根据优化器选择的执行方案,去调用存储引擎的接口按照一定的顺序和步骤,就把SQL语句的逻辑给执行了。
举个例子,比如执行器可能会先调用存储引擎的一个接口,去获取“usrs”表中的第一行数据,然后判断一下这个数据的"id”字段的值是否等于我们期望的一个值,如果不是的话,那就继续调用存储引擎的接口,去获取“users”表的下一行数据。
就是基于上述的思路,执行器就会去根据我们的优化器生成的一套执行计划,然后不停的调用存储引擎的各种接口去完成SQL语句的执行计划,大致就是不停的更新或者提取一些数据出来。如下图所示:
最后还是走TCP发送结果到客户端。
查询完毕之后会将查询发送到客户端,如果整个查询是可以被缓存的,那么就会缓存下来。
这里返回数据是逐步返回的,生成第一条结果的时候就能返回了。
优点: 服务器端无需存储太多的结果。也就不会因为要返回太多结果而消耗太多内存。
msyql服务器谁负责从这个连接中去监听这个网络请求?谁负责从网络连接里把数据读出来?
接着我们思考一下,当mysql内部的工作线程从一个网络连接中读取出来一个sql语句之后,此时会如何执行这个sql语句呢?
如果要执行这个sql,去完成底层的数据增删改查,其实是一项极其复杂的任务了。Mysql内部首先提供一个组件,就是SQL接口(SQL Interface
),他是一套执行sql语句的接口,专门用于执行我们发送给mysql的那些增删改查的sql语句。
因此mysql工作线程接收到SQL语句后,就会转交给SQL接口去执行,如下图: