今天我们通过一条SQL查询语句的执行过程,来剖析MySQL的基础架构。让我们从宏观上先有一个对MySQL的认识与了解
首先,我们要对MySQL的整体架构了解下,然后才能对每个部分进行突破。
MySQL的整体架构示意图如下:
由图可以看出,MySQL大体分为Server层和存储引擎层两部分。
其中,Server层包括连接器、查询缓存、分析器、优化器、执行器等。对于所有的内置函数(如日期、时间、数学和加密函数等),所有的跨存储引擎的功能都在这一层实现,如存储过程、触发器、视图等。
存储引擎层负责数据的存储和提取,默认使用的引擎是InnoDB。
对整体架构有了连接之后,接下来我们深入学习下每个组件的具体作用
连接器负责跟客户端建立连接、获取权限、维持和管理连接。
连接命令如下:
mysql -h$ip -P$port -u$user -p密码
在完成TCP握手后,连接器就开始认证身份,此时会出现两种情况:
连接完成后,我们可以通过如下命令:
show processlist;
来查看每个连接的状态
其中,Command列显示为“Sleep”的表示该连接为空闲连接。
如果长时间未使用这个连接,连接器就会自动断开。这个时间由参数wait_timeout控制,默认值是8小时。
此时断开之后,突然客户端如果发送请求时,就会收到错误提醒,如果真要发送请求只能重连然后再继续执行请求了。
对于说的这8小时,这么长,是不是想到了经常在写http或者tcp网络编程程序时听别人说的长连接啊。
在数据库里,长连接是指连接成功后,如果客户端持续有请求,则一直使用同一个连接。短连接则是指每次执行完很少的几次查询就断开连接,下次查询再重新建立一个。
建立连接的过程比较复杂,tcp三次握手,身份认证,权限认证等等操作,如果总是频繁的断开连接,建立连接,这就无可避免的增加了很多性能的损耗。因此为了避免这种损耗,尽量使用长连接。但是如果全部采用长连接,也会出现问题,有时候会导致MySQL占用内存涨的特别快,这是因为MySQL在执行过程中临时使用的内存是管理在连接对象里面的,这些资源只会在连接断开的时候才释放,因此长连接长期的积累,肯定会导致内存占用变大。
为了解决这个问题,有两种方案可以采用:
了解完了连接器后,接下来再了解下查询缓存
MySQL拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。
之前执行过的语句及其结果可能以key—value的形式缓存在内存中,key是查询语句,value是对应的查询结果。
首先直接向缓存中查询一遍,看似比直接向磁盘中查询快。但是大多数情况下,不建议使用查询缓存,因为查询缓存往往弊大于利
因为如果我们对一个表更新,那么这个表上所有的查询缓存都会被清空,因此对于一个更新大的数据库来说,查询缓存的命中率会非常低。除非有一张静态表,很长时间才会更新一次,那这张表上的查询才适合使用查询缓存。
分析器会对SQL语句进行解析。
分析器主要会进行词法分析和语法分析
(确定要做什么)
这里主要介绍下优化器的主要工作。优化器是在表里有多个索引或者进行多表查询时,根据计算的时间成本,选择执行的索引或者查表的顺序,选择最优的操作,确定执行方案。
对于是怎么计算成本,进行方案选择的,可以看我写的那个mysql是怎么运行的里面有具体总结,也可以看后面的文章
执行器用于执行语句。
首先判断对这个表有没有执行权限,如果没有就返回没有权限的错误,如果有就打开表继续执行,打开表的时候会根据表的引擎定义,去使用这个引擎提供的接口。
接下来我们以这个查询语句为例(ID字段没有索引):
select * from T where ID=10;
执行器的流程如下:
对于有索引的表,执行逻辑也差不多。第一次调用的是“取满足条件的第一行”这个接口,之后循环取“满足条件的下一行”这个接口,这些接口都是引擎中已经定义好的。
到此我们对,MySQL的基础架构有了初步了解。接下来我们将会对其内部原理进行深入的学习,请看后面博客更新