逻辑模块组成
MySQL分为两层架构,第一层SQL Layer,完成在MySQL数据库系统处理底层数据之前的所有工作,包括权限判断、Query解析、执行计划优化、query cache的处理等;第二层存储引擎层Storage Engine Layer,完成底层数据存取操作,由多种存储引擎组成。
SQL Layer中包含了多个子模块
1. 初始化模块是在MySQL Server启动的时候,对整个系统做各种各样的初始化操作,比如各种buffer、cache结构的初始化和内存空间的申请,各种系统变量的初始化设定,各种存储引擎的初始化设置等等。
2. 核心API模块主要是提供一些需要非常高效的底层操作功能的优化实现,包括各种底层数据结构的实现,特殊算法的实现,字符串处理,数字处理,小文件I/O,格式化输出,以及最重要的内存管理部分。核心API模块的所有源代码都集中在mysys和strings文件夹下面。
3. 底层网络交互模块抽象出底层网络交互所使用的接口api,实现底层网络数据的接收与发送,以方便其他各个模块调用。所有源码都在vio文件夹下面。
4. Client & Server交互协议模块:实现了客户端与MySQL交互过程中的所有协议。当然这些协议都是建立在现有的OS和网络协议之上的,如TCP/IP及Unix Socket。
5. 用户模块所实现的功能,主要包括用户的登录连接权限控制和用户的授权管理。它就像MySQL的大门守卫一样,决定是否给来访者“开门”。
6. 访问控制模块:实现的功能是根据用户模块中各用户的授权信息,以及数据库自身特有的各种约束,来控制用户对数据的访问。用户模块和访问控制模块两者结合起来,组成了MySQL整个数据库系统的权限安全管理功能。
7. 连接管理、连接线程和线程管理:连接管理模块负责监听对MySQL Server的各种请求,接收连接请求,转发所有连接请求到线程管理模块。每一个连接上MySQL Server的客户端请求都会被分配(或创建)一个连接线程为其单独服务。而连接线程的主要工作是负责MySQL Server与客户端的通信,接受客户端的命令请求,传递Server端的结果信息等。线程管理模块负责管理维护这些连接线程,包括线程的创建和缓存(cache)等。
8. Query解析和转发模块:在MySQL中习惯将Client端发送给Server端的命令都称为Query,在MySQL Server里,连接线程接收到客户端的一个Query后,Query解析和转发模块会直接将该Query传递给专门负责将各种Query进行分类,然后转发给各个对应的处理模块。该模块主要工作是将Query语句进行语义和语法的分析,然后按照不同的操作类型进行分类,接着做出针对性的转发。
9. Query Cache模块:在MySQL中是一个非常重要的模块,主要功能是将客户端提交给MySQL的Select类Query请求的返回结果集缓存(cache)到内存中,与该Query的一个hash值做一个对应。在该Query所取数据的基表发生任何数据的变化之后,MySQL会自动将该Query的缓存失效。在读写比例非常高的应用系统中,Query Cache对性能提高非常显著的,当然对内存消耗也非常大的。
10. Query优化器模块是优化客户端请求的Query,根据客户端请求的Query语句和数据库中的一些统计信息,在一系列算法的基础上进行分析,得出一个最优的策略,告诉后面的程序如何取得这个Query语句的结果。
11. 表变更管理模块负责完成一些DML和DDL的Query,如:update、delte、insert、create table、alter table等语句的处理。
12. 表维护模块:负责表的状态检查,错误修复,以及优化和分析等工作。
13. 系统状态管理模块负责在客户端请求系统状态的时候,将各种状态数据返回给用户,像DBA常用的各种show status命令、show variables命令等,其所得到的结果都是由这个模块返回的。
14. 表管理器维护每一个MySQL的定义文件(*.frm文件),以及一个cache,该cache中的主要内容是各个表的结构信息。此外它还维护table级别的锁管理。
15. 日志记录模块主要负责整个系统级别的逻辑层的日志的记录,包括error log、binary log、slow query log等。
16. 复制模块又可分为Master和Slave两部分,Master模块主要负责Replication环境中读取Master端的binary日志,以及与Slave端的I/O线程交互等工作。Slave模块比Master模块所要做的事情稍多一些,在系统中主要体现在两个线程上面。一个是负责从Master请求和接受binary日志,并写入本地relay log中的I/O线程。另外一个是负责从relay log中读取相关日志事件,然后将其解析成可以在Slave端正确执行并得到和Master端完全相同结果的命令,再交给Slave执行的SQL线程。
17. 存储引擎接口模块可以说是MySQL数据库中最有特色的了。目前各种数据库产品中,基本上只有MySQL可以实现其底层数据存储引擎的插件式管理。这个模块实际上只是一个抽象类,但正是因为它成功地将各种数据处理高度抽象化,才成就了今天MySQL可插拔存储引擎的特色。
逻辑模块交互
1. 启动阶段:启动MySQL时,初始化模块从系统配置文件中读取系统参数和命令行参数,按照参数来初始化整个系统,如申请并分配buffer,初始化全局变量以及各种结构等。同时各个存储引擎也被启动,并进行各自的初始化工作。在整个系统初始化结束后,会由连接管理模块接手。连接管理模块启动处理客户端连接请求的监听程序,包括TCP/IP的网络监听,还有Unix的Socket。此时MySQL Server基本完成启动,准备好接受客户端请求了。
2. 连接阶段:当连接管理模块监听到客户端的连接请求(借助网络交互模块的相关功能)时,双方通过Client & Server交互协议模块所定义的协议“寒暄”几句之后,连接管理模块会将连接请求转发给线程管理模块,去请求一个连接线程。
线程管理模块马上又会将控制交给连接线程模块,告诉连接线程模块:现在我这边有连接请求过来了,须要建立连接,你赶快处理一下。连接线程模块在接到连接请求后,首先会检查当前连接线程池中是否有被缓存(cache)的空闲连接线程,如果有,就取出一个和客户端请求连接上,如果没有空闲的连接线程,则建立一个新的连接线程向客户端请求连接。当然连接线程模块并不是在收到连接请求后马上就会取出一个连接线程和客户端连接,而是首先通过调用用户模块进行授权检查,只有客户端请求通过了授权检查后,它才会将客户端请求和负责请求的连接线程连上。
3. 日志记录:在MySQL中,将客户端请求分为两种类型:一种是Query,须要调用Parser也就是Query解析和转发模块的解析才能够执行的请求;一种是command,不须要调用Parser就可以直接执行的请求。如果初始化配置中打开了Full Query Logging的功能,那么Query解析与转发模块会调用日志记录模块将请求记入日志,不管是一个Query类型的请求还是一个command类型的请求,都会被记入日志,所以出于性能考虑,我们一般很少打开Full Query Logging的功能。
4.命令解析:在客户端请求和连接线程“互换暗号(互通协议)”接上头之后,连接线程就开始处理客户端请求发送过来的各种命令,并接受相关请求。它将收到的Query语句转给Query解析器和转发模块,Query解析器先对Query进行基本的语义和语法解析,然后根据命令类型的不同,有些会直接处理,有些会分发给其他模块处理。
如果是一个Query类型的请求,它将控制权交给Query解析器。Query解析器首先分析是不是一个select类型的Query,如果是,则调用查询缓存模块,让它检查该Query在Query cache中是否已经存在。如果有,则直接将cache中的数据返回给连接线程模块,然后通过与客户端的连接线程将数据传输给客户端。如果是一个不能被缓存(cache)的Query类型,或者cache中没有该Query的数据,那么Query将被继续传回Query解析器,让Query解析器进行相应处理,再通过Query分发器分发给相关处理模块。
5. 命令分发:如果解析器的解析结果是一条未被缓存(cache)的SELECT语句,则它会将控制权交给Optimizer,也就是Query优化器模块,如果是DML或是DDL语句,则会交给表变更管理模块,如果是一些更新统计信息、检测、修复和整理类的Query,则会交给表维护模块去处理,若是与复制相关的Query则转交给复制模块去进行相应的处理,请求状态的Query则转交给了状态收集报告模块。实际上表变更管理模块根据所对应的处理请求的不同,分别由insert处理器、delete处理器、update处理器、create处理器,以及alter处理器这些小模块来负责不同的DML和DDL。
6.子模块访问控制:在各个模块收到Query解析与分发模块分发过来的请求后,首先会通过访问控制模块检查连接用户是否有访问目标表及目标字段的权限。
7. 表管理:有访问控制权限则调用表管理模块请求相应的表,并获取对应的锁。表管理模块首先会查看该表是否已经存在于table cache中,如果已经打开则直接进行锁相关的处理,如果没有在cache中,则须要再打开表文件获取锁,然后将打开的表交给表变更管理模块。
8. 表变更管理:在表变更管理模块“获取”打开的表之后,就会根据该表的相关meta信息,判断表的存储引擎类型和其他相关信息。根据表的存储引擎类型,提交请求给存储引擎接口模块,调用对应的存储引擎实现模块,进行相应处理。
9. 存储引擎:表对应的存储引擎来完成数据的增删改查。
在一条Query或一个command处理完成(成功或者失败)之后,控制权都会交还给连接线程模块。如果处理成功,则将处理结果(可能是一个Result set,也可能是成功或失败的标识)通过连接线程反馈给客户端。如果处理过程中发生错误,也会将相应的错误信息发送给客户端,然后连接线程模块会进行相应的清理工作,并继续等待后面的请求,重复上面的过程,或者完成客户端断开连接的请求。
在上面各个模块的处理过程中,各模块的核心运算处理功能部分都会高度依赖整个MySQL的核心API模块,比如内存管理、文件I/O、数字和字符串处理等。
读书笔记来自简朝阳的《MySQl性能调优与架构设计》2.2章节,如有侵权,请通知删除。
另外一本书中看到的MySQL分层
数据库产品的架构一般可以分为应用层、逻辑层、物理层,对于MySQL,同样可以理解为如下的3个层次。
□ 应用层。负责和客户端、用户进行交互,需要和不同的客户端和中间服务器进行交互,建立连接,记住连接的状态,响应它们的请求,返回数据和控制信息(错误信息、状态码等)。
□ 逻辑层。负责具体的查询处理、事务管理、存储管理、恢复管理,以及其他的附加功能。查询处理器负责查询的解析、执行。当接收到客户端的查询时,数据库就会分配一个线程来处理它。先由查询处理器(优化器)生成执行计划,然后交由计划执行器来执行,执行器有时需要访问更底层的事务管理器、存储管理器来操作数据。由事务管理器来确保“ACID”特性,通过锁管理器来控制并发,由日志管理器来确保数据持久化,存储管理器一般还包括一个缓冲管理器,由它来确定磁盘和内存缓冲之间的数据传输。
□ 物理层。实际物理磁盘(存储)上的数据库文件,比如数据文件和日志文件等。
MySQL官方文档的一个基础架构图,其中Connectors是各种客户端和应用服务;Connection Pool是应用层,负责连接和验证等功能;Management Services & Utilities、SQL Interface、Parser、Optimizer、Caches & Buffers、Pluggable Storage Engines是数据库的大脑——逻辑层;最下方的Files&Logs是物理层。
读书笔记来自陈晓勇的《MySQl DBA修炼之道》1.2章节,如有侵权,请通知删除。