mysql高级-逻辑架构、查询流程、索引

mysql逻辑架构

和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用。主要体现在存储引擎的架构上,插件式的存储引擎架构将查询处理和其它的系统任务以及数据的存储提取相分离。这种架构可以根据业务的需求和实际需要选择合适的存储引擎。   

1.连接层 

最上层是一些客户端和连接服务,包含本地sock通信和大多数基于客户端/服务端工具实现的类似于tcp/ip的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全接入的客户端提供线程。同样在该层上可以实现基于SSL的安全链接。服务器也会为安全接入的每个客户端验证它所具有的操作权限。 

2.服务层 

2.1  Management Serveices & Utilities:

系统管理和控制工具  

2.2  SQL Interface: SQL接口     

接受用户的SQL命令,并且返回用户需要查询的结果。比如select from就是调用SQL Interface

2.3 Parser: 解析器      

SQL命令传递到解析器的时候会被解析器验证和解析。 

2.4 Optimizer: 查询优化器

SQL语句在查询之前会使用查询优化器对查询进行优化。     

用一个例子就可以理解:

selectuid,namefromuserwheregender=1;

优化器来决定先投影还是先过滤。  

2.5 Cache和Buffer: 查询缓存。     

如果查询缓存有命中的查询结果,查询语句就可以直接去查询缓存中取数据。     

这个缓存机制是由一系列小缓存组成的。比如表缓存,记录缓存,key缓存,权限缓存等       

缓存是负责读,缓冲负责写。  

3.引擎层  

存储引擎层,存储引擎真正的负责了MySQL中数据的存储和提取,服务器通过API与存储引擎进行通信。不同的存储引擎具有的功能不同,这样我们可以根据自己的实际需要进行选取。最常用的则是MyISAM和InnoDB ,二者对比如下:

mysql高级-逻辑架构、查询流程、索引_第1张图片

4.存储层 

数据存储层,主要是将数据存储在运行于裸设备的文件系统之上,并完成与存储引擎的交互。

逻辑架构图如下:

mysql高级-逻辑架构、查询流程、索引_第2张图片

查询流程

针对以下一条普通的select语句,执行流程是啥样的呢?

select*fromstudent;

连接器 

第一步,你会先连接到这个数据库上,这时候接待你的就是连接器。连接器负责跟客户端建立连 接、获取权限、维持和管理连接。连接命令一般是这么写的:

mysql-h$ip-P$port-u$user-p

输完命令之后,你就需要在交互对话里面输入密码。虽然密码也可以直接跟在 -p 后面写在命令 行中,但这样可能会导致你的密码泄露。如果你连的是生产服务器,强烈建议你不要这么做。

连接命令中的 mysql 是客户端工具,用来跟服务端建立连接。在完成经典的 TCP 握手后,连接器就要开始认证你的身份,这个时候用的就是你输入的用户名和密码。

如果用户名或密码不对,你就会收到一个"Access denied for user"的错误,然后客户端程序 结束执行。

如果用户名密码认证通过,连接器会到权限表里面查出你拥有的权限。之后,这个连接里面 的权限判断逻辑,都将依赖于此时读到的权限。

这就意味着,一个用户成功建立连接后,即使你用管理员账号对这个用户的权限做了修改,也不 会影响已经存在连接的权限。修改完成后,只有再新建的连接才会使用新的权限设置。 连接完成后,如果你没有后续的动作,这个连接就处于空闲状态,你可以在 show processlist 命令中看到它。文本中这个图是 show processlist 的结果,其中的 Command 列显示 为“Sleep”的这一行,就表示现在系统里面有一个空闲连接。

mysql高级-逻辑架构、查询流程、索引_第3张图片

客户端如果太长时间没动静,连接器就会自动将它断开。这个时间是由参数 wait_timeout 控制 的,默认值是 8 小时。

如果在连接被断开之后,客户端再次发送请求的话,就会收到一个错误提醒: Lost connection to MySQL server during query。这时候如果你要继续,就需要重连,然后再执行请求了。 

数据库里面,长连接是指连接成功后,如果客户端持续有请求,则一直使用同一个连接。短连接 则是指每次执行完很少的几次查询就断开连接,下次查询再重新建立一个。 

建立连接的过程通常是比较复杂的,所以我建议你在使用中要尽量减少建立连接的动作,也就是 尽量使用长连接。 

但是全部使用长连接后,你可能会发现,有些时候 MySQL 占用内存涨得特别快,这是因为 MySQL 在执行过程中临时使用的内存是管理在连接对象里面的。这些资源会在连接断开的时候 才释放。所以如果长连接累积下来,可能导致内存占用太大,被系统强行杀掉(OOM),从现 象看就是 MySQL 异常重启了。 

怎么解决这个问题呢?你可以考虑以下两种方案。

1. 定期断开长连接。使用一段时间,或者程序里面判断执行过一个占用内存的大查询后,断开 连接,之后要查询再重连。

2. 如果你用的是 MySQL 5.7 或更新版本,可以在每次执行一个比较大的操作后,通过执行 mysql_reset_connection 来重新初始化连接资源。这个过程不需要重连和重新做权限验 证,但是会将连接恢复到刚刚创建完时的状态。 

查询缓存 

连接建立完成后,你就可以执行 select 语句了。执行逻辑就会来到第二步:查询缓存。

MySQL 拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。之前执行过 的语句及其结果可能会以 key-value 对的形式,被直接缓存在内存中。key 是查询的语句, value 是查询的结果。如果你的查询能够直接在这个缓存中找到 key,那么这个 value 就会被直 接返回给客户端。

如果语句不在查询缓存中,就会继续后面的执行阶段。执行完成后,执行结果会被存入查询缓存 中。你可以看到,如果查询命中缓存,MySQL 不需要执行后面的复杂操作,就可以直接返回结 果,这个效率会很高。 

但是大多数情况下我会建议你不要使用查询缓存,为什么呢?因为查询缓存往往弊大于利。

查询缓存的失效非常频繁,只要有对一个表的更新,这个表上所有的查询缓存都会被清空。因此 很可能你费劲地把结果存起来,还没使用呢,就被一个更新全清空了。对于更新压力大的数据库 来说,查询缓存的命中率会非常低。除非你的业务就是有一张静态表,很长时间才会更新一次。 比如,一个系统配置表,那这张表上的查询才适合使用查询缓存。 

好在 MySQL 也提供了这种“按需使用”的方式。你可以将参数 query_cache_type 设置成 DEMAND,这样对于默认的 SQL 语句都不使用查询缓存。而对于你确定要使用查询缓存的语句,可以用 SQL_CACHE 显式指定,像下面这个语句一样:

mysql>selectSQL_CACHE*fromTwhereID=10;

需要注意的是,MySQL 8.0 版本直接将查询缓存的整块功能删掉了,也就是说 8.0 开始彻底没 有这个功能了。

分析器 

如果没有命中查询缓存,就要开始真正执行语句了。首先,MySQL 需要知道你要做什么,因此 需要对 SQL 语句做解析。 

分析器先会做“词法分析”。你输入的是由多个字符串和空格组成的一条 SQL 语句,MySQL 需要识别出里面的字符串分别是什么,代表什么。 

MySQL 从你输入的"select"这个关键字识别出来,这是一个查询语句。它也要把字符串“T”识 别成“表名 T”,把字符串“ID”识别成“列 ID”。 

做完了这些识别以后,就要做“语法分析”。根据词法分析的结果,语法分析器会根据语法规 则,判断你输入的这个 SQL 语句是否满足 MySQL 语法。 

如果你的语句不对,就会收到“You have an error in your SQL syntax”的错误提醒,比如下 面这个语句 select 少打了开头的字母“s”。 

mysql>elect*fromtwhereID=1;

ERROR 1064(42000): You have an errorinyour SQL syntax;checkthe manual that corresponds t

一般语法错误会提示第一个出现错误的位置,所以你要关注的是紧接“use near”的内容。

优化器 

经过了分析器,MySQL 就知道你要做什么了。在开始执行之前,还要先经过优化器的处理。 优化器是在表里面有多个索引的时候,决定使用哪个索引;或者在一个语句有多表关联(join) 的时候,决定各个表的连接顺序。比如你执行下面这样的语句,这个语句是执行两个表的join: 

mysql>select*fromt1joint2 using(ID)wheret1.c=10andt2.d=20;

既可以先从表 t1 里面取出 c=10 的记录的 ID 值,再根据 ID 值关联到表 t2,再判断 t2 里面 d 的值是否等于 20。

也可以先从表 t2 里面取出 d=20 的记录的 ID 值,再根据 ID 值关联到 t1,再判断 t1 里面 c 的值是否等于 10。

这两种执行方法的逻辑结果是一样的,但是执行的效率会有不同,而优化器的作用就是决定选择 使用哪一个方案。

优化器阶段完成后,这个语句的执行方案就确定下来了,然后进入执行器阶段。如果你还有一些 疑问,比如优化器是怎么选择索引的,有没有可能选择错等等,没关系,我会在后面的文章中单 独展开说明优化器的内容。

执行器

MySQL 通过分析器知道了你要做什么,通过优化器知道了该怎么做,于是就进入了执行器阶 段,开始执行语句。 

开始执行的时候,要先判断一下你对这个表 T 有没有执行查询的权限,如果没有,就会返回没 有权限的错误,如下所示 (在工程实现上,如果命中查询缓存,会在查询缓存放回结果的时候, 做权限验证。查询也会在优化器之前调用 precheck 验证权限)。 

mysql>select*fromTwhereID=10;

ERROR 1142(42000):SELECTcommand deniedtouser'b'@'localhost'fortable'T'

如果有权限,就打开表继续执行。打开表的时候,执行器就会根据表的引擎定义,去使用这个引 擎提供的接口。

比如我们这个例子中的表 T 中,ID 字段没有索引,那么执行器的执行流程是这样的:

1. 调用 InnoDB 引擎接口取这个表的第一行,判断 ID 值是不是 10,如果不是则跳过,如果 是则将这行存在结果集中;

2. 调用引擎接口取“下一行”,重复相同的判断逻辑,直到取到这个表的最后一行。

3. 执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。

至此,这个语句就执行完成了。 

对于有索引的表,执行的逻辑也差不多。第一次调用的是“取满足条件的第一行”这个接口,之 后循环取“满足条件的下一行”这个接口,这些接口都是引擎中已经定义好的。 

你会在数据库的慢查询日志中看到一个 rows_examined 的字段,表示这个语句执行过程中扫描 了多少行。这个值就是在执行器每次调用引擎获取数据行的时候累加的。在有些场景下,执行器调用一次,在引擎内部则扫描了多行,因此引擎扫描行数跟 rows_examined 并不是完全相同的。 

索引优化分析 

 sql查询慢的原因

1、查询数据过多-----能不能拆,条件过滤尽量少

2、关联了太多的表,太多join-----join 原理。用  A 表的每一条数据 扫描 B表的所有数据。所以尽量先过滤。

3、 没有利用到索引----- 索引针对列建索引。但并不可能每一列都建索引索引并非越多越好。当数据更新了,索引会进行调整。也会很消耗性能。且 mysql 并不会把所有索引都用上,只会根据其算法挑一个索引用。所以建的准很重要。(单值

             索引、复合索引)

4、索引失效-----在索引列上使用mysql的内置函数、隐式转换导致索引失效、对索引列进行运算导致索引失效,我所指的对索引列进行运算包括(+,-,*,/,! 等) 、如果MySQL估计使用索引比全表扫描更慢,则不使用索引。。。

5、服务器调优及各个参数设置(缓冲、线程数等)-----一般DBA做这个事,不然要他干嘛~~~

sql执行顺序

对于如下一条sql语句:

mysql高级-逻辑架构、查询流程、索引_第4张图片
mysql高级-逻辑架构、查询流程、索引_第5张图片

索引

概念

MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。可以得到索引的本质:索引是数据结构。你可以简单理解为“排好序的快速查找数据结构”。

索引的目的在于提高查询效率,可以类比字典,如果要查“mysql”这个单词,我们肯定需要定位到m字母,然后从下往下找到y字母,再找到剩下的sql。如果没有索引,那么你可能需要a----z,如果我想找到Java开头的单词呢?或者Oracle开头的单词呢?是不是觉得如果没有索引,这个事情根本无法完成? 

索引结构

在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。

下图就是一种可能的索引方式示例:

mysql高级-逻辑架构、查询流程、索引_第6张图片

左边是数据表,一共有两列七条记录,最左边的是数据记录的物理地址 为了加快Col2的查找,可以维护一个右边所示的二叉查找树,每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针,这样就可以运用二叉查找在一定的复杂度内获取到相应数据,从而快速的检索出符合条件的记录。

二叉树弊端之一:二叉树很可能会发生两边不平衡的情况。

B-TREE: (B:balance)  会自动根据两边的情况自动调节,使两端无限趋近于平衡状态。可以使性能最稳定。(myisam使用的方式)   

B-TREE弊端:(插入/修改操作多时,B-TREE会不断调整平衡,消耗性能)从侧面说明了索引不是越多越好。

B+TREE:Innodb 所使用的索引 。

一般来说索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储的磁盘上。

优点与缺点

优点:

类似大学图书馆建书目索引,提高数据检索的效率,降低数据库的IO成本。

通过索引列对数据进行排序,降低数据排序的成本,降低了CPU的消耗。

缺点:

实际上索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录,所以索引列也是要占用空间的。

虽然索引大大提高了查询速度,同时却会降低更新表的速度,如对表进行INSERT、UPDATE和DELETE。因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息。

总结:索引只是提高效率的一个因素,如果你的MySQL有大数据量的表,就需要花时间研究建立最优秀的索引,或优化查询语句

分类

主键索引:设定为主键后数据库会自动建立索引,innodb为聚簇索引(聚簇索引的叶节点就是数据节点,而非聚簇索引的页节点仍然是索引检点,并保留一个链接指向对应数据块)

单值索引:即一个索引只包含单个列,一个表可以有多个单列索引

唯一索引:索引列的值必须唯一,但允许有空值

复合索引:即一个索引包含多个列

索引常见模型 

索引的出现是为了提高查询效率,但是实现索引的方式却有很多种,所以这里也就引入了索引模 型的概念。可以用于提高读写效率的数据结构很多,这里我先给你介绍三种常见、也比较简单的数据结构,它们分别是哈希表、有序数组和搜索树。 

我们平常所说的索引,如果没有特别指明,都是指B树(多路搜索树,并不一定是二叉的)结构组织的索引。其中聚集索引,次要索引,覆盖索引,复合索引,前缀索引,唯一索引默认都是使用B+树索引,统称索引。当然,除了B+树这种类型的索引之外,还有哈稀索引(hash index)等。

哈希表 

哈希表是一种以键 - 值(key-value)存储数据的结构,我们只要输入待查找的值即 key,就可以找到其对应的值即 Value。哈希的思路很简单,把值放在数组里,用一个哈希函数把 key 换算成一个确定的位置,然后把 value 放在数组的这个位置。 

不可避免地,多个 key 值经过哈希函数的换算,会出现同一个值的情况。处理这种情况的一种 方法是,拉出一个链表。 

假设,你现在维护着一个身份证信息和姓名的表,需要根据身份证号查找对应的名字,这时对应的哈希索引的示意图如下所示: 

mysql高级-逻辑架构、查询流程、索引_第7张图片

图中,User2 和 User4 根据身份证号算出来的值都是 N,但没关系,后面还跟了一个链表。假 设,这时候你要查 ID_card_n2 对应的名字是什么,处理步骤就是:首先,将 ID_card_n2 通过 哈希函数算出 N;然后,按顺序遍历,找到 User2。

需要注意的是,图中四个 ID_card_n 的值并不是递增的,这样做的好处是增加新的 User 时速度 会很快,只需要往后追加。但缺点是,因为不是有序的,所以哈希索引做区间查询的速度是很慢 的。 

你可以设想下,如果你现在要找身份证号在 [ID_card_X, ID_card_Y] 这个区间的所有用户,就 必须全部扫描一遍了。 

所以,哈希表这种结构适用于只有等值查询的场景,比如 Memcached 及其他一些 NoSQL 引擎。

有序数组

而有序数组在等值查询和范围查询场景中的性能就都非常优秀。还是上面这个根据身份证号查名 字的例子,如果我们使用有序数组来实现的话,示意图如下所示:

mysql高级-逻辑架构、查询流程、索引_第8张图片

这里我们假设身份证号没有重复,这个数组就是按照身份证号递增的顺序保存的。这时候如果你 要查 ID_card_n2 对应的名字,用二分法就可以快速得到,这个时间复杂度是 O(log(N))。

同时很显然,这个索引结构支持范围查询。你要查身份证号在 [ID_card_X, ID_card_Y] 区间的 User,可以先用二分法找到 ID_card_X(如果不存在 ID_card_X,就找到大于 ID_card_X 的第 一个 User),然后向右遍历,直到查到第一个大于 ID_card_Y 的身份证号,退出循环。 

如果仅仅看查询效率,有序数组就是最好的数据结构了。但是,在需要更新数据的时候就麻烦 了,你往中间插入一个记录就必须得挪动后面所有的记录,成本太高。 

所以,有序数组索引只适用于静态存储引擎,比如你要保存的是 2017 年某个城市的所有人口信 息,这类不会再修改的数据。

二叉查找树 

mysql高级-逻辑架构、查询流程、索引_第9张图片

二叉搜索树的特点是:每个节点的左儿子小于父节点,父节点又小于右儿子。这样如果你要查 ID_card_n2 的话,按照图中的搜索顺序就是按照 UserA -> UserC -> UserF -> User2 这个路 径得到。这个时间复杂度是 O(log(N))。

当然为了维持 O(log(N)) 的查询复杂度,你就需要保持这棵树是平衡二叉树。为了做这个保 证,更新的时间复杂度也是 O(log(N))。

树可以有二叉,也可以有多叉。多叉树就是每个节点有多个儿子,儿子之间的大小保证从左到右 递增。二叉树是搜索效率最高的,但是实际上大多数的数据库存储却并不使用二叉树。其原因 是,索引不止存在内存中,还要写到磁盘上。

 你可以想象一下一棵 100 万节点的平衡二叉树,树高 20。一次查询可能需要访问 20 个数据 块。在机械硬盘时代,从磁盘随机读一个数据块需要 10 ms 左右的寻址时间。也就是说,对于 一个 100 万行的表,如果使用二叉树来存储,单独访问一个行可能需要 20 个 10 ms 的时间, 这个查询可真够慢的。

为了让一个查询尽量少地读磁盘,就必须让查询过程访问尽量少的数据块。那么,我们就不应该 使用二叉树,而是要使用“N 叉”树。这里,“N 叉”树中的“N”取决于数据块的大小。

以 InnoDB 的一个整数字段索引为例,这个 N 差不多是 1200。这棵树高是 4 的时候,就可以 存 1200 的 3 次方个值,这已经 17 亿了。考虑到树根的数据块总是在内存中的,一个 10 亿行 的表上一个整数字段的索引,查找一个值最多只需要访问 3 次磁盘。其实,树的第二层也有很 大概率在内存中,那么访问磁盘的平均次数就更少了。

B+Tree(InnoDB 的索引模型)

mysql高级-逻辑架构、查询流程、索引_第10张图片

【初始化介绍】 一颗b树,浅蓝色的块我们称之为一个磁盘块,可以看到每个磁盘块包含几个数据项(深蓝色所示)和指针(黄色所示),如磁盘块1包含数据项17和35,包含指针P1、P2、P3,P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。真实的数据存在于叶子节点即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非叶子节点不存储真实的数据,只存储指引搜索方向的数据项,如17、35并不真实存在于数据表中。 

【查找过程】如果要查找数据项29,那么首先会把磁盘块1由磁盘加载到内存,此时发生一次IO,在内存中用二分查找确定29在17和35之间,锁定磁盘块1的P2指针,内存时间因为非常短(相比磁盘的IO)可以忽略不计,通过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存,发生第二次IO,29在26和30之间,锁定磁盘块3的P2指针,通过指针加载磁盘块8到内存,发生第三次IO,同时内存中做二分查找找到29,结束查询,总计三次IO。 真实的情况是,3层的b+树可以表示上百万的数据,如果上百万的数据查找只需要三次IO,性能提高将是巨大的,如果没有索引,每个数据项都要发生一次IO,那么总共需要百万次的IO,显然成本非常非常高。 

假设,我们有一个主键列为 ID 的表,表中有字段 k,并且在 k 上有索引。

这个表的建表语句是:

mysql>createtable T(

id intprimarykey,

k intnotnull,

name varchar(16),index(k))engine=InnoDB;

表中 R1~R5 的 (ID,k) 值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6),两棵树的示 例示意图如下。

mysql高级-逻辑架构、查询流程、索引_第11张图片

从图中不难看出,根据叶子节点的内容,索引类型分为主键索引和非主键索引。主键索引的叶子节点存的是整行数据。在 InnoDB 里,主键索引也被称为聚簇索引(clustered index)。非主键索引的叶子节点内容是主键的值。在 InnoDB 里,非主键索引也被称为二级索引.

根据上面的索引结构说明,我们来讨论一个问题:基于主键索引和普通索引的查询有什么区别?

如果语句是 select * from T where ID=500,即主键查询方式,则只需要搜索 ID 这棵 B+ 树;

如果语句是 select * from T where k=5,即普通索引查询方式,则需要先搜索 k 索引树, 得到 ID 的值为 500,再到 ID 索引树搜索一次。这个过程称为回表。

也就是说,基于非主键索引的查询需要多扫描一棵索引树。因此,我们在应用中应该尽量使用主键查询。

B+Tree与BTree区别:

结论在内存有限的情况下,B+TREE 永远比 B-TREE好。无限内存则后者方便 

1)B-树的关键字和记录是放在一起的,叶子节点可以看作外部节点,不包含任何信息;B+树叶子节点中只有关键字和指向下一个节点的索引,记录只放在叶子节点中。(一次查询可能进行两次i/o操作)

2)在B-树中,越靠近根节点的记录查找时间越快,只要找到关键字即可确定记录的存在;而B+树中每个记录的查找时间基本是一样的,都需要从根节点走到叶子节点,而且在叶子节点中还要再比较关键字。从这个角度看B-树的性能好像要比B+树好,而在实际应用中却是B+树的性能要好些。因为B+树的非叶子节点不存放实际的数据,这样每个节点可容纳的元素个数比B-树多,树高比B-树小,这样带来的好处是减少磁盘访问次数。尽管B+树找到一个记录所需的比较次数要比B-树多,但是一次磁盘访问的时间相当于成百上千次内存比较的时间,因此实际中B+树的性能可能还会好些,而且B+树的叶子节点使用指针连接在一起,方便顺序遍历(例如查看一个目录下的所有文件,一个表中的所有记录等),这也是很多数据库和文件系统使用B+树的缘故。 

思考:为什么说B+树比B-树更适合实际应用中操作系统的文件索引和数据库索引? 

1) B+树的磁盘读写代价更低 

B+树的内部结点并没有指向关键字具体信息的指针。因此其内部结点相对B 树更小。如果把所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了。 

2) B+树的查询效率更加稳定 

由于非终结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。 

聚簇索引与非聚簇索引

聚簇索引:将数据存储与索引放到了一块,找到索引也就找到了数据

非聚簇索引:将数据存储于索引分开结构,索引结构的叶子节点指向了数据的对应行,myisam通过key_buffer把索引先缓存到内存中,当需要访问数据时(通过索引访问数据),在内存中直接搜索索引,然后通过索引找到磁盘相应数据,这也就是为什么索引不在key buffer命中时,速度慢的原因

哪些情况需要创建索引   

1、主键自动建立唯一索引

2、频繁作为查询条件的字段应该创建索引(where 后面的语句)

3、查询中与其它表关联的字段,外键关系建立索引 

4、单键/组合索引的选择问题,who?(在高并发下倾向创建组合索引) 

5、查询中排序的字段,排序字段若通过索引去访问将大大提高排序速度

6、查询中统计或者分组字段

哪些情况不要建索引

1、表记录太少

2、经常增删改的表-----Why:提高了查询速度,同时却会降低更新表的速度,如对表进行INSERT、UPDATE和DELETE。因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件

3、Where条件里用不到的字段不创建索引

4、数据重复且分布平均的表字段,因此应该只为最经常查询和最经常排序的数据列建立索引。-----注意,如果某个数据列包含许多重复的内容,为它建立索引就没有太大的实际效果。

你可能感兴趣的:(mysql高级-逻辑架构、查询流程、索引)