目录
索引概述
索引结构
数据结构
二叉树
红黑树
B-Tree
B+Tree
Hash
索引分类
聚集索引&二级索引
聚集索引选取规则:
具体结构
索引基础语法
SQL性能分析
SQL执行频率
慢查询日志
profile详情
explain
介绍:
索引( index )是帮助 MySQL 高效获取数据的数据结构 ( 有序 ) 。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上 实现高级查找算法 ,这种数据结构就是索引。可以简单理解为我们先排好特定的顺序再查找,查找速度会大大提高
假如我们要执行的SQL语句为 : select * from user where age = 45;
相当于全表扫描,从第一行扫描到末尾,遇到满足条件的数据,仍会继续遍历下去,进而扫描全表,这相当于数组的遍历,时间复杂度很高,性能很差
如果我们针对于这张表建立了索引, 假设索引结构就是二叉树 ,那么也就意味着,会对 age 这个字段建立一个二叉树的索引结构。即左子树的age值<根节点<右子树, 可将数据范围划分为两个范围 ,变成类似二分查找的查找算法, 极大提高搜索效率,而不用全局遍历。 下图只需要比较三次就可以得到45
特点:
- 优势
提高 数据检索的效率 ,降低数据库的IO 成本通过索引列对数据进行排序,降低数据排序的成本, 降低CPU的消耗(不用频繁低性能的查询数据) 。
- 劣势
索引列也是要占用空间的。
索引大大提高了查询效率,同时却也 降低更新表的速度 ,如对表进行INSERT 、 UPDATE 、 DELETE 时,效率降低,因为 更新表的同时也要更新索引 。
顺序插入时,会形成一个链表,查询性能大大降低。大数据量情况下,层级较深,检索速度慢
由于二叉树会一直加深层级,我们可以想到红黑树作为自平衡的二叉树,能很好弥补这一缺点,那这样即使是顺序插入数据,最终形成的数据结构也是一颗平衡的二叉树,但由于红黑树也是一颗二叉树,也会出现层级较深的问题,结构如下:
B-Tree,B树是一种多叉路衡查找树,相对于二叉树,B树每个节点可以有多个分支,即多叉。 以一颗最大度数(max-degree)为5(5阶)的b-tree为例,那这个B树每个节点最多存储4个key,5 个指针,比二叉树多了三个key,可以多走三个分支,即五个范围。树的度数就是一个节点的子节点的个数
进入b树的可视化演示网站,可以帮助我们理解b树的演变过程,这里选用的五阶b树B-Tree Visualization
插入900时,由于每个节点只能存储四个key,此时会进行裂变,将插入900之后,五个元素进行排序之后,选取中间元素作为父节点,以中间元素为分界线,分割为两个节点
特点:
- 5阶的B树,每一个节点最多存储4个key,对应5个指针。
- 一旦节点存储的key数量到达5,就会裂变,中间元素向上分裂。
- 在B树中,非叶子节点和叶子节点都会存放数据。
B+Tree是B-Tree的变种,我们以一颗最大度数(max-degree)为4(4阶)的b+tree为例,来看一 下其结构示意图
绿色框框起来的部分,是索引部分,仅仅起到索引数据的作用,不存储数据。
红色框框起来的部分,是数据存储部分,在其叶子节点中要存储具体的数据
插入元素达到裂变的同时,叶子节点之间会形成一个单向链表,注意是传统的b+树就是形成单向链表
B+Tree 与 B-Tree相比,主要有以下三点区别:
所有的数据都会出现在叶子节点。
叶子节点形成一个单向链表。
非叶子节点仅仅起到索引数据作用,具体的数据都是在叶子节点存放的。
MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上,增加一个指向相邻叶子节点的链表指针,即是双向链表,这就形成了带有顺序指针的B+Tree,提高区间访问的性能,利于排序。
MySQL中除了支持B+Tree索引,还支持一种索引类型---Hash索引。
结构:
哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在 hash表中,如果有哈希冲突,就会形成一个单向链表,挂在槽位之后,类似于hashtable
特点:
A. Hash索引只能用于对等比较(=,in),不支持范围查询(between,>,< ,...)
B. 无法利用索引完成排序操作
C. 查询效率高,通常(不存在hash冲突的情况)只需要一次检索就可以了,效率通常要高于B+tree索引
分类 | 含义 | 特点 | 关键字 |
---|---|---|---|
主键索引
|
针对于表中主键创建的索引
|
默认自动创建 , 只能
有一个 ,因为 主键只能有
一个
|
PRIMARY
|
唯一索引 |
避免同一个表中某数据列中的值重复
|
可以有多个
|
UNIQUE
|
常规索引 |
快速定位特定数据,(例如手机验证码登录时,用手机号查询用户,这一场景下就可以定义手机号为常规索引)
|
可以有多个
|
|
全文索引 |
全文索引查找的是文本中的关键词,而不是比较索引中的值
|
可以有多个
|
FULLTEXT
|
在InnoDB存储引擎中,根据索引的存储形式,又可以分为以下两种:
分类 | 含义 | 特点 |
---|---|---|
聚集索引 (ClusteredIndex)
|
将数据存储与索引放到了一块,索引结构的叶子节点保存了行数据
|
必须有 , 而且只
有一个
|
二级索引 (Secondary Index)
|
将数据与索引分开存储,索引结构的叶子节点 关联的是对应的主键, 而对应的主键索引就会指向真正的行数据
|
可以存在多个
|
总之聚集索引是必须要有的,如果没有主键索引,就会采用唯一索引,如果二者都没有,就会随机生成
- 如果存在主键,主键索引就是聚集索引。
- 如果不存在主键,将使用第一个唯一(UNIQUE)索引作为聚集索引。
- 如果表没有主键,或没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引。
聚集索引的叶子节点下挂的是这一行的具体数据 , 相当于一级指针,直接指向数据本身 。二级索引的叶子节点下挂的是该字段值对应的主键值,即指向了聚集索引, 相当于二级指针 。
当我们用name这个二级索引查询数据时,具体的执行流程为:
① . 由于是根据 name 字段进行查询,所以先根据 name='Arm' 到 name 字段的 二级索引中进行匹配查找 。但是在二级索引中只能查找到 Arm 对应的主键值 10 。② . 由于查询返回的数据是 所有的行数据 ,所以此时,还需要根据主键值 10,到聚集索引中查找10 对应的记录,最终找到10 对应的行 row 。③ . 最终拿到这一行的数据,直接返回即可。
这一流程也称为回表查询
先到二级索引中查找数据,找到主键值,然后再到聚集索引中根据主键值,获取数据的方式,就称之为回表查询。
创建索引
CREATE [ UNIQUE | FULLTEXT ] INDEX index_name ON table_name ( index_col_name,... ) ;
查看索引
SHOW INDEX FROM table_name ;
删除索引
DROP INDEX index_name ON table_name ;
创建一张表 tb_user,并且查询测试数据。
需求如下:
A.name字段为姓名字段,该字段的值可能会重复,为该字段创建索引
create index idx_user_name on tb_user(name)
B.phone手机号字段的值,是非空,且唯一的,为该字段创建唯一索引。
create unique index idx_user_phone on tb_user(phone);
C.为profession、age、status创建联合索引。
create index idx_user_pro_age_sta on tb_user(profession,age,status)
D.为email建立合适的索引来提升查询效率。
create index idx_user_email on tb_user(email);