MySQL索引详解(三)索引的底层原理

索引的总共有四种类型:BTree索引,HASH索引,FullText索引和RTree索引
不同的存储引擎使用是不同实现原理实现索引


目录结构
1、BTree索引
    (1)BTree简要介绍
    (2)B+Tree简要介绍
    (3)B+Tree实现索引
2、HASH索引
3、FullText索引
4、RTree索引


1、BTree索引(B+Tree索引)

(1)BTree简要介绍

BTree索引就是以BTree结构实现的索引。
使用BTree结构实现索引基本是每个数据库索引结构的首选,
(为什么都选择使用BTree结构而不是其他什么树,如红黑树之类的,参照文章MySQL索引详解(四)BTree为什么更适合做索引结构)
MySQL中除了Archive引存储引擎外,其他所有的存储引擎都支持BTree索引。
BTree也叫平衡多路查找树,与二叉树的区别是BTree的节点可以有多个子节点(可多于两个)。

BTree结构图

BTree结构中每个节点都有指针,key,value三个元素,如上图空白框表示指针,15表示为key,data为value。

(2)B+Tree简要介绍

B+Tree结构如下图:


B+Tree

有图可知,B+Tree与BTree的不同在于,B+Tree只有叶子节点存储value,非叶子节点只有指针和key

一般在数据库文件系统中,为了方便遍历叶子节点,对B+Tree做了小的改动,在叶子节点上增加了顺序访问指针。改动后的结构图如下:


有顺序访问指正的B+Tree结构图
(3)B+Tree实现索引

MySQL数据库中,最常用的两个存储引擎MyISAM和InnoDB存储引擎实现BTree索引都是使用B+Tree结构实现的。但是两个存储引擎实现的思路也不完全相同,下面分别介绍两个存储引擎各自的实现思路。

MyISAM存储引擎的实现
(1)主键索引实现的主要思想:
节点上的key是主键,然后将每行数据的地址信息存放在B+Tree的叶子节点的value中。结构图如下:

MyISAM主键索引实现结构图

(2)非主键索引(普通索引或者唯一索引或组合索引)实现的主要思想:
节点上的key是索引行,然后将每行数据的地址信息存放在B+Tree的叶子节点的value中。结构图如下(假设索引为col2):


MyISAM非主键索引实现结构图

InnoDB存储引擎的实现
(1)主键索引实现的主要思想:
节点上的key是主键,直接将每行数据的信息存放在B+Tree的叶子节点的value中,结构图如下:

InnoDB主键索引实现结构图

根据结构可以看出,数据行本身存储在B+Tree上,所有InnoDB要求每个表必须要有个主键,如果没有添加,存储引擎则会主动默认添加一个主键。
这样的存储结构被称为“聚集索引”
聚集索引的优点
可以索引覆盖,使效率更高
聚集索引的缺点
聚集索引的表在插入新行,或者主键被更新需要移动的时候,可能面临页分裂的问题
按照非主键索引查找,比较慢
主键id的长度不能过长限制
(2)非主键索引(普通索引或者唯一索引或组合索引)实现的主要思想:
节点上的key是索引列,每个叶子节点的value值存储的是主键。结构图如下:
InnoDB主键索引实现结构图

根据上面的结构可以看出,如果按照非主键索引来查找数据,需要先在非主键索引结构中查找到主键,然后再去主键索引结构中再去拿出数据。这个过程被称为回表
平时如果我们只需要取出主键id,就不要用select*去执行。因为select id from user where name = "s"和select * from user where name = "s"相比少一步回表操作。

2、HASH索引

MySQL存储引擎中只有memory存储引擎执行HASH索引。
HASH索引是通过设计抗碰撞HASH算法,将索引的信息存储在HASH表中。


HASH结构

HASH索引优点:
等值查询速度比BTree要快,因为只需要做一次HASH运算即可
HASH索引缺点:
只能进行等值的查找,不能进行范围查找
不能进行模糊查找,只能对确定性的key值进行查找
HASH算法的缺点,如果算法设计不够精度,出现碰撞的情况,如果出现碰撞情况,就需要逐个遍历整张表的每条数据

3、FullText索引

FullText的底层也是使用BTree实现的,但是和普通的索引实现的原理是不同的。
仅MyISAM支持
FullText索引是将索引的列按照特定的算法,将字段分割成几部分(变成词或词组),然后对分割后的词或词组,进行索引。BTree中的节点存储的信息如下:

FullText索引节点信息

FullText索引优点:
对于较长的字符串,查询效率要比like %...%效率更高
FullText索引缺点:
创建FullText索引消耗的资源较大

4、RTree索引

RTree索引主要用来解决空间数据检索问题
在MySQL5.0.16之前,仅MyISAM支持,之后BDB,InnoDB等其他存储引擎也支持

(1)、RTree结构

RTree是BTree的多维版
RTree是Guttman在一片论文《R-trees: a dynamic index structure for spatial searching》中提出的为了解决空间查询问题,而提出的。
RTree的结构
RTree的结构和BTree结构类似,只不过上面存储的信息不同,说清楚RTree上存储的信息之前,先要介绍一下多维数据的查询过程。
以二维数据为例,RTree的目的就是要实现二维数据的的查找,如果要实现一个区域的查找,该如何实现呢。假如有如下的区域:

区域图

在整个大的区域中有三个区域D1,D2,D3三个不规则区域,通过MBR(Minimal Bounding Rectangle--最小边界矩形)方法将不规则的区域框起来,变成R8,R9和R10,称R8是D1的MBR。其他的实线框同理(可以认为都是一些不规则区域的MBR,不规则区域省略)。然后再将距离近的几个区域划分到一个大的区域内,如上图中的R3包括(R8,R9,R10),同理R4(R9,R10,R12,R11),R5(R14,R13),R6(R15,R16),R7(R17,R18,R19)。然后再对R3,R4,R5,R6,R7进行区域划分。得到R1(R3,R4,R5),R2(R6,R7),然后按这样层级关系,构建一个RTree,如下如:
RTree树

非叶子节点存储信息:区域R的信息和指向叶子节点的指针
叶子节点存储信息:区域R的信息和区域D的信息
通过这个结构可以很快的查出某个区域,查找过程同BTree。
详细信息参照参考资料



参考资料
1、《MySQL性能调优与架构设计》
2、https://www.jianshu.com/p/eb5c9c05f2d4
3、https://www.jianshu.com/p/0371c9569736
4、空间数据索引RTree完全解析
5、R-trees: a dynamic index structure for spatial searching

你可能感兴趣的:(MySQL索引详解(三)索引的底层原理)