Mysql优化系列之索引(index)

一、简介

  • 什么是索引?
    Mysql官方定义:索引(index)是帮助Mysql高效获取数据的 排好序数据结构
    简单来说,可以理解为:索引是数据结构。

  • 为什么要使用索引?
    MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车。

二、索引的数据类型

上面介绍索引知道了索引就是数据结构,那么,我们都知道,数据结构有:hash表,二叉树,红黑树,B-Tree,B+树等
例如有如下表数据:

col1 col2
1 34
2 77
3 5
4 91
5 22
6 89
7 23

那么有一条sql查询语句:

select * from table where col2 = 89;
二叉树

那么使用二叉树查询如下(col2创建索引的情况下):


二叉树索引结构

根据二叉树的类型(右边节点的值大于父节点的值)可以推论,从根节点 34 开始,需要进行两次的磁盘I/O操作,就可以查询到二叉树的key和value,key存的是89这个值,value是“0x77”,也就是该条数据所对应的磁盘文件指针。然后再根据磁盘指针“0x77”,可以查找到该行 col1=6,col2=89所对应的数据结果。
如果说col2的值比较大,表数据又比较多,那可能就需要N次磁盘I/O操作才能查询到数据,效率比较低。
再比如:把col1增加索引,col1为自增列的情况下,

select * from table where col1 = 6;

那么二叉树的结果为:


col1为索引的二叉树

因为是自增列,所以右边节点的值会一直大于父节点,最终变成这样的单边增长树。那么在执行上面的sql查询语句,会经过6次磁盘I/0操作。

所以二叉树不适合mysql的索引数据结构。

红黑树

同样的,把col1增加索引,col1为自增列的情况下,

select * from table where col1 = 6;

那么红黑树的结果为:

红黑树

从图中可以看出来,需要三次操作就能找到 col1=6的节点。由于数据量比较少,所以查询比较快。如果有几十上百万的数据,那么就容易造成树的节点比较深,导致树的高度不可控,所以红黑树不适合mysql的索引数据结构。

B+树

在mysql中,索引用到的是 B+树,B+Tree的高度是可控的,mysql通常是3到5层。注意:B+Tree只在最末端叶子节点存数据,叶子节点是以双向链表的形势互相指向的。
使用B+树结构存储的优点:

  • 非叶子节点不存储data,只存储索引(冗余),可以放更多的索引
  • 叶子节点包含所有索引字段
  • 叶子节点用指针连接,提高区间访问的性能
B+树示例图
b+树性质
  • 索引字段要尽量的小
    我们知道I/O次数取决于b+数的高度h,假设当前数据表的数据为N,每个磁盘块的数据项的数量是m,则有h=㏒(m+1)N,当数据量N一定的情况下,m越大,h越小;而m = 磁盘块的大小 / 数据项的大小,磁盘块的大小也就是一个数据页的大小,是固定的,如果数据项占的空间越小,数据项的数量越多,树的高度越低。这就是为什么每个数据项,即索引字段要尽量的小,比如int占4字节,要比bigint8字节少一半。这也是为什么b+树要求把真实的数据放到叶子节点而不是内层节点,一旦放到内层节点,磁盘块的数据项会大幅度下降,导致树增高。当数据项等于1时将会退化成线性表。
  • 索引的最左匹配特性(即从左往右匹配)
    当b+树的数据项是复合的数据结构,比如(name,age,sex)的时候,b+数是按照从左到右的顺序来建立搜索树的,比如当(张三,20,F)这样的数据来检索的时候,b+树会优先比较name来确定下一步的所搜方向,如果name相同再依次比较age和sex,最后得到检索的数据;但当(20,F)这样的没有name的数据来的时候,b+树就不知道下一步该查哪个节点,因为建立搜索树的时候name就是第一个比较因子,必须要先根据name来搜索才能知道下一步去哪里查询。比如当(张三,F)这样的数据来检索时,b+树可以用name来指定搜索方向,但下一个字段age的缺失,所以只能把名字等于张三的数据都找到,然后再匹配性别是F的数据了, 这个是非常重要的性质,即索引的最左匹配特性。

hash

在mysql中,创建索引,也可以使用hash表,


创建hash索引

mysql会对hash索引创建一个hash值对应的表,每一个索引字段对应一个hash值
如果在查询语句执行的时候,

select * from table where col2 = 49;

索引为hash索引,则mysql会对sql语句进行优化,mysql底层自己的hash算法,所以hash索引查询会非常快,速度会比BTree还快。

select * from table where col2 = hash(49);

hash特点:

  • 哈希索引只包含哈希码和指针,不存储数据字段值
  • 哈希索引数据并不是按循序存储的,因此无法用于排序
  • 因为要通过查询值计算确定的哈希码,所以哈希索引不支持部分匹配,不支持范围查找,只支持等值比较查询
  • 当哈希冲突很多的时候,效率会降低
    基于以上特点,所以mysql中最常见的索引,都使用的是B+树索引。

三、索引的优缺点

  • 优点:可以快速检索,减少I/O次数,加快检索速度;根据索引分组和排序,可以加快分组和排序;
  • 缺点:索引本身也是表,因此会占用存储空间,一般来说,索引表占用的空间的数据表的1.5倍;索引表的维护和创建需要时间成本,这个成本随着数据量增大而增大;构建索引会降低数据表的修改操作(删除,添加,修改)的效率,因为在修改数据表的同时还需要修改索引表;

你可能感兴趣的:(Mysql优化系列之索引(index))