索引(index)是帮助Mysql高效获取数据的数据结构。
优点:
数据库的IO成本
,这也是创建索引最主要的原因。数据的唯一性
。加速表和表之间的连接
。换句话说,对于有依赖关系的子表和父表联合查询时,可以提高查询速度。减少查询中分组和排序的时间
,降低了CPU的消耗。缺点:
要想明白索引怎么存储数据首先,大概明白一个概念就是。索引的数据每一行是存在一个页里面的可以有多个页每个页是使用链表关联的,具体后续在讲。
并且在innodb运用的是b+树。
新建索引
mysql> CREATE TABLE index_demo(
-> c1 INT,
-> c2 INT,
-> c3 CHAR(1),
-> PRIMARY KEY(c1)
-> ) ROW_FORMAT = Compact;
新建的 index_demo 表中有2个INT类型的列,1个CHAR(1)类型的列,而且我们规定了c1列为主键,这个表使用 Compact 行格式来实际存储记录的。这里我们简化了index_demo表的行格式示意图:
那么一个页的数据的图为如下:
页内的数据使用链表进行关联,同理多页的数据页也是根据链表进行关联。并且有页号作为地址可以定位到指定的页。
我们在根据某个搜索条件查找一些记录时为什么要遍历所有的数据页呢?因为各个页中的记录并没有规律,我们并不知道我们的搜索条件匹配哪些页中的记录,所以不得不依次遍历所有的数据页。所以如果我们想快速的定位到需要查找的记录在哪些数据页
中该咋办?
当我们给数据添加3条数据。
那么这些记录已经按照主键值的大小串联成一个单向链表了,如图所示:
假设:每个数据页最多能存放3条记录(实际上一个数据页非常大,可以存放下好多记录)。此时我们再来插入一条记录:
注意,新分配的数据页编号可能并不是连续的并且是拥有其他整数据的。它们只是通过维护着上一个页和下一个页的编号而建立了链表关系。
另外,页10中用户记录最大的主键值是5,而页28中有一条记录的主键值是4,因为5>4,所以这就不符合下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值的要求,
所以在插入主键值为4的记录的时候需要伴随着一次记录移动,也就是把主键值为5的记录移动到页28中,然后再把主键值为4的记录插入到页10中,这个过程的示意图如下:
这个过程表明了在对页中的记录进行增删改操作的过程中,我们必须通过一些诸如记录移动的操作来始终保证这个状态一直成立:下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值,这个过程我们称为页分裂。
因为这些16KB的页在物理存储上是不连续的,所以如果想从这么多页中根据主键值快速定位某些记录所在的页,我们需要给它们做个目录,每个页对应一个目录项,每个目录项包括下边两个部分:
以页28 为例,它对应目录项2 ,这个目录项中包含着该页的页号 28 以及该页中用户记录的最小主键值 5 。我们只需要把几个目录项在物理存储器上连续存储(比如:数组),就可以实现根据主键值快速查找某条记录的功能了。比如:查找主键值为 20 的记录,具体查找过程分两步:
先从目录项中根据 二分法 快速确定出主键值为 20 的记录在 目录项3 中(因为 12 < 20 < 209 ),它对应的页是页9 。
再根据前边说的在页中查找记录的方式去页9 中定位具体的记录。至此,针对数据页做的简易目录就搞定了。这个目录有一个别名,称为索引 这就是索引的概念。
那么我们插入若干数据之后便是下图的样子:
从图中可以看出来,我们新分配了一个编号为30的页来专门存储目录项记录。这里再次强调目录项记录和普通的用户记录的
不同点:
相同点:
根据上面的概念举一反三,纵向目录项继续向上扩张目录项,并且是记录页的目录项。横向页目录项关联页目录项。就得出如下
从图中可以看出,我们插入了一条主键值为320的用户记录之后需要两个新的数据页:
现在因为存储目录项记录的页不止一个,所以如果我们想根据主键值查找一条用户记录大致需要3个步骤,以查找主键值为 20 的记录为例:
这个数据结构,它的名称是 B+树 。
层级:
一个B+树的节点其实可以分成好多层,规定最下边的那层,也就是存放我们用户记录的那层为第0层,之后依次往上加。
之前我们做了一个非常极端的假设:存放用户记录的页最多存放3条记录,存放目录项记录的页最多存放4条记录。其实真实环境中一个页存放的记录数量是非常大的,假设所有存放用户记录的叶子节点代表的数据页可以存放100条用户记录,所有存放目录项记录的内节点代表的数据页可以存放1000条目录项记录,那么:
你的表里能存放100000000000条记录吗?所以一般情况下,我们用到的B+树都不会超过4层,那我们通过主键值去查找某条记录最多只需要做4个页面内的查找(查找3个目录项页和一个用户记录页),又因为在每个页面内有所谓的Page Directory(页目录),所以在页面内也可以通过二分法实现快速定位记录。
结构:
B+树也是一种多路搜索树,基于B树做出了改进,索引结构中数据的存储是页为基本单位进行存储的,B+树中的页类型主要分为两类,一类是页数据,页数据类型中存放的主要是节点数据,在这种类型中由页号,主键以及完整数据构成,另外一类是页目录,页目录中由当前页号、页数据中最小的主键值、主键对应的页号构成,页与页之间是由双向链表相连接,使用双向链表相连接的原因主要是为了范围查询,在页的内部,是按照主键的大小构成的一个有序链表.