动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找树(Balanced Binary Search Tree),红黑树(Red-Black Tree ),B-tree/B±tree/ B*-tree (B~Tree)。前三者是典型的二叉查找树结构,其查找的时间复杂度O(log2N)与树的深度相关,那么降低树的深度自然会提高查找效率。
在开始介绍B-tree之前,先了解下相关的硬件知识,才能很好的了解为什么需要B-tree这种外存数据结构。(费了九牛二虎之力,终于在角落翻出满是灰尘的《计算机组成原理》)
计算机存储设备一般分为两种:主存储器(main memory)和外存储器(external memory)。
内存存取速度快,但容量小,价格昂贵,而且不能长期保存数据(在不通电情况下数据会消失)。
外存储器—磁盘是一种直接存取的存储设备(DASD)。它是以存取时间变化不大为特征的。可以直接存取任何字符组,且容量大、速度较其它外存设备更快。
主存储器(main memory)—内存
目前计算机使用的主存基本都是随机读写存储器(RAM),现代RAM的结构和存取原理比较复杂,这里本文抛却具体差别,抽象出一个十分简单的存取模型来说明RAM的工作原理。
从抽象角度看,主存是一系列的存储单元组成的矩阵,每个存储单元存储固定大小的数据。每个存储单元有唯一的地址,现代主存的编址规则比较复杂,这里将其简化成一个二维地址:通过一个行地址和一个列地址可以唯一定位到一个存储单元。上图展示了一个4 x 4的主存模型。
主存的存取过程如下:
当系统需要读取主存时,则将地址信号放到地址总线上传给主存,主存读到地址信号后,解析信号并定位到指定存储单元,然后将此存储单元数据放到数据总线上,供其它部件读取。
写主存的过程类似,系统将要写入单元地址和数据分别放在地址总线和数据总线上,主存读取两个总线的内容,做相应的写操作。
这里可以看出,主存存取的时间仅与存取次数呈线性关系,因为不存在机械操作,两次存取的数据的“距离”不会对时间有任何影响,例如,先取A0再取A1和先取A0再取D3的时间消耗是一样的。
外存储器(external memory)—磁盘
与主存不同,磁盘I/O存在机械运动耗费,因此磁盘I/O的时间消耗是巨大的。
磁盘是一个扁平的圆盘(与留声机的唱片类似)。盘面上有许多称为磁道的圆圈,数据就记录在这些磁道上。磁盘可以是单片的,也可以是由大小相同且同轴的圆形盘片组成,磁盘可以转动(各个磁盘必须同步转动)。
每一盘片上有两个面。如下图中所示的6片盘组为例,除去最顶端和最底端的外侧面不存储数据之外,一共有10个面可以用来保存信息。
一般磁盘分为固定头盘(磁头固定)和活动头盘。固定头盘的每一个磁道上都有独立的磁头,它是固定不动的,专门负责这一磁道上数据的读/写。
活动头盘 (如上图)的磁头是可移动的。每一个盘面上只有一个磁头(磁头是双向的,因此正反盘面都能读写)。它可以从该面的一个磁道移动到另一个磁道。所有磁头都装在同一个动臂上,因此不同盘面上的所有磁头都是同时移动的(行动整齐划一)。当盘片绕主轴旋转的时候,磁头与旋转的盘片形成一个圆柱体。各个盘面上半径相同的磁道组成了一个圆柱面,我们称为柱面 。因此,柱面的个数也就是盘面上的磁道数。
注:
磁道:盘片被划分成一系列同心环,圆心是盘片中心,每个同心环叫做一个磁道
柱面:各个盘面上半径相同的磁道组成了一个圆柱面,我们称为柱面(因此,柱面的个数也就是任意盘片上的磁道数)
扇区:磁道被沿半径线划分成一个个小的段,每个段叫做一个扇区,每个扇区是磁盘的最小存储单元
[
硬盘都使用ZBR(Zone Bit Recording 分区域记录)技术,盘片表面从里向外划分为数个区域,不同区域的磁道扇区数目不同,同一区域内各磁道扇区数相同,盘片外圈区域磁道长扇区数目较多,内圈区域磁道短扇区数目较少,大体实现了等密度,从而获得了更多的存储空间。大多数产品划分了16个区域,最外圈的每磁道扇区数正好是最内圈的二倍(373~746正是啦)。这样的话,当磁盘主轴马达按一定转速(N转每秒)旋转的时候,越往外,线速度越大,单位时间内扫过的扇区数就越多,读写速度就越高。(这就是通常把系统盘数据放在磁盘最外圈的原因了~~)
]
上图为磁盘结构示意图
数据读/写原理
磁盘上数据必须用一个三维地址唯一标示:柱面号、盘面号、块号(磁道上的盘块,也就是扇区)。
读/写磁盘上某一指定数据需要下面3个步骤:
访问某一具体信息花费的时间由3部分组成:
- 寻道时间:完成上述步骤1所需要的时间。这部分时间代价最高,最大可达到0.1s左右
- 旋转时间:完成上述步骤3所需要的时间。由于盘片绕主轴旋转速度很快,一般为7200转/分(电脑硬盘的性能指标之一, 家用的普通硬盘的转速一般有5400rpm(笔记本)、7200rpm几种)。因此一般旋转一圈大约0.0083s
- 传输时间: 数据通过系统总线传送到内存的时间,一般传输一个字节(byte)大概0.02us=2*10^(-8)s
局部性原理与磁盘预读
由于存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,磁盘的存取速度往往是主存的几百分分之一,因此为了提高效率,要尽量减少磁盘I/O。为了达到这个目的,磁盘往往不是严格按需读取,而是每次都会预读,即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理:
当一个数据被用到时,其附近的数据也通常会马上被使用。
所以,程序运行期间所需要的数据通常应当比较集中。
由于磁盘顺序读取的效率很高(不需要寻道时间,只需很少的旋转时间),因此对于具有局部性的程序来说,预读可以提高I/O效率。
预读的长度一般为页(page)的整倍数。页是计算机管理存储器的逻辑块,硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块,每个存储块称为一页(在许多操作系统中,页得大小通常为4k),主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时,会触发一个缺页异常,此时系统会向磁盘发出读盘信号,磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中,然后异常返回,程序继续运行。
小结
根据这一小节我们可以知道,磁盘I/O是影响数据读写性能的主要因素之一,所以在实际的生产应用中,我们应该尽可能的减少磁盘I/O
那么问题来了:就是大规模数据存储中,实现索引查询这样一个实际背景下,如何减少磁盘I/O呢?
有人可能会第一时间想到远古时期*(学生时代)的经典(二叉树)*。不过,树节点存储的元素数量是有限的(如果元素数量非常多的话,查找就退化成节点内部的线性查找了),这样导致二叉查找树结构由于树的深度过大而造成磁盘I/O读写过于频繁,进而导致查询效率低下。这个时候B树、B+树…应运而生。
下面我们一起来回顾下常见的树结构(这时的我不禁弹了弹《数据结构》上的灰尘)
二叉排序树(Binary Sort Tree)
树上的节点是已经排好序的,具体的排序规则如下:
- 若左子树不空,则左子树上所有节点的值均小于它的根节点的值
- 若右子树不空,则右字数上所有节点的值均大于它的根节点的值
- 它的左、右子树也分别为二叉排序数(递归定义)
从图中可以看出,二叉排序树组织数据时,用于查找是比较方便的,因为每次经过一次节点时,最多可以减少一半的可能,不过极端情况会出现所有节点都位于同一侧,直观上看就是一条直线,那么这种查询的效率就比较低了,因此需要对二叉树左右子树的高度进行平衡化处理,于是就有了平衡二叉树(Balenced Binary Tree)
所谓“平衡”,说的是这棵树的各个分支的高度是均匀的,它的左子树和右子树的高度之差绝对值小于1,这样就不会出现一条支路特别长的情况。于是,在这样的平衡树中进行查找时,总共比较节点的次数不超过树的高度,这就确保了查询的效率(时间复杂度为O(logn))
二、B树(Balance tree)
B树,也就是B-tree(注:中间的短横线是英文连接符,不发音。所以应该读作B树,而不是B减树)事实上是一种平衡的多叉查找树。一颗阶为M的B-tree满足以下几个结构特性:
- 树的根或者是一片树叶,或者其子儿子数在2和M之间
- 除根外,所有非树叶节点的儿子数在M/2(向上取整)和M之间
- 所有的树叶都在相同的深度上
- 非叶节点中的信息包括[n,A0,K1,A1,K2,A2,…,Kn,An],,其中n表示该节点中保存的关键字个数,K为关键字且Ki
注:
- 阶:指一颗B-tree中节点的最大儿子数(也就是节点的最大分叉数)
- 根:没有父亲的节点
- 树叶:没有儿子的节点
- 深度:任意节点的深度为从根到该节点的唯一路径的长(因此,根的深度为0)
- 高度:任意节点的高度为从该节点到一片树叶的最长路径的长(因此,树叶的高为0,一棵树的高等于根的高)
下图为三阶B树示例
B树的查询过程和二叉排序树比较类似,从根节点依次比较每个结点,因为每个节点中的关键字和左右子树都是有序的,所以只要比较节点中的关键字,或者沿着指针就能很快地找到指定的关键字,如果查找失败,则会返回叶子节点,即空指针。
例如在上图中查找29:
B树的特点:
1.关键字集合分布在整颗树中。
2.任何一个关键字出现且只出现在一个节点中。
3.搜索有可能在非叶子节点结束。
4.其搜索性能等价于在关键字集合内做一次二分查找。
5.由于限制了除根结点以外的非叶子结点,至少含有M/2个儿子,确保了结点的至少利用率,其最底搜索性能为:
其中
- M为阶,N为关键字总数;所以B-树的性能总是等价于二分查找(与M值无关),也就没有B树平衡的问题;
- 由于非树叶节点儿子数[M/2,M]的限制,在插入结点时,如果该结点已满,需要将结点分裂为两个各占M/2的结点,将该节点的中间关键字存入父节点
- 若父节点已满,重复上一个步骤
- 删除结点时,需将两个不足M/2的兄弟结点合并
三、B+树(B-树的变体,也是一种多路搜索树)
B+树定义基本与B-树同,除了:
- B+树的非叶子节点不保存关键字记录的指针,节点中仅含有其子树(根节点)中的最大(或最小)关键字,这样使得B+树每个非叶子节点所能保存的关键字大大增加
- B+树叶子节点保存了父节点的所有关键字记录的指针,所有数据地址必须要到叶子节点才能获取到。所以每次数据查询的次数都一样
- B+树叶子节点的关键字从小到大有序排列,左边结尾数据都会保存右边节点开始数据的指针。(这使得B+树比B-树更加适合范围查找 rang )
- 非叶子节点的子节点数=关键字数,根据各种资料 这里有两种算法的实现方式,另一种为非叶节点的关键字数=子节点数-1,虽然他们数据排列结构不一样,但其原理还是一样的,Mysql
的B+树是用第一种方式实现);
B+树的查找过程,与B树类似,只不过查找时,如果在非叶子节点上的关键字等于给定值,并不终止,而是继续沿着指针直到叶子节点位置。因此在B+树,不管查找成功与否,每次查找都是走了一条从根到叶子节点的路径。
B+树的特性如下(相比于B树):
- 平均查询数据更快:非叶子节点存储的关键字数更多,树的层级更少(B树飞叶子节点也存有关键字信息,有些B树可以在非叶子节点直接击中关键字返回,所以并不是每一次查询B+树都优于B树)
- 查询速度更稳定:B+树所有关键字数据地址都存在叶子节点上,所以每次查找的次数都相同
- 全树遍历更快:B+树遍历整棵树只需要遍历所有的叶子节点即可(范围查询速度远优于B树)
- B树相对于B+树的优点是,如果经常访问的数据离根节点很近,而B树的非叶子节点本身存有关键字其数据的地址,所以这种数据检索的时候会要比B+树快。
四、B 树*
B树是B+树的变体,在B+树的非根和非叶子结点再增加指向兄弟的指针,如下:
B树具有以下特点(相比于B+树):
B*树定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替B+树的1/2)
分类方式不同:
B+树的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针;
B*树的分裂:当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针;
所以,B*树分配新结点的概率比B+树要低,空间使用率更高;
小结:
- -树的根或者是一片树叶,或者其子儿子数在2和M之间
- 除根外,所有非树叶节点的儿子数在M/2(向上取整)和M之间
- 所有的树叶都在相同的深度上
- 非叶节点中的信息包括[n,A0,K1,A1,K2,A2,…,Kn,An],,其中n表示该节点中保存的关键字个数,K为关键字且Ki
在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式。
MyISAM索引实现
MyISAM引擎使用B+Tree作为索引结构,叶节点的data域存放的是数据记录的地址。下图是MyISAM索引的原理图:
这里设表一共有三列,假设我们以Col1为主键,则上图是一个MyISAM表的主索引(Primary key)示意。可以看出MyISAM的索引文件仅仅保存数据记录的地址。在MyISAM中,主索引和辅助索引(Secondary key)在结构上没有任何区别,只是主索引要求key是唯一的,而辅助索引的key可以重复。如果我们在Col2上建立一个辅助索引,则此索引的结构如下图所示:
同样也是一棵B+树,data域保存数据记录的地址。因此,MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引,如果指定的Key存在,则取出其data域的值,然后以data域的值为地址,读取相应数据记录。
MyISAM的索引方式也叫做“非聚集”的,之所以这么称呼是为了与InnoDB的聚集索引区分。
InnoDB索引实现
虽然InnoDB也使用B+Tree作为索引结构,但具体实现方式却与MyISAM截然不同。
第一个重大区别是InnoDB的数据文件本身就是索引文件。从上文知道,MyISAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。而在InnoDB中,表数据文件本身就是按B+Tree组织的一个索引结构,这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键,因此InnoDB表数据文件本身就是主索引。
上图是InnoDB主索引(同时也是数据文件)的示意图,可以看到叶节点包含了完整的数据记录。这种索引叫做聚集索引。因为InnoDB的数据文件本身要按主键聚集,所以InnoDB要求表必须有主键(MyISAM可以没有),如果没有显式指定,则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键,如果不存在这种列,则MySQL自动为InnoDB表生成一个隐含字段作为主键,这个字段长度为6个字节,类型为长整型。
第二个与MyISAM索引的不同是InnoDB的辅助索引data域存储相应记录主键的值而不是地址。换句话说,InnoDB的所有辅助索引都引用主键作为data域。例如,上图为定义在Col3上的一个辅助索引:
这里以英文字符的ASCII码作为比较准则。聚集索引这种实现方式使得按主键的搜索十分高效,但是辅助索引搜索需要检索两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。
了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助,例如知道了InnoDB的索引实现后,就很容易明白为什么不建议使用过长的字段作为主键,因为所有辅助索引都引用主索引,过长的主索引会令辅助索引变得过大。再例如,用非单调的字段作为主键在InnoDB中不是个好主意,因为InnoDB数据文件本身是一棵B+Tree,非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整,十分低效,而使用自增字段作为主键则是一个很好的选择。