B-(B树)、B+

目录

简要地介绍B+树:

B+树的特征:

B+树的优势:


数据库索引为什么使用树结构存储呢?

树的查询效率高,而且可以保持有序

为什么索引没有使用二叉查找树来实现呢?

二叉查找树查询的时间复杂度为O(logN),二叉查找树的查找速度和比较次数都是最小的。

但是索引存在磁盘上,数据量比较大的时候,索引的大小可能有几个G甚至更多。当我们需要利用索引查询的时候,不能把整个索引全部加在到内存,只能逐一加载每一个磁盘页。这里的磁盘页对应着索引数的节点。当二叉查找数是索引树,假设高度是4,最坏的情况,磁盘IO次数就是树的高度。

为了减少磁盘IO,我们需要把树的孩子节点变多一点,即把瘦高的树,变得矮胖。

B树是一种多路平衡查找树,它的每一个节点最多包含K个孩子,K被称为B树的阶K的大小取决于磁盘页的大小。

下面来具体介绍一下B-树(Balance Tree),一个m阶的B树具有如下几个特征:

1.根结点至少有两个子女。

2.每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m

3.每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m

4.所有的叶子结点都位于同一层。

5.每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。

                 

插入元素

自顶向下查找4的节点位置,发现4应当插入到节点元素3,5之间。

节点3,5已经是两元素节点,无法再增加。父亲节点 2, 6 也是两元素节点,也无法再增加。根节点9是单元素节点,可以升级为两元素节点。于是拆分节点3,5与节点2,6,让根节点9升级为两元素节点4,9。节点6独立为根节点的第二个孩子。

自顶向下查找元素11的节点位置。

删除11后,节点12只有一个孩子,不符合B树规范。因此找出12,13,15三个节点的中位数13,取代节点12,而节点12自身下移成为第一个孩子。(这个过程称为左旋

B-树主要应用于文件系统以及部分数据库,比如非关系型数据库MongoDB

B+有着比B-树更高的查询性能  

一个m阶的B+树具有如下几个特征:

1.有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。

2.所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。

3.所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。

B-(B树)、B+_第1张图片

每一个父节点的元素都出现在子节点中,是子节点的最大(或最小)元素

B-(B树)、B+_第2张图片

根节点的最大元素(这里是15),也就等同于整个B+树的最大元素,以后无论插入删除多少元素,始终要保持最大元素在根节点当中。

至于叶子节点,由于父节点的元素都出现在子节点,因此所有叶子结点包含了全量元素信息。并且每一个叶子节点都带有指向下一个节点的指针,形成了一个有序链表。

B-(B树)、B+_第3张图片

B+还有一大特征:卫星数据,指的是索引元素所指向的数据记录,比如数据库中的某一行。在B-树中,无论中间节点还是叶子节点都带有卫星数据。而在B+树当中,只有叶子节点带有卫星数据,其余中间节点仅仅是索引,没有任何数据关联。

  B-(B树)、B+_第4张图片                   B-(B树)、B+_第5张图片

需要补充的是,在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针。

第一次磁盘IO:

第二次磁盘IO:

第三次磁盘IO:

看似跟B-树查找过程很像,其实B+树中间节点没有卫星数据,所以同样大小的磁盘页可以容纳更多的节点元素,这意味着,数据量相同的情况下,B+树的结构比B-树更加“矮胖”,因此查询时Io次数也更少。

其次,B+树的查询必须最终查找到叶子节点,而B-树只要找到匹配元素即可,无论匹配元素处于中间节点还是叶子节点。

因此B-树的查找性能并不稳定,最好情况是查找到根节点,最坏情况是查找叶子节点。而B+树每一次查找稳定。

B-树的范围查找需要依靠繁琐的中序遍历

B-树的范围查找过程

自顶向下,查找到范围的下限(3):

B-(B树)、B+_第6张图片

中序遍历到元素6:

B-(B树)、B+_第7张图片

中序遍历到元素8:

B-(B树)、B+_第8张图片

中序遍历到元素9:

B-(B树)、B+_第9张图片

中序遍历到元素11,遍历结束:

B-(B树)、B+_第10张图片

 

B+树的范围查询,只需要在链表上做遍历就可以

B+树的范围查找过程

自顶向下,查找到范围的下限(3):

B-(B树)、B+_第11张图片

通过链表指针,遍历到元素6, 8:

B-(B树)、B+_第12张图片

通过链表指针,遍历到元素9, 11,遍历结束:

B-(B树)、B+_第13张图片

简要地介绍B+树:

       B+树是为磁盘或其他直接存取辅助设备而设计的一种平衡查找树,在B+树中,所有记录节点都是按键值的大小顺序存放在同一层的叶节点中,各叶节点指针进行连接

 

B+树的特征:

1.有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点

2.所有的叶子结点包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。(链表

3.所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素

4、B+树查找时是从上到下查找B-树则是从下往上查找中序遍历

B+树的优势:

1.单一节点存储更多的元素(这样该节点下分支变多了,树变矮胖了),使得查询的IO次数更少。

2.所有查询都要查找到叶子节点,查询性能稳定。

3.所有叶子节点形成有序链表,便于范围查询

 

你可能感兴趣的:(算法)