B树与B+树


B树

别称:B-树、B_树

维基百科对B树的定义为“在计算机科学中,B树(B-tree)是一种树状数据结构,它能够存储数据、对数据进行排序,可以O(log n)的时间复杂度进行查找、顺序读取、插入和删除。B树,概括来说是一个节点可以拥有多于2个子节点的二叉查找树。与自平衡二叉查找树不同,B-树通常用于最优化大块数据的读和写操作。由于孩子结点的数量允许在一个范围内,B树相比自平衡二叉树不会频繁自平衡,但是当孩子结点不满时会浪费空间。B-tree算法普遍运用在数据库和文件系统,它能减少定位记录时所经历的中间过程,因为层数少,I/O操作少一些,从而加快存取速度。”

 

定义:

m阶B树:

1) 每个结点最多有m个子节点

2) 每个非叶子结点(除了根结点)最少有⌈m/2⌉个子节点

3) 根结点在不是叶子结点的情况下,至少有2个子节点

4) 有k个子节点的非叶子结点有k-1个关键字

5) 所有的叶子结点在同一层

B树中的一个包含n个关键字,n+1个指针的结点的一般形式为:(P0,K1,P1,K2,P2,…,Kn,Pn)

其中,Ki为关键字,K1

 B树与B+树_第1张图片


B+树

B+树是应文件系统所需而出的一种B树的变型树。一棵m阶的B+树和m阶的B-树的差异在于:

1)有n棵子树的结点中含有n个关键字,每个关键字不保存数据,只用来索引,所有数据都保存在叶子节点。

2)所有的叶子结点中包含了全部关键字的信息,及指向含这些关键字记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。

3)所有的非叶子结点可以看成是索引部分,结点中仅含其子树(根结点)中的最大(或最小)关键字。

通常在B+树上有两个头指针,一个指向根结点,一个指向关键字最小的叶子结点。


B树与B+树_第2张图片


为什么说B+树比B 树更适合实际应用中操作系统的文件索引和数据库索引?

1)B+树的磁盘读写代价更低

B+树的内部结点并没有指向关键字具体信息的指针。因此其内部结点相对B 树更小。如果把所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了。

举个例子,假设磁盘中的一个盘块容纳16bytes,而一个关键字2bytes,一个关键字具体信息指针2bytes。一棵9阶B-tree(一个结点最多8个关键字)的内部结点需要2个盘块。而B+树内部结点只需要1个盘块。当需要把内部结点读入内存中的时候,B 树就比B+树多一次盘块查找时间(在磁盘中就是盘片旋转的时间)。

2)B+树的查询效率更加稳定

由于非叶子结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。相对地,由于B树的每一个节点都包含key和value,因此经常访问的元素可能离根节点更近,因此访问也更迅速。

3)B+树的叶子结点都是相链的,因此对整棵树的遍历只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连,所以便于区间查找和搜索。而B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻,所以缓存命中性没有B+树好。

你可能感兴趣的:(数据结构与算法)