B树和B+树

B-tree是一种自平衡数据结构,它能对数据进行排序,并允许在对数时间内进行搜索、顺序访问、插入和删除。B-tree是二叉搜索树的推广,一个节点可以有两个以上的子节点。与自平衡的二叉搜索树不同,b-tree对读取和写入大数据块的系统进行了优化。b树是外部内存数据结构的例子。通常用于数据库和文件系统。

B-tree的时间复杂度
算法
平均
最坏情况
Space
O(n)
O(n)
Search
O(log n)
O(log n)
Insert
O(log n)
O(log n)
Delete
O(log n)
O(log n)
        在b树中,内部(非叶节点)节点可以在某个预定义范围内拥有可变数量的子节点。当从节点插入或删除数据时,它的子节点数量会发生变化。为了维护预定义的范围,可以将内部节点加入或拆分。因为允许有一系列子节点,所以b树不需要像其他自平衡搜索树那样频繁地重新平衡,但是可能会浪费一些空间,因为节点并不是完全满的。子节点数量的下界和上界通常用于特定的实现。例如,在2-3个B-t中。
       b树的每个内部节点包含许多键。键的作用是分隔其子树的分离值。例如,如果一个内部节点有3个子节点(或子树),那么它必须有2个键:a1和a2。最左边的子树的所有值都小于a1,中间子树的所有值都在a1和a2之间,而最右边的子树的所有值都大于a2。

定义

根据Knuth的定义,m阶的b树是满足以下属性的树:
    1、每个结点最多有m个孩子。
    2、除根结点外,其他每个结点至少⌈m / 2⌉孩子。
    3、如果不是叶节点,根至少有两个子节点。
    4、有k个子结点的非根结点恰好包含k-1个关键码。
    5、所有的叶子都在同一层。


B-Tree的操作

Search
搜索类似于搜索二叉搜索树。从根节点开始,树被递归地从上到下遍历。在每一层上,搜索将缩小到范围包括搜索值的指针(子树)。子树的范围由其父节点中包含的值或键定义。这些限制值也称为分离值。

Insertion
所有的插入从一个叶节点开始。要插入一个新元素,搜索树以找到要添加新元素的叶子节点。将新元素插入到该节点中,步骤如下:
1、如果节点包含的元素个数小于最大允许数量,那么就有新元素的空间。在节点中插入新元素,保持节点元素的有序。
2、否则节点是满的,将其均匀地分成两个节点:
1)从叶的元素和新元素中选择一个中值。
2)小于中值的值放在新左节点中,大于中值的值放在新的右节点中,中间值作为分离值。
3)分离值被插入到节点的父节点中,这可能导致它被拆分,等等。如果节点没有父节点(即,节点是根节点),在此节点之上创建一个新根(增加树的高度)。

B树和B+树_第1张图片

一个以迭代方式的B树插入示例。这个B树的节点最多有3个孩子(Knuth order 3)。

Deletion
从b树中删除有两种流行的策略。
1、找到并删除该项目,然后重新构造树以保留其不变量。
2、对树进行单次传递,但在进入(访问)节点之前,对树进行结构调整,以便在遇到要删除的键时,可以删除它,而不需要进行任何进一步的重构。


B+树

B+树是一个N-ary树,每个节点有一个变量,但通常有大量的子节点。B+树由根、内节点和叶组成。根可以是叶结点,也可以是有两个或两个以上子结点的结点。
B+树可以被看作是B树,其中每个节点只包含键(不是键值对),并且在底部添加一个与叶子相连接的额外的层。
B+树的主要价值是存储数据,以便在面向块的存储环境中高效检索——特别是文件系统。这主要是因为与二叉搜索树不同的是,B+树有非常高的fanout(在一个节点中指向子节点的指针数量,[1]通常是在100或以上),这减少了在树中查找元素所需的I/O操作的数量。
ReiserFS、NSS、XFS、JFS、ReFS和BFS文件系统都使用这种类型的树进行元数据索引;BFS还使用B+树来存储目录。NTFS使用B+树进行目录和安全相关的元数据索引。EXT4使用范围树(修改后的B+树数据结构)用于文件范围索引。关系数据库管理系统,如IBM DB2、Informix、Microsoft SQL Server、Oracle 8、Sybase ASE、和SQLite支持这类树的表索引。键值数据库管理系统,如CouchDB和Tokyo Cabinet支持这种类型的树。
B树和B+树_第2张图片

一个简单的B+树示例,将键1-7与数据值d1-d7连接。链表(红色)允许快速的顺序遍历。这棵树的分支因子是=4。

定义
B+树是应文件系统所需而出的一种B树的变型树。一棵m阶的B+树和m阶的B-树的差异在于:
    1、有n棵子树的结点中含有n个关键字,每个关键字不保存数据,只用来索引,所有数据都保存在叶子节点。
    2、所有的叶子结点中包含了全部关键字的信息,及指向含这些关键字记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
    3、所有的非终端结点可以看成是索引部分,结点中仅含其子树(根结点)中的最大(或最小)关键字。
通常在B+树上有两个头指针,一个指向根结点,一个指向关键字最小的叶子结点。

主要操作
Search
B+树的根表示树中所有的值范围,其中每个内部节点都是子区间。
我们在B+树中寻找一个值k。从根开始,我们寻找可能包含k值的叶子。在每个节点上,我们都知道应该遵循哪个内部指针。内部B +树节点最多 d d≤ B孩子,他们每个人都代表一个不同的sub-interval的地方。我们通过搜索节点的键值来选择相应的节点。
Function: search (k)
  	return tree_search (k, root);
 
Function: tree_search (k, node)
  	if node is a leaf then
    		return node;
 	switch k do
  	case k < k_0
    		return tree_search(k, p_0);
  	case k_i ≤ k < k_{i+1}
    		return tree_search(k, p_{i+1});
  	case k_d ≤ k
    		return tree_search(k, p_{d+1});

你可能感兴趣的:(数据结构,经典数据结构)