对B树/B+树的理解

1. B树/B+树的应用场景

对于大规模数据,受计算机主存限制,通常无法一次性将全部数据加载进主存当中,只能分批加载. 目前,辅存(外部存储)通常有两种设备,固态硬盘与机械硬盘.其中固态硬盘与主存类似,可以实现数据的随机存取,而机械硬盘无法实现数据的随机存取,为了获取特定位置的数据,机械磁盘的磁头需要先移动到起始位置,然后才开始读取数据.为了提高机械硬盘读取数据的效率,通常每一次读取一个分页大小的数据,来均摊掉磁头移动所需时间.目前,大数据存储中,机械硬盘仍是主要的存储设施,因此需要设计合适的数据结构,能够很好地应用于数据存储在机械硬盘当中,且无法一次性全部加载进主存的场景.

由于机械硬盘的存储速度相较于CPU处理速度而言,非常之慢,因此在大数据处理中,合理的数据结构应当能够尽可能地减少磁盘IO次数.使得目标数据能够已尽可能少的次数被读进主存当中.而B树/B+树正是为此而设计.

1.2 B树结构

对B树/B+树的理解_第1张图片

上图为一棵B树的结构示意图, B树可以看作是二叉搜索树的扩展,但其可以在每一个节点上拥有多个键值.一个包含M-1个键值的节点拥有M个指向子节点的链接,其中M个链接分别指向当前节点所属区间的M个子区间. 通常使用阶代表一棵B树中节点最多包含的链接树.上图为一棵3阶B树,每一个节点最多包含2个键值,3个链接.因此二叉搜索树属于2阶B树.

由于在机械硬盘的读取中,每次读取通常读取一个分页大小的数据,因此B树的节点大小通常等于一个分页大小.由此节点最多包含的子节点个数与分页大小和键值长度相关. 通过在每一个节点处保存大量键值, B树能够以非常小的树高保存大量节点. 对于1000阶的B树, 保存10亿个节点时,其树高仅为2. 通常树的根节点保存在主存中, 因此对于包含10亿个键的大数据, 其每次最多进行两次磁盘IO操作便能够检索到目标数据.

1.3 B+树结构

对B树/B+树的理解_第2张图片

对比B树, 注意到在B+树中有如下三个不同点:

  1. 每一个子节点都同时保存了其父节点的键.因此最底层的叶节点包含了所有的键. 因此M阶B+树中,每一节点最多包含M个键.
  2. 在非叶节点中, 不保存键所对应的值的引用.仅在叶节点中, 每一个键有其对应的值的引用.
  3. 叶节点使用指针依次相连, 构成一个有序链表. 这一构造主要是便于区间检索.

你可能感兴趣的:(对B树/B+树的理解)