关于索引的底层实现,为什么选择 B+Tree 而不是红黑树?

问题分析

从两个点说明:

1、对于一个数据库来说,存储的数据量会比较多,导致索引也很大,因此需要将索引存储在磁盘,但是磁盘的 IO 操作又非常耗时,所以提高索引效率的关键在于减少磁盘 IO 的次数。

        举个例子 对于 31 个节点的树来说 ,一个 5 阶 B+Tree 的高度是 3 。一个红黑树的最小高度是 5,树的高度基本决定了磁盘的 IO 次数 ,所以使用 B+Tree 性能要高很多

2、B+Tree 有个特点是相邻的数据在物理上也是相邻的,因为 B+Tree 的 node 的大小设为一个页,而一个节点上存有多个相邻的关键字和分支信息,每个节点只需要一次 IO 就能完全载入,相当于一次 IO 载入了多个相邻的关键字和分支,而红黑树不具有这个特性,红黑树中大小相邻的数据,在物理结构上可能距离相差很大。

        由于程序的局部性原理,如果我们在索引中采用了预加载的技术,每次磁盘访问的时候除了将访问到的页加载到磁盘,我们还可以基于局部性原理加载,几页相邻的数据到内存中,而这个加载是不需要消耗多余磁盘 IO 时间的。

        因此基于局部性原理,以及 B+Tree 存储结构物理上的特性,所以 B+Tree 的索引性能比红黑树要好很多。


你可能感兴趣的:(数据结构,数据结构,Mysql,java)