B+ 树索引 - 非官方 MySQL 8.0 优化指南 - 学习笔记

可选的索引种类有许多,但通常添加索引意味着添加一个 B+ 树索引,无论是加给主键、唯一键或非唯一键。理解 B+ 树索引,你不仅能提升每个查询的性能,还能减少必须加载进内存的数据,能提升你数据库整体的伸缩性。

解释 B+ 树之前,我们先来看看一个二叉树是怎么工作的,然后看看它们的不同之处。

二叉树的主要功能是二分查找。这意味着在有一百万个元素的平衡二叉树中找到一个值,只需要不超过 20 次跳跃访问,相比遍历一百万个元素这是一个飞跃。

B+ 树索引 - 非官方 MySQL 8.0 优化指南 - 学习笔记_第1张图片
二叉树的二分查找

即便如此二叉树还是有限的,因为反映成 20 次磁盘访问是很高昂的代价,二叉树没法避免 IO 访问代价相对高的问题。
相比之下,B+ 树进行同样的搜索,只需要 2 次跳跃访问:


B+ 树索引 - 非官方 MySQL 8.0 优化指南 - 学习笔记_第2张图片
B+ 树的查找

上图可以看出根索引页可以指向 25 个不同的索引页,而它们平均又指向 1538 个子页。图中高亮了找到行 829813 的路径:

  • 在根页开始:找到 >= 800788 且 < 829908 的值,在 16386 页;
  • 在 16386 页开始:找到 >= 829804 且 < 829830 的值,在 32012 页;

从这里我们可以看出 B+ 树基于二叉树的两个特别的提升:

  1. 数据被组织进了页中。是 MySQL 中用于读写的基础数据单元。这种组织方式在数据库术语中称为聚集(clustering)
  2. B+ 树是宽而不深的。在每一个索引页可以放 1000 个键,而每个键又可以指向另外 1000 个,因而超过 3 层结构的 B+ 树是不常见的。

将根页和 25 个索引页保留在内存中只需要 400KB 内存(每页 16KB)。38463 个子页需要 600MB,但并不需要全部同时放在内存中。大部分数据都在热点页中,其他是未访问过的。MySQL 的 InnoDB 储存引擎一直跟踪着页访问,会把访问频率较少的页从内存中清除以留出空间。

通常我们持有的数据会远超内存大小。我们把需要保留在内存中的那部分数据称为工作集,每个数据集都依赖不同的工作集,而数据库管理员(DBA)的一个目标就是优化并减少这种依赖,一个 500GB 的数据库和 300GB 的工作集,比起一个 1TB / 100GB 的更难优化。

译自:
B+ tree indexes - The Unofficial MySQL 8.0 Optimizer Guide

你可能感兴趣的:(B+ 树索引 - 非官方 MySQL 8.0 优化指南 - 学习笔记)