B+树索引学习

Microsoft SQL Server 2012 Internals 第7章索引学习

现在主流数据库都是采用B+树作为索引结构

B-tree 中的 B 是 balanced 的意思,B+树是一颗平衡树,所谓平衡是指树的高度是稳定的(随着插入,删除,更新会不停的调整树的结构来保证树的平衡)。为什么要保证平衡??因为平衡树有稳定的高度,稳定的高度意味着每次查询都是稳定的(从根结点到叶子结点的路径高度是一样的)

B+树的定义很复杂,定义理解清楚都不容易。为什么定义的这么复杂?主要是为了保证树的平衡和树的高度比较小。一颗高度比较小的平衡树具有稳定的查询效率,作为索引再合适不过了。

别说这么多,你能写出B+树的代码吗???sorry 我连定义都理解的不是很清楚,怎么可能写出B+树! 不过我们还是从概念上来理解一下B+树索引,理解概念和想法是很重要的。

b-tree index pages.png

上面每一个白页代表一个索引页,所有的数据都存放在叶子结点,且叶子结点按 index key (索引建) 从小到大的顺序排列,中间用指针连起来(方便范围查询,找到第一个接着往后找就行)。中间结点只存储索引指针,不存储数据行。如果数据量很少一个页就能存下呢???这时只有叶子结点,只有一个页。

B+树索引是怎么建立的呢???最开始可以从叶子结点开始一层一层往上建立的。之后再插入,删除时就从root往叶子结点查找调整了。

看第一个例子: 假设有一个表有100,0000行,每一行占用4000字节,那么我一个Page里面最多存2行(Sqlserver 的一个Page是8k),光存储叶子结点就需要50,0000(1000000 / 2)个 Page。 假设每个中间结点的指针占用 900 字节, 则每一页最多能存 8 个中间结点(8,096 / 900 )。Level1 层就需要 62,500 个Page才能存的下(50,0000 / 8)。

demo1.png

如上图所示,一层一层的往上推算总共需要7层。按键值查找时会从root page(根)开始往下查找,直到叶子结点。因为每个Page都是存在磁盘上的,如果树高为4,就至少需要4次IO才能找到要查找数据所在的Page,再在Page内找到所需的数据(可以二分查找,因为数据是按键值排序的)。Root Page 的地址一般都是固定的,所以可以方便的找到Root page 的地址。

注意B+树索引的是每一个Page,不是单独的行。每一个Page里面包含很多个行。找到一个Page后还要在Page里面遍历找到要查找数据行。因为每一个Page都很小(一般8K或16K)Page内部查找就很快了。
为什么不索引每一行???其实也可以索引每一行,这就是Dense index(稠密索引)和 Sparse index(稀疏索引)的区别。你可以为每一行都建立一个Hash 索引(类比HashMap)但这样可能索引会很大,占用空间太多,索引一般都用稀疏索引只索引Page。

例子2:上面假设中间的索引键占用900字节,现在减小索引键的大小,假设每个中间的索引键占用20字节,则每页就能存404行(8096 / 20)

demo2.png

所以现在只需要4层,且在引入下一层索引之前可增加 130,878,528 行 (the maximum possible number of rows is 404404404*2—or 131,878,528—minus the number of rows that already exist: 1 million) 。看 root page(Level3) 可存 404 个中间结点,但现在只存了4个。
可见一个4层的B+树就可以索引 131 million (1亿3100万)行数据。现在查询一个叶子结点中的一行数据,总共需要做 4次 IO。

clustered index (聚集索引):是指索引键的排列顺序和数据行的物理存储顺序是一致的。一个表只能有一个聚集索引。

none clustered index: (非聚集索引): 相对于聚集索引而言的。

Sqlserver 的 聚集索引的数据是存储在叶子结点中的,找到叶子结点就找到了数据行。非聚集索引的叶子结点中除了存储索引键外还会存储聚集索引的键值,所以非聚集索引根据键值找到要查找的键值后,如果还需要其他列的数据必须要用聚集索引的键值再去查找数据(数据都在聚集索引的叶子结点中)。这个一般叫做 bookmark (书签) 查找。如果表没有定义聚集索引而是一个 Heap ,(Heap 就是表上没有聚集索引,就是说行是没有什么顺序的,一行可以存在一个表的任意位置)。这时叶子结点存储的是行地址,根据行地址再去取该行的数据。

covering index:( 覆盖索引): 聚集索引的叶子结点中存储的是数据行,找到叶子结点就查找到了数据。非聚集索引的叶子结点存储的是索引键值和该行聚集索引的键值(如果有的话),如果需要其它列的数据,还要拿聚集索引的键值再去查找。 覆盖索引是说对于非聚集索引,叶子结点除了存储聚集索引的键值外还可以适当存储一些其它列的值,这样可以加快个别列的查询效率,因为已经包含(覆盖)了这些列的数据,不需要再进行 bookmark 查找了。sqslserver 中可通过 INCLUDE 指令添加一些需要覆盖的列。

你可能感兴趣的:(B+树索引学习)