1、思考问题为什么要使用索引?
- 索引能极大的减少存储引擎需要扫描的数据量。
- 索引可以把随机IO变成顺序IO。
- 索引可以帮助我们在进行分组、排序等操作时,避免使
用临时表。
2、思考问题索引的底层数据结构有哪些,优缺点是什么?
索引常用的数据结构有:
1、hash结构。
2、B+Tree结构。
索引结构 | 优点 | 缺点 |
---|---|---|
hash结构 | 数据量小时等值查询效率高 | 1、索引无法完成排序。 2、无法区间查询。 3、无法利用部分索引 。 4、大量Hash值冲突,性能无法保证。 |
B+Tree结构 | 1、减少扫描的数据量。 2、把随机IO变成了顺序IO。 3、hash的缺点 |
占用物理空间 |
3、思考为什么是B+Tree?
Tree的数据结构:
1、二叉查找树:(Binary Search Tree)
缺点:树的高度没有约束,导致查询效率时间复杂度较高O(n)。
2、平衡二叉树(AVL树):(Balance Binary Search Tree)
缺点:改善了查询的复杂度问题(约束了左右子树相差高度不能大于1),但是树的高度==IO次数,即使左右子树拉平了,但是高度带来的IO问题依然无法接收,而且每块磁盘块(节点/页)太小,没有利用好IO数据交换特性。
3、B-Tree结构(多路平衡树):
缺点:
一颗 m 阶B-tree的定义:一个节点最多有 n 个key(关键字),那么这个节点最多就会有 n+1 个子节点,这棵树就叫做 n+1(m=n+1)阶树。(个节点能拥有的最大子节点数来表示这颗树的阶数)
一棵m阶的B-Tree有如下特性:关键字(n), 路/阶(m),度()
1. 每个节点最多有m个子节点。
2. 除了根节点和叶子节点外,其它每个节点至少有Ceil(m/2)个孩子。
3. 若根节点不是叶子节点,则至少有2个孩子。
4. 所有叶子节点都在同一层,且不包含其它关键字信息。
5. 关键字的个数n满足:ceil(m/2)-1 <= n <= m-1
6. ki(i=1,…n)为关键字,且关键字升序排序。
7. Pi(i=1,…n)为指向子树根节点的指针。P(i-1)指向的子树的所有节点关键字均小于ki,但都大于k(i-1)
8. 每个非终端节点包含n个关键字信息(P0,P1,…Pn, k1,…kn)
阶(m):P1、P2、P3
关键字(n):n<=m-1
高度:xx
如图:阶=3,关键字=2。
mysql默认最小的磁盘块空间大小:16k,int 类型的id作为关键字大小:4byte+4byte。所以关键字个数=磁盘块空间/id:
关键字最多个数=(16*1024)/(4+4)=2048个,那么度<=路<=2048+1=2049。(尽量通过增加路来降低高度
)
查看mysql页的数据大小:show variables like 'innodb_page_size';
4、B+Tree结构:
缺点:
B+Tree与B-Tree区别:
1,B+节点关键字搜索采用闭合区间。
2,B+非叶节点不保存数据相关信息,只保存关键字和子节点的引用。
3,B+关键字对应的数据保存在叶子节点中。
4,B+叶子节点是顺序排列的,并且相邻节点具有顺序引用的关系。
B+Tree优势:
B+树是B-树的变种(PLUS版)多路绝对平衡查找树,他拥有B-树的优势。
B+树扫库、表能力更强。
B+树的磁盘读写能力更强。
B+树的排序能力更强。
B+树的查询效率更加稳定(仁者见仁、智者见智)。