【MySQL】索引与B+树

【MySQL】索引与B+树

  • 索引概念
  • 前导
    • 硬件
    • 软件方面
  • 索引的理解
    • 单个page
    • 多个page
    • 引入B+树
    • B+树的特征
    • 为什么B+树做索引优于其他数据结构?
    • 聚簇索引与非聚簇索引
    • 辅助索引
  • 索引的创建
    • 主键索引的创建和查看
    • 唯一键索引的创建和查看
    • 普通索引的创建和查看
    • 复合索引
    • 全文索引
    • 索引的其他查找方式
    • 索引的删除
  • 索引创建原则

索引概念

索引的本质就是一个数据结构

用于加快数据库表的查询和检索速度。索引可以理解为数据库表中的目录,它保存了特定列的值和对应的行位置。

索引:提高数据库的性能,不用加内存,不用改程序,不用调sql,只要执行正确的 create index ,查询速度就可能提高成百上千倍。查询速度的提高是以插入、更新、删除的速度为代价的,这些写操作,增加了大量的IO。所以它的价值,在于提高一个海量数据的检索速度

常见索引分为:
主键索引(primary key)
唯一索引(unique)
普通索引(index)
全文索引(fulltext)–解决中子文索引问题。

使用方法:

alter table 表名 add index(列名);

前导

硬件

MySQL 给用户提供存储服务,而存储的都是数据,数据在磁盘这个外设当中
磁盘的物理结构
【MySQL】索引与B+树_第1张图片

【MySQL】索引与B+树_第2张图片
数据库文件,本质其实就是保存在磁盘的盘片当中。也就是上面的一个个小格子中,就是我们经常所说的扇区。当然,数据库文件很大,也很多,一定需要占据多个扇区。

我们在使用Linux,所看到的大部分目录或者文件,其实就是保存在硬盘当中的

找到一个文件,本质就是在磁盘找到所有保存文件的扇区。而我们能够定位任何一个扇区,那么便能找到所有扇区,因为查找方式是一样的

【MySQL】索引与B+树_第3张图片

  1. 柱面(磁道): 多盘磁盘,每盘都是双面,大小完全相等。那么同半径的磁道,整体上便构成了一个柱面
  2. 每个盘面都有一个磁头,那么磁头和盘面的对应关系便是1对1的
    所以,我们只需要知道,磁头、柱面(等价于磁道)、扇区对应的编号。即可在磁盘上定位所要访问的扇区。这种磁盘数据定位方式叫做 CHS 。不过实际系统软件使用的并不是 CHS (但是硬件是),而是 LBA ,一种线性地址,可以想象成虚拟地址与物理地址。系统将 LBA 地址最后会转化成为 CHS ,交给磁盘去进行数据读取。

小结:
我们现在已经能够在硬件层面定位,任何一个基本数据块了(扇区)。但是在系统软件上,就不是直接按照扇区(512字节,部分4096字节),进行IO交互了,这是因为如果操作系统直接使用硬件提供的数据大小进行交互,那么系统的IO代码,就和硬件强相关,换言之,如果硬件发生变化,系统必须跟着变化;另外目前来看,单次IO 512字节,还是太小了。IO单位小,意味着读取同样的数据内容,需要进行多次磁盘访问,会带来效率的降低。
**文件系统读取基本单位,就不是扇区,而是数据块。既系统读取磁盘,是以块为单位的,基本单位是【4KB】 **

磁盘随机访问(Random Access)与连续访问(Sequential Access)

  • 随机访问:本次IO所给出的扇区地址和上次IO给出扇区地址不连续,这样的话磁头在两次IO操作之间需要作比较大的移动动作才能重新开始读/写数据。
  • 连续访问:如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的,那磁头就能很快的开始这次IO操作,这样的多个IO操作称为连续访问。

因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的请求的扇区地址相差很大的话也只能称为随机访问,而非连续访问。
磁盘是通过机械运动进行寻址的,随机访问不需要过多的定位,故效率比较高

软件方面

而 MySQL 作为一款应用软件,可以想象成一种特殊的文件系统。它有着更高的IO场景,所以,为了提高基本的IO效率, MySQL 进行IO的基本单位是 16KB

mysql> show global status like 'innodb_page_size';
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| Innodb_page_size | 16384 |
+------------------+-------+

磁盘这个硬件设备的基本单位是 512 字节,而 MySQL InnoDB引擎 使用 16KB 进行IO交互。即MySQL 和磁盘进行数据交互的基本单位是 16KB 。这个基本数据单元,在 MySQL 这里叫做page
【MySQL】索引与B+树_第4张图片

  • MySQL 中的数据文件,是以page为单位保存在磁盘当中的。

  • MySQL 的 CURD 操作,都需要通过计算,找到对应的插入位置,或者找到对应要修改或者查询的数据

  • 只要涉及计算,就需要CPU参与,而为了便于CPU参与,一定要能够先将数据移动到内存当中

  • 所以在特定时间内,数据一定是磁盘中有,内存中也有。后续操作完内存数据之后,以特定的刷新策略,刷新到磁盘。而这时,就涉及到磁盘和内存的数据交互,也就是IO。此时IO的基本单位就是Page。
  • 为了更好的进行上面的操作, MySQL 服务器在内存中运行的时候,在服务器内部,就申请了被称为 Buffer Pool 的的大内存空间,来进行各种缓存。其实就是很大的内存空间,来和磁盘数据进行IO交互

  • 为了更高的效率,一定要尽可能的减少系统和磁盘IO的次数

总的来看:MySQL和磁盘忽略掉文件缓冲区之后,就是以page为单位交换的,MySQL不管os搬运4kb数据多少次,只在乎读写数据的时候有没有16kb

索引的理解

mysql> create table if not exists user (
    -> id int primary key, 
    -> age int not null,
    -> name varchar(16) not null
    -> );
    
mysql> desc user;
+-------+-------------+------+-----+---------+-------+
| Field | Type        | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id    | int(11)     | NO   | PRI | NULL    |       |
| age   | int(11)     | NO   |     | NULL    |       |
| name  | varchar(16) | NO   |     | NULL    |       |
+-------+-------------+------+-----+---------+-------+

mysql> insert into user (id, age, name) values(3, 18, '杨过');
mysql> insert into user (id, age, name) values(4, 16, '小龙女');
mysql> insert into user (id, age, name) values(1, 16, '赵志敬');

mysql> show create table user\G
*************************** 1. row ***************************
       Table: user
Create Table: CREATE TABLE `user` (
  `id` int(11) NOT NULL,
  `age` int(11) NOT NULL,
  `name` varchar(16) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

mysql> select * from user;
+----+-----+-----------+
| id | age | name      |
+----+-----+-----------+
|  1 |  16 | 赵志敬    |
|  3 |  18 | 杨过      |
|  4 |  16 | 小龙女    |
+----+-----+-----------+

我们向一个具有主键的表中,乱序插入数据,发现数据会自动排序,这是为什么?提高查询效率

首先磁盘上有对应的文件数据,文件数据最终会被预读到文件缓冲区,mysql启动的时候会申请buffer pool,mysql层面上,所有的page都会被放到buffer pool中;
理解mysql中page的概念:一个page是16KB,mysql内部一定需要并且会存在大量的page,也就决定了mysql必须要将多个同时存在的page管理起来。要管理所有的mysql内的page,需要先描述,再组织,所以不要简单将page认为是一个内存块,page内部也必须写入对应的管理信息!如:

struct page
{
	struct page*next;
	struct page*prev;
	char buffer[NUM];
};

MySQL和磁盘进行IO交互的时候,采用Page的方案进行交互的原因:减少IO次数

单个page

MySQL 中要管理很多数据表文件,而要管理好这些文件,就需要先描述,再组织 ,我们目前可以简单理解成一个个独立文件是有一个或者多个Page构成的
【MySQL】索引与B+树_第5张图片

MySQL 会默认按照主键给我们的数据进行排序,从上面的Page内数据记录可以看出,数据是有序且彼此关联的;插入数据时排序的目的,就是优化查询的效率

多个page

【MySQL】索引与B+树_第6张图片
单个page内部有页目录,减少了page内部的检索次数,提升了单page的搜索效率,上图中多个page之间的连接关系,从图中看出页目录在多个page中也是呈现顺序关系的,如果是跨页搜索数据,也只能从前往后顺序遍历每个页的页目录,如果page一多,这种检索方式会大大降低页与页之间数据搜索速度,为了解决该问题,我们同样使用目录的方式对每个页中的目录进行管理,如下图:
【MySQL】索引与B+树_第7张图片

添加一个目录页(新page)来管理页目录(子page),目录页中的数据存放的就是指向的那一页中最小的数据。然后就可通过比较,找到该访问那个Page,进而通过指针,找到下一个Page。

引入B+树

如果底层的page很多,会造成一级目录的数量变多,那么我们对一级目录的遍历又变成了线性遍历,这个时候,需要再加一层
【MySQL】索引与B+树_第8张图片
这就是B+树,把整个的B+树称作mysql innode db下的索引结构,一般我们建表的时候,就是在该结构下进行CURD,即使没有主键也是这样子的,会有默认主键的

  1. 并不是所有的存储引擎的索引都是采用B+树,还有哈希索引等方式。主流的存储引擎是采用B+树作为索引的数据结构。
  2. 只有叶子结点采用链表进行级联,这是因为这是B+树的特性;同时,叶子结点进行级联可以满足范围查找(有时候数据读取的时候跨页了,叶子结点有指向next页的指针,方便查找)

B+树的特征

【MySQL】索引与B+树_第9张图片

  1. 非叶节点不保存数据,只用来索引,所有数据都保存在叶子节点。
  2. 数据只在叶子结点保存,并保存指向前后叶子结点的指针,通过链表指针对叶子结点进行级联,且叶子结点本身依关键字的自小而大顺序连接。

为什么B+树做索引优于其他数据结构?

线性数据结构
线性数据结构如链表、顺序表,挨个挨个遍历,上文就是因为线性表效率低下的问题,一次次修改结构为B+树。

二叉搜索树
这种数据结构的时间复杂度完全由查找分支的高度决定,最优的时间复杂度是O(lgN),但是二叉搜索树可能退化为线性结构,这个时候时间复杂度将会大大提高。

红黑树和AVL树
这两种数据结构很优秀。但是红黑树和AVL树本质上都是二叉树,相同数据下树的高度会比B+树高,树的高度越高,单次查找所淘汰的数据量越少,效率越低。查找效率略逊于B+树。

Hash
官方的索引实现方式中, MySQL 的索引是支持Hash的,不过 InnoDB 和 MyISAM 并不支持。哈希的查找效率是O(1),但是它不支持范围查找。

B树和B+树的区别
B树
【MySQL】索引与B+树_第10张图片
B+树
【MySQL】索引与B+树_第11张图片

  1. B树的非叶节点中除了存放下一层的页目录,也会存放数据,这就导致了每个非叶节点存放的下一层的页目录变少,可能会增加整颗树的高度,增加IO次数。
  2. B树的叶节点之间没有采用链式结构进行连接。范围查找需要重新遍历整棵树。

聚簇索引与非聚簇索引

像innodb存储引擎那样把B+树和数据存放在一起称为聚簇索引

MyISAM 存储引擎-主键索引
MyISAM 引擎同样使用B+树作为索引结果,叶节点的data域存放的是数据记录的地址。下图为 MyISAM表的主索引, Col1 为主键
【MySQL】索引与B+树_第12张图片
MyISAM 最大的特点是,将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据的地址。这种方式叫做非聚簇索引

聚簇索引与非聚簇索引的区别在底层看来就是创建表的时候,MySQL文件系统中聚簇索引有两个文件,非聚簇索引的表有三个文件

辅助索引

MyISAM辅助索引

  • MySQL 除了默认会建立主键索引外,我们用户也有可能建立按照其他列信息建立的索引,一般这种索引可以叫做辅助(普通)索引。
  • 对于 MyISAM ,建立辅助(普通)索引和主键索引没有差别,无非就是主键不能重复,而非主键可重复。
  • MyISAM存储引擎可以在一张表中建立多个索引,下图就是基于 MyISAM 的 Col2 建立的索引,和主键索引没有差别
    【MySQL】索引与B+树_第13张图片

innodb的辅助(普通)索引
索引的叶子结点只存主键
InnoDB 除了主键索引,用户也会建立辅助(普通)索引,我们以上表中的 Col3 建立对应的辅助索引:
【MySQL】索引与B+树_第14张图片
InnoDB的非主键索引中叶子节点并没有数据,而只有对应记录的key值。所以通过辅助(普通)索引,找到目标记录,需要两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。这种过程,就叫做回表查询

为何InnoDB针对这种辅助(普通)索引的场景,不给叶子节点也附上数据呢?
表的主键索引数据,如果辅助索引也有数据,太浪费空间了

索引的创建

主键索引的创建和查看

--直接指明主键
mysql> create table user1(id int primary key, name varchar(30));
--与第一种方式类似
mysql> create table user2(id int , name varchar(30),primary key(id));
--创建表之后添加主键
mysql> create table user3(id int , name varchar(30));
mysql> alter table user3 add primary key(id);

查看索引

mysql> show index from user1\G
*************************** 1. row ***************************
        Table: user1
   Non_unique: 0
     Key_name: PRIMARY--索引名
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 

一个表中,最多有一个主键索引,当然可以使符合主键
主键索引的效率高(主键不可重复)
创建主键索引的列,它的值不能为null,且不能重复
主键索引的列基本上是int

唯一键索引的创建和查看

-- 在表定义时,在某列后直接指定unique唯一属性
mysql> create table user4(id int primary key, name varchar(30) unique);

-- 创建表时,在表的后面指定某列或某几列为unique
mysql> create table user5(id int primary key, name varchar(30), unique(name));
Query OK, 0 rows affected (0.02 sec)
--先建表,然后再添加唯一键
mysql> create table user6(id int primary key, name varchar(30));
mysql> alter table user6 add unique(name);

查看索引

mysql> show index from user6\G
*************************** 1. row ***************************
        Table: user6
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user6
   Non_unique: 0
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 

一个表中,可以有多个唯一索引
查询效率高
如果在某一列建立唯一索引,必须保证这列不能有重复数据
如果一个唯一索引上指定not null,等价于主键索引

普通索引的创建和查看

--在表的定义最后,指定某列为索引
mysql> create table user8(id int primary key,
    ->      name varchar(20),
    ->      email varchar(30),
    ->      index(name)
    -> );                   

--
mysql> create table user9(id int primary key, name varchar(20), email
    -> varchar(30));
--创建完表以后指定某列为普通索引    
mysql> alter table user9 add index(name);



mysql> create table user10(id int primary key, name varchar(20), email varchar(30));
---- 创建一个索引名为 myindex 的索引
mysql> create index myindex on user10(name);

查看索引

mysql> show index from user10\G
*************************** 1. row ***************************
        Table: user10
   Non_unique: 0
     Key_name: PRIMARY
 Seq_in_index: 1
  Column_name: id
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user10
   Non_unique: 1
     Key_name: myindex--索引名
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 

复合索引

--name和email共同作为索引
mysql> alter table user10 add index(name,email);
mysql> show index from user10\G
*************************** 1. row ***************************
        Table: user10
   Non_unique: 1
     Key_name: name
 Seq_in_index: 1
  Column_name: name
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 
*************************** 2. row ***************************
        Table: user10
   Non_unique: 1
     Key_name: name
 Seq_in_index: 2
  Column_name: email
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: YES
   Index_type: BTREE
      Comment: 
Index_comment: 

创建的复合索引其实在一颗B+树上,发现name和email的索引名称一样,复合索引的作用在于指定多个字段构建一颗B+树,如果需要高频的通过name找到email的操作,就可以构建复合索引,这样就避免了回表查询,通过索引找另一个索引的方式叫索引覆盖

全文索引

当对文章字段或有大量文字的字段进行检索时,会使用到全文索引。MySQL提供全文索引机制,但是有要求,要求表的存储引擎必须是MyISAM,而且默认的全文索引支持英文,不支持中文。如果对中文进行全文检索

mysql> CREATE TABLE articles (
    -> id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
    -> title VARCHAR(200),
    -> body TEXT,
    -> FULLTEXT (title,body)--创建全文索引
    -> )engine=MyISAM;
    
mysql> INSERT INTO articles (title,body) VALUES
    -> ('MySQL Tutorial','DBMS stands for DataBase ...'),
    -> ('How To Use MySQL Well','After you went through a ...'),
    -> ('Optimizing MySQL','In this tutorial we will show ...'),
    -> ('1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),
    -> ('MySQL vs. YourSQL','In the following database comparison ...'),
    -> ('MySQL Security','When configured properly, MySQL ...');

mysql> select * from articles;
+----+-----------------------+------------------------------------------+
| id | title                 | body                                     |
+----+-----------------------+------------------------------------------+
|  1 | MySQL Tutorial        | DBMS stands for DataBase ...             |
|  2 | How To Use MySQL Well | After you went through a ...             |
|  3 | Optimizing MySQL      | In this tutorial we will show ...        |
|  4 | 1001 MySQL Tricks     | 1. Never run mysqld as root. 2. ...      |
|  5 | MySQL vs. YourSQL     | In the following database comparison ... |
|  6 | MySQL Security        | When configured properly, MySQL ...      |
+----+-----------------------+------------------------------------------+
--使用如下查询方式,虽然查询出数据,但是没有使用到全文索引:
mysql> select * from articles where body like '%database%';
+----+-------------------+------------------------------------------+
| id | title             | body                                     |
+----+-------------------+------------------------------------------+
|  1 | MySQL Tutorial    | DBMS stands for DataBase ...             |
|  5 | MySQL vs. YourSQL | In the following database comparison ... |
+----+-------------------+------------------------------------------+
--使用explain 检查是否使用了索引
mysql> explain select * from articles where body like '%database%'\G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: articles
   partitions: NULL
         type: ALL
possible_keys: NULL
          key: NULL
      key_len: NULL--key为nul,表示没有使用索引
          ref: NULL
         rows: 6
     filtered: 16.67
        Extra: Using where

--使用全文索引
--返回在"title"和"body"列中包含"database"关键词的所有文章记录。
mysql> select * from articles where match(title,body) against('database');
+----+-------------------+------------------------------------------+
| id | title             | body                                     |
+----+-------------------+------------------------------------------+
|  5 | MySQL vs. YourSQL | In the following database comparison ... |
|  1 | MySQL Tutorial    | DBMS stands for DataBase ...             |
+----+-------------------+------------------------------------------+


mysql> explain select * from articles where match(title,body) against('database')\G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: articles
   partitions: NULL
         type: fulltext--索引类型
possible_keys: title
          key: title--使用了title
      key_len: 0
          ref: const
         rows: 1
     filtered: 100.00
        Extra: Using where

索引的其他查找方式

--方式一
show keys from 表名;
--方式二:常用
show index from 表名;
----方式三
desc 表名;
 
mysql> show index from test1\G;
*************************** 1. row ***************************
        Table: test1
   Non_unique: 0
     Key_name: PRIMARY--索引名称
 Seq_in_index: 1
  Column_name: id--以id列为索引构建的B+树
    Collation: A
  Cardinality: 0
     Sub_part: NULL
       Packed: NULL
         Null: 
   Index_type: BTREE--索引类型(B+树)
      Comment: 
Index_comment: 

索引的删除

删除主键索引
alter table 表名 drop primary key;

其他索引的删除

--索引名就是show keys from 表名中的 Key_name 字段
alter table 表名 drop index 索引名;
--drop index 索引名 on 表名
mysql> drop index name on user9;

索引创建原则

有主键和唯一键约束的字段自带索引

某一列频繁的被作为查询条件

唯一性太差的列不适合作为索引,即使这一列被频繁查询

更新频繁的字段不适合作为索引

不会出现在where子句中的字段不该创建索引

你可能感兴趣的:(MySQL,mysql,数据库,B+)