索引:提高数据库的性能,索引是物美价廉的东西了。不用加内存,不用改程序,不用调sql,只要执行正确的create index ,查询速度就可能提高成百上千倍。但是天下没有免费的午餐,查询速度的提高是以插入、更新、删除的速度为代价的,这些写操作,增加了大量的IO。所以它的价值,在于提高一个海量数据的检索速度。
常见索引分为:
先整一个海量表,在查询的时候,看看没有索引时有什么问题
select * from EMP where empno=998877;
可以看到耗时4.58秒,这还是在本机一个人来操作,在实际项目中,如果放在公网中,假如同时有1000个人并发查询,那很可能就死机。
alter table EMP add index(empno);
创建索引后查询几乎耗时0.00秒,速度很快
MySQL的本质是在内存中的,所有数据库的CURD操作,全部都是在内存中的进行的,索引也是如此。索引是一种特定组织数据,用来提高效率的。
MySQL 给用户提供存储服务,而存储的都是数据,数据在磁盘这个外设当中。磁盘是计算机中的一个机械设备,相比于计算机其他电子元件,磁盘效率是比较低的,在加上IO本身的特征,可以知道,如何提交效率,是MySQL 的一个重要话题。
一个磁盘由多个盘片叠加而成,盘片的表面涂有磁性物质,这些磁性物质用来记录二进制数据。因为正反两面都可涂上磁性物质,故一个盘片可能会有两个盘面。
数据库文件,本质其实就是保存在磁盘的盘片当中。也就是上面的一个个小格子中,就是我们经常所说的扇区。当然,数据库文件很大,也很多,一定需要占据多个扇区。
题外话:
- 从上图可以看出来,在半径方向上,距离圆心越近,扇区越小,距离圆心越远,扇区越大
- 那么,所有扇区都是默认512字节吗?目前是的,我们也这样认为。因为保证一个扇区多大,是由比特位密度决定的。
- 不过最新的磁盘技术,已经慢慢的让扇区大小不同了,不过我们现在暂时不考虑
我们在使用Linux,所看到的大部分目录或者文件,其实就是保存在硬盘当中的。(当然,有一些内存文件系统,如: proc , sys 之类,我们不考虑)。
结论:
所以,最基本的,找到一个文件的全部,本质就是在磁盘找到所有保存文件的扇区
而我们能够定位任何一个扇区,那么便能找到所有扇区,因为查找方式是一样的。
柱面(磁道): 多盘磁盘,每盘都是双面,大小完全相等。那么同半径的磁道,整体上便构成了一个柱面
每个盘面都有一个磁头,那么磁头和盘面的对应关系便是1对1的
故在硬件层面上定位所要访问的扇区: 只需知道:磁头(Heads)、柱面(Cylinder)(等价于磁道)、扇区(Sector)对应的编号, 这种磁盘数据定位方式叫做CHS。实际软件系统层面:并不是CHS , 而是LBA ,一种线性地址,可以想象成虚拟地址与物理地址。系统将LBA 地址最后会转化成为CHS ,交给磁盘去进行数据读取。
结论:
能够在硬件层面定位,任何一个基本数据块了(扇区)。那么在系统软件上,是直接按照扇区(512字节,部分4096字节),进行IO交互吗?不是
故,系统读取磁盘,是以块为单位的,基本单位是4KB
MySQL是一款应用级软件,在系统角度是一个应用级进程,在网络角度是一个应用层的服务,故在MySQL之下并不是硬件,而是操作系统。
MySQL因为有着它有着更高的IO场景,所以,为了提高基本的IO效率, MySQL 进行IO的基本单位是16KB
OS内部存在文件缓冲区,当mysql想要进行CURD对表内容增删查改时,就会得到文件的fd; 此时MySQL就可以调用write接口向OS文件的缓冲区进行写操作,OS就会调用fsync等接口把数据刷新到磁盘上。
查看MySQL InnoDB引擎使用与磁盘交互的基本单位:
mysql> SHOW GLOBAL STATUS LIKE 'innodb_page_size';
建立测试表
mysql> create table if not exists user (
-> id int primary key, #一定要添加主键哦,只有这样才会默认生成主键索引
-> age int not null,
-> name varchar(16) not null
-> );
查看表
插入多条记录,注意,我们并没有按照主键的大小顺序插入哦
mysql> insert into user (id, age, name) values(3, 18, '杨过');
Query OK, 1 row affected (0.01 sec)
mysql> insert into user (id, age, name) values(4, 16, '小龙女');
Query OK, 1 row affected (0.00 sec)
mysql> insert into user (id, age, name) values(2, 26, '黄蓉');
Query OK, 1 row affected (0.01 sec)
mysql> insert into user (id, age, name) values(5, 36, '郭靖');
Query OK, 1 row affected (0.00 sec)
mysql> insert into user (id, age, name) values(1, 56, '欧阳锋');
Query OK, 1 row affected (0.00 sec)
查看插入结果,发现竟然结果默认是有序的!
看到的现象:我们向一个具有主键的表中,乱序插入数据,发现数据会自动排序
提出问题:谁做的?为什么这么做?
如何理解mysql中page的概念?
所谓的申请page,其实就是在new page,然后将所有的page用链表的形式管理起来。就完成了在buffer pool内部,对mysql的page进行了建模。
为何MySQL和磁盘进行IO交互的时候,要采用Page的方案进行交互呢?用多少,加载多少不行吗?
总结:MySQL以Page为基本单位与磁盘进行IO交互,可以减少MySQL与磁盘进行IO的次数,提高IO的效率
注:往往IO效率低下的最主要矛盾不是IO单次数据量的大小,而是IO的次数。
说明:为什么数据库在插入数据时要对其进行排序呢?
优化查询效率。
在一个page内部存放数据模块本质是一个链表结构,链表增删快,查询修改慢,所以要优化查询效率
有序数据,从头到尾的查找都是有效查找,没有查找浪费,而且有机会提前结束查找过程
单个page引入页目录
上面的页模式中:在查询某条数据的时候直接将一整页的数据加载到内存中,以减少硬盘IO次数,从而提高性能但是现在的页模式内部,实际上是采用了链表结构,前一条数据指向后一条数据,本质上还是通过对数据线性遍历来取出特定的数据。
所以我们对单个page引入页目录
就像翻一本书的某个章节一样,我们可以从头逐步向后翻知道找到目标内容;我们也可以通过目录直接定位到要查找的章节,快速提高定位。所以书的目录是多花纸张,却提高效率的一种“ 以空间换时间 ”的做法。
在单个page内部引入目录,查找记录时不用再从头到尾线性遍历,我们先通过目录直接进行定位新的起始位置,提高了效率
这也就回答了现象中的问题:向一个具有主键的表中,乱序插入数据,发现数据会自动排序,这是mysqld自己做的,为何通过键值MySQL会自动排序?可以很方便引入目录
上面我们已经在单个page中引入了页目录的概念,提高了单个页内的查找效率。
但是如果数据很多,一定需要多个Page来保存多条数据,多个Page彼此使用双链表链接起来,即使每个Page内部存在页目录,我们在跨页搜索时,也是从前往后线性遍历这些目录,效率低下。
多个page引入页目录
使用之前的思路,我们给page也带上目录
总结:存在一个目录页来管理页目录,目录页中的数据存放的就是指向的那一页中最小的数据。有数据,就可通过比较,找到该访问那个Page,进而通过指针,找到下一个Page。
目录页的本质也是页,普通页中存的数据是用户数据,而目录页中存的数据是普通页的地址。一旦数据增多,最底层的page增多,目录页增多时是不是也就意味着我们要线性遍历这些目录页呢?不用担心,可以在加目录页
最终构建出来的模型:
上面就是传说中的B+树,我们把这棵树称为mysql innode db下的索引结构
一般我们建表插入数据的时候,就是mysql innode db下的索引结构进行CURD操作。如果我们的表没有主键怎么办?也是这样的吗?也是,即使没有主键mysql也会为我们创建默认主键
特点:
复盘一下
两者区别:
选择B+树
MyISAM 存储引擎-主键索引
MyISAM 引擎同样使用B+树作为索引结果,叶节点的data域存放的是数据记录的地址。下图为MyISAM表的主索引, Col1 为主键
其中, MyISAM最大的特点是,将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据的地址
两种索引
非聚簇索引:MyISAM 这种用户数据与索引数据分离的索引方案,叫做非聚簇索引
聚簇索引:InnoDB 这种用户数据与索引数据在一起索引方案,叫做聚簇索引
MyISAM :
InnoDB :
MySQL 除了默认会建立主键索引外,我们用户也有可能建立按照其他列信息建立的索引,一般这种索引可以叫做辅助(普通)索引。
对于MyISAM ,建立辅助(普通)索引和主键索引没有差别,无非就是主键不能重复,而非主键可重复。
下图就是基于MyISAM 的Col2 建立的索引,和主键索引没有差别
同样, InnoDB 除了主键索引,用户也会建立辅助(普通)索引,我们以上表中的Col3 建立对应的辅助索引如下图:
可以看到, InnoDB 的非主键索引中叶子节点并没有数据,而只有对应记录的key值。
所以通过辅助(普通)索引,找到目标记录,需要两遍索引:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。这种过程,就叫做回表查询
为何InnoDB 针对这种辅助(普通)索引的场景,不给叶子节点也附上数据呢?原因就是太浪费空间了
create table user1(id int primary key, name varchar(30));
create table user2(id int, name varchar(30), primary key(id));
create table user3(id int, name varchar(30));
# 创建表以后再添加主键
alter table user3 add primary key(id);
主键索引的特点:
create table user4(id int primary key, name varchar(30) unique);
create table user5(id int primary key, name varchar(30), unique(name));
create table user6(id int primary key, name varchar(30));
alter table user6 add unique(name);
比如下面带有主键索引的表结构,我们添加唯一索引后,查询索引会发现有两个,要区分开索引名称和列名称
唯一索引的特点:
create table user8(id int primary key,
name varchar(20),
email varchar(30),
index(name)
);
create table user9(id int primary key, name varchar(20), email varchar(30));
alter table user9 add index(name);
create table user10(id int primary key, name varchar(20), email varchar(30));
create index idx_name on user10(name);
普通索引的特点:
mysql> alter table itest add index(name, email);
创建的复合索引其实是一颗B+索引,会发现name和email的普通键一样,复合索引的作用在于指定多个字段构建一颗B+树,如果需要高频的通过name找到email的操作,就可以构建复合索引,这样就避免了回表查询,通过索引找另一个索引的方式叫索引覆盖。
从key_name中的名字也可以看出,他们的B+树都是name,也就是以第一个字段的名字作为Key值。所以,此表目前仅仅存在两棵B+树。
创建复合索引完成,后续可以使用name进行查找,也可以使用(name,email)进行查找,但是不能使用email进行查找,这是索引的最左匹配原则。
如果要删掉name索引结构,这两个的索引同时都会消失,这就是因为两个索引同属于一个B+树
当对文章字段或有大量文字的字段进行检索时,会使用到全文索引。MySQL提供全文索引机制,但是有要求,要求表的存储引擎必须是MyISAM,而且默认的全文索引只支持英文,不支持中文。如果对中文进行全文检索,可以使用sphinx的中文版(coreseek)
# 创建全文索引
CREATE TABLE articles (
id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
title VARCHAR(200),
body TEXT,
FULLTEXT (title,body) # 创建全文索引
)engine=MyISAM;
# 插入数据
INSERT INTO articles (title,body) VALUES
('MySQL Tutorial','DBMS stands for DataBase ...'),
('How To Use MySQL Well','After you went through a ...'),
('Optimizing MySQL','In this tutorial we will show ...'),
('1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),
('MySQL vs. YourSQL','In the following database comparison ...'),
('MySQL Security','When configured properly, MySQL ...');
# 普通查询
select * from articles where body like '%database%';
# 可以用explain工具看一下,是否使用到索引
explain select * from articles where body like '%database%' \G
explain select * from articles where match(title,body) against ('database');
show keys from 表名
show index from 表名;
mysql> show index from test1\G;
*************************** 1. row ***************************
Table: test1 # 表名
Non_unique: 0 # 0表示唯一索引
Key_name: PRIMARY # 主键索引的名称
Seq_in_index: 1
Column_name: id # 以那一列为索引构建的B+树,即索引在哪一列
Collation: A
Cardinality: 0
Sub_part: NULL
Packed: NULL
Null:
Index_type: BTREE # 索引类型(B+树)
Comment:
Index_comment:
1 row in set (0.00 sec)
desc 表名;
可以看出当前表是主键索引
alter table 表名 drop primary key;
# 索引名就是show keysfrom 表名中的 Key_name 字段
alter table 表名 drop index 索引名;
直接像删除主键索引一样删除,唯一索引是不行的,由此可见唯一索引其实就是普通索引
唯一索引的删除就是用删除普通索引的方法
drop index 索引名 on 表名