关于MySQL优化的思考一【存储引擎、索引】

对于SQL优化,今天我们先来看下基本知识:

  • • 存储引擎,了解MySQL的不同存储引擎的特性和适用场景,可以帮助你在数据库设计和应用开发中做出明智的决策。
  • • 索引,当表没有索引时,查询数据可能是全表查询;当创建索引后,先查索引,根据索引检索到数据,提供获取数据的效率。如何建立索引至关重要。

1 存储引擎

1.1 MySQL体系结构层

  • • 连接层,该层是客户端和连接服务,主要完成类似于连接处理、授权认证等
  • • 服务层,要完成大多数核心服务功能,如SQL接口,并完成缓存的查询,SQL的分析和优化,部分内置函数的执行。所有跨存储引擎的功能也在该层实现,如过程、函数等
  • • 引擎层,存储引擎负责数据的存储和提取,服务器通过API和存储引擎进行通信。不同的存储引擎具有不同的功能,可以根据自己的需要,选择合适的存储引擎
  • • 存储层,将数据存储在文件系统之上,并完成与存储引擎的交互

关于MySQL优化的思考一【存储引擎、索引】_第1张图片

1.2 存储引擎简介

存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式。存储引擎基于表,可以以表的维度来进行指定。

查看当前表的存储引擎

-- 查看建表语句,查看存储引擎,默认是InnoDB
show create table emp;

新建表时指定存储引擎

create table 表名(
  字段 字段类型 [comment 字段注释]
  ...
  
)engine=innodb [comment 表注释];

查看当前数据库支持的存储引擎

show engines;

1.3 存储引擎特点

1.3.1 InnoDB

  • 介绍

    • InnoDB是一种兼顾高可靠性和高性能的通用的存储引擎,在MySQL5.5之后,作为MySQL的默认存储引擎
  • 特点

    • DML操作(增删改)遵循ACID模型,支持事务
    • 行级锁,提高并发访问性能
    • 支持外键foreign key约束,保证数据的完整性和正确性
  • 文件

    • xxx.idb:xxx代表表名,InnoDB存储引擎的每张表都会对应这样的一个表空间文件,存储该表的表结构(frm,sdi)、数据和索引

关于MySQL优化的思考一【存储引擎、索引】_第2张图片

关于MySQL优化的思考一【存储引擎、索引】_第3张图片

1.3.2 MyISAM

  • 介绍

    • MyISAM是MySQL早期默认的存储引擎
  • 特点

    • 不支持事务,不支持外键

    • 支持表锁,不支持行锁

    • 访问速度快

  • 文件

    • xxx.sdl:存储表结构信息
    • xxx.MYD:存储数据
    • xxx.MYI:存储索索引

1.3.3 Memory

  • 介绍
    • Memory引擎的表数据是存储在内存中的,由于受到硬件问题、或断电问题的影响,只能将这些表作为临时表或者缓存表使用
  • 特点
    -内存存放
    • hash索引
  • 文件
    • xxx.sdi:存储表结构信息

1.4 存储引擎选择

在选择存储引擎时,需要根据应用系统的特点选择合适的存储引擎,对于复杂的应用系统,还可以根据实际情况选择多种存储引擎进行组合使用。

  • InnoDB:是MySQL的默认存储引擎,支持事务、外键。如果应用对事务的完整性有比较高的要求,在并发场景下要求数据一致性,数据操作除了插入和查询外,还包含很多的更新、删除操作,所有InnoDB存储引擎是好的选择
  • MyISAM:如果应用是以读操作和插入操作为主,只有很少的更新和删除操作,并且对事务的完整性、并发性要求不是很高。但实际场景会使用NoSQL
  • Memory:将所有的数据保存到内存中,访问速度快,通常用于临时表及缓存。缺陷是对表的大小有限制,太大的表无法缓存到内存中,而且无法保障数据的安全性。实际场景中使用NoSQL(Redis)

2 索引

索引(index),是帮助MySQL高效获取数据的数据结构(有序)。当表没有索引时,查询数据可能是全表查询;当创建索引后,先查索引,根据索引检索到数据,提供获取数据的效率。

2.1 索引的优缺点

优点 缺点
提高数据检索的效率,降低数据库的IO成本 索引列也要占用空间
通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗 索引大大提高了查询效率,同时也降低更新表的速度,如对表进行insert、update、delete时,效率降低

2.2 索引结构

MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的结构。

  • B+Tree索引,是常见的索引类型,大部分存储引擎都支持B+树索引,如常见的InnoDB、MyISAM、Memory存储引擎
  • Hash索引,底层数据结构是用哈希表实现的,只有精确匹配索引的查询才有效,不支持范围查询
  • R-tree(空间索引),空间索引是MyISAM引擎的一个特殊索引类型,主要用于地理空间数据类型,很少用
  • Full-tree(全文索引),是一种通过建立倒排索引,快速匹配文档的方式,类似于Lucene、Solr、ES

二叉树数据结构

左侧的叶子节点小于父节点

关于MySQL优化的思考一【存储引擎、索引】_第4张图片

二叉树在顺序插入时,会形成一个链表,查询性能大大降低,大数据量情况下,层级较深,检索速度慢。红黑树,平衡二叉树,可以解决形成链表,但是仍然有大数据量情况下,层级较深,检索速度较慢的问题。

B-Tree(多路平衡查找树) 以一棵最大度数(max-degree)为5(5阶)的b-Tree为例(每个节点最多存储4个key,5个指针),可在https://www.cs.usfca.edu/~galles/visualization/BTree.html上查看B-Tree数据结构

关于MySQL优化的思考一【存储引擎、索引】_第5张图片

B+Tree的特点

  • 所有的元素都会出现在叶子节点
  • 上边的分页节点,只起到索引的作用,叶子节点用来存放数据
  • 所有的叶子节点形成了一个单向链表

以一棵最大度数为4的B+Tree为例,

可在https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html上查看数据结构

关于MySQL优化的思考一【存储引擎、索引】_第6张图片

MySQL索引数据结构对经典的B+Tree进行了优化,在原来B+Tree的基础上,增加了一个指向相邻子节点的链表指针,就形成了带有顺序的B+Tree,提高区间访问的性能。

Hash结构,哈希索引就是采用一定的hash算法,将键值换成新的hash值,映射到对应的槽位上,然后存储在hash表中

  • hash索引只能用于对等比较(=,in),不支持范围查询(between,>,<,…)
  • 无法利用索引完成排序操作
  • 查询效率高,通常只需要一次检索就可以了,效率通常要高于B+Tree索引

为什么InnoDB存储引擎使用B+Tree索引结构

  • 相对于二叉树,层级更少,搜索效率高
  • 对于B-Tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一页中存储的键值减少,指针也就减少,要同样保存大量数据,只能增加树的高度,导致性能降低
  • 相对于Hash索引来说,B+Tree支持范围匹配和排序操作

2.3 索引分类

  • 主键索引,针对表中的主键建立的索引,只能有一个,primary key
  • 唯一索引,可以有多个,unique
  • 常规索引,可以有多个,快速定位特定数据
  • 全文索引,全文检索查找的是文本中的关键词,而不是比较索引中的值,可以有多个,fulltext

在InnoDB中的分类

  • 聚集索引(Clustered index),将数据存储与索引放到了一块,索引结构的叶子节点保存了行数据,必须有,且只有一个
  • 二级索引(Second Index),将数据与索引分开存储,索引结构的叶子节点关联的是对应的主键,可以存在多个

聚集索引的选取规则

  • 如果存在主键,主键索引就是聚集索引
  • 如果没有主键,将使用第一个唯一索引作为聚集索引
  • 如果没有主键,也没有合适的唯一索引,则InnoDB会自动生成一个rowid作为隐藏的聚集索引

聚集索引和二级索引的区别

  • 聚集索引下挂的是行数据
  • 二级索引下挂的是数据的id

关于MySQL优化的思考一【存储引擎、索引】_第7张图片

回表查询

  • 二级索引进行查询到ID
  • 通过ID进行聚集索引查询到对应的数据

关于MySQL优化的思考一【存储引擎、索引】_第8张图片

如下示例:

-- user 表中,id为主键,并且给name增加了索引
– 该查询,可直接使用聚集索引(id为主键)进行查询
select * from user where id = 10;

– 该查询,需要先使用二级索引,然后回表,使用聚集索引查询

select * from user where name = ‘小明’;

InnoDB主键索引的B+Tree高度为多高?

假设,一行数据大小为1k,一页中可以存储16行这样的数据,InnoDB的指针占用6个字节的空间,主键即使为bigint,占用字节数为8。由于每页的大小为16K。

  • 高度为2:即存储的行数据为117116 = 18736,n*8+(n+1)6=161024,算出的n约为1170
    • 即存储的行数据为1171*16 = 18736
  • 高度为3:1171117116=21939856
  • 如果表中数据超过几千万了,就需要考虑分库分表等优化方式了

2.4 索引语法

创建索引

create [unique|fulltext] index index_name on table_name(字段1,字段2,...); 

查看索引

show index from table_name;

删除索引

drop index index_name on table_name;
-- 创建数据库
CREATE TABLE `user` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(20) NOT NULL,
  `age` int NOT NULL,
  `city` varchar(20) DEFAULT NULL,
  PRIMARY KEY (`id`)
);

-- 创建索引
create index index_name on user(name);

-- 查看索引
show index from user;

-- 创建索引
create index index_name_age_city on user(name,age,city);

-- 删除索引
drop index index_name_age_city on user;

2.5 索引使用法则

2.5.1 最左前缀法则

如果索引了多列(联合索引),要遵循最左前缀法则。最左前缀法则指:查询从索引的最左列开始,并不跳过索引中的列。如果跳跃某一列,索引将部分失效(后面的字段索引失效)

比如在user表中,创建的索引是id+name+age

  • 可以使用到索引的情况
    • 需要查询的列为id
    • 需要查询的列为id+name
  • 不能使用多索引的情况
    • 需要查询的列为name+age

注意:经测试,发现MySQL8.0的版本上索引都没有失效!!!

2.5.2 范围查询

联合索引总,出现范围查询(<,>),范围查询右侧的列索引失效


-- 即city的这个列索引会失效
explain select * from user where name='夏明' and age > 30 and city ='北京';

-- 在>=、<=的查询中,city的列索引不会失效
explain select * from user where name='夏明' and age >= 30 and city ='北京';

2.5.3 索引列上运算会索引失效

不要在索引列上进行运算操作,索引将失效

create index index_age on user(age);


explain select * from user where substr(user.age,1,1)='3';

2.5.4 字符串不加引号会索引失效

字符串类型字段使用时,不加引号,索引将失效

create index index_age on user(name,age,status);

-- 可以使用索引
explain select * from test.user where name='夏明' and age = 30 and status ='1';

-- 部分索引失效
explain select * from test.user where name='夏明' and age = 30 and status =1;

2.5.5 模糊查询

如果仅仅是尾部模糊匹配,索引不会失效。如果是头部模糊匹配的话,索引会失效。

create index index_name on test.user(name);

explain select * from test.user where user.name like '张%';

-- 索引失效
explain select * from test.user where user.name like '%三';

-- 索引失效
explain select * from test.user where user.name like '%三%';

2.5.6 or连接的条件

用or分割开的查询条件,如果or的一侧没有索引(前边有后边没有;前边没有后边有),那索引会失效

-- 只有id为索引,使用or连接查询时,索引失效
explain select * from test.user where id = 1 or name='夏明';

2.5.7 数据分布影响

如果MySQL评估使用所有会比全表扫描还慢,则不会使用索引

create index index_age on test.user(age);

-- 由于所有的数据中age大于10,
explain select * from test.user where age >= 10;


-- 修改条件后,就使用到了索引
explain select * from test.user where age >= 30;

2.5.8 给引擎提示

提示存储引擎使用哪个索引:

  • use index
  • ignore index
  • force index
-- 创建2个索引
create index index_name_age_city on user(name,age,city);

create index index_name on user(name);

explain select * from test.user where name='夏明';

-- 建议使用索引
explain select * from test.user use index (index_name) where name='夏明';
-- 忽略使用索引
explain select * from test.user ignore index (index_name) where name='夏明';
-- 强制使用索引
explain select * from test.user force index (index_name) where name='夏明';

2.5.9 覆盖索引

尽量使用覆盖索引(查询使用了索引,并且查询的字段包含索引字段),减少使用select(*) Extra中的信息

  • using index condition:查询中使用了索引,但是需要回表查询数据
  • using where; using index:查询中使用了索引,并且查找的字段在索引上都有,不需要回表查询数据

2.5.10 单列索引和联合索引

  • 单列索引:即一个索引只包含单个列
  • 联合索引:即一个索引包含了多个列

实际的业务场景中,如果存在多个查询,考虑针对于查询字段建立索引时,建议建立联合索引 多条件查询时,MySQL优化器会评估哪个字段的索引效率更高,会选择该索引完成本次查询

2.6 索引设计原则

  1. 针对于数据量较大,且查询比较频繁的表建立索引
  2. 针对于常作为查询条件(where)、排序(order by)、分组(group by)操作的字段建立索引
  3. 尽量选择区分度高的列作为索引,尽量建立唯一索引,区分度越高,使用索引的效率越高
  4. 如果是字符串类型的的字段,字段的长度很长,可以针对字段的特点,建立前缀索引
  5. 尽量使用联合索引,减少单例索引,查询时,联合索引很多时候可以覆盖索引,节省存储空间,避免回表,提高查询速度
  6. 要控制索引的数量,索引并不是越多越好,索引越多,维护索引结构的代价就越大,会影响增删改的效率
  7. 如果索引列不能存储null值,在创建表的时候将就使用not null来约束。当优化器知道每列是否包含null值时,它可以更好的确定那个索引最有效

你可能感兴趣的:(MySQL,mysql,数据库)