mysql性能优化

索引介绍

B-tree索引

B-Tree 索引是 MySQL 数据库中使用最为频繁的索引类型。
B-tree索引适用于全键值,键值范围或键前缀查找。其中键前缀查找只适用于根据最左前缀查找。

HASH索引

hash索引只支持等值比较:=,in(),<=>(<>不同于<=>),也不能用于范围查找,比如:WHERE price>100;
Hash 索引无法被用来避免数据的排序操作;
Hash 索引不能利用部分索引键查询(通过组合索引的前面一个或几个索引键进行查询的时候,Hash 索引也无法被利用);
Hash 索引在任何时候都不能避免表扫描;
Hash 索引遇到大量Hash值相等的情况后性能并不一定就会比B-Tree索引高。

查询中的索引原理区别

在 Innodb 中如果通过主键来访问数据效率是非常高的,而如果是通过 Secondary Index 来访问数据的话, Innodb 首先通过 Secondary Index 的相关信息,通过相应的索引键检索到 Leaf Node之后,需要再通过 Leaf Node 中存放的主键值再通过主键索引来获取相应的数据行。MyISAM 存储引擎的主键索引和非主键索引差别很小,只不过是主键索引的索引键是一个唯一且非空 的键而已。而且 MyISAM 存储引擎的索引和 Innodb 的 Secondary Index 的存储结构也基本相同,主要的区别只是 MyISAM 存储引擎在 Leaf Nodes 上面出了存放索引键信息之外,再存放能直接定位到 MyISAM 数据文件中相应的数据行的信息(如 Row Number ),但并不会存放主键的键值信息。

索引的好处

索引能够给我们带来的最大益处可能读者朋友基本上都有一定的了解,但是我相信并不是每一位读者朋友都能够了解的比较全面。很多朋友对数据库中的索引的认识可能主要还是只限于“能够提高数据检索的效率,降低数据库的IO 成本”。
确实,在数据库中个表的某个字段创建索引,所带来的最大益处就是将该字段作为检索条件的时候可以极大的提高检索效率,加快检索时间,降低检索过程中所需要读取的数据量。但是索引所给我们带来的收益只是提高表数据的检索效率吗?当然不是,索引还有一个非常重要的用途,那就是降低数据的排序成本。
我们知道,每个索引中索引数据都是按照索引键键值进行排序后存放的,所以,当我们的Query 语句中包含排序分组操作的时候,如果我们的排序字段和索引键字段刚好一致,MySQL Query Optimizer就会告诉mysqld 在取得数据之后不用排序了,因为根据索引取得的数据已经是满足客户的排序要求。
那如果是分组操作呢?分组操作没办法直接利用索引完成。但是分组操作是需要先进行排序然后才分组的,所以当我们的Query 语句中包含分组操作,而且分组字段也刚好和索引键字段一致,那么mysqld 同样可以利用到索引已经排好序的这个特性而省略掉分组中的排序操作。
排序分组操作主要消耗的是我们的内存和CPU 资源,如果我们能够在进行排序分组操作中利用好索引,将会极大的降低CPU 资源的消耗。

索引的弊端

索引的益处我们都已经清楚了,但是我们不能光看到索引给我们带来的这么多益处之后就认为索引是解决Query 优化的圣经,只要发现Query 运行不够快就将WHERE 子句中的条件全部放在索引中。

确实,索引能够极大的提高数据检索效率,也能够改善排序分组操作的性能,但是我们不能忽略的一个问题就是索引是完全独立于基础数据之外的一部分数据。假设我们在Table ta 中的Column ca 创建了索引idx_ta_ca,那么任何更新Column ca 的操作,MySQL 都需要在更新表中Column ca 的同时,也更新Column ca 的索引数据,调整因为更新所带来键值变化后的索引信息。而如果我们没有对Column ca 进行索引的话,MySQL 所需要做的仅仅只是更新表中Column ca 的信息。这样,所带来的最明显的资源消耗就是增加了更新所带来的IO 量和调整索引所致的计算量。此外,Column ca 的索引idx_ta_ca 是需要占用存储空间的,而且随着Table ta 数据量的增长,idx_ta_ca 所占用的空间也会不断增长。所以索引还会带来存储空间资源消耗的增长。

如何判定是否需要创建索引

1、较频繁的作为查询条件的字段应该创建索引;

2、唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件(如状态字段只有几个值);

3、更新非常频繁的字段不适合创建索引;

4、不会出现在WHERE 子句中的字段不该创建索引;

选择合适索引的几点建议,并不一定在任何场景下都合适,但在大多数场景下还是比较适用的。

1、对于单键索引,尽量选择针对当前Query 过滤性更好的索引;

2、在选择组合索引的时候,当前Query 中过滤性最好的字段在索引字段顺序中排列越靠前越好;

3、在选择组合索引的时候,尽量选择可以能够包含当前Query 的WHERE 子句中更多字段的索引;

4、尽可能通过分析统计信息和调整Query 的写法来达到选择合适索引的目的而减少通过使用Hint 人为控制索引的选择(如:SELECT * FROM group_message force index(group_message_author_subject) WHERE author = ‘3’ subject LIKE ‘weiurazs%’这种自己强制使用索引的情况),因为这会使后期的维护成本增加,同时增加维护所带来的潜在风险。

MySQL 中索引的限制

1、MyISAM 存储引擎索引键长度总和不能超过1000 字节;

2、BLOB 和TEXT 类型的列只能创建前缀索引;

3、MySQL 目前不支持函数索引;

4、使用不等于(!= 或者<>)的时候MySQL 无法使用索引;(?)

5、过滤字段使用了函数运算后(如abs(column)),MySQL 无法使用索引;

6、Join 语句中Join 条件字段类型不一致的时候MySQL 无法使用索引;

7、使用LIKE 操作的时候如果条件以通配符开始( ‘%abc…’)MySQL 无法使用索引;

8、使用非等值查询的时候MySQL 无法使用Hash 索引;

Join 语句的优化

1、尽可能减少Join 语句中的Nested Loop 的循环总次数;

2、优先优化Nested Loop 的内层循环;

3、保证Join 语句中被驱动表上Join 条件字段已经被索引;

4、当无法保证被驱动表的Join 条件字段被索引且内存资源充足的前提下,不要太吝惜Join Buffer 的设置;

当在某些特殊的环境中,我们的Join 必须是All,Index,range 或者是index_merge 类型的时候,Join Buffer 就会派上用场了。在这种情况下,Join Buffer 的大小将对整个Join 语句的消耗起到非常关键的作用。

其他

PROCEDURE ANALYSE()

用来分析你的字段和其实际的数据,并会给你一些有用的建议。
用法:

SELECT * FROM TABLE_NAME PROCEDURE ANALYSE();

EXPLAIN

用来分析查询性能情况

EXPLAIN SELECT * FROM TABLE_NAME;

explain展示信息说明:

ID:Query Optimizer 所选定的执行计划中查询的序列号;
Select_type:所使用的查询类型,主要有以下这几种查询类型
◇ DEPENDENT SUBQUERY:子查询中内层的第一个SELECT,依赖于外部查询的结果集;
◇ DEPENDENT UNION:子查询中的UNION,且为UNION 中从第二个SELECT 开始的后面所有SELECT,同样依赖于外部查询的结果集;
◇ PRIMARY:子查询中的最外层查询,注意并不是主键查询;
◇ SIMPLE:除子查询或者UNION 之外的其他查询;
◇ SUBQUERY:子查询内层查询的第一个SELECT,结果不依赖于外部查询结果集;
◇ UNCACHEABLE SUBQUERY:结果集无法缓存的子查询;
◇ UNION:UNION 语句中第二个SELECT 开始的后面所有SELECT,第一个SELECT 为PRIMARY
◇ UNION RESULT:UNION 中的合并结果;
Table:显示这一步所访问的数据库中的表的名称;
Type:告诉我们对表所使用的访问方式,主要包含如下集中类型;
◇ all:全表扫描
◇ const:读常量,且最多只会有一条记录匹配,由于是常量,所以实际上只需要读一次;
◇ eq_ref:最多只会有一条匹配结果,一般是通过主键或者唯一键索引来访问;
◇ fulltext:全文索引
◇ index:全索引扫描;
◇ index_merge:查询中同时使用两个(或更多)索引,然后对索引结果进行merge 之后再读取表数据;
◇ index_subquery:子查询中的返回结果字段组合是一个索引(或索引组合),但不是一个主键或者唯一索引;
◇ rang:索引范围扫描;
◇ ref:Join 语句中被驱动表索引引用查询;
◇ ref_or_null:与ref 的唯一区别就是在使用索引引用查询之外再增加一个空值的查询;
◇ system:系统表,表中只有一行数据;
◇ unique_subquery:子查询中的返回结果字段组合是主键或者唯一约束;
Possible_keys:该查询可以利用的索引. 如果没有任何索引可以使用,就会显示成null,这一项内容对于优化时候索引的调整非常重要;
Key:MySQL Query Optimizer 从possible_keys 中所选择使用的索引;
Key_len:被选中使用索引的索引键长度;
Ref:列出是通过常量(const),还是某个表的某个字段(如果是join)来过滤(通过key)的;
Rows:MySQL Query Optimizer 通过系统收集到的统计信息估算出来的结果集记录条数;
Extra:查询中每一步实现的额外细节信息,主要可能会是以下内容:
◇ Distinct:查找distinct 值,所以当mysql 找到了第一条匹配的结果后,将停止该值的查询而转为后面其他值的查询;
◇ Full scan on NULL key:子查询中的一种优化方式,主要在遇到无法通过索引访问null值的使用使用;
◇ Impossible WHERE noticed after reading const tables:MySQL Query Optimizer 通过收集到的统计信息判断出不可能存在结果;
◇ No tables:Query 语句中使用FROM DUAL 或者不包含任何FROM 子句;
◇ Not exists:在某些左连接中MySQL Query Optimizer 所通过改变原有Query 的组成而使用的优化方法,可以部分减少数据访问次数;
◇ Range checked for each record (index map: N):通过MySQL 官方手册的描述,当MySQL Query Optimizer 没有发现好的可以使用的索引的时候,如果发现如果来自前面的表的列值已知,可能部分索引可以使用。对前面的表的每个行组合,MySQL 检查是否可以使用range 或index_merge 访问方法来索取行。
◇ Select tables optimized away:当我们使用某些聚合函数来访问存在索引的某个字段的
时候,MySQL Query Optimizer 会通过索引而直接一次定位到所需的数据行完成整个查询。当然,前提是在Query 中不能有GROUP BY 操作。如使用MIN()或者MAX()的时候;
◇ Using filesort:当我们的Query 中包含ORDER BY 操作,而且无法利用索引完成排序操作的时候,MySQL Query Optimizer 不得不选择相应的排序算法来实现。
◇ Using index:所需要的数据只需要在Index 即可全部获得而不需要再到表中取数据;
◇ Using index for group-by:数据访问和Using index 一样,所需数据只需要读取引即可,而当Query 中使用了GROUP BY 或者DISTINCT 子句的时候,如果分组字段也在索引中,Extra 中的信息就会是Using index for group-by;
◇ Using temporary:当MySQL 在某些操作中必须使用临时表的时候,在Extra 信息中就会出现Using temporary 。主要常见于GROUP BY 和ORDER BY 等操作中。
◇ Using where:如果我们不是读取表的所有数据,或者不是仅仅通过索引就可以获取所有需要的数据,则会出现Using where 信息;
◇ Using where with pushed condition:这是一个仅仅在NDBCluster 存储引擎中才会出现的信息,而且还需要通过打开Condition Pushdown 优化功能才可能会被使用。控制参数为engine_condition_pushdown 。

Profiling

set profiling=1;//通过执行“set profiling”命令,可以开启关闭Query Profiler 功能。
show profiles;//获取系统中保存的所有Query 的profile 概要信息
show profile cpu, block io for query 6;//针对单个Query 获取详细的profile 信息(例句中的是6)。

暂时以上

参考文献:
1、《高性能mysql》(第三版) ;作者: 施瓦茨 (Baron Schwartz) / 扎伊采夫 (Peter Zaitsev) / 特卡琴科 (Vadim Tkachenko) ;译者: 宁海元 / 周振兴 / 彭立勋 / 翟卫祥,刘辉
2、《mysql性能调优与架构设计》;作者:简朝阳,文中的索引的利弊部分,如何判断还有建议基本是直接拿过来的 ̄ω ̄=233,还有explain展示信息说明等
3、参考博客:http://mxdxm.iteye.com/blog/2196229

你可能感兴趣的:(mysql)