我们先看一下在MySQL Explain 功能中给我们展示的各种信息的解释:
◆ ID:MySQL Query Optimizer选定的执行计划中查询的序列号。表示查询中执行select子句或操作表的顺序,id值越大优先级越高,越先被执行。id相同,执行顺序由上至下。
◆ Select_type:所使用的查询类型,主要有以下这几种查询类型
◇DEPENDENT SUBQUERY:子查询中内层的第一个SELECT,依赖于外部查询的结果集;
Dependent Subquery意味着什么 它的执行计划如下,请注意看关键词“DEPENDENT SUBQUERY”: 官方含义为: SUBQUERY:子查询中的第一个SELECT; DEPENDENT SUBQUERY:子查询中的第一个SELECT,取决于外面的查询 。 换句话说,就是 子查询对 g2 的查询方式依赖于外层 g1 的查询。 什么意思呢?它意味着两步: 第一步,MySQL 根据 select gid,count(id) from shop_goods where status=0 group by gid; 得到一个大结果集 t1,其数据量就是上图中的 rows=850672 了。 第二步,上面的大结果集 t1 中的每一条记录,都将与子查询 SQL 组成新的查询语句: select gid from shop_goods where sid in (15...blabla..29) and gid=%t1.gid%。 等于说,子查询要执行85万次……即使这两步查询都用到了索引,但不慢才怪。 如此一来,子查询的执行效率居然受制于外层查询的记录数,那还不如拆成两个独立查询顺序执行呢。 你不想拆成两个独立查询的话,也可以与临时表联表查询,如下所示: 也能得到同样的结果,且是毫秒级。 它的执行计划为: DERIVED 的官方含义为: DERIVED:用于 from 子句里有子查询的情况。MySQL 会递归执行这些子查询,把结果放在临时表里。 mysql 在处理子查询时,会改写子查询。 通常情况下,我们希望由内到外,先完成子查询的结果,然后再用子查询来驱动外查询的表,完成查询。 例如: select * from test where tid in(select fk_tid from sub_test where gid=10) 通常我们会感性地认为该 sql 的执行顺序是: sub_test 表中根据 gid 取得 fk_tid(2,3,4,5,6)记录, 然后再到 test 中,带入 tid=2,3,4,5,6,取得查询数据。 但是实际mysql的处理方式为: select * from test where exists ( select * from sub_test where gid=10 and sub_test.fk_tid=test.tid ) mysql 将会扫描 test 中所有数据,每条数据都将会传到子查询中与 sub_test 关联,子查询不会先被执行,所以如果 test 表很大的话,那么性能上将会出现问题。 |
◇ DEPENDENT UNION:子查询中的UNION,且为UNION中从第二个 SELECT 开始的后面所有SELECT,同样依赖于外部查询的结果集;
◇ PRIMARY:子查询中的最外层查询,注意并不是主键查询;
◇ SIMPLE:除子查询或者UNION之外的其他查询;
◇ SUBQUERY:子查询内层查询的第一个SELECT,结果不依赖于外部查询结果集;
◇ UNCACHEABLE SUBQUERY:结果集无法缓存的子查询;
◇ UNION:UNION语句中第二个SELECT 开始的后面所有SELECT,第一个SELECT 为PRIMARY
◇ UNION RESULT:UNION中的合并结果;
◆ Table:显示这一步所访问的数据库中的表的名称;
◆ Type:告诉我们对表所使用的访问方式,主要包含如下集中类型;
◇ all:全表扫描
◇ const:读常量,且最多只会有一条记录匹配,由于是常量,所以实际上只需要读一次;
◇ eq_ref:最多只会有一条匹配结果,一般是通过主键或者唯一键索引来访问;
◇ fulltext:
◇ index:全索引扫描;
◇ index_merge:查询中同时使用两个(或更多)索引,然后对索引结果进行merge 之后再读取表数据;
◇ index_subquery:子查询中的返回结果字段组合是一个索引(或索引组合),但不是一个主键或者唯一索引;
◇ rang:索引范围扫描;
◇ ref:Join语句中被驱动表索引引用查询;
◇ ref_or_null:与ref的唯一区别就是在使用索引引用查询之外再增加一个空值的查询;
◇ system:系统表,表中只有一行数据;
◇ unique_subquery:子查询中的返回结果字段组合是主键或者唯一约束;
◆ Possible_keys:该查询可以利用的索引. 如果没有任何索引可以使用,就会显示成null,这一项内容对于优化时候索引的调整非常重要;
◆ Key:MySQLQuery Optimizer 从possible_keys 中所选择使用的索引;
◆ Key_len:被选中使用索引的索引键长度;
◆ Ref:列出是通过常量(const),还是某个表的某个字段(如果是join)来过滤(通过key)的;
◆ Rows:MySQLQuery Optimizer 通过系统收集到的统计信息估算出来的结果集记录条数;
◆ Extra:查询中每一步实现的额外细节信息,主要可能会是以下内容:
◇ Distinct:查找distinct值,所以当mysql 找到了第一条匹配的结果后,将停止该值的查询而转为后面其他值的查询;
◇ Full scan on NULL key:子查询中的一种优化方式,主要在遇到无法通过索引访问null值的使用使用;
◇ Impossible WHERE noticedafter reading const tables:MySQL Query Optimizer 通过收集到的统计信息判断出不可能存在结果;
◇ No tables:Query语句中使用FROM DUAL 或者不包含任何FROM 子句;
◇ Not exists:在某些左连接中MySQLQuery Optimizer 所通过改变原有Query 的组成而使用的优化方法,可以部分减少数据访问次数;
◇ Range checked for eachrecord (index map: N):通过MySQL 官方手册的描述,当MySQL Query Optimizer 没有发现好的可以使用的索引的时候,如果发现如果来自前面的表的列值已知,可能部分索引可以使用。对前面的表的每个行组合,MySQL 检查是否可以使用range 或index_merge 访问方法来索取行。
◇ Select tables optimizedaway:当我们使用某些聚合函数来访问存在索引的某个字段的时候,MySQL Query Optimizer 会通过索引而直接一次定位到所需的数据行完成整个查询。当然,前提是在Query 中不能有GROUP BY 操作。如使用MIN()或者MAX()的时候;
◇ Using filesort:当我们的Query中包含ORDER BY 操作,而且无法利用索引完成排序操作的时候,MySQL Query Optimizer 不得不选择相应的排序算法来实现。
◇ Using index:所需要的数据只需要在Index即可全部获得而不需要再到表中取数据;
◇ Using index for group-by:数据访问和Usingindex 一样,所需数据只需要读取索引即可,而当Query 中使用了GROUP BY 或者DISTINCT 子句的时候,如果分组字段也在索引中,Extra 中的信息就会是Using index for group-by;
◇ Using temporary:当MySQL在某些操作中必须使用临时表的时候,在Extra 信息中就会出现Using temporary 。主要常见于GROUP BY 和ORDER BY 等操作中。
◇ Using where:如果我们不是读取表的所有数据,或者不是仅仅通过索引就可以获取所有需要的数据,则会出现Using where 信息;
◇ Using where with pushedcondition:这是一个仅仅在NDBCluster 存储引擎中才会出现的信息,而且还需要通过打开Condition Pushdown 优化功能才可能会被使用。控制参数为engine_condition_pushdown 。
这里我们通过分析示例来看一下不同的Query 语句通过Explain 所显示的不同信息:
我们先看一个简单的单表Query:
> explain select count(*),max(id),min(id) from user\G
********************1. row ***************************
id: 1
select_type: SIMPLE
table: NULL
type: NULL
possible_keys:NULL
key: NULL
key_len: NULL
ref: NULL
rows: NULL
Extra: Select tables optimized away
对user 表的单表查询,查询类型为SIMPLE,因为既没有UNION 也不是子查询。聚合函数MAX MIN以及COUNT 三者所需要的数据都可以通过索引就能够直接定位得到数据,所以整个实现的Extra 信息为Select tables optimized away。
再来看一个稍微复杂一点的Query,一个子查询:
> explain select name from groups where id in
( select group_id from user_group whereuser_id = 1)\G
*********************** 1.row *************************
id: 1
select_type: PRIMARY
table: groups
type: ALL
possible_keys:NULL
key: NULL
key_len: NULL
ref: NULL
rows: 50000
Extra: Using where
************************2. row *************************
id: 2
select_type: DEPENDENT SUBQUERY
table: user_group
type: ref
possible_keys:user_group_gid_ind,user_group_uid_ind
key: user_group_uid_ind
key_len: 4
ref: const
rows: 1
Extra: Using where
通过id 信息我们可以得知MySQL Query Optimizer 给出的执行计划是首先对groups进行全表扫描,然后第二步才访问user_group 表,所使用的查询方式是DEPENDENT SUBQUERY,对所需数据的访问方式是索引扫描,由于过滤条件是一个整数,所以索引扫描的类型为ref,过滤条件是const。可以使
用的索引有两个,一个是基于user_id,另一个则是基于group_id 的。为什么基于group_id 的索引user_group_gid_ind 也被列为可选索引了呢?是因为与子查询的外层查询所关联的条件是基于group_id 的。当然,最后MySQL Query Optimizer 还是选择了使用基于user_id的索引user_group_uid_ind。
要想优化一条Query,我们就需要清楚的知道这条Query 的性能瓶颈到底在哪里,是消耗的CPU计算太多,还是需要的的IO 操作太多?要想能够清楚的了解这些信息,通过Query Profiler 功能。
MySQL 的Query Profiler 是一个使用非常方便的Query 诊断分析工具,通过该工具可以获取一条Query 在整个执行过程中多种资源的消耗情况,如CPU,IO,IPC,SWAP 等,以及发生的PAGE FAULTS,CONTEXT SWITCHE 等等,同时还能得到该Query 执行过程中MySQL 所调用的各个函数在源文件中的位置。下面我们看看Query Profiler 的具体用法。
1、开启profiling 参数
> set profiling=1;
Query OK, 0 rows affected (0.00 sec)
通过执行“set profiling”命令,可以开启关闭Query Profiler 功能。
2、执行Query
... ...
> select status,count(*) from test_profiling groupbystatus;
5 rows in set (1.11 sec)
... ...
在开启Query Profiler 功能之后,MySQL 就会自动记录所有执行的Query 的profile 信息了。
3、获取系统中保存的所有Query 的profile 概要信息
>show profiles;
3 rows in set(0.00 sec)
通过执行“SHOW PROFILE” 命令获取当前系统中保存的多个Query 的profile 的概要信息。
4、针对单个Query 获取详细的profile 信息。
在获取到概要信息之后,我们就可以根据概要信息中的Query_ID 来获取某个Query 在执行过程中
详细的profile 信息了,具体操作如下:
> show profile cpu, block io for query6;
上面的例子中是获取CPU 和Block IO 的消耗,非常清晰,对于定位性能瓶颈非常适用。希望得到取其他的信息,都可以通过执行“SHOW PROFILE *** FOR QUERY n” 来获取。