Mysql之sql优化实战

1. trace工具

trace是MySQL5.6版本后提供的SQL跟踪工具,通过使用trace我们可以分析sql,明白mysql的优化器(optimizer)是如何选择执行计划。
注意:开启trace工具会影响mysql性能,所以只适合临时分析sql使用,用完之后请立即关闭。

1.1 trace工具的使用

1. 第一步打开trace,设置格式为JSON格式。

set session optimizer_trace="enabled=on",end_markers_in_json=ON;

2. 第二步,执行咬分析的sql语句。
select * from employees where name > 'a' order by POSITION;

3. 第三步,查看 information_schema.OPTIMIZER_TRACE,查看sql语句z执行跟踪记录
select * from information_schema.OPTIMIZER_TRACE;

4. 第四步,关闭trace。

set session optimizer_trace="enabled=off";

1.2  trace获取的跟踪记录分析

1. 第一阶段

sql准备阶段,格式化sql。

  "steps": [
    {
      "join_preparation": { -- 第一阶段:SQL准备阶段,格式化sql
        "select#": 1,
        "steps": [
          {
            "expanded_query": "/* select#1 */ select `employees`.`id` AS `id`,`employees`.`name` AS `name`,`employees`.`age` AS `age`,`employees`.`position` AS `position`,`employees`.`hire_time` AS `hire_time` from `employees` where (`employees`.`name` > 'a') order by `employees`.`position`"
          }
        ] /* steps */
      } /* join_preparation */
    },

2. 第二阶段

sql优化阶段,此阶段,mysql的优化器会进行对sql进行优化,会计算查询使用索引以及未使用索引的成本,各种情况的预估成本值为rows_estimation中的cost,cost的值越大,说明效率越低,从而优化器从中选择最优访问路径,最优访问路径的具体内容为best_access_path中的内容。

  "join_optimization": {    --第二阶段:SQL优化阶段
        "select#": 1,
        "steps": [
          {
            "condition_processing": {    --条件处理
              "condition": "WHERE",
              "original_condition": "(`employees`.`name` > 'a')",
              "steps": [
                {
                  "transformation": "equality_propagation",
                  "resulting_condition": "(`employees`.`name` > 'a')"
                },
                {
                  "transformation": "constant_propagation",
                  "resulting_condition": "(`employees`.`name` > 'a')"
                },
                {
                  "transformation": "trivial_condition_removal",
                  "resulting_condition": "(`employees`.`name` > 'a')"
                }
              ] /* steps */
            } /* condition_processing */
          },
          {
            "substitute_generated_columns": {
            } /* substitute_generated_columns */
          },
          {
            "table_dependencies": [    --表依赖详情
              {
                "table": "`employees`",
                "row_may_be_null": false,
                "map_bit": 0,
                "depends_on_map_bits": [
                ] /* depends_on_map_bits */
              }
            ] /* table_dependencies */
          },
          {
            "ref_optimizer_key_uses": [
            ] /* ref_optimizer_key_uses */
          },
          {
            "rows_estimation": [    --预估表的访问成本
              {
                "table": "`employees`",
                "range_analysis": {
                  "table_scan": {     --全表扫描情况
                    "rows": 10123,    --扫描行数
                    "cost": 2054.7    --查询成本
                  } /* table_scan */,
                  "potential_range_indexes": [    --查询可能使用的索引
                    {
                      "index": "PRIMARY",    --主键索引
                      "usable": false,
                      "cause": "not_applicable"
                    },
                    {
                      "index": "idx_name_age_position",    --辅助索引
                      "usable": true,
                      "key_parts": [
                        "name",
                        "age",
                        "position",
                        "id"
                      ] /* key_parts */
                    }
                  ] /* potential_range_indexes */,
                  "setup_range_conditions": [
                  ] /* setup_range_conditions */,
                  "group_index_range": {
                    "chosen": false,
                    "cause": "not_group_by_or_distinct"
                  } /* group_index_range */,
                  "analyzing_range_alternatives": {    --分析各个索引使用成本
                    "range_scan_alternatives": [
                      {
                        "index": "idx_name_age_position",
                        "ranges": [
                          "a < name"      --索引使用范围
                        ] /* ranges */,
                        "index_dives_for_eq_ranges": true,
                        "rowid_ordered": false,    --使用该索引获取的记录是否按照主键排序
                        "using_mrr": false,
                        "index_only": false,       --是否使用覆盖索引
                        "rows": 5061,              --索引扫描行数
                        "cost": 6074.2,            --索引使用成本
                        "chosen": false,           --是否选择该索引
                        "cause": "cost"
                      }
                    ] /* range_scan_alternatives */,
                    "analyzing_roworder_intersect": {
                      "usable": false,
                      "cause": "too_few_roworder_scans"
                    } /* analyzing_roworder_intersect */
                  } /* analyzing_range_alternatives */
                } /* range_analysis */
              }
            ] /* rows_estimation */
          },
          {
            "considered_execution_plans": [
              {
                "plan_prefix": [
                ] /* plan_prefix */,
                "table": "`employees`",
                "best_access_path": {    --最优访问路径
                  "considered_access_paths": [   --最终选择的访问路径
                    {
                      "rows_to_scan": 10123,
                      "access_type": "scan",     --访问类型:为scan,全表扫描
                      "resulting_rows": 10123,
                      "cost": 2052.6,
                      "chosen": true,            --确定选择
                      "use_tmp_table": true
                    }
                  ] /* considered_access_paths */
                } /* best_access_path */,
                "condition_filtering_pct": 100,
                "rows_for_plan": 10123,
                "cost_for_plan": 2052.6,
                "sort_cost": 10123,
                "new_cost_for_plan": 12176,
                "chosen": true
              }
            ] /* considered_execution_plans */
          },
          {
            "attaching_conditions_to_tables": {
              "original_condition": "(`employees`.`name` > 'a')",
              "attached_conditions_computation": [
              ] /* attached_conditions_computation */,
              "attached_conditions_summary": [
                {
                  "table": "`employees`",
                  "attached": "(`employees`.`name` > 'a')"
                }
              ] /* attached_conditions_summary */
            } /* attaching_conditions_to_tables */
          },
          {
            "clause_processing": {
              "clause": "ORDER BY",
              "original_clause": "`employees`.`position`",
              "items": [
                {
                  "item": "`employees`.`position`"
                }
              ] /* items */,
              "resulting_clause_is_simple": true,
              "resulting_clause": "`employees`.`position`"
            } /* clause_processing */
          },
          {
            "reconsidering_access_paths_for_index_ordering": {
              "clause": "ORDER BY",
              "steps": [
              ] /* steps */,
              "index_order_summary": {
                "table": "`employees`",
                "index_provides_order": false,
                "order_direction": "undefined",
                "index": "unknown",
                "plan_changed": false
              } /* index_order_summary */
            } /* reconsidering_access_paths_for_index_ordering */
          },
          {
            "refine_plan": [
              {
                "table": "`employees`"
              }
            ] /* refine_plan */
          }
        ] /* steps */
      } /* join_optimization */
    }

3. 第三阶段

SQL执行阶段。如果sql中有排序,在此阶段可以进行查看其排序方式,分为单路排序,和双路排序(回表排序模式)。查看排序的具体内容查看filesort_summary的值。

  • 单路排序示例:
"join_execution": {    --Sql执行阶段
        "select#": 1,
        "steps": [
          {
            "filesort_information": [
              {
                "direction": "asc",
                "table": "`employees`",
                "field": "position"
              }
            ] /* filesort_information */,
            "filesort_priority_queue_optimization": {
              "usable": false,
              "cause": "not applicable (no LIMIT)"
            } /* filesort_priority_queue_optimization */,
            "filesort_execution": [
            ] /* filesort_execution */,
            "filesort_summary": {                      --文件排序信息
              "rows": 10000,                           --预计扫描行数
              "examined_rows": 10000,                  --参与排序的行
              "number_of_tmp_files": 3,                --使用临时文件的个数,这个值如果为0代表全部使用的sort_buffer内存排序,否则使用的磁盘文件排序
              "sort_buffer_size": 262056,              --排序缓存的大小,单位Byte
              "sort_mode": ""       --排序方式,这里用的单路排序
            } /* filesort_summary */
          }
        ] /* steps */
      } /* join_execution */
      

  • 双路排序示例:
"join_execution": {
        "select#": 1,
        "steps": [
          {
            "filesort_information": [
              {
                "direction": "asc",
                "table": "`employees`",
                "field": "position"
              }
            ] /* filesort_information */,
            "filesort_priority_queue_optimization": {
              "usable": false,
              "cause": "not applicable (no LIMIT)"
            } /* filesort_priority_queue_optimization */,
            "filesort_execution": [
            ] /* filesort_execution */,
            "filesort_summary": {
              "rows": 10000,
              "examined_rows": 10000,
              "number_of_tmp_files": 2,
              "sort_buffer_size": 262136,   
              "sort_mode": ""         --排序方式,这里用的双路排序
            } /* filesort_summary */
          }
        ] /* steps */
      } /* join_execution */

2. 几种常见的优化

2.1 Order by与Group by优化

核心:将执行计划中的Using filesort优化的不出现。

2.1.1 总结与示例

1. MySQL支持两种方式的排序filesort和index,执行计划中Extra中的值为Using index是指MySQL扫描索引本身完成排序。如果执行计划中Extra中的值为Using filesort,则为磁盘完成排序, index效率高,filesort效率低。

2. order by满足两种情况会使用Using index。

        1) order by语句使用索引最左前列。

        2) 使用where子句与order by子句条件列组合满足索引最左前列。

  • 组合未满足索引最左前列示例:Extra列出现了Using filesort.

Mysql之sql优化实战_第1张图片

  • 组合满足索引最左前列示例:Extra列没有出现Using filesort.

Mysql之sql优化实战_第2张图片

3、尽量在索引列上完成排序,遵循索引建立(索引创建的顺序)时的最左前缀法则。

4. 查询字段能使用覆盖索引的尽量使用覆盖索引。

示例一: 理论上该sql应该走索引,但是出现了Using filesort,可能是数据量太大了。

Mysql之sql优化实战_第3张图片

示例二:同样的条件,但是查询字段使用了覆盖索引,出现了Using index,效率提高了。

Mysql之sql优化实战_第4张图片

5. 如果order by的条件不在索引上,也会出现Using filesort, 所以order by 的字段尽量是索引字段。

示例:尽管使用了覆盖索引,但是order by 的条件不是索引字段,出现了using filesort。

Mysql之sql优化实战_第5张图片

5. group by与order by很类似,其实质是先排序后分组,遵照索引创建顺序的最左前缀法则。对于group by的优化如果不需要排序的可以加上order by null禁止排序。注意,where高于having,能写在where中的限定条件就不要去having限定了。

2.2 分页查询优化

2.2.1第一步:根据非主键排序。

  • 根据非主键字段排序;
  • 但是使用了文件排序,因为扫描整个索引并查找到没索引 的行(可能要遍历多个索引树)的成本比扫描全表的成本更高,所以优化器放弃使用索引。

结果集:

Mysql之sql优化实战_第6张图片

执行计划:

Mysql之sql优化实战_第7张图片

2.2.2第二步:改写sql。

改写sql;select * from employees e inner join (select id from employees order by name limit 90000,5) ed
on e.id = ed.id;

其实关键是让排序时返回的字段尽可能少,所以可以让排序和分页操作先查出主键,然后根据主键查到对应的记录

结果集:与原来的一样

Mysql之sql优化实战_第8张图片

执行计划:执行时间减少了一半以上,比原来的效率提高了。

Mysql之sql优化实战_第9张图片

2.3join关联优化

  1. 关联字段加索引,让mysql做join操作时尽量选择NLJ算法;
  2. 小表驱动大表

写多表连接sql时如果明确知道哪张表是小表可以用straight_join写法固定连接驱动方式,省去mysql优化器自己判断的时间;

注意:

  • straight_join功能同join类似,但能让左边的表来驱动右边的表,能改表优化器对于联表查询的执行顺序;
  • straight_join只适用于inner join,并不适用于left join,right join。因为left join,right join已经代表指定了表的执行顺序;
  • 使用straight_join一定要慎重,因为部分情况下人为指定的执行顺序并不一定会比优化引擎要靠谱。

2.4 in 和exsits优化

原则:小表驱动大表,即小的数据集驱动大的数据集;

        select * from A where id in (select id from B)

  1.  in: 当B表的数据集小于A表的数据集时,in优于exists。
  2. exists:当A表的数据集小于B表的数据集时,exists优于in。

2.5 count(*)优化

1. 查询mysql自己维护的总行数;

  • 对于myisam存储引擎的表做不带where条件的count查询性能是很高的,因为myisam存储引擎的表的总行数会被mysql存储在磁盘上,查询不需要计算。
  • 对于innodb存储引擎的表mysql不会存储表的总记录行数(因为有MVCC机制,后面会讲),查询count需要实时计算

Mysql之sql优化实战_第10张图片


2.如果只需要知道表总行数的估计值可以用show table status;性能很高

Mysql之sql优化实战_第11张图片

3. 将总数维护到Redis里。

        插入或删除表数据行的时候同时维护redis里的表总行数key的计数值(用incr或decr命令),但是这种方式可能不准,很难保证表操作和redis操作的事务一致性

4.增加数据库计数表。

        插入或删除表数据行的时候同时维护计数表,让他们在同一个事务里操作

2.6 like优化

1.尽量使用like"XXX%",这种情况查询会走索引。

Mysql之sql优化实战_第12张图片

2.如果使用like"%XXX%",这种导致索引失效,可以使用索引覆盖,即查询字段必须是建立了索引。

未使用覆盖索引,扫描了全表。

Mysql之sql优化实战_第13张图片

使用了覆盖索引,查询走了索引。

Mysql之sql优化实战_第14张图片

2.7 联合索引第一个字段范围查询优化

  •  联合索引的第一个索引字段使用了范围 查找,导致索引失效,是因为联合索引的第一个字段使用了范围查找,MySQL内部可能会判断出结果集会比较大,回表的效率不高,不如全表扫描。        
  • 可以使用force INDEX来强制走索引来优化

        案例sql: SELECT * FROM employees WHERE NAME > "LiLei";

未优化前的执行计划:

Mysql之sql优化实战_第15张图片

优化后的执行计划:

Mysql之sql优化实战_第16张图片

3.索引设计原则

3.1 设计原则

3.1.1 代码先行,索引后上

索引的应用,离不开业务场景,所以应该当业务代码完成后,拿出该表所有sql进行分析,再确定哪些字段需要创建索引。

3.1.2 联合索引尽量覆盖条件

尽量少建单值索引,可以设计一个或者两三个联合索引,让每一个联合索引都尽量去包含sql语句里的 where、order by、group by的字段,还要确保这些联合索引的字段顺序尽量满足sql查询的最左前缀原 则。

3.1.3 不要在小基数字段上建立索引,尽量使用那些基数比较大的字段建立索引。

  • 索引基数是指这个字段在表里总共有多少个不同的值,比如一张表总共100万行记录,其中有个性别字段,其值不是男就是女,那么该字段的基数就是2。
  • 因为如果对这种小基数字段建立索引的话,还不如全表扫描了,因为索引树里就包含男和女两种值,根本没 法进行快速的二分查找,那用索引就没有太大的意义了。
  • 所以,一般建立索引,尽量使用那些基数比较大的字段,就是值比较多的字段,那么才能发挥出B+树快速二分查找的优势来。

3.1.4 采用字段类型较小的列建立索引,如果必须在长字符串上创建索引,我们可以采用前缀索引。

  • 尽量对字段类型较小的列设计索引,比如说什么tinyint之类的,因为字段类型较小的话,占用磁盘空间也会 比较小,此时你在搜索的时候性能也会比较好一点。
  • 如果要对varchar(255)这种字段建立索引,这种varchar(255)的大字段可能会比较占用磁盘空间,我们可以稍微优化下,比如针对这个字段的前20个 字符建立索引,就是说,对这个字段里的每个值的前20个字符放在索引树里。类似于 KEY index(name(20),age,position)。
  • 针对大字段创建的前缀索引,如果条件在where里使用,查询会走索引树,但是如果在order by 、group by里使用,不会走索引树。

3.1.5 where与order by冲突时优先where 。

因为大多数情况基于索引进行where筛选往往可以最快速度筛选出你要的少部分数据,然后做排序的成本可 能会小很多。

3.1.6 基于慢sql查询做优化

  1.  分析语句,查看语句是不是加载了额外的数据列,导致索引失效,如过是这种情况,重写sql,去除不需要的多余列,使用覆盖索引。
  2. 使用explain查看执行计划,查看索引使用情况,修改语句或者索引,使语句尽量命中索引。
  3. 针对一些特殊场景的sql,可以适当针对这些慢sql船舰特定的索引进行优化。
  4. 如果语句优化已经到了瓶颈,可以考虑是不是数据量太大,如果使数据量太大,可进行横向或纵向分表。

3.2 索引设计案例

3.2.1 核心思想

        索引设计实战核心思想就是,尽量利用一两个复杂的多字段联合索引,抗下你80%以上的查询,然后用一两个辅助索引尽量抗下剩余的一些非典型查询,保证这种大数据量表的查询尽可能多的都能充分利用索引,这样就能保证你的查询速度和性能了!

3.2.2 分析步骤

Mysql之sql优化实战_第17张图片

4. 概念补充

4.1 索引下推(Index Condition Pushdown,ICP)

4.1.1 定义

索引下推使MySQL 5.6引入的优化,是指查询在索引遍历过程中,对索引中包含的所有字段先做判断,过滤掉不符合条件的记录之后再回表,可以有效的减少回表次数对于innodb引擎的表索引下推只能用于二级索引,innodb的主键索引(聚簇索引)树叶子节点上保存的是全行数据,所以这个时候索引下推并不会起到减少查询全行数据的效果。

4.1.2 案例理解

使用一个案例理解一下:

对于辅助的联合索引(name,age,position),正常情况按照最左前缀原则,SELECT * FROM employees WHERE name like 'LiLei%' AND age = 22 AND position ='manager' 这种情况只会走name字段索引,因为根据name字段过滤完,得到的索引行里的age和 position是无序的,无法很好的利用索引。

  • 在MySQL5.6之前的版本,这个查询只能在联合索引里匹配到名字是 'LiLei' 开头的索引,然后拿这些索引对应的主键逐个回表,到主键索 引上找出相应的记录,再比对age和position这两个字段的值是否符合。
  • MySQL 5.6以后,使用了索引下推优化后,上面那个查询在联合索引里匹配到名字是 'LiLei' 开头的索引之后,同时还会在索引里过 滤age和position这两个字段,拿着过滤完剩下的索引对应的主键id再回表查整行数据。

4.2 filesort文件排序方式

MySQL 通过比较系统变量 max_length_for_sort_data(默认1024字节) 的大小和需要查询的字段总大小来 判断使用哪种排序模式。
如果 字段的总长度小于max_length_for_sort_data ,那么使用 单路排序模式;
如果 字段的总长度大于max_length_for_sort_data ,那么使用 双路排序模∙式。

注意,如果全部使用sort_buffer内存排序一般情况下效率会高于磁盘文件排序,但不能因为这个就随便增 大sort_buffer(默认1M),mysql很多参数设置都是做过优化的,不要轻易调整。

4.2.1定义

4.2.1.1 单路排序
  • 一次性取出满足条件行的所有字段,然后在sort buffer中进行排序;用trace工具可 以看到sort_mode信息里显示< sort_key, additional_fields >或者< sort_key, packed_additional_fields >
  • 单路排序排序完成后,结果就出来了,不需要回表。
  • 因为单路排序使一次取出满足条件的所有行所有字段,所以排序时占用的内存大一点。
4.2.1.2 双路排序
  • 双路排序(又叫回表排序模式),是首先根据相应的条件取出相应的排序字段和可以直接定位行 数据的行 ID,然后在 sort buffer 中进行排序,排序完后需要再次取回其它需要的字段;用trace工具 可以看到sort_mode信息里显示< sort_key, rowid >
  • 因为双路排序是取出相应的排序字段和可以直接定位行 数据的行 ID进行排序,所以排序时占用的内存相对单路排序会小一点。

4.2.2分析案例理解

案例sql : select * from employees where name = 'zhuge' order by position;

4.2.2.1 单路排序的详细过程

1. 从索引name找到第一个满足 name = ‘zhuge’ 条件的主键 id。

2. 根据主键 id 取出整行,取出所有字段的值,存入 sort_buffer 中 。

3. 从索引name找到下一个满足 name = ‘zhuge’ 条件的主键 id。

4. 重复步骤 2、3 直到不满足 name = ‘zhuge’ 。

5. 对 sort_buffer 中的数据按照字段 position 进行排序 。

6. 返回结果给客户端。

4.2.2.1 双路排序的详细过程。

1. 从索引 name 找到第一个满足 name = ‘zhuge’ 的主键id 。

2. 根据主键 id 取出整行,把排序字段 position 和主键 id 这两个字段放到 sort buffer 中。

3. 从索引 name 取下一个满足 name = ‘zhuge’ 记录的主键 id 。

4. 重复 3、4 直到不满足 name = ‘zhuge’ 。

5. 对 sort_buffer 中的字段 position 和主键 id 按照字段 position 进行排序 。

6. 遍历排序好的 id 和字段 position,按照 id 的值回到原表中取出 所有字段的值返回给客户端。

4.3 mysql表关联常见的两种算法

4.3.1定义

4.3.1.1 嵌套循环连接Nested-Loop Join(NLJ)算法

一次一行循环地从第一张表(称为驱动表)中读取行,在这行数据中取到关联字段,根据关联字段在另一张表(被驱动表)里取出满足条件的行,然后取出两张表的结果合集。

使用了 NLJ算法。一般 join 语句中,如果执行计划 Extra 中未出现 Using join buffer 则表示使用的 join 算法是 NLJ。
 

4.3.1.2 基于块的嵌套循环连接Block Nested-Loop Join(BNL)算法

把驱动表的数据读入到 join_buffer 中,然后扫描被驱动表,把被驱动表每一行取出来跟join_buffer 中的数据做对比。

Extra 中 的Using join buffer (Block Nested Loop)说明该关联查询使用的是 BNL 算法。

4.3.2分析案例理解

准备表:

-- 示例表:
CREATE TABLE `t1` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `a` int(11) DEFAULT NULL,
  `b` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_a` (`a`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

create table t2 like t1;

-- 插入一些示例数据
-- 往t1表插入1万行记录
drop procedure if exists insert_t1; 
delimiter ;;
create procedure insert_t1()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=10000)do                 
    insert into t1(a,b) values(i,i);  
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_t1();

-- 往t2表插入100行记录
drop procedure if exists insert_t2; 
delimiter ;;
create procedure insert_t2()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=100)do                 
    insert into t2(a,b) values(i,i);  
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_t2();

案例sql: explain select * from t1 inner join t2 on t1.a= t2.a;

Mysql之sql优化实战_第18张图片

4.3.2.1 NLJ详细过程

1. 从表 t2 中读取一行数据(如果t2表有查询过滤条件的,会从过滤结果里取出一行数据);
2. 从第 1 步的数据中,取出关联字段 a,到表 t1 中查找;
3. 取出表 t1 中满足条件的行,跟 t2 中获取到的结果合并,作为结果返回给客户端;
4. 重复上面 3 步骤;

4.3.2.2BNL详细过程

1. 把 t2 的所有数据放入到 join_buffer 中;
2. 把表 t1 中每一行取出来,跟 join_buffer 中的数据做对比;
3. 返回满足 join 条件的数据;

4.4 小表

        mysql关于关联查询的sql,在决定哪个表做驱动表的时候,两个表按照各自的条件过滤,过滤完成之后,计算参与 join 的各个字段的总数据 量,数据量小的那个表,就是“小表”应该作为驱动表。

4.5 驱动表与被驱动表

  • 优化器一般会优先选择小表做驱动表。所以使用 inner join 时,排在前面的表并不一定就是驱动表。
  • 当使用join时,mysql会选择数据量比较小的表作为驱动表,大表作为被驱动表。
  • 当使用left join时,左表是驱动表,右表是被驱动表。
  • 当使用right join时,右表时驱动表,左表是被驱动表。

4.6 索引基数

        索引基数是指这个字段在表里总共有多少个不同的值。比如一张表总共100万行记录,其中有个性别字段, 其值不是男就是女,那么该字段的基数就是2。

你可能感兴趣的:(Mysql,mysql,数据库)