MySql优化一

示例表

CREATE TABLE `employees` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(24) NOT NULL DEFAULT '' COMMENT '姓名',
  `age` int(11) NOT NULL DEFAULT '0' COMMENT '年龄',
  `position` varchar(20) NOT NULL DEFAULT '' COMMENT '职位',
  `hire_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '入职时间',
  PRIMARY KEY (`id`),
  KEY `idx_name_age_position` (`name`,`age`,`position`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='员工记录表';

INSERT INTO employees(name,age,position,hire_time) VALUES('LiLei',22,'manager',NOW());
INSERT INTO employees(name,age,position,hire_time) VALUES('HanMeimei', 23,'dev',NOW());
INSERT INTO employees(name,age,position,hire_time) VALUES('Lucy',23,'dev',NOW());

-- 插入一些示例数据
drop procedure if exists insert_emp; 
delimiter ;;
create procedure insert_emp()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=100000)do                 
    insert into employees(name,age,position) values(CONCAT('zhuge',i),i,'dev');  
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_emp();

先说结论

  • 1,联合索引第一个字段使用范围查询不会走索引
  • 2,强制走索引
  • 3,覆盖索引优化
  • 4,in和or在表数据量较大的时候会走索引,在数据量较小的时候会进行全表扫描
  • 5,like KK% 一般情况下会走索引

MySql如何选择和事的索引

	没有使用覆盖索引
	mysql> EXPLAIN select * from employees where name > 'a';
	使用索引
	mysql> EXPLAIN select name,age,position from employees where name > 'a' ;
如果查询的字段索引需要遍历整个字段联合索引书,然后还需要根据遍历出来的主键去主键索引书去查询最终数据,成本比扫描整个表还高,那么就会走全表扫描,explain中的type类型就是ALL标志全表扫描,如果不想MySql进行全表扫描那么可以进行覆盖索引,将查询的字段改为索引的字段.explain中的type类型为range,
都是在查询一个name, >a的没有走索引, >zzz的走了索引
mysql> EXPLAIN select name,age,position from employees where name > 'a' ;
mysql> EXPLAIN select * from employees where name > 'zzz' ;

//MySql内部优化器计算之后,人为>a的返回结果集过大,计算出来cost`索引使用成本过高,就不会走索引,但是zzz的索引使用情况成本较低,所以走了索引
mysql> set session optimizer_trace="enabled=on",end_markers_in_json=on;  --开启trace
mysql> select * from employees where name > 'a' order by position;
mysql> SELECT * FROM information_schema.OPTIMIZER_TRACE;

查看trace字段:
{
  "steps": [
    {
      "join_preparation": {    --第一阶段:SQL准备阶段,格式化sql
        "select#": 1,
        "steps": [
          {
            "expanded_query": "/* select#1 */ select `employees`.`id` AS `id`,`employees`.`name` AS `name`,`employees`.`age` AS `age`,`employees`.`position` AS `position`,`employees`.`hire_time` AS `hire_time` from `employees` where (`employees`.`name` > 'a') order by `employees`.`position`"
          }
        ] /* steps */
      } /* join_preparation */
    },
    {
      "join_optimization": {    --第二阶段:SQL优化阶段
        "select#": 1,
        "steps": [
          {
            "condition_processing": {    --条件处理
              "condition": "WHERE",
              "original_condition": "(`employees`.`name` > 'a')",
              "steps": [
                {
                  "transformation": "equality_propagation",
                  "resulting_condition": "(`employees`.`name` > 'a')"
                },
                {
                  "transformation": "constant_propagation",
                  "resulting_condition": "(`employees`.`name` > 'a')"
                },
                {
                  "transformation": "trivial_condition_removal",
                  "resulting_condition": "(`employees`.`name` > 'a')"
                }
              ] /* steps */
            } /* condition_processing */
          },
          {
            "substitute_generated_columns": {
            } /* substitute_generated_columns */
          },
          {
            "table_dependencies": [    --表依赖详情
              {
                "table": "`employees`",
                "row_may_be_null": false,
                "map_bit": 0,
                "depends_on_map_bits": [
                ] /* depends_on_map_bits */
              }
            ] /* table_dependencies */
          },
          {
            "ref_optimizer_key_uses": [
            ] /* ref_optimizer_key_uses */
          },
          {
            "rows_estimation": [    --预估表的访问成本
              {
                "table": "`employees`",
                "range_analysis": {
                  "table_scan": {     --全表扫描情况
                    "rows": 10123,    --扫描行数
                    "cost": 2054.7    --查询成本
                  } /* table_scan */,
                  "potential_range_indexes": [    --查询可能使用的索引
                    {
                      "index": "PRIMARY",    --主键索引
                      "usable": false,
                      "cause": "not_applicable"
                    },
                    {
                      "index": "idx_name_age_position",    --辅助索引
                      "usable": true,
                      "key_parts": [
                        "name",
                        "age",
                        "position",
                        "id"
                      ] /* key_parts */
                    }
                  ] /* potential_range_indexes */,
                  "setup_range_conditions": [
                  ] /* setup_range_conditions */,
                  "group_index_range": {
                    "chosen": false,
                    "cause": "not_group_by_or_distinct"
                  } /* group_index_range */,
                  "analyzing_range_alternatives": {    --分析各个索引使用成本
                    "range_scan_alternatives": [
                      {
                        "index": "idx_name_age_position",
                        "ranges": [
                          "a < name"      --索引使用范围
                        ] /* ranges */,
                        "index_dives_for_eq_ranges": true,
                        "rowid_ordered": false,    --使用该索引获取的记录是否按照主键排序
                        "using_mrr": false,
                        "index_only": false,       --是否使用覆盖索引
                        "rows": 5061,              --索引扫描行数
                        "cost": 6074.2,            --索引使用成本
                        "chosen": false,           --是否选择该索引
                        "cause": "cost"
                      }
                    ] /* range_scan_alternatives */,
                    "analyzing_roworder_intersect": {
                      "usable": false,
                      "cause": "too_few_roworder_scans"
                    } /* analyzing_roworder_intersect */
                  } /* analyzing_range_alternatives */
                } /* range_analysis */
              }
            ] /* rows_estimation */
          },
          {
            "considered_execution_plans": [
              {
                "plan_prefix": [
                ] /* plan_prefix */,
                "table": "`employees`",
                "best_access_path": {    --最优访问路径
                  "considered_access_paths": [   --最终选择的访问路径
                    {
                      "rows_to_scan": 10123,
                      "access_type": "scan",     --访问类型:为scan,全表扫描
                      "resulting_rows": 10123,
                      "cost": 2052.6,
                      "chosen": true,            --确定选择
                      "use_tmp_table": true
                    }
                  ] /* considered_access_paths */
                } /* best_access_path */,
                "condition_filtering_pct": 100,
                "rows_for_plan": 10123,
                "cost_for_plan": 2052.6,
                "sort_cost": 10123,
                "new_cost_for_plan": 12176,
                "chosen": true
              }
            ] /* considered_execution_plans */
          },
          {
            "attaching_conditions_to_tables": {
              "original_condition": "(`employees`.`name` > 'a')",
              "attached_conditions_computation": [
              ] /* attached_conditions_computation */,
              "attached_conditions_summary": [
                {
                  "table": "`employees`",
                  "attached": "(`employees`.`name` > 'a')"
                }
              ] /* attached_conditions_summary */
            } /* attaching_conditions_to_tables */
          },
          {
            "clause_processing": {
              "clause": "ORDER BY",
              "original_clause": "`employees`.`position`",
              "items": [
                {
                  "item": "`employees`.`position`"
                }
              ] /* items */,
              "resulting_clause_is_simple": true,
              "resulting_clause": "`employees`.`position`"
            } /* clause_processing */
          },
          {
            "reconsidering_access_paths_for_index_ordering": {
              "clause": "ORDER BY",
              "steps": [
              ] /* steps */,
              "index_order_summary": {
                "table": "`employees`",
                "index_provides_order": false,
                "order_direction": "undefined",
                "index": "unknown",
                "plan_changed": false
              } /* index_order_summary */
            } /* reconsidering_access_paths_for_index_ordering */
          },
          {
            "refine_plan": [
              {
                "table": "`employees`"
              }
            ] /* refine_plan */
          }
        ] /* steps */
      } /* join_optimization */
    },
    {
      "join_execution": {    --第三阶段:SQL执行阶段
        "select#": 1,
        "steps": [
        ] /* steps */
      } /* join_execution */
    }
  ] /* steps */
}

结论:全表扫描的成本低于索引扫描,所以mysql最终选择全表扫描

mysql> select * from employees where name > 'zzz' order by position;
mysql> SELECT * FROM information_schema.OPTIMIZER_TRACE;

查看trace字段可知索引扫描的成本低于全表扫描,所以mysql最终选择索引扫描

mysql> set session optimizer_trace="enabled=off";    --关闭trace

常见sql深入优化

Order By和 Group By优化

在这里插入图片描述

  • 利用最左前缀法则,中间字段不能断,因此查询用到了name索引,从key_len=74可以看出,age字段也仔过程中使用到了,因为Extra字段里面没有using filesort
    在这里插入图片描述
  • 从结果分析来看:key_len=74,查询使用了name索引,但是extra中出现了using filesort,在执行的时候中间跳过了 age所以索引中断无法走索引,使用了文件排序

在这里插入图片描述

  • 使用到了所有的联合索引,可以看到extra中显示的是 using index condition
    在这里插入图片描述
  • 和上面explain的执行结果一样,但是出现了Using filesort,因为索引的创建顺序为name,age,position,但是排序的时候age和position颠倒位置了。

在这里插入图片描述

  • 这里的排序虽然age在后面,但是在排序之前已经使用了索引进行查询,在排序中被优化,所以索引没有颠倒,不会出现Using filesort

在这里插入图片描述

  • 查询方式一个升序一个降序,导致与索引的排序方式不同,是不能进行索引的

在这里插入图片描述

  • in类型的查询也是相当于范围查询,无法走索引

MySql优化一_第1张图片

  • 对于排序来说,多个相等条件也是范围查询
    MySql优化一_第2张图片
  • 使用强制索引

优化总结

  • MySql支持两种方式的排序,filesort和index,Using index是指Mysqk扫描索引本身完成的排序,index效率高,filesort效率低.
  • order by满足两种情况才会使用Using index
    - order by 语句使用索引最左前列
    - 使用where 子语句与order by子语句条件列组合满足索引最左前列
  • 尽量在所以列上完场排序,遵循索引建立(索引创建的顺序)时的最左前缀法则
  • 如果order by的条件不在索引列上,就会产生Using filesort
  • 能用覆盖索引就尽量使用覆盖索引
  • group by 与order by很类似,其实质是先排序后分组,遵照索引创建顺序的最左前缀法则,对于group by的优化如果不需要排序的可以加上order by null禁止排序,注意:where 高于having,能卸载where中的限定条件就不要去having限定了.

Using filesort文件排序原理详解

单路排序

单路排序指的是,在排序的过程中一次性取出列的所有信息,然后存储到sort buffer(排序缓冲区),然后对排序字段进行比较排序.排序完成之后直接返回所有信息

单路排序详细步骤
	1,从索引name找到第一个满足name="张三"条件的主键ID
	2,根据索引ID获取整行,取出所有字段的值,存入sort_buffer中
	3,重索引name找到下一个满足name = "张三"的条件的主键ID
	4,重复2,3步骤知道不满足name="张三"
	5,对sort_buffer中的数据按照字段进行排序
	6.返回结果给客户端
双路排序

双路排序指的是,在排序的时候,取出当前列的id和比较字段进入sort buffer(排序缓冲区),进行排序比较,排序完成之后,通过列的id到数据库中获取当前列的所有字段,在进行返回,多了一次回表操作.

	双路排序的具体步骤
	1,根据索引name找到第一个符合name="张三"的主键索引
	2,根基索引获取整行数据,将排序字段和主键ID两个字段放在sorrt_buffer中
	3,根据索引name取下一个符合name="张三"的主键ID
	4,重复2,3步骤,直到没有符合name="张三"5,对sort_buffer中的排序字段进行排序
	6,遍历排序好的字段和id,按照id回到原表中取出所有得到字段值
	7,返回结果给客户端
如何选择单路排序或者双路排序

单路排序会把所有的查询的字段都放在sort_buffer中,二双路排序只会把主键和需要排序的字段放在sort_buffer中,然后在通过主键回到原表中查询需要的字段

MySQL 通过比较系统变量 max_length_for_sort_data(默认1024字节) 的大小和需要查询的字段总大小来判断使用哪种排序模式。
如果 字段的总长度小于max_length_for_sort_data ,那么使用 单路排序模式;
如果 字段的总长度大于max_length_for_sort_data ,那么使用 双路排序模·式。

索引设计原则

  • 1,代码先行,索引后上,一般等待业务主体完成之后,把涉及到该表相关的sql都要拿出来分析之后在建立索引
  • 联合索引尽量覆盖条件,比如可以设计一个或者两三个联合索引(尽量少创建单值索引),让每一个联合索引都尽量去包含sql语句里的where,order by , group by的字段,还要确保这些联合索引的字段顺序,尽量满足sql查询的最左前缀法则
  • 不要再小基数字段上建立索引,索引基数是指这个字段在表里总共有多少个不同的值,比如一张表一共1000w行记录,其中一个性别字段,值不是男就是女,这个基数就是2,对这样的小基数字段创建索引的话,还不如进行全表扫描
  • 长字符串我们可以采用前缀索引,很多时候需要对varchar(255)这样的字段建立索引,哪怕多占用一点磁盘空间也是有必要的,但是可以稍微优化一下,比如针对这个字段的前20个字符建立索引,比如:类似于 KEY index(name(20),age,position)。此时在where中搜索的时候吗,如果是根据name字段进行搜索的时候,那么就会先到索引树中根据这个字段的钱20个字符去搜索,定位之后,匹配前20个字符之后,在回到聚簇索引中取提取全部的数据,进行比较.但是如果需要进行order by 和 group by 是无效的,因为索引之后前20个字符,没有包含全部的内容
  • where与order by冲突时优先where如果where和order by出现索引设计冲突的时候,优先处理where,因为大多数情况基于索引进行where筛选,往往可以最快筛选出需要的数据,然后排序的成本可能会小很多
  • 基于慢SQL查询进行优化

索引设计实战

以社交场景APP来举例,我们一般会去搜索一些好友,这里面就涉及到对用户信息的筛选,这里肯定就是对用户user表搜索了,这个表一般来说数据量会比较大,我们先不考虑分库分表的情况,比如,我们一般会筛选地区(省市),性别,年龄,身高,爱好之类的,有的APP可能用户还有评分,比如用户的受欢迎程度评分,我们可能还会根据评分来排序等等。
对于后台程序来说除了过滤用户的各种条件,还需要分页之类的处理,可能会生成类似sql语句执行:
select xx from user where xx=xx and xx=xx order by xx limit xx,xx
对于这种情况如何合理设计索引了,比如用户可能经常会根据省市优先筛选同城的用户,还有根据性别去筛选,那我们是否应该设计一个联合索引 (province,city,sex) 了?这些字段好像基数都不大,其实是应该的,因为这些字段查询太频繁了。
假设又有用户根据年龄范围去筛选了,比如 where province=xx and city=xx and age>=xx and age<=xx,我们尝试着把age字段加入联合索引 (province,city,sex,age),注意,一般这种范围查找的条件都要放在最后,之前讲过联合索引范围之后条件的是不能用索引的,但是对于当前这种情况依然用不到age这个索引字段,因为用户没有筛选sex字段,那怎么优化了?其实我们可以这么来优化下sql的写法:where province=xx and city=xx and sex in (‘female’,‘male’) and age>=xx and age<=xx
对于爱好之类的字段也可以类似sex字段处理,所以可以把爱好字段也加入索引 (province,city,sex,hobby,age)
假设可能还有一个筛选条件,比如要筛选最近一周登录过的用户,一般大家肯定希望跟活跃用户交友了,这样能尽快收到反馈,对应后台sql可能是这样:
where province=xx and city=xx and sex in (‘female’,‘male’) and age>=xx and age<=xx and latest_login_time>= xx
那我们是否能把 latest_login_time 字段也加入索引了?比如 (province,city,sex,hobby,age,latest_login_time) ,显然是不行的,那怎么来优化这种情况了?其实我们可以试着再设计一个字段is_login_in_latest_7_days,用户如果一周内有登录值就为1,否则为0,那么我们就可以把索引设计成 (province,city,sex,hobby,is_login_in_latest_7_days,age) 来满足上面那种场景了!
一般来说,通过这么一个多字段的索引是能够过滤掉绝大部分数据的,就保留小部分数据下来基于磁盘文件进行order by语句的排序,最后基于limit进行分页,那么一般性能还是比较高的。
不过有时可能用户会这么来查询,就查下受欢迎度较高的女性,比如sql:where sex = ‘female’ order by score limit xx,xx,那么上面那个索引是很难用上的,不能把太多的字段以及太多的值都用 in 语句拼接到sql里的,那怎么办了?其实我们可以再设计一个辅助的联合索引,比如 (sex,score),这样就能满足查询要求了。
以上就是给大家讲的一些索引设计的思路了,核心思想就是,尽量利用一两个复杂的多字段联合索引,抗下你80%以上的查询,然后用一两个辅助索引尽量抗下剩余的一些非典型查询,保证这种大数据量表的查询尽可能多的都能充分利用索引,这样就能保证你的查询速度和性能了!

MySql优化一_第3张图片

索引下推

索引下推指的是,在一个联合索引中,使用到了联合索引的多个索引字段,他在查询的时候,匹配到了第一个索引数据的时候,会再次匹配第二个索引字段,来进行匹配数据,只有都满足的时候才会加载数据,不满足条件就不加载,会减少回表次数.

EXPLAIN SELECT * FROM employees_copy WHERE name like 'LiLei%' AND age = 22 AND position ='manager';

这里给大家补充一个概念,
索引下推(Index Condition Pushdown,ICP), like KK%
其实就是用到了索引下推优化

什么是索引下推了?
对于辅助的联合索引(name,age,position),正常情况按照最左前缀原则,SELECT * FROM employees WHERE name like ‘LiLei%’ AND age = 22 AND position =‘manager’ 这种情况只会走name字段索引,因为根据name字段过滤完,得到的索引行里的age和position是无序的,无法很好的利用索引。
在MySQL5.6之前的版本,这个查询只能在联合索引里匹配到名字是 ‘LiLei’ 开头的索引,然后拿这些索引对应的主键逐个回表,到主键索引上找出相应的记录,再比对age和position这两个字段的值是否符合。
MySQL 5.6引入了索引下推优化,可以在索引遍历过程中,对索引中包含的所有字段先做判断,过滤掉不符合条件的记录之后再回表,可以有效的减少回表次数。使用了索引下推优化后,上面那个查询在联合索引里匹配到名字是 ‘LiLei’ 开头的索引之后,同时还会在索引里过滤age和position这两个字段,拿着过滤完剩下的索引对应的主键id再回表查整行数据。

索引下推会减少回表次数,对于innodb引擎的表索引下推只能用于二级索引,innodb的主键索引(聚簇索引)树叶子节点上保存的是全行数据,所以这个时候索引下推并不会起到减少查询全行数据的效果。

为什么范围查找Mysql没有用索引下推优化?
估计应该是Mysql认为范围查找过滤的结果集过大,like KK% 在绝大多数情况来看,过滤后的结果集比较小,所以这里Mysql选择给 like KK% 用了索引下推优化,当然这也不是绝对的,有时like KK% 也不一定就会走索引下推。

你可能感兴趣的:(mysql,数据库)