「分布式技术专题」SQL优化的前置条件和优化技巧分享

SQL优化是数据库优化的一部分,数据库优化又是系统优化的一部分。本篇着重讲解SQL优化的一些技巧,另外,硬件基础、业务类型、存储结构也是影响SQL执行效率的重要因素,是SQL优化的前置条件


一、SQL优化的前置条件

1、硬件基础

数据库是操作系统之上的一种数据管理软件,其SQL最终的执行还是需要在硬件层面执行,所以硬件条件如CPU核数、内存大小、磁盘转速、网络带宽等是保障数据库的SQL脚本能快速运行的基础。


2、业务类型判断

• 了解业务是读多写少还是读写均衡,判断是偏OLAP还是OLTP业务

• 根据表的使用方式判断其数据分布和形态

- 事实表 含有大量的事实数据,包含描述业务的特定事件的数据,如商品交易情况表。

- 维度表 用户来分析数据,会在某一维度汇总事实数据表数据。

- 流水表 存放的是一个用户的变更记录,用于记录业务轨迹。 比如在一张流水表中,一天的数据中,会存放一个用户的每条修改记录。

- 宽表 汇总多个维度或指标,例如计算用户画像指标的结果表。

- 全量表 只记录所有数据的最新状态。

- 增量表 按天分区,每一天会存放当天所产生的增量数据。

- 快照表 按天分区,每一天的数据都是截止到那一天的全量数据。

- 切片表 根据基础表,往往只反映某一个维度的相应数据。 其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据。

- 拉链表 数据仓库中经常用到,所谓拉链,就是记录历史。 使用区间段记录数据,表中有一个数据的起始时间和结束时间,记录数据的有效区间。 相比每天分区,既能查看历史,又很节省空间。

- 字典表 在系统中充当基础参数的角色。比如机构代码表、商品种类表。

- 码表 类似于数据字典。

- 临时表 在业务计算中,保留中间的计算结果,使用完成后会删除或清空。

在SQL优化中,了解业务类型和数据的分布情况是一个重要的前提,如果只基于SQL规则去优化无异于盲人摸象。


3、存储结构设计

数据的存储结构和数据查询的效率是密切相关的。

分区分桶

在传统的关系型数据库中,分库分表是数据体量较大时一种常用的解决方式。

在分布式数据库中,集群节点可以线性扩展,分区分桶即可实现数据按某一维度分散存储。

行存 vs 列存

对于OLAP的统计分析型的业务,列存是优先的存储格式; 对于OLTP的事务及高并发业务,行存则占据优势。

压缩

无论列存还是行存,如果数据存储时能够压缩,则可节省大量的存储空间,进行SQL查询时,也可大大减少IO,加快查询速度。

4、索引设计

本质上来说,索引是一种空间换时间的策略,通过索引减少全表扫描,能大大降低IO,提高查询速度。但同时也会牺牲一定的更新速度。

索引分类

逻辑上:

• 单列索引

• 多列索引

• 唯一索引

• 非唯一索引

• 函数索引

物理上:

• 分区索引

• 非分区索引

• B树

• 位图索引

• 哈希索引

索引的代价

• 空间上的代价

  每建立一个索引都要为它建立一个数据页

• 时间上的代价

  增删改查都要对索引同步操作

索引设计原则

• 为查询频率高的字段创建索引

• 为经常需要排序、分组和联合操作的字段建立索引

• 选择区分度高的列作为索引

  例如电话、身份证号码基本唯一,适合做索引,但性别不适合做索引

• 使用数据类型占用空间小的字段做索引

  一般来说,数字类型、日期类型、char类型的字段适合做索引;字符串和BLOG等类型的字段不适合做索引。


二、SQL优化技巧

孙子兵法有云,“不战而屈人之兵,善之善者也。故上兵伐谋,其次伐交,其次伐兵,其下攻城。”

当业务模型和数据模型等都已设计完成,数据库即将入数或已经开始对外提供服务时,SQL优化能力就可以大显身手,为数据库高效运行保驾护航了。

优化法则 : 

• 通过索引减少磁盘IO

• 通过谓词下推减少网络传输

• 去除非必要排序操作减少CPU和内存开销

• 增加资源加速查询

数据存储类型

• 选择最精简的数据类型和存储格式,例如:

  长度固定的字符串字段使用char类型;日期类型优先使用timestamp

• 尽量把字段设置为 not null

索引优化

• 利用索引,可以避免大表全表扫描;但数据量不大时,全表扫描也可能更快

• 避免在索引列上使用函数

• 避免出现索引列隐式转换(数据类型转换)

• 支持索引的 where 操作: =、>、>=、< 、<= 、between、in

• 不支持索引的 where 操作: <> 、not in、表达式或函数计算、is null

• like 语句前 % 不支持索引

联合主键优化

• 多列索引选择合适的索引列顺序(最左原则)

• 联合主键中如果不是从最左列查询,则无法使用索引。

• 范围查询时,也只能用最左列进行范围查找。

• order by后字段如果和联合主键的顺序不同,则无法使用索引

• asc desc 混用,无法使用索引

select优化

• 只查询需要用到的列,而不是全字段

• 如果表多个列且没有主键,则 count(1) 执行效率优于 count(*)

• 如果有主键,则 select count(主键)的执行效率是最优的

order by 优化

可能会发生排序操作的SQL语法:

• Order by

• Group by

• Distinct

• Exists子查询

• Not Exists子查询

• In子查询

• Not In子查询

• Union(并集),Union All不会发生排序

• Minus(差集)

• Intersect(交集)

• Create Index

• Merge Join

优化思路:

• 减少使用不必要的ORDER BY排序

• 排序时,返回的列要尽量少

• 因为索引天然有序,所以尽量利用索引排序

• 避免使用耗费资源的操作,包括:DISTINCT,UNION,MINUS,INTERSECT,ORDER BY

• 使用group by代替distinct

• 对于范围查询,如果字段恰好是排序的,则查找和IO都会更快

join 优化

• 表聚合的本质是做笛卡尔积

• 有小表时使用广播

• 驱动表选择小表,驱动表量越大越会引起性能问题(大小表前后问题)

• 使用 join 代替子查询。子查询需要在内存中创建临时表。

• 使用 join 代替子连接。子连接会先查外表再匹配内表。

• 需要join的字段最好创建索引,且是相同的数据类型

• 尽量使用union all而不是union(有去重操作)

• join 尽量不要超过 2 张表

• 用UNION替换OR ,用UNION-ALL 替换UNION

子查询和子连接

• 出现在FROM关键字后的子句是子查询语句

 SELECT * FROM STUDENT, (SELECT * FROM SCORE) as sc;

• 出现在WHERE/ON等约束条件中或投影中的子句是子连接语句

 SELECT * FROM STUDENT WHERE EXISTS ( SELECT A FROM SCORE WHERE SCORE.sno = STUDENT.sno); 其中STUDENT叫外表,SCORE称内表。

where 条件优化

• 谓词下推,提前执行where谓词逻辑

• 用 in 替换 or

• 使用 between或exists 代替 in

• 用NOT EXISTS替代NOT IN

• 用Where子句替换HAVING子句

• 减少比较操作

on 与 where 的执行顺序以及效率

• on :与取得结果集同步进行数据刷选及过滤。

• where : 获得结果集之后,才进行数据刷选及过滤。

执行顺序:on在上游,where在中游,having在下游。

• left join 中on条件对左表无效,对右表有效;

• right join中on条件对右表无效,对左表有效;

• inner join时,结果与放在where条件中等价,但是on条件会先执行



以上为SQL优化的前置条件和优化技巧分享,「分布式技术专题」是国产数据库hubble团队精心整编,专题会持续更新,欢迎大家保持关注。

你可能感兴趣的:(「分布式技术专题」SQL优化的前置条件和优化技巧分享)