SQL的生命周期

[客户端]->[服务端]建立session
[客户端]发送sql
[服务端]解析并生成执行计划
[服务端]执行执行计划
[服务端]读取数据到内存并进行逻辑处理
[服务端]通过session发送结果
关闭连接

超大分页方案

sql层面

select * from table where id in (select id from table where age > 20 limit 1000000,10)

因索引覆盖虽load了1000000数据但查询速度与数据量可接受

需求层面

规避类似需求

只允许逐页查看或者按照给定的路线走,这样可预测,可缓存以及防止ID泄漏且连续被人恶意攻击.

慢查询日志

开启
show variables like ‘slov_query_log’
set GLOBAL slow_query_log = on
生成datadir/xxx-slow.log
临界时间
show VARIABLES like 'long_query_time' //单位秒
set long_query_time=0.5

InnoDB主键设计

因聚簇索引特性，必须指定主键
如果没有指定唯一键，会生成一个隐式的主键
ID最好趋势增长
不推荐UUID及其他类似无规律ID
大量的索引数据插入，数据移动，导致产生很多的内存碎片，进而造成插入性能的下降

优化查询语句的数据访问

明确指定返回的数据列
使用limit规避查询不需要的数据行
多表关联指定列名
应用内缓存数据规避重复查询相同的数据
存在扫描额外的记录
使用explain进行分析，如果发现查询需要扫描大量的数据，但只返回少数的
行，可以使用索引覆盖扫描，把所有的列都放到索引中，这样存储引擎不需要回表获取对应行就可以返回结果。
改变数据库和表的结构，修改数据表范式
重写SQL语句，让优化器可以以更优的方式执行查询。

优化复杂的查询语句

一个复杂查询可以尝试分解为多个简单查询
分解关联查询，让缓存的效率更高。
执行单个查询可以减少锁的竞争。
在应用层做关联更容易对数据库进行拆分。
较少冗余记录的查询。

优化特定类型的查询语句

统计行数使用count(*)更佳
增加汇总表
使用缓存
可以考虑使用explain查询近似值，用近似值替代count(*)
UNION ALL的效率高于UNION

优化关联查询及子查询

确定ON或者USING子句中是否有索引。
确保GROUP BY和ORDER BY只有一个表中的列，这样MySQL才有可能使用索引。
关联查询中使用标识列分组的效率更高
用关联查询替代子查询
子查询如果不需要ORDER BY，进行GROUP BY时加ORDER BY NULL，MySQL不会再进行文件排序。

优化WHERE子句避免全表扫描

首先应考虑在 where 及 order by 涉及的列上建立索引。
避免在 where 子句中对字段进行 null 值判断
避免在 where 子句中使用!=或<>操作符或not in
模糊查询使用左前缀匹配
避免在 where 子句中对字段进行表达式或函数操作

select id from t where num/2=100‐‐应改为:select id from t where  num=100*2
select id from t where substring(name,1,3)=’abc’‐‐name以abc开头的id应改为: select id from t where name like ‘abc%’

数据库优化目标

减少系统瓶颈，减少资源占用，增加系统的反应速度。

数据库结构优化

大表拆小表
对于字段较多的表，如果有些字段的使用频率很低，可以将这些字段分离出来形成新表。
增加中间表
对于需要经常联合查询的表，可以建立中间表以提高查询效率。
将需要通过联合查询的数据插入到中间表中，然后将原来的联合查询改为对中间表的查询。
增加冗余字段
合理的加入冗余字段可以减少关联查询提高查询速度
注意：冗余字段的值在一个表中修改了，就要想办法在其他表中更新，否则就会导致数据不一致的问题。

近千万数据单表优化

严格限定数据的查询范围
读/写分离
应用级别热点数据缓存
分库分表

分库分表

垂直拆分

把一张列比较多的表拆分为多张表
优点：
可以使得行数据变小，在查询时减少读取的Block数，减少 I/O次数。此外，垂直分区可以简化表的结构，易于维护
缺点：
主键会出现冗余，可能需要关联查询

水平拆分

拆分原因：
单表树高超过3层时（行数约超过200万行时），查询效率就会变慢

摘自 https://mp.weixin.qq.com/s/BWlkrHiB-uP6fDnsxtKU0Q
B+ 树的存放总记录数 = [根节点指针数 ^ (树高 - 1)] *单个叶子节点记录行数。
例：ID为bigint,数据行 1K 左右的数据
根节点指针数 = innodb_page_size< 16384 > / (bigint<8> + 指针<6>) = 1170
单个叶子节点记录行数 = 16K/1K=16
高度2可存数据 = 1170 * 16 = 18720
高度3可存数据 = 1170 ^ 2 * 16 = 21902400

拆分原理：
保持数据表结构不变，通过某种策略存储数据分片。这样每一片数据分散到不同的表或者库中，达到了分布式的目的。水平拆分可以支撑非常大的数据量。

适用场景:

表中的数据本身就有独立性，例如表中分表记录各个地区的数据或者不同时期的数据，特别是有些数据常用，有些不常用。
需要把数据存放在多个介质上。

缺点:

给应用增加复杂度，通常查询时需要多个表名，查询所有数据都需UNION操作
在许多数据库应用中，这种复杂度会超过它带来的优点，查询时会增加读一个索引层的磁盘次数
会带来逻辑、部署、运维的各种复杂度
分片事务难以解决，跨界点Join性能较差，逻辑复杂

常见方案:

客户端代理:分片逻辑在应用端，封装在jar包中，通过修改或者封装JDBC层来实现。 Apache ShardingSphere 、TDDL是两种比较常用的实现。
中间件代理:在应用和数据中间加了一个代理层。分片逻辑统一维护在中间件服务中。 Mycat、Atlas、Apache ShardingSphere、DDB

分库分表后面临的问题

分布式事务
如果由应用程序去协助控制，形成程序逻辑上的事务，又会造成编程方面的负担。
跨库join
在第一次查询的结果集中找出关联数据的id,根据这些id发起第二次请求得到关联数据。
跨节点的count,order by,group by以及聚合函数问题
分别在各个节点上得到结果后在应用程序端进行合并
数据迁移，容量规划，扩容等问题
生成ID问题；改用Snowflake生成ID
跨分片的排序分页
需要在不同的分片节点中将数据进行排序并返回，并将不同分片返回的结果集进行汇总和再次排序，最后再返回给用户

MySQL笔记（三）