MySQL大数据量查询方法及优化

看了一些关于MySQL查询的优化方法，发现MySQL的优化最离不开的就是索引，还有其他优化的小建议。

查询方法：

直接使用数据库提供的SQL语句
语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N
适应场景: 适用于数据量较少的情况(元组百/千级)
原因/缺点: 全表扫描,速度会很慢且有的数据库结果集返回不稳定(如某次返回1,2,3,另外的一次返回2,1,3). Limit限制的是从结果集的M位置处取出N条输出,其余抛弃.
建立主键或唯一索引, 利用索引(假设每页10条)
语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 WHERE id_pk > (pageNum*10) LIMIT M
适应场景: 适用于数据量多的情况(元组数上万)
原因: 索引扫描,速度会很快. 有朋友提出: 因为数据查询出来并不是按照pk_id排序的，所以会有漏掉数据的情况，只能方法3.
基于索引再排序
语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 WHERE id_pk > (pageNum*10) ORDER BY id_pk ASC LIMIT M
适应场景: 适用于数据量多的情况(元组数上万). 最好ORDER BY后的列对象是主键或唯一所以,使得ORDERBY操作能利用索引被消除但结果集是稳定的(稳定的含义,参见方法1)
原因: 索引扫描,速度会很快. 但MySQL的排序操作,只有ASC没有DESC(DESC是假的,未来会做真正的DESC,期待...).
基于索引使用prepare（第一个问号表示pageNum，第二个？表示每页元组数）
语句样式: MySQL中,可用如下方法: PREPARE stmt_name FROM SELECT * FROM 表名称 WHERE id_pk > (？* ？) ORDER BY id_pk ASC LIMIT M
适应场景: 大数据量
原因: 索引扫描,速度会很快. prepare语句又比一般的查询语句快一点。
利用MySQL支持ORDER操作可以利用索引快速定位部分元组,避免全表扫描
比如: 读第1000到1019行元组(pk是主键/唯一键).
SELECT * FROM your_table WHERE pk>=1000 ORDER BY pk ASC LIMIT 0,20
利用"子查询/连接+索引"快速定位元组的位置,然后再读取元组. 道理同方法5
如(id是主键/唯一键,蓝色字体时变量):

利用子查询示例:
SELECT * FROM your_table WHERE id <=
(SELECT id FROM your_table ORDER BY id desc LIMIT ($page-1)*$pagesize ORDER BY id desc LIMIT $pagesize
利用连接示例:
SELECT * FROM your_table AS t1
JOIN (SELECT id FROM your_table ORDER BY id desc LIMIT ($page-1)*$pagesize AS t2
WHERE t1.id <= t2.id ORDER BY t1.id desc LIMIT $pagesize;

当元祖数量高达百万级时，用复合索引：
两个或更多个列上的索引被称作复合索引。
联合索引又叫复合索引。对于复合索引：Mysql从左到右的使用索引中的字段，一个查询可以只使用索引中的一部份，但只能是最左侧部分。例如索引是key index （a,b,c）。可以支持a | a,b| a,b,c 3种组合进行查找，但不支持 b,c进行查找 .当最左侧字段是常量引用时，索引就十分有效。

以上查询方法的测试实验：http://www.cnblogs.com/geningchao/p/6649907.html

索引的优缺点：

一、为什么要创建索引呢（优点）？
创建索引可以大大提高系统的性能。
第一，通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。
第二，可以大大加快数据的检索速度，这也是创建索引的最主要的原因。
第三，可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。
第四，在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。
第五，通过使用索引，可以在查询的过程中，使用优化隐藏器，提高系统的性能。

二、建立方向索引的不利因素（缺点）
第一，创建索引和维护索引要耗费时间，这种时间随着数据量的增加而增加。
第二，索引需要占物理空间，除了数据表占数据空间之外，每一个索引还要占一定的物理空间，如果要建立聚簇索引，那么需要的空间就会更大。
第三，当对表中的数据进行增加、删除和修改的时候，索引也要动态的维护，这样就降低了数据的维护速度。

可以看出，虽然索引的有点有很多，但是索引的数量并不是越多越好。

优化SQL语句查询的方法：

1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。
2.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。
3.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：
select id from t where num is null 。
4.应尽量避免在 where 子句中使用 or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如：
select id from t where num=10 or num=20
可以这样查询：
select id from t where num=10
union all
select id from t where num=20
5.对索引列进行like操作时，不能将%放在前面,如：
select id from t where name like '%abc%'
6.in 和 not in 也要慎用，否则会导致全表扫描，如：
select id from t where num in(1,2,3)
对于连续的数值，能用 between 就不要用 in 了：
select id from t where num between 1 and 3
7.用查询缓存优化查询.
8.当只要一行数据时用Limit 1.
9.在Join表时使用相同类型的列，并且将两列索引。
10.千万不要使用Order By Rand()。
11.需要什么取什么，避免select*。
12.为每张表都设置一个ID（主键最好int型，推荐使用unsigned，并设置自增）。
13.使用ENUM，不用VARCHAR。
14.固定长度的表会更快，但是要为每个字段预留需要的空间，方便维护。
15.字段尽可能使用NOT NULL。
16.如果表字段太多，可以选择垂直分割，把不常用的字段放在另一个表里。
17.拆分数据量大的Delete和insert语句。
18.避免频繁创建和删除临时表，以减少系统表资源的消耗。
19.如果使用到了临时表，在存储过程的最后务必将所有的临时表显式删除，先 truncate table ，然后 drop table ，这样可以避免系统表的较长时间锁定。
20.尽量避免使用游标，因为游标的效率较差，如果游标操作的数据超过1万行，那么就应该考虑改写。

参考文章：
浅谈MySQL中优化sql语句查询常用的30种方法 http://www.jb51.net/article/39221.htm
MySQL大数据量分页查询方法及其优化 http://www.cnblogs.com/geningchao/p/6649907.html

MySQL大数据量查询方法及优化

看了一些关于MySQL查询的优化方法，发现MySQL的优化最离不开的就是索引，还有其他优化的小建议。

查询方法：

索引的优缺点：

优化SQL语句查询的方法：

你可能感兴趣的:(MySQL大数据量查询方法及优化)