sql层面完成 group by 千万级数据性能调优

为什么80%的码农都做不了架构师?>>>   hot3.png

 group by 千万级数据性能调优

1. 如果GROUP BY 的列没有索引,产生临时表. 
  2. 如果GROUP BY时,SELECT的列不止GROUP BY列一个,并且GROUP BY的列不是主键 ,产生临时表. 
  3. 如果GROUP BY的列有索引,ORDER BY的列没索引.产生临时表. 
  4. 如果GROUP BY的列和ORDER BY的列不一样,即使都有索引也会产生临时表. 
  5. 如果GROUP BY或ORDER BY的列不是来自JOIN语句第一个表.会产生临时表. 
  6. 如果DISTINCT 和 ORDER BY的列没有索引,产生临时表.

由于一直产生临时表,所以索引方式不可取
接下来分析mysql的执行顺序:
内联表查询一般的执行过程是:
1、执行FROM语句 
2、执行ON过滤 
3、添加外部行 
4、执行where条件过滤
5、执行group by分组语句 
6、执行having 
7、select列表 
8、执行distinct去重复数据 
9、执行order by字句 
10、执行limit字句

Mysql 是先执行内联表然后再进行条件查询的最后再分组,一旦先内联之后,数据就变的异常复杂。所以可以尝试一下提前进行分组和条件查询,实现方法就是子查询联合内联查询。 
下面三个图区别:千万级别数据时后两者速度是前者的1000倍。

SELECT
    a.no,
    SUM(a.aa) total,
    b.bb
FROM
A a 
INNER JOIN 
B b 
ON a.no=b.no
GROUP BY a.no


优化SQL一:
SELECT
    a.no,
    a.total,
    b.bb
FROM 
(SELECT no,SUM(aa)  total FROM A GROUP BY no) a 
INNER JOIN 
B b 
ON a.no=b.no

优化SQL二:
SELECT
a.no,
a.total,
b.bb
FROM 
B b, 
(SELECT no,SUM(aa) total FROM A GROUP BY no) A a
WHERE 
a.no=b.no

转载于:https://my.oschina.net/liaodo/blog/2987844

你可能感兴趣的:(sql层面完成 group by 千万级数据性能调优)