SQL之GROUP BY用法

概念

Group By语句从英文的字面意义上理解就是“根据(by)一定的规则进行分组(Group)”。 作用:通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。

语法

SELECT expression1, expression2,... expression_n,
aggregate_function (aggregate_expression)
FROM tables
[WHERE conditions]
GROUP BY expression1, expression2,... expression_n
[ORDER BY expression [ ASC | DESC ]];

语法说明

expression1,expression2,...expression_n 表达式未封装在聚合函数中,
必须包含在SQL语句末尾的GROUP BY子句中。
aggregate_function 这是一个聚合函数,例如SUM,COUNT,MIN,MAX或AVG函数。
aggregate_expression 这是将使用aggregate_function的列或表达式。
tables 您希望从中检索记录的表。FROM子句中必须至少列出一个表。
where 可选的。这些是要选择的记录必须满足的条件。
ORDER BY表达式 可选的。用于对结果集中的记录进行排序的表达式。如果提供了多个表达式,则值应以逗号分隔。
ASC 可选的。ASC按表达式按升序对结果集进行排序。如果没有修饰符是提供者,则这是默认行为。
DESC 可选的。DESC按表达式按降序对结果集进行排序。

使用group by的简单例子

有员工表staff

员工表staff

第一个例子:统计每个城市的员工数量。对应的 SQL 语句就可以这么写:

select city ,count(*) as num from staff group by city;

结果如下:

结果

该条语句实际就是先将所有数据分为若干不同城市的小块数据,再对小块数据计算count()。
第二个例子:统计每个城市的员工的平均年龄。对应的 SQL 语句就可以这么写:

select city ,AVG(age) as avg_age from staff group by city;

结果如下:


结果

该条语句实际就是先将所有数据分为若干不同城市的小块数据,再对小块数据计算avg()。

常用聚合函数

count() 计数
sum() 求和
avg() 平均数
max() 最大值
min() 最小值

第三个例子:统计每个城市年龄大于30的员工数量。对应的 SQL 语句就可以这么写:group by + where语句

select city ,count(*) as num from staff where age>30 group by city;

结果如下:

结果

第四个例子:统计员工数量不低于3的城市。对应的 SQL 语句就可以这么写:group by + having语句

select city ,count(*) as num from staff group by city HAVING count(*) >= 3;

结果如下:

结果

第五个例子:统计员工年龄大于30,且数量不低于2的城市。对应的 SQL 语句就可以这么写:group by + where + having语句

select city ,count(*) as num from staff where age>30 group by city HAVING count(*) >= 2;
结果

where与having

区别

having子句用于分组后筛选,where子句用于行条件筛选
having一般都是配合group by 和聚合函数一起出现如(count(),sum(),avg(),max(),min())
where条件子句中不能使用聚集函数,而having子句就可以。
having只能用在group by之后,where执行在group by之前

where、group by 、having的执行顺序

在第五个SQL中,它的执行顺序如下:

select city ,count(*) as num from staff where age>30 group by city HAVING count(*) >= 2;
# 1.执行where子句查找年龄大于30的员工数据
# 2.group by子句对where子句处理后的员工数据,根据城市分组
# 3.对group by子句形成的城市组,进行count()计算每个城市的员工数量
# 4.通过having子句筛选员工数量大于等于3的城市组

group by导致的慢SQL问题

group by使用不当,很容易就会产生慢SQL 问题。因为它既用到临时表,又默认用到排序。有时候还可能用到磁盘临时表。

待补充

参考资料:
1.https://blog.csdn.net/SharingOfficer/article/details/122559861
2.https://zhuanlan.zhihu.com/p/61777129

你可能感兴趣的:(SQL之GROUP BY用法)