SQL需求:
假设有一个用户表,我们想根据用户的部门(
depart_no
)进行分组,找出每个组织中的任意一人。
在 PostgreSQL 中,如果要实现上面这个需求,假设存在唯一主键(id
),可能会有人想到用下面这种方式来查询:
select * from t_user_info
where id in (select min(id) from t_user_info group by depart_no);
首先,如果使用上面这个 SQL 会导致 t_user_info 表查询两遍,效率不高。
其次,如果条件变一下,想找出每个部门(depart_no
)中年龄(age
)最小的人,这样的话像上面使用单个子查询方式就无法实现了,因为每个部门中的最小年龄有可能是重复的。除非使用两个子查询:
select * from t_user_info
where id in (
select min(t1.id) from t_user_info t1
(select depart_no, min(age) age from t_user_info group by depart_no) t2
where t1.depart_no = t2.depart_no and t1.age = t2.age
group by t1.depart_no);
这样虽然实现了,但是有一个前提条件是:表中必须存在唯一主键,而且 三个子查询导致 SQL 的可维护性和效率进一步降低了。在生产环境上,我们 严令禁止这种难以维护的 SQL 出现在我们的代码中!
这时候,就到了我们的主角 distinct on
上场了。
distinct on
:是 PostgreSQL 中一种独特的 SQL 语法,用于在一组重复的记录中选取每个分组的第一条记录。不同于普通的 distinct
关键字,distinct on
允许指定某些列用于区分唯一性,并且可以控制每个分组返回表中存在的任意字段,不同于 group by
关键字,并 不局限于只能查询、排序用于分组的字段。
注意: 排序的话,必须要包含用于分组的字段,比如:分组字段是 depart_no,排序可以是 order by depart_no, age,也可以是 order by age, depart_no,但是必须要包含 depart_no。
基本语法如下:
select distinct on (column1, column2, ...) expression1, expression2
from table_name
[where conditions]
[order by column1, column2, ...];
column1, column2, ...
:这是用于区分唯一性的字段列表,distinct on
会根据这些列找出各组的第一行。expression1, expression2, ...
:这是你想要查询的字段或者表达式,这些数据来自根据 distinct on
中的字段去重后所对应的每组数据的第一行。table_name
:要查询的表名。[where conditions]
:可选的筛选条件,用于进一步过滤数据。[order by column1, column2, ...]
:可选的排序条件,包含但不局限于分组的字段。distinct on
的关键在于需要有一个明确的排序,因为 distinct on
返回的是每个分组中按照 order by
排序后的第一条记录。现在,我们再用 distinct on 来重新实现一遍我们的需求:(假设有一个用户表,我们想根据用户的部门(depart_no
)进行分组,找出每个组织中的任意一人。)
select distinct on (depart_no) * from t_user_info;
一个 SQL 直接解决!不需要任何子查询,也不需要唯一主键。
我们再来看下问题的升级版:(想找出每个部门(depart_no
)中年龄(age
)最小的人)
select distinct on (depart_no) * from t_user_info order by depart_no, age;
同样非常简单,非常优雅,这么方便的 distinct on
你学会了吗?
整理完毕,完结撒花~
参考地址:
1.pgsql中distinct on的用法,https://blog.csdn.net/qq_24702263/article/details/105311212