题目
表 Submissions 结构如下:
+---------------+----------+
| 列名 | 类型 |
+---------------+----------+
| sub_id | int |
| parent_id | int |
+---------------+----------+
上表没有主键, 所以可能会出现重复的行。
每行可以是一个帖子或对该帖子的评论。
如果是帖子的话,parent_id 就是 null。
对于评论来说,parent_id 就是表中对应帖子的 sub_id。
编写 SQL 语句以查找每个帖子的评论数。
结果表应包含帖子的 post_id 和对应的评论数 number_of_comments 并且按 post_id 升序排列。
Submissions 可能包含重复的评论。您应该计算每个帖子的唯一评论数。
Submissions 可能包含重复的帖子。您应该将它们视为一个帖子。
查询结果格式如下例所示:
Submissions table:
+---------+------------+
| sub_id | parent_id |
+---------+------------+
| 1 | Null |
| 2 | Null |
| 1 | Null |
| 12 | Null |
| 3 | 1 |
| 5 | 2 |
| 3 | 1 |
| 4 | 1 |
| 9 | 1 |
| 10 | 2 |
| 6 | 7 |
+---------+------------+
结果表:
+---------+--------------------+
| post_id | number_of_comments |
+---------+--------------------+
| 1 | 3 |
| 2 | 2 |
| 12 | 0 |
+---------+--------------------+
表中 ID 为 1 的帖子有 ID 为 3、4 和 9 的三个评论。表中 ID 为 3 的评论重复出现了,所以我们只对它进行了一次计数。
表中 ID 为 2 的帖子有 ID 为 5 和 10 的两个评论。
ID 为 12 的帖子在表中没有评论。
表中 ID 为 6 的评论是对 ID 为 7 的已删除帖子的评论,因此我们将其忽略。
生成数据
CREATE TABLE Submissions(
sub_id INT,
parent_id INT);
INSERT INTO Submissions VALUE(1, NULL),(2, NULL),(1, NULL),(12, NULL),(3, 1),
(5, 2),(3, 1),(4, 1),
(9, 1),(10, 2),(6, 7);
解答
先查找帖子的id
SELECT DISTINCT S.`sub_id`
FROM Submissions AS S
WHERE S.`parent_id` IS NULL;
把这些帖子对应的评论选出
SELECT *
FROM Submissions AS SS
WHERE SS.`parent_id` IS NOT NULL AND SS.`parent_id` IN (SELECT DISTINCT S.`sub_id`
FROM Submissions AS S
WHERE S.`parent_id` IS NULL);
对p_id进行分组 统计去重数量
SELECT SS.`parent_id`, COUNT(DISTINCT SS.`sub_id`) AS number_of_comments
FROM Submissions AS SS
WHERE SS.`parent_id` IS NOT NULL AND SS.`parent_id` IN (SELECT DISTINCT S.`sub_id`
FROM Submissions AS S
WHERE S.`parent_id` IS NULL)
GROUP BY SS.`parent_id`;
0个评论的没选出来 可能用作连接好一些
SELECT A.sub_id, COUNT(DISTINCT SS.`sub_id`) AS number_of_comments
FROM (SELECT DISTINCT S.`sub_id`
FROM Submissions AS S
WHERE S.`parent_id` IS NULL) AS A
LEFT JOIN Submissions AS SS
ON SS.`parent_id` = A.sub_id
GROUP BY A.sub_id;