[Mysql] 聚集函数:NULL是否包含在内(包括count(1)和count(*)的比较)

本篇博客主要整理并亲自验证一下count(*), count(1)和count(column-name)的区别,本部的内容主要参考stackoverflow,除此之外,对聚集函数中是否包含NULL值进行了验证。

本文所有测试数据基于macOS10.14.3,mysql5.7.25。

一、数据

本文主要使用2张数据表,分别是user和product表,其中,user表的“name”和“product_id”字段是varchar类型,“id”和“record”是int类型;product表的“id”是varchar类型,“price”是double类型。两个表都没有设置主键和外键。
其数据如下:
①user表

name id record product_id
A 1 10 id1
A 2 5 id2
A 3 1 id2
B 6 NULL id4
B NULL 1 id3
NULL 4 NULL id3
NULL 5 2 NULL
NULL NULL NULL NULL

②product表

id price
id1 25.00
id2 75.00
id3 100.00

注意:上表中的NULL不是字符串NULL,而是表示mysql中的填充符NULL。

二、sql语句

1、count(column-name)

count(column-name): 统计column-name所在列non-NULL的记录数;重复的非NULL元素多次计数。
count(distince(column-name)): 统计column-name所在列non-NULL的记录,且去重,也就是重复的non-NULL元素只计数一次。

下面是关于二者的例子:

SELECT COUNT(name) FROM user   # 输出为5,只计算non-NULL值
SELECT COUNT(DISTINCT(name)) FROM user  # 输出为2,DISTINCT(name)包含NULL值,但是count()之后就不再包括

2、count(*) vs count(1)

count(*): 统计所有数据的行数(含有NULL的也计算在内
count(1): 功能和count(*)一样,输出结果也一样,性能也没差别。

①举例1:

SELECT COUNT(*) FROM user    # 输出为8,包含null值,某一个字段为null或者所有字段都为null的行都包括在内
SELECT COUNT(1) FROM user   # 输出为8,包含null值,某一个字段为null或者所有字段都为null的行都包括在内

②举例2:

SELECT product.id, COUNT(*)
FROM user
LEFT JOIN product ON user.product_id=product.id
GROUP BY product.id

将count(*)换成count(1)的结果也是一样的,其结果(二者结果一样):

[Mysql] 聚集函数:NULL是否包含在内(包括count(1)和count(*)的比较)_第1张图片

执行计划(二者结果一样)如下:

[Mysql] 聚集函数:NULL是否包含在内(包括count(1)和count(*)的比较)_第2张图片

注:在30w的数据量上使用count(*)和count(1),发现时间性能也是一样的。当count(*)和count(1)选择时,一般选择使用count(*),mysql官方语句也给出的count(*)[官方文档:counting-rows]。

3、其他聚集函数

在别人的博客上看到一句话:所有聚集函数中,除了COUNT(*)计算NULL值之外,其他的都是自动只将non-NULL值计算在内。这里举些例子验证一下这个问题。

SELECT SUM(record) FROM user   #输出为19,只计算non-NULL的值
SELECT COUNT(record) FROM user  #输出为5,只计算non-NULL的数目
SELECT AVG(record) FROM user  #输出为3.8,只计算non-NULL的数目
SELECT COUNT(DISTINCT(record)) FROM user   # 输出为4,DINTINCT(record)是包含null的,但是COUNT()之后就不包括null了
SELECT MAX(record) FROM user  # 输出为10
SELECT MIN(record) FROM user  # 输出为1,所以只计算包含non-NULL的值,NULL是不默认为0的

4、其他

另外,这里顺便说明一下FORMAT()和ROUND()的区别:

SELECT FORMAT(1234.4476566555,5)   # 输出为1,234.44766,四舍五入,返回类型是字符串,所以会自动加逗号
SELECT ROUND(1234.4476566555,5)   # 输出为1234.44766,四舍五入,FORMAT和ROUND功能一样,都是四舍五入,但是FORMAT会自动加逗号,而ROUND不会
SELECT ROUND(now(), '%Y %m %d %h')  # 返回当前时间

三、总结

  • 验证了聚集函数关于NULL值的处理:除了count(*)之外的其他聚集函数(包括count(column-name), sum(), avg(), max(), min())都只操作non-NULL的值。
  • count(1)和count(*)在mysql中没有区别,无论是结果还是性能都是相同的。(在其他数据库中是否一致不确定)

参考文章:
[1] count() vs count(column-name) - which is more correct? [duplicate]
[2] COUNT() vs. COUNT(1) vs. COUNT(pk): which is better? [duplicate]

你可能感兴趣的:(DataBase,mysql,聚集函数,null,count(*))