如何用SQL求众数和中位数

写在前文

  • 作者简介:大家好,我是小王‍♂️
  • 个人主页:你隔壁的小王
  • 欢迎点赞+收藏⭐️+留言
  • 专栏:SQL‍♂️

‍♂️ 小伙伴们如果在学习过程中有不明白的地方,欢迎评论区留言提问!希望能和大家一起进步,共同成长!

什么时候使用平均数、众数、中位数来分析数据那?在SQL中又应该怎么实现那?

中位数、众数、平均数的区别

  • 平均数、众数和中位数都叫统计量,并且都是用来刻画数据集中趋势的统计量,它们在统计中,有着广泛的应用,并且有着各自的特点和适应的使用条件。
  • 平均数是通过“一组数据的总合除以这组数据的个数”计算而得到的,因此它会因每一个数据的变化而变化。平均数利用所有数据的特征,是使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。因此平均数是统计学中最常用的统计量之一。但是平均数也有不足之处,正是因为它利用了所有数据的信息,平均数容易受极端数据的影响。
  • 中位数是通过排序得到的,中位数它不受最大、最小两个极端数值的影响。中位数在一定程度上综合了平均数和众数的优点,具有比较好的代表性。当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。
  • 众数考察的是一组数据中出现的频数; 众数在一组数据中出现的次数最多;当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据, 众数可能是一个或多个甚至没有。日常生活中诸如“最佳”、" 最受欢迎”、“最满意" 等,都与众数有关系,它反映了一种最普遍的倾向。众数也是不受极端数据影响的。
  • 一般日常处理的数据,大部分是对称的数据,数据符合或者近似符合正态分布。这时候,使用平均数、中位数和众数描述该组数据的集中趋势是一样的。只有在数据分布偏态的情况下,才会出现平均数、中位数和众数的区别。通常,在一组数据没有极端数据的情况下,一般使用平均数来描述这组数据的集中趋势,以反映这组数据的信息。在一组有极端数据的情况下,中位数和众数可能是刻画这组数据平均水平更合理的统计量。如果这组数据中众数出现的次数较多,则可以采用众数来描述这组数据的集中趋势。如果这组数据大小不同,差异又很大时或者当这组数据的那个众数出现的次数不具明显优势时,使用平均数和众数反映这组数据的典型水平是不大可靠的。这时用中位数来代表该组数据更合适。
  • 众数的SQL查询

  • 比如我们有下面的一组数据,如何求出其众数是什么
  • 如何用SQL求众数和中位数_第1张图片
  • 1、使用极值函数
  • 
    SELECT UID, COUNT(*) AS cnt
    FROM tb1
    GROUP BY uid
    HAVING COUNT(*) >= ( SELECT MAX(cnt)
    FROM ( SELECT COUNT(*) AS cnt
    FROM tb1
    GROUP BY uid) TMP ) ;

 执行结果为 

可以看到已经取到该组数据中得众数,并且对其所出现的频次进行了统计 

2、使用谓词

使用谓词的时候要考虑null的情况,否则容易出错,如果不考虑null的话就会把null进行分组,从而无法求得正确的众数

SELECT uid, COUNT(*) AS cnt
FROM tb1
where uid is not null 
GROUP BY uid
HAVING COUNT(*) >= ALL ( SELECT COUNT(*)
FROM tb1
where uid is not null 
GROUP BY uid
);

中位数的SQL查询

当平均值不可信时,与众数一样经常被用到的另一个指标是中位数(median)。它指的是将集合中的元素按升序排列后恰好位于正中间的元素。如果集合的元素个数为偶数,则取中间两个元素的平均值作为中位数。做法是,将集合里的元素按照大小分为上半部分和下半部分两个子集,同时让这 2 个子集共同拥有集合正中间的元素。这样,共同部分的元素的平均值就是中位数,思路如下所示。

如何用SQL求众数和中位数_第2张图片

SELECT AVG(DISTINCT uid) as 中位数
FROM (SELECT T1.uid
FROM tb3 T1, tb3 T2
GROUP BY T1.uid
HAVING SUM(CASE WHEN T2.uid >= T1.uid THEN 1 ELSE 0 END)
>= COUNT(*) / 2
AND SUM(CASE WHEN T2.uid <= T1.uid THEN 1 ELSE 0 END)
>= COUNT(*) / 2 ) a ;

要点在于比较条件“>= COUNT(*)/2”里的等号,这个等号是有意地加上的。加上等号并不是为了清晰地分开子集 S1 和S2,而是为了让这 2 个子集拥有共同部分。如果去掉等号,将条件改成“>
COUNT(*)/2”,那么当元素个数为偶数时, S1 和 S2 就没有共同的元素了,也就无法求出中位数了。
如何用SQL求众数和中位数_第3张图片

 

你可能感兴趣的:(SQL,sql,big,data,mysql,database,数据库)