数据描述的统计量解释-上

目录

一.导读

二.介绍 

①算数平均数

②几何平均数

③标准差

④变异系数

⑤分位数

⑥方差

三.结尾


一.导读

在讲到数据描述的时候,我们提及了数据集中位置、离散程度、偏度和峰度以及单个数据变量的分布情况。而在这些当中,我们遇到了一些统计量的概念问题,有一些使我们数学统计学接触过的,有一些是我们不懂的,那么这一篇就是为了给大家对这些统计量进行解释。

另外,代码的具体使用在这两篇文章当中已有说明: 

数据探索与可视化:数据描述-上-CSDN博客

数据探索与可视化:数据描述-下-CSDN博客

二.介绍 

对于众数、中位数、极差简单概念这里不再过多强调,下面开始来介绍。 

①算数平均数

 {\mu} =1/n\times(X1+X2+X3+...+Xn)=1/n\times\sum_{i=1}^{n}xi

②几何平均数

G=\sqrt[n]{X1+X2+X3+...+Xn}=\sqrt[n]{\prod_{i=1}^{n}Xi}

几何平均值具有平滑化数据的特性,尤其对那些包含指数性增长或减少的数据集非常有用。与算术平均值相比,几何平均值更加关注相对变化,对异常值的影响较小。这使得它在处理百分比变化或比率时更为合适。 

值得注意的是:几何平均数在数学上是小于等于算数平均数的,这里大家自行去证明,我给出一定的提示:有根号的话,通过等式两边取对数进行,n则会变为分母,接着使用对数的变化规则进行化简,最后我们得到这么一个式子:

1/k(lnX1+lnX2+...+lnXk)\leqslant ln((X1+X2+...+Xk)/k)

令f(x)=ln(x)在其定义域为凸函数,根据Jensen不等式即可证明。

注意:当统计量或模型对于异常值敏感时,意味着这些异常值可能会显著地影响统计量的计算结果或模型的预测能力。这是因为:如果数据集中存在一个极端异常值,它可能会严重偏离整体数据的中心趋势,导致平均值不再准确地代表数据的集中趋势。

③标准差

标准差是一种用于衡量数据集中数值分散程度的统计量。它表示数据集中各个数据点相对于平均值的平均偏离程度。标准差越大,表示数据的离散程度越高;标准差越小,表示数据的离散程度越低。

 \sigma = \sqrt{\frac{\sum_{i=1}^{n} (Xi - \mu)^2}{n}}

④变异系数

变异系数(Coefficient of Variation,简称CV)是用于衡量数据相对于其均值的相对离散程度的统计量。它是标准差与均值之比,通常以百分比形式表示。变异系数提供了一种在不同尺度和单位的数据集之间比较离散程度的方法,较小的变异系数表明数据相对较集中,而较大的变异系数表示数据相对较分散。

例如,如果你要比较两个产品的质量变异,其中一个产品的质量以克为单位,另一个以千克为单位,使用标准差可能会使比较变得困难。但是,通过使用变异系数,你可以摆脱单位的束缚,更好地比较两者的相对离散程度。

需要注意的是,变异系数要求均值不等于零,因为在零均值的情况下,分母为零,计算变异系数将没有意义。

CV = \left( \frac{\sigma}{\mu} \right) \times 100\%

⑤分位数

分位数是统计学中用于将数据集划分为若干等分的值。分位数提供了一个描述数据分布的方式,通过将数据集划分为不同的部分,可以更好地理解数据的中心趋势离散程度

  1. 中位数(二分之一分位数): 将数据集按大小排序,中间的值即为中位数。如果数据集有偶数个数据点,中位数是中间两个数的平均值。

  2. 下四分位数(第一四分位数): 将数据集的下半部分(25%至50%)排序,下四分位数是这部分数据的中位数。

  3. 上四分位数(第三四分位数): 将数据集的上半部分(50%至75%)排序,上四分位数是这部分数据的中位数。

  4. 百分位数: 除了中位数、四分位数外,还可以计算其他百分位数,比如第(p)个百分位数,表示将数据集分成(p%)和((100-p%))两个部分的值。例如,第90百分位数是将数据集分成90%和10%两个部分的值。

分位数的应用包括描述数据的整体分布,检测异常值,以及进行盒图(box plot)等可视化分析。盒图通常用于直观地显示数据的中位数、四分位数和异常值。

⑥方差

方差是描述数据分布离散程度的一种统计量。它衡量了数据集中各个数据点与数据集均值之间的差异程度。更具体地说,方差是各个数据点与数据集均值之间差值的平方的平均值。

方差的值越大,表示数据点之间的差异越大,数据分布越分散;方差的值越小,表示数据点之间的差异越小,数据分布越集中。

方差在统计学和数据分析中有着广泛的应用,它能够帮助我们理解数据的分布情况,评估数据的稳定性和可靠性,以及进行假设检验等。然而,方差也有一些局限性,特别是对于异常值敏感,因此在某些情况下,为了更好地描述数据分布的形态,可能需要结合其他统计量进行分析。

 公式如下:

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

三.结尾

在下篇,我们将对其他统计量具体介绍帮助大家较好的去理解。

你可能感兴趣的:(数据探索与可视化,机器学习,数据分析,人工智能,机器学习)