描述统计(1)

一、statistics有关的几个基本概念

a.工资
b.性别
c.Mp3销售量
d.对软体饮料的偏好
e.温度
f.SAT的分数
g.班级学生的名次
h.金融学教授的级别
i.家用计算机的数量

discrete variable         continuous variable

qualitative    b性别、d偏好、

quantitative    g名次、h级别 f分数          c销量、a工资、e温度、i数量


nominal      b

ordinal     d、g、h

interval    f                         e

ratio                             a、c i

二、描述数据:数值数据

描述性统计分析是以数字表述的一系列描述统计量。描述定量数据的两种办法:位置度量和离散程度度量。

位置度量经常被称为平均数,是一组数据的中心位置。当我们只考虑一组数据位置的度量时,或利用中心值比较几组数据,我们可能会得出错误的结论。因为中心位置相同,并不意味着数据同分布。除位置度量外,我们也应该考虑数据的离散程度。

位置度量

用来描述一组数据中心位置的一个数值。

算数平均数
加权平均数
中位数
众数
几何平均数

算数平均值:

所有数据之和除以数据个数。视为一组数据的平衡点。均值存在的缺陷,当一组数据里存在一两个极端大的值或者极端小的值,均值可能就不再是一个可以代表所有数据的恰当的平均数了。可以使用 中位数或是众数。

加权平均数

是算数平均数的一种特殊形式。涉及到权重w,数据乘以权重之和除以权重的和。

中位数

数据从小到大排序,数值个数奇数为观测值数据的中间值,偶数为中间两个数据的算术平均值。位于中间位置的数值。不受极端值的影响。低于和高于中位数的个数相等。

众数

概括名义尺度的数据,众数特别有用。一组数据中经常出现的值。众数的缺陷是可能存在多个众数,多峰数据。使用时更加偏向定性数据。

四分位数、十分位数、百分位数

P代表想得到的百分位数:
Lp = (n + 1)*P/100
Lp 代表想得到百分数的所在位置。
与中位数相比,不一定是实际数值。

箱线图:体现最小值,最大值,第1分位数,第3分位数,中位数的图形。
其中内距是第1中位数与第3中位数的差,其反应了大多数数据散步程度。 同时,分布形状也容易辨别出。

异常值的判定:
异常值 < Q1 - 3(Q3 -Q1)
异常值 > Q3 + 3(Q3 - Q1)

中位数、均值、众数的相对位置

平均值、中位数、众数哪个值可以代表一组数据的中心位置?有关对称分布,左偏分布,右偏分布,三个值的关系不同。具体哪个值对中心位置更具代表性,考虑极端值影响的问题,需要具体分析。同时,也应该结合离散程度的指标观察,中心位置是否合适。

几何平均数

在计算百分比、比率、指数或增长率随时间推移的平均变动时,几何平均数非常有用。是n个正数的乘积的n次方根。几何平均数绝不会大于算术平均值,所以算数平均值会高估真实的结果。

一段时期的平均百分比增长:GM=(期末值/期初值)^1/n - 1.0

离散程度

像均值和中位数这样关于位置的度量只能描述一组数据的中心位置。如果我们想知道数据围绕在中心值周围的紧密程度,它的散步信息,需要研究离散程度。

极差
平均离差
方差
标准差

极差

一组数据中 最大值 - 最小值,提供的关于离散程度的信息比较有限。

平均离差

MD = sum|x - x-| / n ,提供观测值离中心值或均值的相对接近或相对聚焦的程度。

样本方差

方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度

样本标准差

离均差平方的算术平均数的平方根。标准差能反映一个数据集的离散程度。

点状图,茎叶图使用

切比雪夫定理

这一定理对任何形状的分布都成立。
观测值落在均值加减k个标准差的区间之内的比例至少为1-1/k^2,

经验法则

这一定理针对对称的钟形分布。大约68%的观测值落在均值加减1个标准差的范围内。大约95%的观测值落在均值加减2个标准差的范围内,几乎全部(99.7%)的观测值落在均值加减3个标准车的范围内。

##分组数据
分组数据中的均值和标准差

根据频数分布的数据来估计平均值和标准差。其与原始数据得到的均值和标准差非常接近。

条形图、饼图
直方图、折线图、累计频数折线图

三、分布形状

除了对一组数据的中心位置与离散程度度量,还考虑数据的分布形状。常见的分布形状有四种,对称的,左偏的,右偏的,双峰的 。

偏度系数的计算:

sk = 3(平均值 - 中位数)/s
偏度系数的取值范围为 -3 - 3。接近-3的偏度系数,意味着存在相当显著的左偏。接近3的偏度系数意味着存在相当显著的右偏,当中位数和平均值相同,则偏度系数为0,表明分布是对称的。

sk = n / [(n-1)(n-2)] × 之和[(x - 平均值)/ s]^3

你可能感兴趣的:(描述统计(1))