一、集中趋势量数
集中趋势量数是一组数据的代表数值,这里讨论三种集中趋势量数:均值、中位数、众数
1、均值
理解:就是数据组中的所有数值之和除以数值的个数。
求法:
补充说明:
(1)均值对极值很敏感,极值会使得均值向一方或另一方倾斜,也使得均值对数据组的代表性减弱,作为集中趋势量数的有效性减弱。(后面还有会有对比说明)
2、中位数
理解:一些列数的中点。这些数字的50%即一半大于中位数,50%即一半以下小于中位数。如{5,9,7,9,8,6,2,4,1}的中位数是8
求法:
(1)将这些数字按大小顺序排列
(2)找到位于中间位置的数值,即为中位数。如,排好顺序的9个数字(奇数),则第5个位中位数,如果共8个数字则中位数=(X4+X5)/ 2
补充说明:
(1)了解中位数,也应该了解百分位数(percentile points)。百分位点表示数据集中等于或小于一个特定数据值的个体的百分比。如,某同学成绩“处于86百分位点”,表示该同学的成绩在成绩分布中刚好是或者超过86%的其他人的成绩。
(2)中位数关注的是有多少个个体而不是个体的数值,所以奇异值不会对其产生影响。
(3)为什么有时候用中位数而不是均值?因为中位数对奇异值不敏感,而均值对奇异值是敏感的。如果要分析统计的数据集中有一个或多个奇异值,则中位数相对其他集中趋势量数来说能更好地代表数据集的中心值。例如一个数据集还有如下数据{135456,54365,37668,32456,25500},该数据集的均值为57089,而中位数是37668,很明显,对于这组数据,中位数37668比均值57089更具代表性。由于这个原因,特定的社会和经济指标(大多数与收入有关)的分析使用中位数作为集中趋势量数,如“全国家庭平均收入的中位数是……”而不是使用均值来概括,因为总是存在太多的奇异值改变或者明显地扭曲一个数据集或数据分布的中心点。
3、众数
理解:就是出现次数最多的数值。如{红色:7个,蓝色:5个,绿色:8个,紫色:12个},则众数是紫色(注意众数是紫色而不是12)
求法:
(1)列出一个数据集中的所有数据,每个数值只列出一次
(2)计算每个数值出现的次数
(3)出现次数最多的就是众数
补充说明:
(1)如果数据分布中每一个数值出现的次数都相同,那么就不存在众数,但是如果不止一个数值的频数最高,则称为多峰分布,例如{红色:7个,白色:12个,蓝色:5个,绿色:8个,紫色:12个},白色和紫色均是12个且最多,所以该分布是双峰分布。
综上
什么时候选择哪种集中趋势量数?可参考一下原则:
(1)定性数据、类别数据或定量数据(如种族群体、眼睛颜色、收入档次、政治背景等)的集中趋势应使用众数来描述。注意在这种情况下的各个分类之间是互斥的。
(2)如果数据中包含奇异值而你不想扭曲平均数,就使用中位数。
(3)如果数据不包括奇异值也不是分类数据就使用均值。
二、变异性
变异性(也叫散部或离散度)看作是对不同数值之间的差异性的测量,即每个数值与特定值(即均值)的差异程度。之前讨论的集中趋势量数(均值、中位数、众数)是一组数据的代表数值,而变异性则反映不同数值和一个值的差异性。
变异性的三种量数,通常反映一组数据的变异性、散布或离散度。这三种量数是极差、标准差和方差。
1、极差
极差(range)是通过数据集中的最大值减去最小值得到。
一般来说,极差计算公式为,有时也会使用.
2、标准差
标准差(standard deviation,缩写为s或SD),表示一个数据组中变异性的平均数量,即与均值的平均距离。标准差越大,每一个数据点与数据分的均值的平均距离越大。
标准差的计算公式:
公式分析:
(1)表示每一个数值与均值之间的差,去平方是为了消除负号,
(2)所有差值的平方和除以n-1是为了获得差值平方和的平均值
(3)最后开根号是想恢复开始时的计算单位
(4)为什么除以n-1而不是n?
s(标准差)是总体标准差的估计值,只有使用n-1时才是无偏估计。因为好的科学家一半都是保守的,即如果我们不得不出错,那么出错也是由于过高估计了宋体的标准差。除以较小的分母可以让我们做到这一点。
补充说明:
(1)如果目的是描述样本的特征,有偏估计也可以(除以n),但如果想用样本估计总体参数,最好计算无偏估计(除以n-1)
(2)标准差越大,数值分布越广,则数值之间的相互差异越大。
(3)和均值一样,标准差对极值很敏感,当计算样本的标准差时,若数据中存在极值,需要在数据报告中注明这一点。
(4)如果s=0,数据组中就绝对没有变异,而且数据上完全一致。
3、方差
方差(variance),为标准差的平方
方差的单位为原计算单位的平方
计算公式为
三、相关系数
相关系数(correlation coefficient)反映两个变量之间关系的量化指标。
计算公式如下:
(1)阈值为[-1,1],大于0表示两者之间呈正相关,小于0呈负相关,等于0表示两者之间不相关。
(2)相关系数的绝对值反映相关的强度,不能依据相关系数值的负号来判断强度,页不能说“正相关”总比“负相关”好。如相关系数-0.7比相关系数0.5表示的相关强度大。
(3)不是所有的相关关系都是线性的,如年龄和记忆的相关是曲线。
(4)相关的强弱有一个不成文的规则
相关系数大小(绝对值) | 一般解释 |
0.8~1.0 | 非常强的相关 |
0.6~0.8 | 强相关 |
0.4~0.6 | 中度相关 |
0.2~0.4 | 弱相关 |
0~0.2 | 弱相关或无关 |
(5)决定系数
更精确的解释相关系数的方法是计算决定系数。
决定系数(coefficient of determination)就是相关系数的平方,表示一个变量的方差可以被另一个变量的方差解释的百分比。例如,平均成绩和学习时间的相关系数为0.7(),那么决定系数就由表示,意味着平均成绩方差的49%可以被学习时间的方差解释。如果49%的方差能被解释,意味着51%不能被解释,因此即使对相关系数是0.7的强相关来说,也存在很多无法解释的原因导致变量间的变化差异。
(6)相关和因果关系无关。举个书中的例子:某小镇的地方警察局发现冰激凌消费越多,犯罪率就越高冰激凌吃得越少,犯罪率越低,即通过统计两者呈正相关。真实的原因在于室外气温,当室外温度变暖,就会有更多的犯罪(也许因为白天更长,也许因为人们经常开门窗等),同样,因为室外温度的升高,人们更愿意买冰激凌。也就是说犯罪量和冰激凌销售量之间没有什么直接关系,它们之所以正相关是因为它们都与室外温度有关。所以即使两者呈正相关,不能通过减少冰激凌的销售量来降低犯罪率,因为冰激凌的销售量并不是犯罪率高低的原因,它们只是因为温度的变化同时发生,建立了关联的假象。