统计工具使用时常见的错误

即使我们收集的数据是对我们研究的问题是很有帮助的,但是有时候统计方法的错误使用也会给我们呈现出截然不同的结果。

一、中位数与平均数

不管是中位数还是平均数,都可以衡量一组数据的集中趋势。但是当数据分析中只有他们之中一个出现的时候就需要小心。例如,根据小布什政府的说法,其政府的减税策略将有9200万美国人享受减税待遇,人均减税额超过1000美元。实际上确实会有9200万美国人将享受减税待遇,但是其中的大部分人不会减少约1000美元的税款,因为减税的中位数还不足100美元。只有相对较少的巨富们才有资格享受大额减税,正是这些人拉高了平均值,让人均减税额看起来比绝大多数美国人真正享受的要高。这是因为平均值受异常值影响较大。然而中位数由于是位置代表值,不受极值的影响,所以在一组数据的分布偏斜程度较大的时候,中位数是一个好的选择。但是也正是因为中位数对异常值不敏感,在某些情况下,中位数也会掩盖事实的真相。生物进化学家史蒂芬.古尔德曾经被诊断出患有某种癌症,它的半数预期寿命(也就是病人寿命的中位数)仅仅只有8个月,但是实际上他活了20年。中位数的定义告诉我们有1/2的病人活不到8个月,但另外1/2的病人至少可以活8个月,甚至比8个月长很多。中位数不考虑数据距离中间位置多远或者多近,而是关注它们是高于中间位置还是低于中间位置。所以使用中位数还是平均数,关键就在于数据分布里面异常值对事实的真相是起到扭曲作用,还是其重要的组成部分。这两个例子说明,在实际分析数据的时候,要根据数据的实际情况使用统计工具,正确的判断要比精确的数学计算重要。

二、 回归分析

回归分析可以为复杂的问题提供精确的答案,但是这些答案却不一定正确。在错误运用这一统计工具的人的手中,回归分析会得出误导甚至错误的结果。即使在可以正确运用这一统计工具的人的手中,很多人往往会陷入使统计数据看起来更加顺眼,而不是反映真实情况的错误之中。

1.用线形回归方程来分析非线性关系

无论什么工具,离它的初始功能偏差越大,其效果就会越差。只有当变量之间关系为线形时,线形回归分析才能使用。当我们一股脑将数据输入到电脑中的时候,电脑也会计算出一个系数,但是这个系数将无法准确反映各个变量之间的真正关系,避免这个错误很简单,只要在做回归分析之前,计算各个变量的皮尔逊相关系数,确定变量之间确实存在线形关系即可。

2.将相关系等同于因果关系

因果与相关,这两种关系很容易被混淆,一旦混淆,就会影响我们的判断,做出错误的决策。曲解两个变量之间的相关关系的做法有很多,广义上被称为伪因果关系。

相关关系就是指两个变量间存在一种连带关系,即当一个变量的值发生变化时,另一个变量的值也相应地发生变化。相关分析的目的在于了解两个变量之间的关系强度,即用相关系数来描述x y 两个变量之间的共变特征。相关分析中,两个变量之间的关系是双向的,不涉及两个变量间的因果关系。

因果关系是指某个因素的存在一定会导致某个特定结果的产生。因果分析是为了确定引起某一现象变化原因的分析,主要解决“为什么”的问题。因果分析就是在研究对象的先行情况中,把作为它的原因的现象与其他非原因的现象区别开来,或者是在研究对象的后行情况中,把作为它的结果的现象与其他的现象区别开来。因果分析的目的在于了解一个变量怎样随另一个变量变化而变化。因果分析必须明确谁是自变量,谁是因变量。

因果关系和相关关系也是有联系的。因果分析以相关分析为基础,只有两个变量之间存在高度的相关关系时,因果分析才有意义。一般先进行相关分析,测定现象之间的相关程度大小,进而决定是否进行因果分析,推断出变量之间的因果关系。

3.遗漏重要变量

假如回归方程中遗漏了某个重要解释变量,尤其是方程中的其他变量又恰好可以覆盖了遗漏的解释变量的影响的时候,那么回归分析的结果就会变得非常具有误导性。假设如有研究指出,常去打高尔夫球易患心脏病、癌症和关节炎,这很有可能是遗漏了年龄变量引起的,在美国,通常来说年龄越大,打高尔夫球的时间和机会就越多,尤其是在退休之后。所以导致疾病的并不是打高尔夫球,而是衰老。在这个例子中,年龄是一个被遗忘的重要变量,当我们用回归方程去解释打高尔夫球与疾病的关系时,如果没有考虑年龄因素,那么是否打高尔夫球这个变量就会超出自身的解释作用:它不光告诉我们打高尔夫球对疾病的影响,还告诉我们年纪增长对疾病的影响(因为打高尔夫球的人通常比较年长)。最糟糕的情况就是认为打高尔夫球对健康有损害,然而事实正好相反。可以通过检验回归方程是否显著来避免这个错误,如果回归方程不显著,就要重新考虑解释变量的选择。另外遗漏相关变量还会导致残差之间具有强烈的相关性,也就是产生自相关的问题,通过DW 检验或者画出残差图可以发现自相关的问题。

4.脱离数据进行推断

和其它形式的统计推断一样,回归分析的目的是利用现有数据帮助我们更好的认识世界。然是需要强调的是,我们的结论仅仅是对与所分析样本相似的数据有效。所以在给出结论的时候要明确它所适用的范围。

你可能感兴趣的:(统计工具使用时常见的错误)