#2018001《统计数字会说谎》

本书着重说明了统计数字的八种说谎方法,现在对其中最常用的四种进行说明:

1 样本偏差:选取的样本不对或故意不对,导致统计特征得不到反映,比如:用高端商务杂志的问卷调查回执进行统计,就会导致遗漏了普通大众的情况,统计结果就不准确了。

2.平均数的迷局:平均数有好多种类型:算数平均数、中位数、众数。如果统计一个5人小团体的平均收入,5人的收入分别是1万,10万,10万,20万,1000万。把收入汇总除以5得208.2万,于是说大家的平均收入是200多万,明显是不合理的,而这208.2的数字就是算数平均数。那中位数是什么呢?就是把数字如上所示,从小到大依次列开,取最中间的那个数。这个案例里,就是10万。众数呢?众数就是最众多的那个数值,这个案例里,10万有两个,其余数值都是1个,所以众数也是10万。10万作为组数据的平均数就显得合理多了。

3.隐藏重要数据:在哥本哈根会议上就有黑客黑进了方式做统计数据的电脑里,发现统计的时候有人刻意采用和人类活动数据最贴合的统计数据,得出人类活动与大气变暖的强相关结论,以此推动哥本哈根会议上碳排放交易的谈判。这就是典型的隐藏重要数据的手法。

4. 混淆相关性:比如有人发现:医院是癌症之后的又一大人类死因,这一听就很可笑。明明是人们在医院死亡,怎么能说医院是死因呢?而现实生活中这种手法非常常见。比如调查差生,发现吸烟率很高,就说吸烟导致智商欠费。而如果他们调查成绩优秀的学生,发现吸烟率也很高,是不是就要得出吸烟促进智商的结论了呢?

统计的陷阱处处都是,我们如何才能避免陷入这些陷阱呢?要多问问题,问问是谁发布了这些结论?他们的统计结果是怎么得来的?有没有重要数据被遗漏?有没有因果关系被混淆?鉴别的方法说起来容易,到要时时到做却很难,还需要我们在实践的过程中不断总结和提高辩识能力。

你可能感兴趣的:(#2018001《统计数字会说谎》)