统计案例 | 统计数据会说谎?

统计案例 | 统计数据会说谎?

  • 一、 前言
  • 二、 统计和数学的关系?
  • 三、 统计数据会说谎?
  • 四、 写在最后—大咖说统计!

一、 前言

各位小伙伴好,小编在今年将会推出 【统计案例】 系列文章,目的是通过一系列的实际案例(经典统计案例+小编实际参与的数据分析项目)来洞悉这些案例背后所体现的“统计思维”,一方面可以培养自己基于实际案例的统计思维,另一方面对于后续希望从事统计相关工作的同学也会有所裨益(毕竟好的统计思维是通用的),同时,对于之前没有接触过统计学的小伙伴来说,不妨可以算作一个入门读物,因此小编将尽可能用一些简单诙谐的语言进行描述,大家无需有过多压力,轻松的享受统计之美吧~

二、 统计和数学的关系?

提到统计,不得不提到数学,一方面是大家随意翻开一本统计专业书籍,其中会有一部分数学的内容,另一方面则是很多院校统计专业本科开设的课程和数学专业很接近(比如都会开设数学分析和高等代数等)。那么大家有没有想过?统计和数学的区别在哪? 最近学长在聆听了南开大学王兆军教授的讲座后深受启发,下面一张图可以说清楚两者的区别:即数学是从理论出发,而统计是从实际问题出发,进而去研究很多技术方法去解决它,最终形成相关理论!
统计案例 | 统计数据会说谎?_第1张图片
再举一个例子,比如要统计全校有多少男生数学的方法可能就是从1,2,…N列举下去(因为是可数的),这样得到的结果就非常精确(符合数学特点),而统计的做法则是采用 【估计】 ,比如大家最为熟悉的参数估计,这样就无需一一列举,很高效,用一个小样本就可以得到估计的人数,但结果就会有一定误差(error)。怎么样,是不是很形象?
统计案例 | 统计数据会说谎?_第2张图片
综上,统计是一门解决实际问题的学科,区别于数学从理论出发,同时统计得到的结果会有一定误差,不如数学那么精确。因此从这个角度看,了解统计最直接的方式就是通过阅读学习一系列的实际案例(不同统计方法对应的典型案例),了解案例背后的统计思想是什么,一旦理解了这个,再看一些相对不那么有趣的统计理论/公式就会亲切很多了~话不多说,上吃(案)的(例)!

三、 统计数据会说谎?

统计数据会说谎? 它来源于一本英文书名的翻译—美国统计专家达莱尔·哈夫的传世之作《How to Lie with Statistics》,书中讲解了很多有意思的故事,而这背后则体现了深奥的统计学基本原理。

著名英国数学家埃里克·坦普尔·贝尔说过:

Numbers do not lie, but they have the propensity to tell the truth with intent to deceive.
数字不会撒谎,但它们往往喜欢将真理隐藏在假象的背后。

那具体怎么个说谎法子呢?
统计案例 | 统计数据会说谎?_第3张图片
比如吸烟更容易长寿?不结婚,寿命更长?教育程度越高,犯罪率越高?官方发布的CPI似乎和大家日常感受不同?新增道路反而整体通行时间会更长?……(这些内容都会在接下来系列文章中提及,欢迎持续关注~)

今天首先带来一个典型的“统计数据会说谎”的案例—“被平均”!

善(万)良(恶)的资本家和小王说:“你来我厂上班吧,薪资大大的好”,小王一看就没有接受过社会的教(毒)育(打),应声答应,但工作后发现不对劲了,工资没有这么高嘛!但厂长说:我可是学过统计的啊,咱们厂所有人工资都在这,平均数就是我和你当初说的那么多嘛!有啥子问题?小王:……好嘛,原来是这样,那有事说事,统计不背这个锅!我也是学过统计的啊,我这是“被平均了嘛”,厂长和领工的高薪把平均工资一下子就拉高了~咳咳,这是典型的右偏分布!厂长:你小子还挺懂统计……,别当工人了,咱厂有个数据分析的岗位,你去吧,工资翻倍……
统计案例 | 统计数据会说谎?_第4张图片
言归正传,上述故事反映了统计现象—“被平均”,在这种场景下,描述这组数据集中趋势合适的指标为【中位数】,而不是平均值。和这一现象类似的还有所谓的“二八定律”,十九世纪末,20世纪初,意大利经济学家帕里托指出:“社会上20%的人占有80%的社会财富”。 那这种场景下,我们该如何使用统计的智慧应对呢?均值估计闪亮登场!具体包括以下几种:

1、各种加权平均值公式(课本有)

2、Winsor均值或截尾均值(比如选秀比赛中除掉最高分和最低分来计算选手的最终得分)

3、中位数(这个大家最熟悉)

4、Hodges-Lehman估计(可以避免异常观测值影响)

……

肿么样,似不似很有意思?所以课本上提出的各种指标,估计方法都不是凭空产生的,正是实际案例中遇到了相关问题,聪明的统计学家们才想出来这么多好的点子来进行解决,印证了统计学科是一门从实际问题出发的学科!

四、 写在最后—大咖说统计!

在今天推文的最后,想和各位小伙伴分享下古往今来各行各业的人对于统计这门学科的看法和认识。

我国著名经济学家马寅初先生曾说过:

学者不能离开统计而研究
政治不能离开统计而施政
企业不能离开统计而执业

师从大牛Fisher的C. R. Rao(统计上响当当的C-R不等式创始人之一,即C-R中的R)曾在《统计与真理》一书中说到:

All Knowledge is, in the final analysis, history.
All sciences are, in the abstract, mathematics.
I venture to add: All methods of acquiring knowledge are statistics.
在终极的分析中,一切知识都是历史;
在抽象的意义下,一切科学都是数学;
在理性的基础上,一切判断都是统计学。

更久远的管子,在《管子·七法》中说

治民有器,为兵有数,胜敌国有理。不明于计数,而欲举大事,犹无舟楫而欲经于水,险也。

管子这句话的意思是不了解计数(统计)而想要举办大事,就好比没有舟辑想渡过水险一样!

将目光放到现在,华为企业创始人任正非在接受央视媒体采访时就多次提及统计学科的重要性,比如“国家要搞人工智能,更要重视统计学”。“大数据需要统计学,信息科学需要统计学,生命科学也需要统计学”等等

因此,这么多大家都为统计带盐,那前景必是大大的好,因此不论是本专业的同学,还是非统计专业的小伙伴,了解点统计学都是十分有益的!

你可能感兴趣的:(统计案例,统计学,统计案例,被平均,均值估计,统计数据会说谎)