我们身处一个大数据时代,我们无时无刻不在和数据打交道,如何读懂数据放大自己的能力,以及洞察数据背后的秘密防止被欺骗,需要一些统计学常识。在作者查尔斯.惠伦“扒光”统计学“沉闷的外衣”基础上,我进一步梳理、简化成了一篇不足5000字却有着大量故事的短文,保证重要知识点一个也不漏过。
一、你被这些伎俩欺骗过吗?
1、小布什是民主党的卧底?
当年,小布什政府推出了一项惠及9200万美国人的减税政策,人均减税额1083美元,这不得了,不是说共和党更倾向于给富人减税,不太关注普通人的利益吗?小布什难道是民主党的卧底?
这个数据是真实的,1083美元是平均数,关键在于解读9200万美元这个数据,不能用平均数,因为数量极少的巨富享受了大额减税,他们拉高了平均值,此时需要用中位数统计,即把减税额从高到低或从低到高排列,9200万人中排名4600万的人的减税额,那会是多少呢?还不足100美元。
但是,中位数就一定好用吗?
2、到底还能活多久?
当你或你的亲友患了某种不治之症,医生对你说,一半的人没活过1年。这是个什么意思?只能活1年?充其量也就活1年多一点?一般来说,医生告诉你的是一个“中位数”,这句话准确的意思是:50%的人没活过1年,50%的人活过了1年——但有的很可能是10年、20年,甚至几十年后死于其他疾病。
所以,在一组数据面前,我们要想想平均数和中位数谁更能反映出问题的实质。一般来说,只要没有太异常的数据出现,中位数和平均数差距不会大。
3、美国军费开支的秘密
美国是民主党和共和党轮流坐庄,如果你是一个军火商,推销装备时,如何既可以取悦民主党,也不会让共和党失望呢。
当你向共和党人汇报时,幻灯片上就会出现始于1981年罗纳德•里根(共和党人)执政期间的军费开支统计图。大家都清楚里根为美国赢得了冷战,对国防安全做出了卓越贡献。在看着这些数字的时候,无人不为里根总统处理政务时所表现出的钢铁般的决心击掌喝彩。
向民主党人汇报,还是用相同的数据,只是幻灯片始于1977年,大家会看到吉米·卡特(民主党人)总统才是开启国防建设的当之无愧的先驱,感谢上帝让来自安纳波利斯的前海军军官吉米·卡特带领美国走上了军事自强之路!
二、你被诊断为患了艾滋病怎么办?
如果对中国成年人进行一次艾滋病普查,你的体检报告结果出来了,艾滋病检测呈阳性……这无异于晴天霹雳,你可能想还不如跳楼终结此生算了。
诶,先别跳。假设每10万人中有一个人患艾滋病(据说实际比例比这个高,但准确数字没查到),检测准确率为99.9999%吧(实际肯定没这么高),这个意思就是说保证不产生一例伪阴性(不漏过任何一个患上该病的人),但产生伪阳性(将没有患上该病的健康人被误测为阳性)的概率为万分之一。
如果中国有10亿成年人(没查到准确数字就偷懒了,便于计算,理解与案例即可),那么肯定有1万人患艾滋病且检测为阳性,但,因为伪阳性概率为万分之一,还有10万没有患病的人会被检测为阳性,也就是说,检测为阳性的人中误判率高达90.9%。要知道,艾滋病检测准确率99.9999%这个前提是一个多恐怖的数字,实际会低得多,所以,还是别跳楼了,去复查吧。
其实这和赌场为什么肯定赚钱,买股票不要买彩票,道理是相通的,都是概率在发挥作用。彩票发行方和赌场老板是一回事,哪怕他们赢的概率只有50.1%,在大数定律作用下(样本足够大、次数足够多就像上例中的10亿成年人),肯定赚钱,何况,他们的胜率远不止50.1%这么低。至于股票,那是另一个系统,买股票赚钱不是靠追涨杀跌,而是一些好公司不断发展带来的增值。
三、如何提高中大奖的概率?
这是一个源于美国娱乐节目的著名游戏,中国也又不少跟风的,这其实是一个很违背直觉的概率难题。
比如你参加了一个叫“最强奇葩”的娱乐节目,最新一期你脱颖而出走到最后,此时,你站在主持人旁边,在你眼前有3扇大门,编号分别为1、2、3。主持人告知你,其中的一扇门的门后摆放着极为诱人的大奖(比如说一个亿),而另外两扇门的后面各有一百元,你需要在这3扇门中选择一扇门,并获得那扇门后面的奖品。
毫无疑问,你有1/3的概率选中大奖。
最精彩的是,往往在你做出选择之后,主持人会打开一扇没有大奖的门,问你是否要改变当初的选择,也就是在最初选择的那扇门和剩下的那扇门中再选择一次。
答案是肯定的。如果你坚持最初的选择,那么中大奖的概率仍然为1/3,如果改选剩下的那扇门,中奖的概率就是2/3。
第一个解释:如果游戏规则有变,首先你会挑选一扇门,然后主持人在打开一扇门之前,问道“你是否愿意放弃你之前的选择,换取另外两扇门后面的奖品?”也就是说,如果你选择的是1号门,你可以放弃那扇门,从而获得2号和3号门后面的奖品;如果你选择的是3号门,你可以换成1号和2号门。这并不是一个非常难作的决定。
显而易见,你应该放弃一扇门换取两扇门,这样中大奖的概率就从1/3上升到了2/3。
第二种解释:假设摆在你面前的不是3扇门,而是100扇门。当你选择其中一扇门(比如说3号门)之后,主持人在剩下的99扇门中打开了98扇不是大奖的门,此时就剩两扇门没有打开了,一扇是你最初选择的3号门,一扇是剩下的(比如说9号门),你要换吗?绝对要换!大奖有99%的概率藏在你没有选的那99扇门的后面,而主持人还好心地为你打开了其中的98扇门,他知道这98扇门的后面都没有大奖。也就是说,如果你坚持最初的选择(3号门),那么你拿大奖回家的概率仅为1%,拿100块的概率却高达99%;如果你的最初选择是错误的,那么大奖就肯定藏在另外一扇门后面(9号门),如果你想中大奖,那就应该将最初的3号门换成最后剩下的9号门。
这个例子告诉我们,你对概率的本能理解有时候会将你引入歧途。
四、鹿晗、吴亦凡和我,谁是最受中国年轻女性欢迎的男性
讲到这之后,不得不说一个概念,非常简单,仅此一例,因为它极有威力。那就是中心极限理论,即任意一个群体的样本平均值都会围绕在该群体的整体平均值周围,并呈正态分布。
比如,国家统计局发布的2015年全国居民人均可支配收入是21966.19元,遗憾的是我未找到“标准差”——那就假设为2000元。那么,我们随机从中国居民种抽取样本(比如100人)求工资平均值,多次重复样本抽取工作并记录平均值,这些样本平均值中的绝大部分都极为接近23821元。中心极限理论同时告诉我们,68%的概率分布在一个标准差内,即中国居民可支配收入是21966.19±2000元,95%的概率分布在两个标准差内,即中国居民可支配收入是21966.19±4000元,99.7%的概率分布在三个标准差内,即中国居民可支配收入是21966.19±6000元。
中心极限理论是非常牛逼的,①只要掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况;②掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理;③掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一;④已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。
再看一个例子,比如某互联网巨头携手某电视台针对中国18—35岁女性搞了一个大型民意测验,“最受你欢迎的男性”。
第一轮随机抽取的500人调查完后,数据如下:
鹿晗53%
吴亦凡45%
我2%
标准误差2%
因为是选举,所以这里取的是“标准误差”而不是“标准差”,都有计算公式可计算,一般数据提供方会注明,关键在理解原理。
提示:鹿晗新浪微博粉丝3.7千万左右,吴亦凡2.5千万左右,考虑到最近《中国有嘻哈》特别火,后者稍微照顾了一点,我反正是打酱油的,搞个2%配合一下,YY一番。
按照中心极限定理可知,鹿晗有68%的把握获得53%±2%(51%—55%)的支持率,吴亦凡约有68%的概率获得45%±2%(43%—47%)的支持率。
但是,此时宣布鹿晗获胜还为时尚早,毕竟只有68%的概率。如果放大到95%的概率,鹿晗得票率为53%±4%,吴亦凡得票率为45%±4%,这就可能出现各获得49%打个平手,怎么办?
幸好,第二次随机调查结果出来了,样本数量为2000人:
鹿晗 52%
吴亦凡 45%
我 3%——哇我人气飙升啊
可是,两人差距进一步缩小了,预测不是变得难上加难了吗?但是,因为这次的样本数量是上一次的4倍,标准误差缩小到1%(怎么算的不用管,数据提供方一般会注明)。
那么,有95%的正确概率,鹿晗获得52%±2%,吴亦凡获得45%±2%。他们不再有重叠。其实还可以做得更加完美。中心极限定理告诉我们,样本结果位于真实情况3个标准误差范围以内的概率为99.7%。那么可信度上升到99.7%时,鹿晗获得的选票为52%±3%,吴亦凡获得的选票为45%±3%,依然没有重叠,但,这个概率几乎难以被驳倒了。
如果你还觉得这个理论没什么意思,那我再举一个例子:
我们常常会看到这样的文章:每天吃一个苹果的人患癌症的概率要低于那些不爱吃苹果的人;或者是:小葱拌豆腐,相当于自杀。
首先,我要说第一句话一定有问题,因为太不严谨,癌症那么多,吃苹果包治百癌?绝不可能。但这样的文章就是这样多,如果稍微严谨一点的,可能会具体到某某癌症,就以癌症之王胰腺癌为例吧。
严谨的文章一般会提供以下内容,①在一个大型数据组中,研究人员发现每天吃一个苹果的人患胰腺癌的概率要低于那些不爱吃苹果的人;(2)研究人员的零假设是,吃苹果对胰腺癌的发病率没有影响;(3)吃苹果和不吃苹果的人之间患胰腺癌概率的巨大差别如果仅仅用巧合来解释,似乎并不那么让人信服。具体来说,如果吃苹果与胰腺癌之间没有任何联系,那么这两类人在患胰腺癌这件事上仅仅是因为巧合就出现如此巨大差别的概率要低于某个“门槛”,如0.05(也就是两个标准差,这是一个具有统计学意义的“门槛”);④这篇学术论文里可能还会有一个结论,差不多是这样说的:“在每天至少吃1个苹果与胰腺癌发病率降低之间,我们发现了一个具有统计学意义的联系,其显着性水平为0.05。”
如果这些文章,不包括以上内容,或者一开头就是某某名医说,全篇没数据,尽是刘大爷、王奶奶的个例,建议火速取关。
五、需要警惕的误区
就像一开始的例子,数据会误导人,但与刻意误导不同的是,很多时候我们处理数据的方式,会导致误判,这是需要刻意避免的。正如瑞典数学家安德烈斯所说:用数据说谎容易,但用数据说出真相却很难。
①统计模型错误。这很好理解。2008年金融危机,就有它的功劳,所有人都认为出现黑天鹅事件的概率极低,但这个极低是根据一个错误的只有20几年数据拟合出来的错误模型。
②相关关系不等于因果关系。就以上面“吃苹果降低胰腺癌患病率”为例,如果真的有强力证据证明,也不足以说明是吃苹果导致了胰腺癌患病率降低这个结果,可能是长期吃苹果的人生活自律、饮食健康,或者喜欢吃苹果的人基因不一样,等等。
③因果倒置。比如,某某高中北大清华录取率达到30%,能说明这所学校厉害吗?还是能进这所学校的学生本身就特别特别牛逼呢?
④变量遗漏偏差。比如,你看到一篇文章“常跳广场舞易患关节炎”,不要急着告诉你爸妈。要知道,常跳广场舞的人,年龄大多是55以上,他们真的是因为跳舞导致关节炎,还是统计者忽略了群体的年龄因素?让他们的关节炎的不是跳舞,而是岁月不饶人。
⑤高度相关的解释变量。比如,你想知道家庭环境对学生成绩的影响,就会涉及问学生父母对他们的影响,是否亲自辅导或请家教,往往家庭环境好的父母以身作则特别好,也会亲自辅导孩子,还会请家教,反之亦然。那么怎么区分哪一项的作用更大呢?可能随机抽样1000个孩子,假如500个来自富裕家庭,有490个孩子的父母以身作则,亲自辅导,还请家教,这样就很难具体得出真实关系。
⑥变量太多。样本多会更准确,但变量太多则会引发麻烦。假如一个人不靠作弊,连续抛5尺硬币,都是正面朝上,这个概率是1/32,约为3%,低于中心极限定理推翻零假设需要的两个标准差的门槛5%。那么我们应该如何去分析他抛硬币的神技呢?眼神、力度、角度、风向风速、空气湿度还是身高、体重、手腕粗细……
我们这个世界的数据正在呈几何倍数增加,从这些数据中获得有意义的信息、深刻的洞见,能让我们更好的过好每一天。
那就开始你的统计学之路吧。