关于作者
达莱尔·哈夫是美国著名的统计学专家,并同时精通心理学,本书出版于上世纪50年代,历经60年畅销不衰,可见书中内容对现实社会的指导性有多强。
关于疑问
中国在互联网高速发展的引导下,快速进入了新的信息时代,在未来,爆炸式的知识和信息每天以庞大的数量充斥着各大网页。文化的普及和前互联网的洗礼让我们不在那么相信任何信息,而拥有数据背景的统计结果更容易得到受众的信赖。
所谓大数据时代,也是在对海量的信息做处理之后得出相应的结论。
作者提出的结论,统计数据也会撒谎,无疑是在以为掌握了辨别真伪手段的我们当头一棒。然而跟着作者走进书中的各种小案例,你就会发现事实确实如此。
关于本书
一个统计数据的产生,经过样本测试,数据整理,和结果分析三个阶段。在每一个阶段中都存在盲点,容易被个人有目的的人拿来做文章。
01
样本的偏差
统计学的基础是建立在样本上。那取样的多少和范围会直接影响数据的结果。
先举个例子,我们经常在广告里听到,因为使用某品牌牙膏,牙齿美白度增加20-30%,可实际上,广告所给出的数据并没有告诉我们调查的细节,经过跟踪发展,所谓的数据样本只是针对12个人做的调查,这就有天壤之别了。即便是我好好用水刷一次牙,美白度也能上升几个百分点的。
再举个例子,美国有一届大选,候选人分别是罗斯福和兰登,当时的杂志做过一次民意调查,调查结果显示,支持兰登的民众达到90%。可是等到选举结果出来后,罗斯福反而赢得多数的选票。原来该杂志调查民意时,问卷是以电话登记为名单发放的,而当时拥有电话的大多数都是共和党人,必然支持兰登。样本选取的不合适,结果将出现严重的偏颇,该杂志也因为此次失误得调查付出倒闭的代价。
还有的时候样本虽然够多,范围也够广,但数据结果却并不真实,因为在回答调查问卷时,出于面子等问题,受众并没有给出真实答案。
02
数据的处理
样本问题过关了,那是不是结果就可信了呢?
答案并非如此。同样的数据,处理方式不一样,得到的效果也就不一样。
比如一个常见现象,购买基金时我们看到的收益都是年化收益,因为年利率比日利率多乘365,得到的结果肯定更振奋人心,也更容易提高购买吸引力。而打算贷款时,再看贷款利率,则统统都用日利率来表示,因为这样的数字看起来才更容易让大家相信,利率很低。你看,同样一个数据,换算一个概念,就立马起到不同的作用。
还有一个常见的手段,就是卖弄平均数概念。比如最近常见的平均收入,平均住房面积,平均寿命。经常在朋友圈里看到,一边转发一个统计结果,一边自嘲自己拖了人民后腿的信息。事实上,我们已经开始质疑统计数据的真实性,怎么从自己身边的人观察来看,跟统计结果相去甚远呢?
平均数有三个不同的计算方法:算数平均数,中数,和众数。
举个例子说明一下。年收入王总100万,李经理50万,张工10万,小赵7万,小明5万,小红5万,小青5万。那我们来看,三个平均数得出的结果是什么。算数平均数(总工资数/人数)=26万,中数(位于数字顺序排列的中间)=7万,众数(出现次数最多的数据)=5万。来,自行感受一下这里的差距。
客观上来讲,数据结果其实是真实的,但在操作数据的人手里,通过技术手段或者理论概念,将数据结果有意识的导向到对自己有理的一面。不经过认真的分析和片段就很容易被他们牵着鼻子走。
03
结果的分析
样本没问题,处理过程没问题,那是不是结论也就没问题呢?
答案依然并非如此。
曾经有一本杂志调查过不同品牌香烟中,含有的有害成分剂量调查。该杂志用这些统计结果,分析得出的结论是香烟中含有的有害成分剂量在不同的品牌中,差异并不明显。也就是说,其实每个牌子都差不多。但这份数据后来被某香烟品牌利用,借由自己在成分排名靠后的优势大力宣传,声称自己的香烟品牌含有有害物质最少。
数据相同,分析后得出的结论却不同。在这个案例中,调查结果显示有差异,但差异并不大。经过杂志分析,重点落在“差异不大”,而经过香烟公司分析,重点落在“有差异”。可见,分析数据不仅存在倾向性,且会导致结果分走两端。另外,结果分析中常用的手段还有混淆相关关系和因果关系。
04
如何识破统计骗局
综上所述,在统计数据满天飞的今天,想要不被骗,就要多问自己一些问题。
针对样本:
样本总量是多少?
涵盖的范围有哪些?
数据是否真实?
针对数据处理:
平均数是哪种?
图表,数据中比例关系?
是否忽略一些重要问题?
针对结果分析:
统观数据全局,结论是否片面?
数据与结论是否毫无关系?
关于感受
不看不知道,一看吓一跳,之前一直盲目的相信各种带有统计数据背景的分析结论,现在才知道,同样的数据在不同人手里,可以玩出各种花样。总得来说,统计数据只是一种工具,工具是由人来使用的,但凡涉及到人,事实就会不以理性为前提,而容易参杂各种利益导向。
凡事多问几个为什么?多探究,多学习,才能更容易辨别真伪。