5月10日,读完了达莱尔·哈夫的《统计数据会撒谎》。
之前就知道这是本已出版几十年的统计数据科普经典,却没想到现在已经绝版了,只能去马云爸爸家买了高保真copy版。一众青年同志们沉醉于《从你的全世界路过》、《谁的青春不迷茫》、《你的孤独,虽败犹荣》……balabala戳中内心情感痛处的畅销书。名字中带“统计”、“数据”等书籍,绝对不会被普通青年给青眼;而学霸青年们,段位高,已经对通俗科普文失去兴趣。所以,此书绝版也算是市场选择吧。
作为一个商科大杂烩万金油专业的小朋友,算是有点统计学和数据分析的皮毛底子,也有一星半点的数据分析经验。所以我知道,统计数据通常在撒谎,通常在撒谎,在撒谎。或许是为了研究结果与目标假设相符,或为了各种KPI,或为了激起用户心中易被诱惑的角落,或为了利用咩咩小羊跟随“羊群”流动……是,我们在一个充满数据的世界,所有的一切都有各类数值,我们企图从数据中寻找真相,但数据谎言比想象的更猖獗。
《统计数据会撒谎》这本书用关系离散的章节,介绍了数据统计和数据处理中的一些小伎俩,统计人员通常以此来误导接收数据的人群。“修饰”数据的方法,总结起来,可以从数据源、数据处理方法、数据展现形式和数据相关关系这几个方面来阐述。
1、数据源,万恶之源
由于时间、成本所限,在统计工作中通常获取的数据源并非总体,而是通过抽样得来的样本数据,样本数据最通俗的问题就是:不具代表性。样本数据就像是脆弱可怜的豌豆公主,容易被影响、被污染,要保护它,就得把被子下的豌豆全都找出来。那沿着抽样统计的一般流程,一颗一颗地拾起吧。
豌豆1:抽样方式问题
说到抽样,第一反应是:随机抽样。随机抽样是抽样方式中的一种理想状态,最容易出问题的就在“随机”二字上。随机,要求每个样本被抽中的概率是同等的,这在现实中基本无法保证。样本分布不均匀,获取样本的成本不一致,样本抽取概率根本不会是同等。
所以,目前的具体统计实践中,考虑到经济性和可靠性,最常用的统计抽样方式是分层随机抽样。以分层抽样为例子,要求根据分层的依据,将总体样本分成组,每一组的样本内部相似性较高,每组之间的样本相似性较低。抽样时,从每个分组中随机抽取一定的分组样本,汇总形成总体样本。在这一工作流程中最可能产生问题:分组边界不明确,导致分组无意义,使抽样方式在不经意间又成为了随机抽样。
豌豆2:样本总体过小
这个问题非常好理解。最常用的例子是我们初中数学中常见的抛硬币实验。小明抛了5次硬币,4次出现正面,1次出现反面,于是小明说抛硬币出现正面的概率为80%,以后跟人抛硬币打赌都选正面啦。听到这个,数学老师肯定会扔粉笔。聪明的我们在初中的时候就会反驳小明:小明,你错了,你抛的次数太少,得到的概率有问题。
之所以样本量过小会影响结果,可以从这两点分析:随机性和异常值。所谓概率事件,表明事件出现的可能性会围绕概率值出现不确定的上下波动,但总体与概率趋于一致。单次事件是具有随机性的,样本量过小时,会被随机性深深地影响;关于异常值在不同样本量数据中的影响,最恶心的例子就是:一口水中的老鼠屎会比一锅水中的老鼠屎味道更重……(我在说什么)
豌豆3:调查者在调查问题中暗示立场
在调查中暗示立场,是非常令人讨厌的行为。其他的数据源问题,可能是由于方法不恰当、操作有误等原因造成,而调查者在统计调查中通过各种方式暗示被调查者,是赤果果的别有用心。如果非要做这样的事情,我会选择自己把所有的问卷填完,因为这和暗示一样,都能得到我们期望的结果。
所以,保持冷静和客观是调查者很重要的操守。
豌豆4:被调查者故意隐瞒
被调查着隐藏真实答案在问卷调查中很常见。原因有三。
第一,问卷中问题让被调查者感到迷茫,不知道如何回答。这个问题的原因只有一个:调查者在设计问卷之后,自己没有做一做试试。
第二,被调查者已经对回答失去耐心,敷衍了事。六个字:问卷设计太长!用户的耐心是有限的,太长的问卷,结尾一定是被敷衍。要么精简问题,长度控制在不耐烦值飙升之前;要么设置奖励诱惑,让人心甘情愿。
第三,问题设计到被调查者的隐私,故意隐瞒。涉及到用户隐私问题时,即使是匿名情况下,用户也有可能去隐瞒真实答案。目前还没有想到很好的解决方案,可以之后查阅一下心理学中的相关研究。
2、数据处理方法,平均数之殇
《统计数据会撒谎》书中,用了大量的篇幅来讲解如何用平均数撒谎的例子。平均数类型多样,最常见的平均数类型是算术平均数。算术平均数的计算方式非常简单,将所有数据加总求平均即可得到。但算数平均数的简单处理方式,使结果非常容易受到异常值的影响,有时并不能准确的解释总体的情况。
温馨提示:使用算数平均数时,配合服用以下指标,效果更佳。
极差,为最大值和最小值之差,表示样本数据变动的范围。使用算数平均数时,可以用极差来初步检验数据范围,推断是否有异常值引起平均数偏离正常。
方差、标准差,都可以用来检验数据的离散程度。方差和标准差越大,表明大部分数据与平均数之前的差距越大,数据的离散程度越高。
显著性检验,检验搜集到的样本数据能否很好地反映真实结论。常用的显著性检验方法有t检验、卡方检验等。显著性检验不符合要求的数据,不能被接受,不能进行后续的数据分析。
当然,还有一些简单易用的平均数,可以用来解释数据的一般趋势。如,中位数、众数等。
看到数据分析中使用了平均数这一指标,要判断数据是否有意义并正确,可参照如下流程进行推断:判断平均数是使用何种方式计算出>(检验数据的显著性,要求不高时,这一步可以省略)>判断数据的整体趋势和离散程度。遵循这个简单的步骤即可识破平均数谎言。
3、数据展现形式,图表too婊
以图标样式形象展现数据时,数据就是一位任人打扮的小菇凉,任人摆布。
折线图和柱状图中,数值是固定的,图表表现形式却可以千变万化。在这类图表中,X和Y轴的起始数值和刻度比例的变化,都会影响到图表的最终呈现形式,或夸大效果、或掩藏损失。洋葱细胞壁,在显微镜下和肉眼中,看起来非常不同。至于选择显微镜还是肉眼,取决于撒谎者想要掩盖的事实是什么。数据图表展示,也是相同的道理。
使用一维实物图的欺骗操作更容易,因为——只有数值、没有刻度!这就意味着,两幅一维实物图的比例关系,可以根据数据大小随意编造。这一类的欺骗手段常常不是运用在专业的数据分析中,而是在广告营销中吸引消费者的眼球。
4、相关关系,非因果
关于相关关系的类型,Wikipedia概括了6种类型:
For any two correlated events, A and B, the following relationships are possible:
A causes B; (direct causation)
B causes A; (reverse causation)
A and B are consequences of a common cause, but do not cause each other
A causes B and B causes A (bidirectional or cyclic causation)
A causes C which causes B (indirect causation)
There is no connection between A and B; the correlation is a coincidence
对于两个相关的变量A和B,有如下6种可能的关系:
A导致B;B导致A;C导致A,C导致B;A和B互为因果;A导致C,C导致B,间接因果;A和B无联系,由巧合导致的相关关系。
解释成一句话,即:因果关系为相关关系的子集,有因果关系一定相关,相关关系不一定互为因果。
《统计数据会撒谎》中讲了关于英国新赫布里底土著居民对于健康与跳蚤的关系的误解(就不附上了),这个例子就是典型的相关关系与因果关系的乱用,这种类似情况,最常出现在生活中迷信养生学的人群里。已经证实喝牛奶与长高是有相关关系,持续摄入充足牛奶会在趋势上提高青少年的身高。但个子矮矮的少年,不能由此推断一定是因为没有摄入充足的牛奶,很可能是没有一个高个子老爹。
在综合分析《统计数据会撒谎》书中的观点后,个人觉得在识别数据分析中的问题时,只要抓住两个点基本就能拆穿大多数的谎言。
第一个突破点:常识
依据常识就可以识别许多基本的数据谎言,与常识不符必有妖异。假如,某某媒体报道2016年中国的GDP同比增长30%,任何普通群众看到这样一个史无前例的数字,第一反应一定是:假新闻。
上面是一个非常简单的例子,而依靠常识识破谎言的难点在于:常识的积累。常识大概能分成如下的类型:
生活常识:日常生活中的常识,如鸡蛋的价格、燃油的价格等等。
工作常识:工作相关的基础知识,以及一些行业平均水平数据。
社会常识:跟社会规则和制度相关的常识,如道德规范、宗教信仰等。
其他专业性常识:如力学三大定律、相对论等。
第二个突破点:行为与动机
某个从事心理学研究的朋友告诉我:观察人们的行为比分析人们如何说更重要,探究行为的动机又比观察行为更重要。
我们在用户研究中广泛使用的用户问卷调查和用户访谈,就是让用户来告诉我们:这就是我,我就是这样的人。看完这本《统计数据会撒谎》后,看过调查数据中花样百出的问题与谎言后,我相信应该没有多少人再去信任并依赖问卷调查所得出的结论了。
用户行为数据会比用户调查可靠得多。用户的使用情况、手势行为、访问路径,在样本量合理的情况下,基本可以反映用户的真实情况。单个用户行为无法准确分析,大量用户行为数据却可用以分析群体行为特征;大量用户的问卷调查可能存在大规模谎言,大量用户行为数据却能排除异常。
而真正需要探寻的价值,就是掩藏在行为之后的动机。发掘动机有两种方式:一、是通过行为数据,排除其他动机的可能性,锁定目标动机;二、是通过专业用户研究人员与用户沟通,发现动机。你一定会问我,为什么又跟用户聊起来了,额,抽象的事情,还是聊一聊比较好,真的。