我们生活在大数据时代。专家告诉我们,对海量数据进行筛查,可以发现真相,我们可以做出更明智的决策。我们常常不假思索地认为,我们对大量数据的处理永远不会出错。
也许事实的确如此,也许未必。有时只需片刻的思考,我们就会发现某些通过大数据得出的结论存在问题。
《简单统计学》一书考察了几十个扭曲的结论,给我们敲响警钟,让我们在大数据时代仍然保持足够的清醒。
这本书能够帮助我们远离错误—包括外部错误和自己造成的错误。我们将学到一些简单的指导准则,识别不靠谱的观点。
一、如何区分正确理论和胡诌之间的区别?
区分正确理论和胡诌,有两种有效的良方:常识和新数据。
第一种良方是常识。如果某种理论听起来很可笑,那么在看到压倒性的证据之前,我们绝不应该轻信这种理论;即使看到了压倒性的证据,我们也应当保持怀疑的态度。不同寻常的说法需要不同寻常的证据。
第二种良方是新数据。当通过搜刮数据编造出某种理论时,用同样的数据对这种理论进行检验是一种不明智的做法。既然编造这种理论是为了迎合数据,那么这些数据当然会支持这种理论!应当使用没有被数据挖掘所污染的新数据对理论进行检验。
当用新数据检验通过数据挖掘形成的理论时,得到的结果常常令人失望,这是意料之中的事情。用启发某种理论的数据,对这种理论进行检验的做法显然具有误导性。如果某种理论对新数据的匹配程度不像原始数据那么好,这显然并不奇怪。
二、认识“自选择偏差”
幸存者偏差是最常见的自选择偏差,最常见于回溯性研究。
当数据涉及人们的选择时(比如当人们选择上大学、结婚或者要孩子时),就会出现“自选择偏差”。在这种情况下,对于做出不同选择的人进行比较的做法是靠不住的。例如,我们常常听人说,大学毕业生的工资高于高中毕业生,似乎人们观察到的工资差异可以衡量上大学的财务回报。不过,大学毕业生之所以工资比较高,部分原因在于他们比不上大学的人更聪明,更有抱负。实际上,做出不同选择的人本身可能就是不同的。
在我们通过观察人们的行为而收集的“观测性数据”中,自选择偏差非常普遍。人们可以选择自己的行为,因此他们的选择也许反映了自身的特点。要想避免这种自选择偏差,可以进行对照实验。为避免幸存者偏差,我们应当从过去开始并向未来展望。
三、相关性不等于因果性
最常见的相关性谬误是安慰剂效应。
如何识别事物之间的相关性而非因果关系?
比较是实证研究的生命线。在与某种替代方案进行比较之前,我们无法确定某种药物、疗法、政策或策略的有效性。不过,请当心肤浅的比较,包括对于大数和小数百分比变化的比较,对于除了随时间增长以外没有其他共同点的事物的比较,以及对于无关数据的比较。这些比较就像苹果和李子干之间的比较一样。
四、不要被图像欺骗
图像可以揭示某种模式,比如收入随时间的变化以及收入与支出的相互关系。图像也会扭曲数据,误导读者。
当心将数轴上的零点忽略掉的图像。这种忽略可以将图像放大,显示出之前由于分辨率问题而无法发觉的模式。不过,这种做法也会放大数据的波动性,可能产生误导效果。最糟糕的是数轴上没有数字的图像,因为我们无法判断数据的波动性得到了怎样的放大。
当心没有调整人口和物价增长因素的数据。不要被那些将时间放在纵轴上的图像欺骗,尽管我们并不经常见到这样的图像。也不要被间隔不一致的图像欺骗——比如同样的1厘米时而表示五年间隔,时而表示十年间隔。
有用的图像可以准确而一致地展示数据,帮助我们理解数据。相反,错误的图表会分散我们的注意力,使我们感到困惑和烦躁。
五、善用常识
不要仅仅进行计算。运用常识思考所回答的问题是否正确,假设是否合理,结果是否可信。如果一种统计观点不合理,应对其进行仔细思考。
假阳性问题与条件概率的混淆有关。在某些情况下(比如存在某种疾病),一项检测很有可能显示阳性结果,但阳性检测结果并不能认定疾病的存在。它可能是假阳性。对于罕见疾病(比如恶性肿瘤)或者存在大量读数的情形(比如死三文鱼磁共振成像),假阳性现象更为常见。
六、辛普森悖论
辛普森悖论,指的是当聚合数据被分解时,其中的模式发生逆转的现象。
由于潜在的自选择偏差和混杂因素,观测性研究存在固有的挑战性。应时刻对利用数据发现理论的研究保持警惕。如果一项研究支持我们的观点,我们会自然倾向于会意地点点头,认为观点得到了证实。更加明智的做法是进行仔细观察并考虑混杂因素。当一项研究看上去不合理时,也应当采取这种做法。
七、如何不陷入小数定律的误区?
我们天生倾向于寻找模式并且相信我们看到的模式背后一定存在某种合理的解释。
想象我们从一个装满红球和蓝球的巨大容器中取出10个球。小数定律指的是这样一种错误观念:如果容器中50%的球是红球,那么我们取出的10个球中将有5个红球。事实并非如此。我们取出5个红球和5个蓝球的概率只有大约25%。大多数时候,红球和蓝球的数量是不等的。
错误的小数定律将导致两个相互关联的错误。第一个错误叫做赌徒谬误。如果我们取出的前3个球是红球,那么我们倾向于(错误地)认为下一个球很可能是蓝球,因为我们最终一定会得到5个红球和5个蓝球。类似地,如果一个均匀的硬币被抛掷10次,前3次都是正面,那么下一次很有可能是背面,因为我们最终将会得到5个正面和5个背面。
第二个错误发生在我们不知道容器中有多少红球和蓝球的情形中。如果我们取出5个球,其中4个球是红球,我们就会(错误地)认为容器中一定有80%的球是红球。因此,下一个球有80%的可能性是红球。
八、均值回归
当学术能力或运动能力等特点得到不完美测量时,观测到的表现差异会夸大实际能力差异。表现最优秀的人与平均水平的距离很可能不像看上去那样遥远,表现最为糟糕的人也是如此。因此,他们随后的表现将会朝着均值回归。
这并不意味着表现最优秀的人受到了诅咒。实际上,这只是因为他们的出色表现得到了好运的帮助。均值回归也不意味着能力向均值收敛、大家很快就会具有平均水平,它仅仅意味着极端表现在经历好运和霉运的群体之间轮换。均值回归也不意味着成功和不成功的公司将收敛到令人沮丧的平庸状态。
九、祸兮福所倚,福兮祸所伏?
当我们经历糟糕的运气时,我们希望自己能够转运。我们的霉运不可能永远持续,但发生在我们身上的坏事并不会自动提高发生好事的可能性。要想改变运气,我们通常需要改变自己的行为。例如,如果我们在找工作时不断遭到拒绝,我们应当考虑如何更好地表现自己,或者考虑申请不同的工作。正负相抵只是一个笑话,不是值得信赖的规律。
十、如何正确对待数据
1.数据聚集
数据聚集现象无处不在,甚至存在于随机数据之中。想要寻找某种解释的人一定会找到一种解释。不过,某种理论与数据聚集现象相符并不是一种具有说服力的证据。人们发现的解释需要言之有理,而且需要得到新数据的检验。
如果你听到某些数据支持某种理论,那么在相信之前,请回答两个问题。
首先,这种理论是否合理?如果不合理,不要轻易相信胡言乱语是合乎情理的。
其次,宣传这种理论的人在提出理论之前是否查看了数据?是否在选定所宣传的理论之前对数百种理论进行了检验?不要急于做出判断,应当等待这种理论接受其他数据的检验。
2.留意不自然的数据分组
对于看上去天马行空的理论,应当抱有极为谨慎的怀疑态度。留意不自然的数据分组。留意研究人员似乎仅仅提到经过仔细选择的一部分统计检验的研究。
3.警惕数据遗漏
在研究中遗漏数据的做法是一个巨大的危险信号。包含或者排除数据的决定,有时具有天壤之别。这种决定应当基于数据的相关性和质量,而不是数据是否支持或影响研究人员期望或理想的结论。
对于得到错误记录的数据进行校正是可以的。有时,忽略异常值也是可以的。不过,对于研究人员来说,最好的规则是,当存在疑问时,不要排除数据。对于读者来说,最好的规则是对丢弃数据的研究保持警惕。被忽略的数据是否存在非常明显的错误,如果不存在,说明研究可能有问题。一些数据之所以被丢弃,可能仅仅是因为它们与理想的结果相矛盾。
以上就是我从这本书中学习到的一些内容。说句实话,这本书翻译的实在是让人不敢恭维,书中大量的重复降低了这本书的可读性。如果让我推荐的话,五星的标准,这本书只能打两星半。