导读:本文我们来讨论有关相关性和因果性的话题。
作者:徐晟
来源:大数据DT(ID:hzdashuju)
相关性体现了两个事物之间相互关联的程度。比如房屋面积越大,房价就越高,改变其中一个变量(房屋面积)会引发另一个变量(房屋的价格)朝着同样的方向变化,这两个变量就存在正相关性。反之,如果一个变量的改变会让另一个变量朝着相反方向变化,就表明它们有负相关性,比如海拔高度和大气压的关系。
不过,数据之间通常只能呈现关联性,而很难直接体现因果性。人工智能就是一个典型代表,计算机只能发现数据之间的联系,它不负责解释原因。
再来看看因果性。人其实特别喜欢归因,一旦看到某种现象,就总喜欢把这个现象归到某些原因上。这点也体现在人类语言中。比方说,家长常常告诉孩子:“你不好好学习,就会挂科。”这个表述容易让人误以为“好好学习”和“挂科”具有因果关系。
可实际上,家长只是想表达,前者增加了后者发生的可能性,不是必然会让后者发生。日常生活中人们已经习惯使用大量口语化的因果句式,可它们并不一定都有因果关系。
处理统计学问题时,我们必须遵守一个基本原则:数据的相关性并不代表因果性。两个变量存在相关关系,并不代表其中一个变量的改变是由另一个变量变化引起的。
举例来说,20世纪50年代,人们观察大气层二氧化碳的含量和肥胖症人口的数量变化,发现两个数据都出现了明显的增长。似乎二氧化碳含量的增加会导致人类的肥胖。
但实际原因是,那段时间汽车业开始发展,汽车尾气排放增加,导致了大气中二氧化碳浓度上升;同时越来越多的人使用汽车作为代步工具,人们走路活动的时间变少,自然也就越来越胖。
类似的案例还有很多。有人说喝啤酒会导致肚子变大,但我们不能证明喝酒是导致肥胖的原因,更有可能的是爱喝酒的人往往饮食不规律、不爱运动,导致肚子变大;公鸡打鸣与日出高度相关,但它显然不是日出的原因;医院的死亡率比其他地方都高,并不表示医院是一个危险的地方。
有时,要从数据中挖掘和推断出正确的结论很困难。其中的陷阱就在于,数据的相关性和因果性经常容易混淆。
假设两个变量A和B具有相关性,其中的原因有很多种,并非只有A→B或者B→A这样的因果关系。很有可能是,A和B都是由另一个变量C造成的,即C→A且C→B,此时A和B会表现出明显的相关性,但我们并不能说A和B存在因果关系。
比如,有统计数据表明,游泳死亡人数越高,冰糕卖得越多,游泳死亡人数和冰糕售出量之间存在强相关性,但我们并不能由此得出吃冰糕会增加游泳死亡风险的结论。它们都是因为另一个原因导致的—气温升高了。吃不吃冰糕与游泳死亡风险没有任何因果关系。
想要得出因果性,必须从理论上证明两个变量之间确实有因果关系,并且排除所有其他隐含变量同时导致这两个变量的可能性。只通过几组数据,不能轻率做出因果关系的结论。很多数据呈现出来的是表象,无法确认它们是否存在其他隐藏的内部变量。
01 吸烟会致癌吗
统计学在发展初期,曾经争论过一个著名的医学问题:吸烟会导致肺癌吗?这个问题成为20世纪统计学家和医生讨论最激烈的问题之一。
1957年,有两位学者在《不列颠医学杂志》上发表了一组数据,指出吸烟和肺癌有着显著的联系。这件事惊动了当时权威的统计学家费希尔。他立即表明了自己的立场:一是不赞成将此问题拿到公共媒体上渲染,认为这是一个严肃的科研问题;二是认为对于吸烟和肺癌是否有因果关系的理由还不充分。
费希尔驳斥吸烟致癌假说的一个重要科学主张是,可能存在某些不可观测的因素,同时导致了人对尼古丁的渴求和患上肺癌。就像我们前面说的,可能存在着变量C,同时影响了变量A和变量B。
在费希尔看来,人的基因可能才是两者的公共原因,为此他展开了很多研究和论证。不过这也使他陷入了一场医学与统计学的长期争论。在随后几十年的时间里,不断有资料证明吸烟和肺癌有很强的关联,费希尔的主张失败了。
医学上很多杰出的发现,存在一定的幸运和巧合,或许只是某位医生恰巧找到了那个唯一的病因。比如粪便污水中含有霍乱杆菌,霍乱杆菌会引发霍乱,而且它碰巧又是引发霍乱的唯一原因。
但是关于癌症和吸烟,人们并没有找到直接的因果关系。许多人一辈子抽烟,但没有患上肺癌;也有人从来不吸烟,却被诊断出了肺癌。导致肺癌的原因可能是家族遗传,也可能是人们接触了某些致癌物质,因为在当时汽车开始普及,无论是柏油道路的铺设,还是含铅汽油尾气的排放,都有可能使人们接触致癌物质。
统计学家无法给出确切证据的另一个原因是,这个案例无法用随机对照实验进行研究。统计学家无法随机挑选一批人,让他们吸上数十年烟,冒着可能损害身体健康的风险,观察他们患上肺癌的情况,这么做会存在职业道德风险。但如果没有做过严谨的实验,谁也无法说服像费希尔这样的统计学家认同“吸烟致癌”这样的因果性结论。
如今,我们知道“吸烟有害健康”,这句警示标语被印在所有卷烟包装上。但是,得到这个答案的过程比大多数人想象的艰难得多。
尽管在吸烟与肺癌的争论中,费希尔的观点被证明是错的,但他的统计方法是正确的。费希尔想要表达的是,数据的相关性并不代表因果性,要找到因果关系就要有正确的方法。从这个角度来看,这正好体现了统计学本身的严谨性和科学性。
02 医学上的解决方案
长久以来,人们习惯性地认为,连续相伴发生的两件事存在因果关系,比如:乌云密布,倾盆大雨,所以乌云就是下雨的原因。倾盆大雨,道路泥泞,所以下雨是泥泞的原因。
医学上,人们用这种现象来确定药物疗效,比如让患者吃下某种药物或进行某种治疗,然后观察患者是否痊愈,如果痊愈就认为治疗是有效的。这属于传统临床医学。
18世纪,英国哲学家休谟提出了一种怀疑主义观点,他认为,人们从来没有亲身体验或亲眼证实过因果关系本身,人们看到的永远是两个相继发生的现象。所以,一切被称为因果关系的东西都是值得怀疑的,应该重新审视。比如公鸡鸣叫,太阳升起。这两个事情是相继发生的,但是公鸡鸣叫并不是太阳升起的原因。
在医学上,有些疾病无须治疗也能自动痊愈,比如口腔溃疡和感冒;有些疾病只要给病人吃一些安慰剂,再加上一些心理暗示就能治愈。而以上情况,医生所进行的药物治疗都是多此一举。
为了确认因果性,医学上常用的实验方法是大样本随机双盲试验。它的步骤是这样的。
首先要选择一定数量的病人。挑选时有两个原则。一是大样本,因为样本越多,统计结果越能稀释掉特例。二是随机性,这样能避免病人因病情轻重不同导致痊愈效果的差异。
接着可以把病人们随机分成三组。第一组是对照组,不做任何治疗,用来观察病人在没有治疗情况下疾病的自愈效果。第二组是安慰剂组,给病人吃没有治疗成分的“假药”,用来观察病人的心理作用对疾病的影响。第三组是治疗组,给病人服下真药,观察药物真实的治疗效果。
在整个治疗过程中,病人们并不知道自己属于哪一组。这种随机化的好处是消除了混杂在其中的选择性偏差。最终观察治疗结果,如果第三组的治疗效果明显高于前两组,则说明该药物或疗法确实是有效的。
一开始,整个试验过程只对病人盲测,医生知道病人的分组。但在实践过程中,人们发现,有些医生会自觉或不自觉地给病人暗示,他们的主观判断和偏见会对实验结果产生影响。
于是,人们改进了盲测方法,整个试验过程连医生都不知道自己身处哪一组,病人和医生是“双盲”的,所有的统计工作交由第三方完成。这么做能很好地屏蔽来自医生的主观偏见,让试验结果变得更加客观和公正。
大样本随机双盲试验是现今医学界公认的可以确定药物疗效的实用方法。它主张的原则是:为了确认某个变量对实验结果有什么影响,就做一组比照实验,只尝试改变这个单一变量,然后观察实验结果。
当然,这个方法也有不完美的地方。有时,实验中的相关变量很多,很难确定到底应该控制和不控制哪些变量,以至于最终控制了真正想要测量的变量。但不管怎样,大样本随机双盲试验仍然是一套可遵循的、有效的用于验证因果性的数据统计方法。
关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。
本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)
《大话机器智能:一书看透AI的底层运行逻辑》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。
划重点
干货直达
建议收藏!数据中台行业发展概况及展望
什么是元宇宙、新基建、赛博空间?7个最火科技名词解释,都在这里了
详解6G系统数据治理方案的设计要点和原则
终于有人把监督学习讲明白了
更多精彩
在公众号对话框输入以下关键词
查看更多优质内容!
读书 | 书单 | 干货 | 讲明白 | 神操作 | 手把手
大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 | 数学 | 算法 | 数字孪生
据统计,99%的大咖都关注了这个公众号