在日常生活和数据分析中,我们可以得到大量相关性的结论,例如:
此类结论的依据也似乎有很强的依据,即所谓的历史经验,甚至是大量的真实数据支持,我们通过各种统计模型、机器学习、深度学习模型,通过分析得到以上种种结论。
但是这里面存在一个巨大的疑问就是,”相关性一定等于因果性吗?“让我们来看几个反常识的例子。
1)美国在科学、空间和技术上的开支 && 绞死、勒死和窒息的后果关联性
correlation=99.79%
2)泳池溺水身亡人数 && 尼古拉斯凯奇出演的电影数
correlation=66.66%
3)缅因州的离婚率与人均人造黄油消费量相关
correlation=99.26%
4)深圳交警表示,天秤、处女、天蝎座的人更喜欢违章
“我们发现上周天秤座、处女座、天蝎座携手违法数量居前三名。”吴凯峰告诉记者,通过从8月3日至8月9日行人、非机动车违法人的星座分类对比,发现天秤座、处女座、天蝎座位列违法量前三名(三个星座刚好也相连,从8月23日至11月22日),分别占违法总数的10.5%、9.63%和9.0%。金牛座、白羊座最“乖”,分别以673、661排在最后两位。
来源:深圳交警微门户
显然,深圳交警不会有意去做数据造假这种事情,但是星座决定论又显然违反了我们的常识。我们来分析一下其中的原因。
首先,报道里的数据分析存在错误:没有考虑星座在当地人口中的总体分布,而直接拿观测到的样本绝对数量进行比较。实际上正是因为这三个星座的人口,占当地总人口的比例较高(9-11月为北半球低纬度南部地区生育高峰),造成被抓到违章的人数较多。如果这个调查在北方,估计躺枪的会是双子、巨蟹和狮子座(6-8月)。
北半球国家出生高峰与纬度的关系。来源:Human birth seasonality: latitudinal gradient and interplay with childhood disease dynamics
所以,星座与违章确实有关,源于星座人口比例,而不是星座“乖不乖”。
5)屁股大容易生儿子
人们看到某某生了儿子,然后又发现某某屁股大。经过大量的模糊的统计(很多民间理论都是这种模糊的感受),得出了屁股大生儿子的结论。
然而,这可能一个错误的关联,或者说,错误的因果。女性生儿子,的确是可能屁股大,之所以出现这种情况,主要是因为男婴本身比女婴在体型方面更大。
我们看这个《中国15城市不同胎龄男女新生儿出生体重值修正报告》
可以发现,事实上,在整个发育过程中,男婴都表现出了比女婴体重更高的现象。而我们知道臀部的大小,和骨盆有很大关系(当然不只是骨盆,还有肉肉啊)。而骨盆对于生产的影响很大。
因此,在同样生男生女且没有剖腹产的过程中,在男女怀孕比例基本接近的情况下,较大的骨盆,生育体重更大的男性,相对于较小的骨盆,生育更容易。
或者,更加俗话的说:臀部大,生儿子容易,臀部小,生儿子难。
上述讨论的这种“荒谬的相关性”还有其他大量的例子。显然,对上述讨论的情况,如果使用相关性分析,Peason相关分析等技术,很容易得出一个结论就是:
它们是彼此强烈相关的,看到其中任何一个事物发生,就有很大概率另一个事物也会伴随发生
但显然,这个结论和我们的常识严重地相悖,为什么号称有坚实理论基础的统计算法,在这里似乎产生了一个非常荒谬的结论呢?难道机器学习是伪科学吗?
答案是否定的!真实的情况是统计机器学习没有问题,出问题的是使用它和理解它产生结论的方式,我们接下来的文章来讨论这个话题。
Relevant Link:
http://www.tylervigen.com/spurious-correlations https://www.ncbi.nlm.nih.gov/pubmed/24695423 https://www.zhihu.com/question/66895407
假设两个事件A和B,最简单的因果性例子就是A导致了B,如下图所示:
因果性(causality)会导致相关性(correlation),反之则不成立。换言之,因果性是一个比相关性更强的概念。因果性是一种特殊的相关性。
统计学上把两个或者多个看起来高度相关,但却不存在因果性的现象叫做伪相关性(spurious correlation)。而伪相关的成因可能有:
由以上的讨论可知,对于伪相关不能一概而论,如果因为第三方变量(成因1)而不仅仅是巧合(成因2),那么这种相关性是有用的,即使是“伪”相关。
原因很简单:
大部分情况下我们无法对每一个事件去追根溯源,无法依靠纯粹的“因果推断”,甚至并不知道什么是因什么是果。
在这种情况下,伪相关性就很用。还是拿冰激凌举例,假设我们无法得到任何季节信息,仅靠“冰激凌的销售数”也可以大致推断“溺亡人数的趋势”,因为它们不是独立事件(贝叶斯网络局部独立性原理)。
Relevant Link:
https://onlinelibrary.wiley.com/doi/pdf/10.1002/0471998524.app1 http://xueshu.baidu.com/usercenter/paper/show?paperid=839b6eb7023030a53d56411f78a36a8f&site=xueshu_se
天才的高斯在研究天文学时,首次引进了最大似然和最小二乘的思想,并且导出了正态分布(或称高斯分布)。
其中最大似然有些争议,比如 Arthur Dempster 教授说,其实高斯那里的似然,有贝叶斯或者信仰推断(fiducial inference)的成分。
高斯那里的 “统计” 是关于 “误差” 的理论,因为他研究的对象是 “物理模型” 加“随机误差”。
大约在 100 多年前,Francis Galton 研究了父母身高和子女身高的 “关系”,提出了“(向均值)回归” 的概念。众所周知,他用的是线性回归模型。此时的模型不再是严格意义的“物理模型”,而是“统计模型” — 用于刻画变量之间的关系,而不一定是物理机制。
之后,Karl Pearson 提出了“相关系数”(correlation coefficient)。
后世研究的统计,大多是关于 “相关关系” 的理论。但是关于 “因果关系” 的统计理论,非常稀少。据 Judea Pearl 说,Karl Pearson 明确的反对用统计研究因果关系。有意思的是,后来因果推断为数不多的重要文章(如 Rosenbaum and Rubin 1983; Pearl 1995)都发表在由 Karl Pearson 创刊的 Biometrika 上。
在高维列联表分析中, 有一个很有名的例子,叫做 Yule-Simpson’s Paradox。
此悖论表明,存在如下的可能性:X 和 Y 在边缘上正相关,但是给定另外一个变量 Z 后,在 Z 的每一个水平上,X 和 Y 都负相关。
下表是一个数值的例子,取自 Pearl (2000),
Yule-Simpson’s Paradox
上表分为了3份,
但奇怪的是,处理对男性有 “负作用”,对女性也有 “负作用”。一个处理对男性和女性都有 “负作用”,但是他对整个人群却有 “正作用”:悖论产生了!
这种悖论现象不是由于随机性或者小样本的误差导致的,从纯数学的角度,上面的悖论可以写成初等数学公式:
在纯数学上,这并无新奇之处。但是在统计上,这具有重要的意义,即变量之间的相关关系可以完全的被第三个变量“扭曲”。
更严重的问题是,我们的收集的数据可能存在局限性,忽略潜在的“第三个变量”可能改变已有的结论,而我们常常却一无所知。
鉴于 Yule-Simpson 悖论的潜在可能,不少人认为,统计不可能用来研究因果关系。
由于有 Yule-Simpson’s Paradox 的存在,观察性研究中很难得到有关因果的结论,除非加上很强的假定。
比如,一个很经典的问题:吸烟是否导致肺癌?
由于我们不可能对人群是否吸烟做随机化试验,我们得到的数据都是观察性的数据:即吸烟和肺癌之间的相关性 (正如上一节中的的合并表)。此时,即使我们得到了吸烟与肺癌正相关,也不能断言 “吸烟导致肺癌”。
这是因为可能存在一些未观测的因素(内部分层随机变量),他既影响个体是否吸烟,同时影响个体是否得癌症。比如,某些基因可能使得人更容易吸烟,同时容易得肺癌,存在这样基因的人不吸烟,也同样得肺癌。此时,吸烟和肺癌之间相关,却没有因果作用。
相反的,我们知道放射性物质对人体的健康有很大的伤害,但是铀矿的工人平均寿命却不比常人短。这是流行病学中有名的 “健康工人效应”(healthy worker effect)。
这样一来,似乎是说铀矿工作对健康没有影响。但是,事实上,铀矿的工人通常都是身强力壮的人,不在铀矿工作寿命会更长。此时,在铀矿工作与否与寿命不相关,但是放射性物质对人的健康是有因果作用的。
Relevant Link:
https://cosx.org/2012/03/causality1-simpson-paradox/
关于世界是否存在真正的因果性问题已经上升到哲学讨论范畴了,因果性是贯穿西方哲学的一个极其重要的核心问题,也是至今西方哲学界所讨论和争论的热点话题。有兴趣的读者可以阅读康德的《纯粹理性批判》,这里不做更深入的讨论。
仅从数据分析算法角度来看,所有模型都没有因果性,只是因为支撑的数据证据多了,相关性就变成了因果性,或者是人们常常将相关性视作等同于因果性来使用。
通过观察数据,我们只能得到两者的相关性,不可能得到因果性。
若AB之间存在线性相关性,那么我们认为AB之间至少存在一条因果通路,即A-B,它表示AB之间存在因果关系,但不确定谁是因,谁是果。
一条AB之间的因果通路即:A-B1,B1-B2,...,B2-Bn,Bn-B。
而建立一个新的因果关系,方法一共有三种:
归纳推理有两种方法,分别是“假说演绎”和“先验模型归纳推理”。
1)提出假说(假设)
首先我们看到了一个结果。根据结果,我们会根据目前的知识来给出一个或几个假想的条件。
当这个或这些条件发生的时候,这个结果必定发生。
如果当前的知识无法反驳这个假想的条件,那么我们认为这个条件成立。我们称这个假想的条件为这个结果的原因,也即所谓的假设检验。
2)演绎
把假说当成是已知的知识,设计实验验证。
如果实验中所有数据均满足“原因数据”与“结果数据”呈“线性相关”。那么说我们说数据支持假说。
举个例子:
一次地震灾害,死伤很多。 我们首先想到 “地震是造成死伤的原因” 但是“所有地震都造成死伤了吗?”不是,所以我们的原因不充分 于是变成:“强烈的地震是造成死伤的原因” 但是“所有强烈的地震都造成死伤了吗?”还不是,所以我们的原因还不充分 于是变成:“在人口密度较大的地方发生强烈的地震是造成死伤的原因” 但是“所有在人口密度较大的地方发生强烈的地震都造成死伤了吗?”貌似还不是,所以我们的原因还不充分 于是变成:“在人口密度较大的而且建筑不够结实的地方发生强烈的地震是造成死伤的原因” 再想,所有在人口密度较大的而且建筑不够结实的地方发生强烈的地震都造成死伤了吗? 如果不是继续添加条件直到满足我们知道的所有数据, 如果满足的话,那么我们说“在人口密度较大的而且建筑不够结实的地方发生强烈的地震”是“造成死伤”的原因
导致B的原因A是一个条件的集合{A}。在条件集合{A}下,B发生的概率非常大(目前没有观测到不出现)。
其中集合A中对B相关性较强的几个因素,可以是主要原因,我们生活中,经常以主要原因代替整体说是B的原因。
现根据数据提出假说,再用数据相关性验证。
我们常用的高斯正态分布就是对生活中由大量随机小概率事件组合成的复杂事件的一种抽象模型概括。
琐碎演绎推理法,就是运用逻辑学进行三段论推理,
举个例子:
首先定义相关性通路: X↔Y表示XY之间存在相关性。
一条AB之间的相关性通路即:A↔B1,B1↔B2,...,B2↔Bn,Bn↔B。
那么如果我们确定AB之间有且仅有一条相关性通路,我们认为这条相关性通路是因果通路。
举一个例子,
假设我手滑了跟手机摔坏之间存在相关性。 且只有“手滑了”与“手机掉落”有相关性,手机掉落与手机摔坏有相关性这一条相关性通路。 那么如果手滑与手机摔坏之间确实存在相关性的话。 我们认为:手滑了与手机掉落有相关性,手机掉落与手机摔坏有相关性这一条相关性通路也是因果通路。 即:手滑了与手机掉落之间有因果性,手机掉落与手机摔坏之间有因果性。
Relevant Link:
https://zhuanlan.zhihu.com/p/70159562
我们前面讨论到一个问题,即同时影响A和B的第三个因素C,它们三者共同组成了如下的因果逻辑结构,
在贝叶斯网络的概念体系中,这被称之为“tail-to-tail(共同的原因)”,
在大多数的数据分析场景中,我们都是未知C变量的,我们只能通过有限的观测手段,观测到起因A和最终结果B,然后基于已有的数据进行相关性挖掘与分析,进而将分析得到的相关性结论作为因果性结论来使用,如下图:
最常见的场景就是有监督学习了。
Relevant Link:
https://mp.weixin.qq.com/s/4ocdPZmNGK2pLRiEHVLImw
专家规则在安全攻防领域有很多不同形式的应用,笔者这里列举一些常见的形式:
可以看到,这些专家规则的背后其实蕴含了一个最重要的基本假设:安全规则所描述的敏感特征和安全事件之间有强烈的因果性。
因为这个因果性的存在,安全工程师得以从海量的数据中,精确的拣选出“安全事件”,甚至将多个安全事件进行有机的逻辑组合,得到更复杂的安全事件会话还原。
还是回到专家规则这个话题上来,这里最关键的问题是这些具备“精确”因果推理助推力的专家规则是从哪里来的呢?
答案是安全攻防领域知识,安全工程师通过长年的大量攻防实践,会不断总结出各种有效的安全专家规则(安全知识),这些知识的产生就是所谓的行业壁垒,也是安全数据分析这个行业的第一个入门门槛。
那接下来另一个问题就是,如果你是熟悉算法和数据分析的统计学家,能否在短时间内直接进入这个行业并且获得好的结果呢?
笔者认为存在一定的困难度,原因有以下几点:
通过以上的讨论,最后的一个问题就是,安全攻防人员和安全数据分析师未来的态势会如何呢?是彼此取代,还是彼此合作呢?
笔者个人的观点认为,它们会走向一个互相融合的形态,具体来说如下:
以上种种只是笔者的一些浅见,也许过了若干年后某位同学读到这里会哑然失笑。但不妨,毕竟安全数据分析这条路总要有一群人去试一试的,数据经济时代下,笔者相信安全领域也不能独善其身,数据分析的春风也会一点一滴地改变和优化安全攻防领域的信息不对称窘境,就让我们拭目以待。