关于因果关系的一点思考

从开始接触临床研究的方法论到现在,非常深刻的一个印象就是临床研究注重因果关系(Causality)的验证。比如设计一个随机对照试验RCT)验证某种干预(药物、手术等)对某个临床结局的关系。所采用的主要方法就是控制所有对结局可能有影响的因素,(理论上)只让关心的干预方式在人群中有变异,并观察最终的结局的变化,建立干预对结局的关系。由于在试验设计的时候就让干预先发生,结局后发生,且在作用的过程中控制所有其他因素,因此可以在某种程度上下结论说这种干预对结局是一种因果关系。

从前几十年的实际情况来说,这样的假设被医学界所广泛接受了,近些年也有了一个比较流行的名字:循证医学。在医学界之外的人群中广泛传播。

因此要论证机器学习方法是否能应用于临床研究,如何应用这样的命题,看看人家概率论和统计学当时是如何应用到临床研究的,或者说,概率论和统计学是如何对待“因果关系”的,也许值得借鉴。

本人没有对因果关系做过任何深入的研究,因此还是选择去Wikipedia上看了看关于因果关系的(科普性)阐述。结果发现有些论点还是很有启发的。说说我觉得挺有意思的几点吧。

 

因果关系(Causality)与条件(Conditionals)的对比

按照Wikipedia所说,首先条件命题肯定不是因果关系命题。因果关系是非常强的假设。但是不同种类的条件命题可以逐渐接近因果关系命题。从最弱(最不接近)到最强(最接近)的条件命题如下:

1.   实质条件(material conditional

If Barack Obama is president of the United States in 2011, thenGermany is in Europe.

2.   直陈条件(indicative conditional

If Shakespeare of Stratford-on-Avon did not write Macbeth, then someone else did.

3.   反事实条件(counterfactual conditional

If switch S were thrown, then bulb B would light.

这儿只是一些很简单的例子。严格来说还不足以充分说明因果关系到底是什么,是否能从条件命题推理(近似)因果关系等等。但就如里面所说,对条件命题的理解总能有助于对因果关系的理解。

 

因果关系相关理论

无论如何,总是有一些理论试图去定义和解决和因果关系相关的问题。比如这儿列举的几个理论。

1.   概率因果关系(Probabilistic causation)理论

在这个理论中,因果关系被定义为:如果A的发生增加了B发生的可能性,则说A概率上造成了B。正式的关系式为

P{B|A} P{B}

2.   因果关系(Causal calculus)理论

从上面可以看到,因果关系被转化成概率和条件概率了。这儿论述了条件概率(conditional probabilities)与介入概率(interventional probabilities)的不同。比如在临床研究中,研究者需要计算的是介入概率(比如P(cancer|do(smoking))),而通常他只能观察到条件概率(比如P(cancer|smoking))。Causal calculus理论就允许研究者从条件概率推理介入概率。其中有一些我们耳熟能详的名字:贝叶斯网络、混杂因素等。

3.   结构学习(Structure learning

刚才既然说到了贝叶斯网络,不得不说一说因果图了。在上述的理论基础上,图(Graph)或者说最常用的是有向无环图(DAG)被用来表示多个因果关系。这样的图包括贝叶斯网络,以及路径分析等。有了结构,很多对结构进行分析的算法就可以用来对其上假设的因果关系进行推导了。

 

小结

从这篇wiki就可以看出一点临床研究中为什么使用概率论和统计学进行因果关系推导了。机器学习的众多方法其实来源于统计方法。不能说是完全一致,但也可以说是一脉相承吧。因此进一步理解整条理论链,对终端到底如何应用,会非常有帮助。

你可能感兴趣的:(Machine,Learning,Statistics)