因果推断总结

目录

因果关系的三个层级

因果推断的三个假设

因果性的常见谬误

因果推断偏差原因

因果推断的两种流派

因果推断前提假设

因果推断的方法与实操流程


因果关系的三个层级

因果推断是基于统计学方法刻画变量之间的因果关系。因果关系存在三个层级

  • 第一层级(关联):从数据中观察到哪些相关规律?是对历史数据的总结。

  • 第二层级(干预):如果采取某个行动,会产生什么结果?是面向未来的推测。

  • 第三层级(反事实):如果当时采取了另外一个行动,结果会是怎样?是面向过去的反思。

因果推断总结_第1张图片

 

目前大部分机器学习模型还处在第一层级,仅仅实现了对历史数据的“曲线拟合”,这就导致:一是解释性差,拟合背后的作用机理处于黑盒状态;二是泛化性差,拟合得到规律只适用于训练数据。而因果推断方法能让我们站上第二、三层级,从而实现更好的解释性和泛化性,这也是因果推断在机器学习领域逐步兴起的一大原因。

因果推断的三个假设

假设1:稳定个体干预值假设(Stable Unit Treatment Value Assumption, SUTVA)

假设2:无混淆假设(Unconfoundedness)

假设3:正值假设(Positivity)

因果性的常见谬误

1) 伪关系

伪回归指的是自变量和因变量之间本来没有任何因果关系,但由于某种原因,回归分析却显示出它们之间存在统计意义上的相关性,让人错误地认为两者之间有关联,这种相关性称作伪关系(spurious relationship)。

例如:吸烟导致肺癌;

原因:存在干扰因素/两个变量之间存在局部随机趋势

2) 幸存者偏差/选择偏差

幸存者偏差指的是只看到经过某种筛选之后的结果,忽略关键信息。

例如:二战中,是否要加强飞机弹孔部位

3) 遗漏变量偏差

遗漏某一重要变量,导致人们认为两者存在相关关系(可以理解为伪关系+幸存者偏差)

例如:夏天冰激淋销量上升,意外淹死的人也很多,是冰激淋导致更多人淹死吗?

遗漏了天气的影响,天气变热会导致吃冰激淋的人变多和玩水的人变多

4) 反向因果

反向因果关系是指与常见假设相反的因果方向或循环中的双向因果关系。

例如:犯罪率高的城市警察也多,是否警察多导致犯罪率高,还是犯罪率高导致警察多?

因果推断偏差原因

事实上不存在平行时空,我们不能同时对一个群体既施加干预又不施加干预,而只能观察到其中的一种情况,对于未观察的情况我们称之为反事实的(Counterfactual)。理论上,可以通过随机控制实验(Random Control Trial,RCT)来解决这个问题:将群体随机分成两组,一组施加干预(实验组),另一组不施加干预(控制组/对照组)。这种方法称为实验性研究,广泛应用的AB实验方法其实就是同样的思路。

1)混杂偏差:同时对Treatment和结果有影响的因素叫混杂因子(Confounder),它的存在会导致偏差。消除混杂偏差的方法是将混杂因子控制住,再去度量Treatment和结果的关系。

2)选择偏差:不管是实验性研究还是观察性研究,评估通常都是在一个筛选出来的样本子集上进行,如果样本子集不能代表总体,则会导致选择偏差(或称样本偏差)。

因果推断的两种流派

 (1) Rubin 虚拟事实模型

  • 核心思想:寻找合适的对照组
  • 实地试验:例如A/B实验
  • 根据已有数据分析:
    • 匹配法:通过画像去寻找对照组
    • 合成控制:为一个整体(地区、国家等)寻找对照组
    • 双重差分:巧妙利用处理组和对照组在不同时间点的差异去得到因果效应

(2) Pearl因果图模型

  • 模型由有向图和观测数据构成
    • 有向图用来描述因果关系:节点Z影响W,Z也叫W的母节点(parent node),W叫Z的子节点
    • 数据用来计算干预前的各种条件分布  ,等
    • 有向图指导我们怎么使用这些条件分布来消除估计误差

因果推断前提假设

假设1:稳定个体干预值假设(Stable Unit Treatment Value Assumption, SUTVA)

假设2:无混淆假设(Unconfoundedness)

假设3:正值假设(Positivity)

因果推断的流程

① 数据类型:观测数据、随机实验数据、观测数据+随机实验数据

② 去偏差

混淆偏差:PSM/IPW、DML(双重机器学习)、DRL(双重稳健学习)、SCM(因果图模型)

1 因变量为是否被干预Treatment,自变量为用户特征变量。套用LR或者其他更复杂的模型,如LR + LightGBM等模型估算倾向性得分。

2 倾向性得分

 a. 匹配用的得分:可选原始倾向性得分 e(x) 或者得分的 logit,ln(e(x)/(1−e(x)))。

 b. 修剪(trimming):先筛选掉倾向性得分比较 “极端” 的用户。常见的做法是保留得分在 [a,b]这个区间的用户,关于区间选择,实验组和对照组用户得分区间的交集,只保留区间中部 90% 或者 95%,如取原始得分在 [0.05,0.95]的用户。

 c. 匹配(matching):实验组对对照组根据得分进行匹配的时候,比较常见的有以下两种方法。nearest neighbors: 进行 1 对 K 有放回或无放回匹配。

radius: 对每个实验组用户,匹配上所有得分差异小于指定 radius 的用户。

 d. 得分差异上限:当我们匹配用户的时候,我们要求每一对用户的得分差异不超过指定的上限。

选择偏差:Reweighting、去除混淆因子

③ 先验信息:可选

因果效应估计:

④ 模型选择

ITE:Meta learner(S-learner/T-learner/X-learner)、Tree based

ATE:

⑤弹性保序

⑥评估方法

去偏评估:SMD

平稳性检查:SMD 的一种计算方式为:(实验组均值 - 对照组均值)/ 实验组标准差。一般如果一个变量的 SMD 不超过 0.2,一般就可以认为这个变量的配平质量可以接受。当一个变量的 SMD 超过 0.2 的时候,需要凭经验确认一下那个变量是不是没有那么重要。

模型评估:Qini Curve、AUUC

准确程度指标:Bias、MAE、RMSE

因果敏感度分析:安慰实验、添加未观察常识原因

参考文献:

 因果推断概述 - 知乎

数据分析36计(九):倾向得分匹配法(PSM)量化评估效果分析 - 知乎

你可能感兴趣的:(数据挖掘,算法)