0x00000004 因果推理 —— 入门学习笔记

本部分是学习课程:《因果推断入门》个人学习笔记。(感兴趣的小伙伴可以过去围观课程,讲的挺容易理解的)
(主要最近对这个方面感兴趣,并且看到这个有大佬Judea Pearl背书,以下是Twitter截图)
Judea Pearl大佬的Twitter发文评价

以下所有内容仅供学习交流使用。

文章目录

  • 课程简介
    • 前言
    • 因果性和相关性
  • Simpson's paradox(辛普森悖论)上
  • Simpson's paradox(辛普森悖论)下
  • 概率统计基本工具(上)
  • 概率统计基本工具(下)
  • 图模型
  • Structural Causal Model(SCM 结构因果模型)
  • Intransitive case
  • 链状结构(Chain Structure)
  • 叉状结构(Fork Structure)
  • 对撞结构(Collider Structure)
  • D-分隔(D-seperation )
  • 模型检验和等价类
  • 乘积分解法则
  • 混淆变量
  • 观测数据和试验数据(上)
  • 观测数据和试验数据(下)
  • 干预
  • do算子
  • 调整公式(adjustment formula)
  • 其他相关link(后续补充):
  • References:


本部分主要完成第一季到21集(发布博客前只更新到此,后续看情况补充)的学习。后面接着想去阅读一些paper跑跑实验。

课程简介

前言

  1. 因果推断不是一个方法/工具本身,而是一种统计框架。(可以和各种各样的模型衔接)
  2. 本学科发展比较晚(大约30年前才慢慢形成描述因果推断的语言)。
  3. Judea Pearl,Dornald Rubin,James Robins,主要由以上三人提出因果推断框架。
  4. (机器学习的发展)模式识别(现阶段很多任务能够完成) -> 逻辑推断。
  5. 开始应用于科学问题:如
    a. 评价药物效果。
    b. 全球变暖。
    被动观察数据(没有干预的观察数据)寻找多个因素的关系,这是传统的统计框架难以解决。
  6. 本课程仅仅入门,教材:Causal Inference in Statistics, by Judea Pearl

因果性和相关性

案例:巧克力和诺贝尔奖获奖人数。
0x00000004 因果推理 —— 入门学习笔记_第1张图片
相关性做预测没有问题,但是做决策往往会有问题。


Simpson’s paradox(辛普森悖论)上

案例1:(学校录取率和性别关系)
0x00000004 因果推理 —— 入门学习笔记_第2张图片
看似结果有性别歧视倾向。
0x00000004 因果推理 —— 入门学习笔记_第3张图片
按照系分开->结果却不一样了。
案例2:(锻炼量和胆固醇量)
0x00000004 因果推理 —— 入门学习笔记_第4张图片
年龄(同时影响)-> 锻炼和胆固醇
锻炼->胆固醇
如果隐藏年龄,会得出一些难以理解的结论:锻炼越多,胆固醇越大。
有可能是因为由于年龄增大,胆固醇增多,所以需要大量锻炼。

现在问题在于:如何构造探究锻炼和胆固醇含量的关系,在排除掉年龄因素干扰的情况下?

案例3. 药的疗效
0x00000004 因果推理 —— 入门学习笔记_第5张图片
得到结论:无论是男女,药的恢复有帮助。
如果做出一下整合:
0x00000004 因果推理 —— 入门学习笔记_第6张图片
结果相反。
矛盾的现象解释思路:
使用条件概率表达上面数据,计算吃药/不吃药条件下恢复的概率。
0x00000004 因果推理 —— 入门学习笔记_第7张图片
结论还与数据中吃药的人群性别有关(是男是女)
反转条件:
a.吃药的人去为女性。
b.女性比男性更难恢复。
可以理解为:
性别->吃药和恢复。
吃药->恢复。
结论:需要看性别的分类数据,才能完整得到吃药和恢复的关系。否则会混淆两者之间关系。


Simpson’s paradox(辛普森悖论)下

传统框架下,以上案例比较复杂。
案例4:吃药和恢复2
0x00000004 因果推理 —— 入门学习笔记_第8张图片
在这里插入图片描述
有时候分类数据还是会影响结果,主要是关系图变了。


概率统计基本工具(上)

  1. 离散和连续随机变量
  2. 事件和概率
  3. 条件概率
  4. 事件独立性,Conditional Independence(在某一条件下事件独立)
    P(A|B,C)=P(A|C),但B,A不一定独立。
  5. 常用计算
    a. Law of total probability
    条件:A与B相交非空
    P ( A ∪ B ) = P ( A ) + P ( B ) P(A\cup B)=P(A) +P(B) P(AB)=P(A)+P(B)
    =>
    P ( B ) = ∑ i = 0 n P ( B ∩ A i ) P(B) =\sum_{i = 0}^{n} P(B\cap A_i) P(B)=i=0nP(BAi)
    b. 贝叶斯法则(略)
  6. 期望,(样本期望,无偏估计)估计真实期望,条件期望。
  7. 方差,(样本期望,无偏估计)估计真实方差。
  8. 协方差。样本协方差。相关系数,(样本估计)真实相关系数。

概率统计基本工具(下)

  1. 线性回归,回归方程, 满足
    f ( x ) = E ( Y ∣ X = x ] f(x) = E(Y|X=x] f(x)=E(YX=x]最优。
    0x00000004 因果推理 —— 入门学习笔记_第9张图片
  2. 线性回归分析和多元线性回归
  3. 逻辑回归

图模型

图的定义(参考数据结构相关内容)
完全图(complete graph)
路径,有向图,父节点和子节点,环,无环图(DAG)


Structural Causal Model(SCM 结构因果模型)

  1. 简化的因果模型研究变量x与y的关系(x直接导致y的原因)。
    Y = f ( x ) Y = f(x) Y=f(x)
    注意该函数 f 不可逆。
    有事x不仅仅是Y的唯一原因:
    Y = f ( x , z , . . . . ) Y = f(x,z,....) Y=f(x,z,....)
    还有可能x为间接原因(通过复合函数表示)
    Y = f ( g ( x ) ) Y = f(g(x)) Y=f(g(x))
  2. 因果模型与图的对应关系:
    1)0x00000004 因果推理 —— 入门学习笔记_第10张图片
    2)
    0x00000004 因果推理 —— 入门学习笔记_第11张图片
    3)
    0x00000004 因果推理 —— 入门学习笔记_第12张图片
    Exogenous variables u(外生变量)-> Root nodes
    Endogenous variable v(内生变量)-> descendent nodes of root nodes
    Edges -> function f

Intransitive case

X与Y统计相关,但是X与Y不一定有因果性。
X导致Y,X与Y是不是统计相关的?(大部分是的,但小部分可能统计不相关)
案例1:异或(x ^ uy = Y)
x与y有因果性,但是统计独立(可以计算条件概率进行推断)
案例2:
0x00000004 因果推理 —— 入门学习笔记_第13张图片
0x00000004 因果推理 —— 入门学习笔记_第14张图片
0x00000004 因果推理 —— 入门学习笔记_第15张图片
计算可以得到:z与x独立(计算P(z),P(z|x=1),P(z|x=2))

链状结构(Chain Structure)

0x00000004 因果推理 —— 入门学习笔记_第16张图片
0x00000004 因果推理 —— 入门学习笔记_第17张图片
0x00000004 因果推理 —— 入门学习笔记_第18张图片

叉状结构(Fork Structure)

0x00000004 因果推理 —— 入门学习笔记_第19张图片
0x00000004 因果推理 —— 入门学习笔记_第20张图片
0x00000004 因果推理 —— 入门学习笔记_第21张图片

对撞结构(Collider Structure)

0x00000004 因果推理 —— 入门学习笔记_第22张图片
0x00000004 因果推理 —— 入门学习笔记_第23张图片
0x00000004 因果推理 —— 入门学习笔记_第24张图片
0x00000004 因果推理 —— 入门学习笔记_第25张图片

D-分隔(D-seperation )

0x00000004 因果推理 —— 入门学习笔记_第26张图片
通过direction判断更复杂的有向图中,两个变量的统计相关性
0x00000004 因果推理 —— 入门学习笔记_第27张图片
可以理解为有一个通路存在因果性,两个变量存在因果性质。否则为两者独立。

模型检验和等价类

1)检验0x00000004 因果推理 —— 入门学习笔记_第28张图片
通过G得到任何两个节点统计相关性(条件相关性)
模型G来产生数据S,分析产生数据相关性。
从而判断G是否构建正确。
0x00000004 因果推理 —— 入门学习笔记_第29张图片
0x00000004 因果推理 —— 入门学习笔记_第30张图片
2)等价类
0x00000004 因果推理 —— 入门学习笔记_第31张图片
单从统计相关角度分析,无法区分Fork和Chain结构。
0x00000004 因果推理 —— 入门学习笔记_第32张图片
collider和Fork(chain)可以区分。
更加复杂情况:(如有遇到有向图中有Chain和Fork的地方,我们无法区分)
0x00000004 因果推理 —— 入门学习笔记_第33张图片
colliders with adjacent parents are indistinguishable.(相邻的父母节点是碰撞情况下无法区分)
0x00000004 因果推理 —— 入门学习笔记_第34张图片
把两个图的等价类部分去掉。看剩下部分是否等价=>判断两个图是否等价。

乘积分解法则

对于n个变量,我们如果知道变量之间的因果图结构。我们能够对其联合概率密度进行化简。(前提因果图无环)
0x00000004 因果推理 —— 入门学习笔记_第35张图片

混淆变量

0x00000004 因果推理 —— 入门学习笔记_第36张图片
confounder变量
0x00000004 因果推理 —— 入门学习笔记_第37张图片
一下例子都不存在confounder:
0x00000004 因果推理 —— 入门学习笔记_第38张图片
1)随机实验
0x00000004 因果推理 —— 入门学习笔记_第39张图片
观测数据进行因果推断很难,但是实验数据很容易。
随机实验=>做出干预(Intervention)改变数据生成机制。

案例:A/B test

观测数据和试验数据(上)

0x00000004 因果推理 —— 入门学习笔记_第40张图片
0x00000004 因果推理 —— 入门学习笔记_第41张图片
干预数据生成是直接获得因果关系的重要点。

观测数据和试验数据(下)

0x00000004 因果推理 —— 入门学习笔记_第42张图片0x00000004 因果推理 —— 入门学习笔记_第43张图片
0x00000004 因果推理 —— 入门学习笔记_第44张图片
0x00000004 因果推理 —— 入门学习笔记_第45张图片

干预

0x00000004 因果推理 —— 入门学习笔记_第46张图片
0x00000004 因果推理 —— 入门学习笔记_第47张图片
0x00000004 因果推理 —— 入门学习笔记_第48张图片

do算子

0x00000004 因果推理 —— 入门学习笔记_第49张图片
两个概率一样,这个时候我们可以直接用机器学习model进行因果推断。
0x00000004 因果推理 —— 入门学习笔记_第50张图片
0x00000004 因果推理 —— 入门学习笔记_第51张图片

调整公式(adjustment formula)

0x00000004 因果推理 —— 入门学习笔记_第52张图片
结论证明后半段:0x00000004 因果推理 —— 入门学习笔记_第53张图片
不需要adjust情况:0x00000004 因果推理 —— 入门学习笔记_第54张图片
0x00000004 因果推理 —— 入门学习笔记_第55张图片


其他相关link(后续补充):

  1. 一些知乎上的讨论:
    如何将因果推断(分析)和深度学习有机结合弥补两者的不足,有哪几个关键问题需要突破?
    如何理解因果推理因果关系在计算机视觉方面的结合?
  2. 因果推断paper 收集:https://github.com/rguo12/awesome-causality-algorithms

References:

  1. 因果推断入门 : https://www.bilibili.com/video/BV1sJ41177sg
欢迎评论指正和补充

你可能感兴趣的:(CV论文阅读和复现,学习,人工智能)