因果学习及反因果学习(论文翻译)

On Causal and Anti-causal Learning

本博文对论文On Causal and Anti-causal Learning的摘要和模型部分做了翻译和小修改,本论文主要描述因果学习中常见的几类基于函数估计的模型,同时说明了因果与相关性、因果学习与机器学习之间的关系,论文重点在讨论和比较不同模型,内容较为笼统,不做深入探讨,但对不同模型之间的本质关系的讨论值得一看。

论文地址:https://arxiv.org/abs/1206.6471

0. 摘要

English

We consider the problem of function estimation in the case where an underlying causal model can be inferred. This has implications for popular scenarios such as covariate shift, concept drift, transfer learning and semi-supervised learning. We argue that causal knowledge may facilitate some approaches for a given problem, and rule out others. In particular, we formulate a hypothesis for when semi-supervised learning can help, and corroborate it with empirical results.

中文

我们思考在一个潜在因果模型可以被推断的情况下,进行函数估计的问题。这对诸如协变量移位、概念漂移、迁移学习、半监督学习等常见场景具有启发意义。我们认为,因果知识可以促进对给定问题方法的应用,并派出其他方法。特别地,我们提出半监督学习何时能够帮助学习的假设,并以真实结果证实它。

1. 介绍

因果与相关性的关系

  • 大部分机器学习算法采用统计相关性来学习数据信息,并利用确定值进行预测。但这样的学习需要大量数据,且没有顾及到底层模型数据生成过程的细节,容易受到未观测的混淆因子的影响。
  • 因果模型可以弥补机器学习的一些问题,其目标是通过因果探索底层数据的生成机制。联合分布的不对称性对统计机器学习有影响,这篇论文的目的是提出一些观点和建立彼此的联系。
  • 论文不包含新的实验数据,但对其他三项研究报告的表现进行了元分析,聚焦于半监督学习的因果结构的含义。
  • 因果和相关性是不通过的
  • 因果模型将因果语义与具有经验可测结果的事物联系起来。给定来自某一联合分布的观测数据,因果模型允许我们测试条件相关性并推断那个因果模型是和观测分布一致的

因果模型

  • 因果图模型
  • 函数因果模型
  • 因果模型给我们更强的解释性
  • 在预测问题上,我们不仅可以由原因预测结果,也可以由结果预测原因

因果模型的一些假设

假设由以下因果图

图片.png

因果充分性假设

当变量集 中的任意两个变量的直接原因变量都存在 中 时,变 量 集 就被认为是因果充分的

函数 和噪声 共同确定了因果机制 ,即 。我们认为 是原因 到结果 的转换机制

因果机制和输入的独立性

因果机制 与 输入分布 之间是独立的,改变其中一个,不会影响的另一个

函数因果模型的完备性

事实证明,二元函数因果模型是如此丰富,以至于因果方向无法推断。

如,对于噪声 噪声取值不同,可以影响 的值,即 。 函数可以实现任意不同的机制,因此很难从如此复杂的模型中采集的经验数据中识别 。令人惊讶的是,只有条件独立才允许我们进行具有实际意义的因果推理,如 PC 算法、 FCI 算法。对于条件独立性无法识别因果方向的边,额外的假设只适用于特定场景。

加性噪声模型

加性噪声模型(Additive noise models,ANM):

除了某些例外情况,如φ是线性的,NE是高斯的情况,给定的两个实值随机变量X和Y的联合分布可以用 ANM 拟合

非线性 ANM

其中, 是可逆函数

在 ANM 模型中,假定 ,利用 对 进行回归,如果因果关系正确,则 与回归结果的噪声应该相互独立,否则因果关系不成立。

在本论文中, ANM 有两个重要作用:

  • 下面的方法将假定我们知道什么是原因,什么是结果
  • 我们将推广ANM来处理有几个 (1)形式的模型共享相同的 的情况

2. 由原因预测结果

假设有因果关系 ,我们需要估计函数 或者条件分布

图片.png

我们关注的一个问题是:在潜在模型中的噪声值改变时,模型估计的鲁棒性如何?

2.1. 关于输入的附加信息

2.1.1. 关于输入改变时的鲁棒性(原因改变)

给定:来自分布 的训练数据,采样自 的输入数据()

目标:估计

解决方案:由于数据生成机制和输入的独立性,可知在 上的改变不会过大地引发 的改变,所以我们有 。对于等式 ,不应该错误地认为,在利用 来预测 时模型不需要适应新分布 ,这是因为,有限数据可能倾向于简单的函数,这些函数在 具有高概率的区域内很好地拟合数据,而在 具有高概率的区域内则不适合。

2.1.2. 半监督学习(SEMI-SUPERVISED LEARNING,SSL)

给定:来自分布 的训练数据,采样自 的输入数据

目标:估计

注意:由于数据生成机制和输入的独立性, 不包含关于 的信息,通过添加测试输入 可以更准确地估计 ,但不会影响 的估计

2.2. 关于输出的附加信息

2.2.1. 关于输出改变时的鲁棒性(结果改变)

给定:来自分布 的训练数据,采样自 的输出数据()

目标:估计

解决方案:首先我们需要确定 还是 发生变化了(一些方法参考 Localizing distribution change (局部分布变化)(第4节):

  • 如果 发送改变了的话,则利用 2.1.1 的方法
  • 如果 发现改变了的话,我们可以通过 Estimating causal conditionals (第4节)估计 。在这里,加性噪声时一个完备的假设

2.2.2. 附加输出

给定:来自分布 的训练数据,采样自 的输出数据

目标:估计

假设:

  • 有一个由 到 的加性噪声模型
  • 可以唯一的分解未两个分布的卷积,即
  • 例如,当噪声为高斯且 不可分解时,就满足了这一点(它不能写成两个分布的非平凡卷积)

解决方案:

  • 附加输出时有帮助的,因为告诉我们 或 。学习自 对的加性噪声模型可能会告诉我们哪个选项是正确的。
  • 已知 ,学习 可以简化为 中学习 ,这是一个比学习 更弱的问题

2.3. 关于输入和输出的附加信息

2.3.1. 迁移学习(TRANSFER LEARNING,只有噪声改变)

给定:来自分布 的训练数据,采样自 的附加数据,

目标:估计

假设:加性噪声,即函数 是不变的而噪声变化

解决方案:允许 Conditional ANM 来输出一个唯一的函数,只要求两数据集的残差是独立的

这个场景还有一个 SSL 变体:给定一个训练集加上来自两个原始边缘的两个未配对集,额外的集合有助于更好地估计 ,因为我们在2.2.2节中已经讨论过,从 中抽样的额外的 值数据有所帮助

2.3.2. 概念飘逸(CONCEPT DRIFT,只有函数改变)

给定:来自分布 的训练数据,采样自 的附加数据,

目标:估计

假设: ANM 中 不变,但函数 改变

解决方案:对采样自 的数据点采用 ANM ,得到函数 ,然后有 ,其中下标 指代该分布所指的变量。

3. 由结果预测原因

思考这样一类问题,系统将因果关系中的结果变量作为输入,并尝试利用输入预测原因变量的值,这类问题可以称为反因果预测。如下图,反因果预测的目的是估计 。这类问题看似很不合常理,但实际上在机器学习中很常见,如,手写数据集的标签预测中,需要预测的标签实际上是数字图像生成的原因。

与由原因预测结果不同,由原因 预测结果 时, ,即 生成 的因果机制,与 的分布 是相互独立的,利用因果机制直接计算较方便;但在反因果预测中,由原因 预测结果 时, 对 的变化很敏感,使得直接预测难以实现。通常,为了计算方便,在估计 时,比较好的办法是,先构建 ,然后通过贝叶斯法则 估计

图片.png

3.1. 关于输入的附加信息

3.1.1. 关于输入改变时的鲁棒性(结果改变)

给定:来自分布 的训练数据,采样自 的输入数据()

目标:估计

假设:具有可逆函数 和不可分解的 的加性高斯噪声。因果条件的 在任何情况都是成立的

解决方案:采用 Localizing distribution change (局部分布变化,第四节)来判断 还是 发送变化了:

  • 如果 发生了变化,则我们假设 是一个单射条件,通过 Inverting conditionals (第四节)来估计 。进而我们将得到 ,然后计算
  • 如果 发生了变化,则通过 Estimating causal conditionals 估计 (第四节)

3.1.2 半监督学习(SEMI-SUPERVISED LEARNING,SSL)

给定:来自分布 的训练数据,采样自 的输入数据

目标:估计

注意: 和 不是相互独立的,二者均包含彼此的信息(这点与因果预测不同)。附加的输入可能允许对 更加准确的估计

常见的 SSL 的假设,可以被认为将 的性质与 的性质联系起来:

  • cluster assumption:相同聚类的 有相同的
  • low density separation assumption:分类器的决策边界(即 与 的交点)应该位于 较小的区域
  • semi-supervised smooth�ness assumption:估计函数(可以认为是 的期望)在 较大的区域应该平滑的

3.2. 关于输出的附加信息

3.2.1. 关于输出改变的鲁棒性(原因改变)

给定:来自分布 的训练数据,采样自 的输出数据()。这种情况也被称为先验概率移位。

目标:估计

解决方案:数据生成机制的独立性表明 ,因此有 ,然后计算

3.3. 关于输入输出的骨架附加

3.3.1. 迁移学习(TRANSFER LEARNING,关于输入和输出噪声改变的鲁棒性)

给定:来自分布 的训练数据,采样自 的附加数据,

目标:估计

假设:加性噪声,即函数 是不变的而噪声变化

解决方案:2.3.1(正向因果预测的迁移学习) 类似,但最后需要后向地利用模型

3.3.2. 概念飘逸(CONCEPT DRIFT,只有函数改变)

给定:来自分布 的训练数据,采样自 的附加数据,

目标:估计

假设: ANM 中 不变,但函数 改变

解决方案:我们先学习 分布地函数 ,然后使用由分布 采样的 二元组估计的 和 ,进而结合函数 与噪声 和 来估计 的分布,进而估计

4. 模块

Inverting conditionals(反向条件)

思考一个由 转换到 的机制 ,在一些情况下,我们没有损失关于这个机制的任何信息

injective conditionals(单射条件)如果不存在任何一个 使得 ,则条件分布 是单射的

Localizing distribution change(局部分布变化)

解决问题:给定由分布 采样的数据和采样自 的附加数据( ),确定 还是 发生了改变

假设:转换关系服从 ,其中, 分布 和 的函数 相同,但噪声 的分布不同,或者是 的分布发生改变,结果的分布可以写作:

其中,满足条件之一 或

解决方案:我们可以确定那种情况是真的:

  1. 如果 的傅里叶变换包含零,那么其中一些对应于 频谱的零,其他对应于 频谱的零。 然后我们可以检查 中还会出现哪些零。
  2. 假设 和 不可分解, 和 为零平均高斯分布,那么分布 过对 进行最大可能宽度的反卷积(仍然产生密度)来唯一确定 。

Estimating causal conditionals

解决问题:给定 ,在假设 不变的情况下估计

假设:假设 和 是由模型 生成,其中 和 相同,而 发生改变,即

则可以通过反卷积 获得 ,然后我们可以估计新条件

Conditional ANM

(用于迁移学习)假设两份数据由 和 生成

改进算法自(Hoyer, P. O., Janzing, D., Mooij, J. M., Peters, J., and Scholkopf, B. Nonlinear causal discovery with additive ¨ noise models. In NIPS, 2009.),要求分离独立性 和

可以认为是一种广义的 ANM 模型,要求 且

你可能感兴趣的:(因果学习及反因果学习(论文翻译))