深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性

深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性_第1张图片

©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学本科生

研究方向 | 自然语言处理


摘要

高斯过程是贝叶斯学习的主要方法之一。尽管该方法已应用于许多问题并取得成功,但它还是有一些基本的局限性。许多文献中的方法已经解决了这些局限,但到目前为止,还没有对这些主题进行的全面综述。大多数现有研究仅关注高斯过程及其衍生的一种特定变体。本篇综述详细介绍了使用高斯过程的核心动机、它们的数学公式、局限性以及多年来为解决上述局限性而蓬勃发展的研究主题。 

此外,一个特定的研究领域是在过去十年中得到了显著改进的深层高斯过程 (Deep Gaussian Processes, DGPs)。本篇综述概述了推动该研究领域前沿的重要文献。最后,对未解决的问题和未来工作的研究方向进行了简要讨论。

深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性_第2张图片

论文标题:

Deep Gaussian Processes: A Survey

论文作者:

Kalvik Jakkala

论文链接:

https://arxiv.org/abs/2106.12135

引言

近年来,机器学习领域取得了许多进展。这些进展中的大多数可归因于反向传播、大型数据集和计算资源的改进。然而,目前大多数流行的机器学习方法(主要是深度学习方法)都基于概率论方法,这需要通过研究数据集中特征和预测之间的相关性来做出预测决策。这种方法的问题在于,它很容易过拟合可用数据集,并有可能在数据集中学习不必要的偏差。

此外,当前的方法使得将任何先验领域知识引入预测模型变得困难并且不直观。一些现实问题都有领域专家,结合他们的知识可以产生更好的模型。然而,大多数深度学习方法不适应此类合并,需要开发特定于应用的方法来解决此类问题。

预测不确定性是一个重要的指标,需要通过可靠的模型进行估计。大多数数据源都包含不可忽略的噪声,这些噪声可能会阻碍预测模型的性能。测试数据样本与训练数据集分布不太相似的情况也并不少见。在这种情况下,了解模型的预测不确定性至关重要。如果将该模型用于关键任务而不考虑其预测的不确定性,则可能会导致灾难性的结果。

传统深度学习方法的另一个主要缺点是模型比较。深度学习方法是参数化的,需要对模型架构进行明确定义。此外,模型架构是特定于应用的。通常需要将多个模型架构相互比较,以确定哪个是任务的最佳模型。然而,在参数数量和比较精度方面考虑模型大小是很重要的。

贝叶斯方法以不同程度的简便性和效率解决了上述限制。我们可以将领域知识与先验分布结合起来,可以通过预测方差来估计预测不确定性,并且可以使用贝叶斯因子恰当地将模型相互比较。

除了上述优点外,贝叶斯方法的另一个有趣特征是它们有助于对任何系统或过程进行因果建模。实际上,大多数分类或回归问题都需要一系列子决策,每个子决策都会导致最终预测。然而,传统的深度学习方法并不特别适合指定此类因果模型。贝叶斯框架以及 do-calculus 可用于在模型中指定此类结构。

贝叶斯方法的优势引出了为什么它们还没有广泛适用的问题。贝叶斯方法通常会产生大量的计算开销或完全难以处理的问题,这使得它们在几个问题上不可行。尽管如此,这些方法历史悠久,并已被用于解决许多具有重大影响的问题。贝叶斯框架一次又一次地证明了自己值得进一步研究。

本文考虑了一种特殊类型的贝叶斯方法,即高斯过程。该方法源于随机过程——一个致力于用概率理论对随机过程建模的研究领域 。大多数感兴趣的问题通常不是确定性过程,或者即使是确定性过程,人们也可能无法访问对其进行建模所需的所有信息。随机过程在数学上适应了这种不确定性,而高斯过程是随机过程的一种特殊变体。

我通过详细介绍高斯过程、它们的优点和缺点来开始我的阐释。但是,本篇综述的主要重点是深层高斯过程 (DGPs)。我将描述一些对构建 DGPs 至关重要的高斯过程的突出变体,并解释关键的 DGPs 方法。

总结

高斯过程本身就很吸引人。它们的非参数形式、分析特性和对不确定性建模的能力在机器学习中令人向往。然而,它们仍然受到巨大的计算和存储成本限制的困扰。此外,传统的内核函数限制了 GP 可以建模的函数族。

稀疏高斯过程(Sparse Gaussian Processes, SGPs)试图解决存储和计算成本。SGPs 的一种主要方法是使用 Nyström 近似。该方法需要使用变分方法来为完全贝叶斯处理的伪点分布建模。沿着这条研究路线已经提出了几种方法,每种方法都有其优点和局限性。

此外,高斯过程潜变量模型(Gaussian process latent variable model, GPLVM) 是迈向 DGP 的一步。然而,分层特征表示不是预期的用例。它被提议作为概率 PCA 和无监督学习的方法。贝叶斯 GPLVM 通过引入纯贝叶斯训练方法改进了原始方法。BGPLVMs 促进了潜在空间不确定性向后验的传播,从而建立了一种通过 GP 中的非线性传播不确定性的技术。

大多数 DGP 方法都考虑 SGP 和 GPLVM 来解决分层特征表示的问题。DGP 的主要趋势是以前馈方式堆叠 GP,并使用用于训练 SGP 和 GPLVM 的方法来训练它们。然而,这种方法有其局限性。开发的优化边界并不总是严格的,并且某些方法仅限于解析解,这对此类技术施加了可扩展性限制。

此外,堆叠 GP 使模型参数化,因为它需要预定义的模型深度和层宽。Lee 等人考虑了这些问题,并试图通过将潜在函数空间建模为深度神经网络的空间来解决这些问题。但是,该方法目前对于现实世界的应用尚不可行,需要做更多的工作才能实现。Garnelo 等人考虑使用 DNN 参数化的随机过程,而不是使用内核函数定义潜在函数空间的高斯分布。尽管如此,该方法需要对特定于任务的神经网络进行建模,并且只是对未知随机过程的近似。基于能量的过程解决了这个限制,但该方法还不够成熟。

总之,GP 是建模数据集的绝佳方法。该领域的总体趋势似乎正在摆脱高斯假设并考虑一般随机过程。该方法从起步阶段已经走了很长一段路,但仍然存在需要解决的开放性问题,才能将其提升到应有的地位。

更多阅读

深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性_第3张图片

深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性_第4张图片

深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性_第5张图片

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

深层高斯过程最新综述:全面阐述高斯过程的核心动机、数学公式和局限性_第6张图片

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

你可能感兴趣的:(机器学习,人工智能,深度学习,编程语言,神经网络)