论文阅读 7 | Non-Gaussian Gaussian Processes for Few-Shot Regression

小样本回归的非高斯高斯过程

  • 摘要
  • 1 简介
  • 2 相关工作
  • 3 背景
  • 4 Non-Gaussian Gaussian Processes

摘要

高斯过程 (GP) 已广泛用于机器学习中以对函数分布进行建模,其应用包括多模态回归、时间序列预测和小样本学习。 GP 在最后一个应用中特别有用,因为它们依赖于正态分布并支持后验概率函数的封闭形式计算。不幸的是,由于生成的后验结果不够灵活,无法捕获复杂的分布,因此 GP 假定后续任务之间存在高度相似性——这一要求在现实世界条件下很少得到满足。在这项工作中,我们通过利用归一化流的灵活性来调节 GP 的后验预测分布来解决这个限制。这使得 GP 后验局部非高斯,因此我们将我们的方法命名为非高斯高斯过程 (NGGPs)。 我们提出了一种基于 ODE 的可逆映射,它对随机变量向量的每个分量进行操作,并在所有分量之间共享参数。我们凭经验测试了 NGGP 在各种少样本学习回归数据集上的灵活性,表明映射可以结合上下文嵌入信息来为周期函数的不同噪声水平建模。因此,我们的方法在后续任务之间共享问题的结构,但上下文化允许适应差异。 NGGP 在一组多样化的基准和应用程序上优于竞争的最先进的方法。

1 简介

  高斯过程 (GP) 是最重要的概率方法之一,它们已被广泛用于对各种应用程序中的函数分布进行建模,例如多模态回归、时间序列预测和元学习。最近的工作建议在小样本学习场景中使用 GP,在该场景中,训练模型来解决只有少数标记样本可用的监督任务。这个特殊的应用程序非常适合 GP,因为它们可以从一小组数据样本中确定封闭形式的后验分布。
论文阅读 7 | Non-Gaussian Gaussian Processes for Few-Shot Regression_第1张图片
图 1:具有经典 GP(左)和 NGGP(右)的深度内核的结果。一维样本是从带有附加噪声的 s i n ( x ) sin(x) sin(x) − s i n ( x ) -sin(x) sin(x) 函数中随机生成的。与 GP 相比,NGGP 没有高斯先验假设,这允许对多模态分布进行建模。

  然而,当建模的分布复杂时,GP的泛化能力是以灵活性降低为代价的,例如,它们具有高偏度或重尾。此外,GP假定后续任务之间具有高相似性。这一条件在现实世界的应用程序中很少得到满足,因为任务会随时间而变化,异方差回归就是如此。GP的这些局限性还扩展到多模式学习,或者更一般地,扩展到多标签回归。

  在这项工作中,我们通过使用局部非高斯近似对GP后验预测分布进行建模来解决这些缺点。为此,我们引入了一种新的方法,我们命名为非高斯高斯过程(NGGP)。在NGGP中,我们利用连续归一化流(CNF)[16]的灵活性来建模任意概率分布。特别地,我们提出了一种可逆的基于ODE的映射,它作用于随机变量向量的每个分量。通过这种方式,我们可以计算一组在所有向量上共享的CNF参数,所得到的映射结合了上下文的信息,以对周期函数的不同噪声进行建模。图1显示了NGGP如何能够捕获问题的总体结构,而标准GP则无法捕获。由于基于ODE映射提供的上下文化,NGGP能够重构多模态正弦函数,同时适应局部差异。我们提供的经验证据表明,NGGP优于竞争国家的最先进的方法在一个多样化的一套基准和应用程序在几杆学习的情况;该代码以开放源码许可证2发布。

  我们工作的贡献可归纳如下:

  • 我们引入了非高斯高斯过程(NGGP),一种通过局部非高斯后验来建模复杂分布的新概率方法。
  • 我们展示了基于ODE的可逆映射如何与GP相结合,以处理多变量随机变量的边界,从而产生更灵活的模型。
  • 我们在各种小样本学习基准上广泛测试NGGP,在大多数情况下实现最先进的性能。

2 相关工作

  相关工作部分分为三个部分。首先,我们提出了一个一般的小样本学习问题。然后,我们将讨论GP,重点放在使用流架构的模型上。最后,在第三段中,我们描述了现有的使用高斯过程的小样本学习方法。
Few-Shot Learning 小样本学习旨在解决观察次数有限的问题。该领域的一些早期方法采用了两阶段方法,即对训练任务的基本集进行预训练,然后对测试任务的参数进行微调。另一种方法是非参数度量学习算法,其目的是优化度量,然后用于计算目标观测值与支持集项目之间的距离。另一种流行的方法是模型不可知元学习(MAML)及其变体。MAML旨在找到一组连接的任务参数,这些参数可以通过很少的梯度下降更新轻松地微调到新的测试任务。MAML也可被视为贝叶斯分层模型。Bayesian MAML 将基于梯度的高效元学习与非参数变分推理结合在一个原则性概率框架中。少数算法专门关注回归任务。ALPaCA 给出了一个例子,它使用样本函数的数据集来学习域特定编码和先验权重。
Gaussian Processes GP已经应用于许多机器学习问题,例如时空密度估计、机器人控制或人类细胞中转录过程的动力学建模。GP的缺点在于训练步骤的计算成本,即 O ( n 3 ) O(n^3) O(n3)(其中n表示训练样本中的观察数)。

  在[41]中,作者通过使用可学习单调映射(扭曲函数)处理目标,扩展了GP的灵活性。这一想法在[22]中得到了进一步扩展,这表明可以将另一个GP的先验放在翘曲函数本身上。我们的方法与这些方法不同,因为似然变换是通过使用可学习的CNF映射获得的。

  在[26]中,作者提出了转换高斯过程(TGP),这是一个使用GP和流模型的新的灵活的函数先验族。TGP利用贝叶斯神经网络(BNN)作为输入相关的参数转换。该方法可以以一小部分的计算成本来匹配Deep GP的性能。

  上面讨论的方法是在保持不变的单个数据集上训练的。因此,将这些方法应用于小样本设置并非易事。

Few-Shot Learning with Gaussian Processes 当观测数量相对较少时,GP代表了其他回归方法的一个有趣的替代方案。这使得 GP 成为元学习和少镜头学习的一个很好的候选者,正如最近探索这一研究方向的出版物所示。例如,学习适应性的深层内核(ADKL)[45]提出了一种变体的内核学习GPs,它旨在为每个任务在推理找到适当的内核利用元学习方法。可以使用类似的方法来学习均值函数[11]。在[37]中,作者提出了元学习的理论原则PAC-Bayesian框架。它可以用于不同的基础学习者(例如,GP或BNN)。与内核技巧和元学习相关的主题已经在[47]中进行了探讨。作者建议使用非参数核回归进行内循环更新。在[43]中,作者通过对信息瓶颈的变分近似引入了元学习的信息理论框架。在他们基于GP的方法中,为了考虑除高斯分布之外的似然性,他们建议用高斯分布(通过使用摊销函数)近似后验中的非高斯项,而我们使用CNF来增加GP的灵活性。

  在[29]中,作者提出了深度内核传输(DKT):通过使用深度核函数对元学习内环进行贝叶斯处理,取得了最新成果。在DKT中,GP的深度核和参数在所有任务之间共享,并且被调整以最大化边际对数似然,这等价于最大似然类型II(ML-II)学习。DKT在回归情况下特别有效,因为它能够通过GP内核捕获关于数据的先验知识。然而,在许多情况下,如果在评估阶段不满足事先假设,则可能会产生不利影响。这是小样本回归的情况,其中在训练时看到的任务和在评估时看到的任务之间可能存在显著差异。例如,如果我们被给予由来自周期函数的样本组成的小样本任务,但是周期性在评估时被破坏,则像DKT这样的方法在这种域移动下可能在预测准确性方面受到损害。在本文中,我们利用CNFs的灵活性来解决这个问题。

3 背景

主要介绍Gaussian Processes和Continuous Normalizing Flows的理论知识。

4 Non-Gaussian Gaussian Processes

你可能感兴趣的:(少样本学习,论文阅读)