在本文中,我们介绍了深度高斯过程 (GP) 模型。 深度 GP 是基于高斯过程映射的深度信念网络。 数据被建模为多元 GP 的输出。 然后,该高斯过程的输入由另一个 GP 管理。 单层模型等效于标准 GP 或 GP 潜变量模型 (GP-LVM)。 我们通过近似变分边缘化在模型中进行推理。 这导致我们用于模型选择的模型的边际似然有一个严格的下限(层数和每层节点数)。 深度信念网络通常用于使用随机梯度下降进行优化的相对较大的数据集。 即使数据稀缺,我们的完全贝叶斯处理也允许应用深度模型。 通过我们的变分界选择模型表明,即使在对仅包含 150 个示例的数字数据集进行建模时,五层层次结构也是合理的。
具有神经网络架构的概率建模构成了机器学习的一个很好研究的领域。 深度学习领域的最新进展 [Hinton and Osindero, 2006, Bengio et al., 2012] 使这种模型再次流行起来。 根据经验, 深度模型似乎具有结构优势,可以提高与抽象信息相关的复杂数据集中的学习质量 [Bengio, 2009]。 大多数深度算法需要大量数据来执行学习,但是,我们知道人类能够执行归纳推理(相当于概念泛化)只需几个例子 [Tenenbaum et al., 2006]。 这引发了一个问题,即是否可以在较小的数据集中进行深层结构和抽象结构的学习。 对于较小的数据集,就会出现泛化问题:为了证明这种结构是合理的,对模型的适用性进行客观衡量是很有用的。
传统的深度学习方法基于二进制潜在变量和受限玻尔兹曼机 (RBM) [Hinton, 2010]。 通过堆叠这些模型来构建深层层次结构,并使用各种近似推理技术(例如对比散度)来估计模型参数。 如果要估计 RBM 模型下数据集的可能性 1 [Salakhutdinov and Murray, 2008],则必须对退火重要性采样进行大量工作。 当考虑更深的层次结构时,估计只是数据可能性的下限。 面对这些难以处理的问题,将此类模型拟合到较小的数据集并使用贝叶斯方法来处理复杂性似乎完全是徒劳的。
玻尔兹曼机 (BM) 作为现代机器学习最有趣的方法之一的核心的出现在很大程度上是一个可以追溯到未来的领域:BM 在 1980 年代初兴起,但实用的 与他们的训练相关的影响导致他们的忽视,直到为 RBM 模型开发了一系列算法,并在 90 年代后期将其作为专家的产品重新引入 [Hinton, 1999]。
玻尔兹曼机的计算难处理性导致其他方法家族,特别是支持向量机(SVM)等核方法,被考虑用于数据分类领域。几乎与 SVM 同时,引入高斯过程 (GP) 模型 [Rasmussen 和 Williams, 2006] 作为多层感知器 (MLP) 的完全概率替代品,其灵感来自于观察 [Neal, 1996],即在某些条件下,一个GP 是在隐藏层中具有无限单元的 MLP。 MLP 还与深度学习模型有关:深度学习算法已被用于预训练自动编码器以降低维数 [Hinton 和 Salakhut-dinov,2006 年]。传统的 GP 模型已经扩展到更具表现力的变体,例如通过考虑复杂的协方差函数 [Durrande et al., 2011, G¨onen and Alpaydin, 2011] 或通过将 GP 嵌入更复杂的概率结构中 [Snelson et al., 2004 , Wilson et al., 2012] 能够学习更强大的数据表示。然而,迄今为止考虑的所有基于 GP 的方法都没有导致获得真正深度架构的原则性方法,并且迄今为止,深度学习领域仍然主要与基于 RBM 的模型相关联。
给定其父级,RBM 模型中单个隐藏单元的条件概率写为
p ( y ∣ x ) = σ ( w T x ) y ( 1 − σ ( w T x ) ) ( 1 − y ) p(y|x)=σ(w^Tx)^y(1-σ(w^Tx))^{(1-y)} p(y∣x)=σ(wTx)y(1−σ(wTx))(1−y)
其中 y 是 RBM 的输出变量,x 是输入的集合,并且 σ ( z ) = ( 1 + e x p ( − z ) ) − 1 σ(z) = (1 + exp(-z))^{-1} σ(z)=(1+exp(−z))−1。输出的条件密度仅取决于输入的线性加权和。 相同角色的高斯过程的表征能力明显大于 RBM。 对于 GP,相应的似然度是连续变量,但它是输入的非线性函数,
p ( y ∣ x ) = N ( y ∣ f ( x ) , σ 2 ) (3) p(y|x)=N(y|f(x),σ^2) \tag3 p(y∣x)=N(y∣f(x),σ2)(3)
其中, N ( . ∣ μ , σ 2 ) N(.| μ,σ^2) N(.∣μ,σ2)是高斯密度,在这种情况下,似然取决于映射函数 f ( ⋅ ) f(·) f(⋅),而不是一组中间参数 w w w。 高斯过程建模中的方法是将先验直接放在函数类(通常指定平滑、平稳的非线性函数)上并将它们整合出来。 这可以通过分析来完成。 在 RBM 中,模型似然度根据参数 w w w 进行估计和最大化。 对于 RBM,边缘化 w w w 在分析上是不可处理的。 我们顺便注意到,如果 p ( y ∣ x ) = σ ( f ( x ) ) y ( 1 − σ ( f ( x ) ) ( 1 − y ) p(y|x) =σ(f(x))^y(1- σ(f(x))^{(1-y)} p(y∣x)=σ(f(x))y(1−σ(f(x))(1−y); 这两种方法可以混合使用,这会恢复 GP 分类模型。 虽然不再可能,近似推理的常用方法是期望传播算法[参见例如 Rasmussen 和 Williams,2006]。但是,我们在本文中没有进一步考虑这个想法。
深度模型中的推理需要对 x x x 进行边缘化,因为它们通常被视为潜在变量(它们也可以被视为观察到的,例如 在层次结构的最上层,我们可能包含数据标签。),在 RBM 的情况下是二元变量。总和中的项数随输入维度呈指数增长,这使得除了最小模型之外的任何东西都难以处理。在实践中,采样,特别是对比散度算法,用于训练。类似地,在 GP 中边缘化 x 在分析上是难以处理的,即使对于像高斯这样的简单先验密度也是如此。在 GP-LVM [Lawrence, 2005] 中,通过最大化变量(而不是被边缘化的参数)来解决这个问题,并且这些模型已经组合成堆栈以形成分层的 GP-LVM [Lawrence 和 Moore , 2007],这是一种用于学习深度 GP 模型的最大后验 (MAP) 方法。然而,对于这种 MAP 方法的工作,需要在层次结构的顶层有一个强大的先验以确保算法有效,并且 MAP 学习禁止模型选择,因为没有可用的边际似然估计.
本文有两个主要贡献。
首先,我们利用变分推理的最新进展 [Titsias and Lawrence, 2010] 以变分方式边缘化层次结构中的潜在变量。达米亚努等人。 [2011] 已经展示了如何使用这些方法来堆叠两个高斯过程模型。本文进一步表明,通过变分近似,可以堆叠任意数量的 GP 模型以提供真正的深层层次结构。变分方法为我们提供了模型边际似然度的严格下限,允许将其用于模型选择。
我们的第二个贡献是使用这个下限来证明深度模型的适用性,即使在数据稀缺的情况下也是如此。变分下限为我们提供了一个客观的度量,我们可以从中为我们的深层层次结构选择不同的结构(层数、每层节点数)。在一个简单的数字示例中,我们发现最佳下限由我们应用的具有最深层次结构(5 层)的模型给出。
深度 GP 由潜在变量的隐藏层级联组成,其中每个节点充当上层的输出和下层的输入——观察到的输出被放置在层次结构的叶子中。 高斯过程控制层之间的映射。
深度 GP 的单层实际上是高斯过程潜在变量模型 (GP-LVM),就像常规深度模型的单层通常是 RBM 一样。 [Titsias and Lawrence, 2010] 已经表明,潜在变量可以在 GP-LVM 中被近似边缘化,从而允许计算可能性的变分下限。可以使用自动相关性确定 (ARD) 先验 [Neal, 1996] 计算潜在空间的适当大小。达米亚努等人。 [2011] 通过在潜在空间上放置 GP 先验扩展了这种方法,从而产生了贝叶斯动态 GP-LVM。在这里,我们扩展了该方法以允许我们近似边缘化任意数量的隐藏层。我们展示了如何通过边缘化结构中的潜在变量来获得高斯过程的深层层次结构,获得完全贝叶斯训练过程的近似值,以及给定输出的潜在变量真实后验的变分近似值。生成的模型非常灵活,应该为深层结构开辟一系列应用。
我们首先考虑使用 GP 建模的标准方法。 然后,我们通过考虑 GP 模型输入的高斯过程先验将这些想法扩展到深度 GP。 我们可以递归地应用这个想法来获得一个深度 GP 模型。
如下图所示(a)所示,我们的深度高斯过程架构对应于具有三种节点的图形模型:
(a) 显示了具有级联 H 隐藏层的一般架构,
为简单起见,这里我们专注于无监督学习场景。 在这个深层架构中,所有中间节点 X h X_h Xh 充当下层(包括叶子)的输入和上层的输出。 为简单起见,考虑只有两个隐藏单元的结构,如图 (b) 所示。 生成过程采用以下形式:
y n d = f d Y ( x n ) + ϵ n d Y , d = 1 , . . . , D , x n ∈ R Q y_{nd}=f_d^Y(x_n)+ϵ_{nd}^Y,d=1,...,D,x_n∈R^Q ynd=fdY(xn)+ϵndY,d=1,...,D,xn∈RQ
x n q = f q Y ( z n ) + ϵ n q X , d = 1 , . . . , D , z n ∈ R Q z (4) x_{nq}=f_q^Y(z_n)+ϵ_{nq}^X,d=1,...,D,z_n∈R^{Q_z} \tag4 xnq=fqY(zn)+ϵnqX,d=1,...,D,zn∈RQz(4)
(b) 描绘了两个隐藏层层次结构的简化,也展示了相应的 GP 映射
中间节点涉及两个高斯过程, f Y a n d f X f^Y and f^X fYandfX,分别扮演输入和输出的角色: f Y f^Y fY~ G P ( 0 , k Y ( X , X ) ) , GP(0,k^Y(X,X)), GP(0,kY(X,X)),, f X f^X fX~ G P ( 0 , k Y ( Z , Z ) ) GP(0,k^Y(Z,Z)) GP(0,kY(Z,Z))这种结构可以自然地垂直扩展(即更深的层次结构)或水平扩展(即将每一层分割成输出空间的不同分区),我们将在本文后面看到。 然而,每一层如何添加大量模型参数 ( X h ) (X_h) (Xh) 以及正则化挑战已经很明显了,因为每个潜在层的大小至关重要,但必须先验定义。出于这个原因,与 Lawrence 和 Moore [2007] 不同,我们寻求以不同的方式边缘化整个潜在空间。 由于贝叶斯训练,这不仅可以让我们获得自动奥卡姆剃刀,而且我们最终会得到显着减少的模型参数数量,因为变分过程只添加变分参数。 这种方法的第一步是为 GP 定义自动相关性确定 (ARD) 协方差函数:
k ( x i , x j ) = σ a r d 2 exp ( − 1 2 ∑ q = 1 Q w q ( x i , q − x j , q ) 2 ) (5) k(x_i,x_j)=σ^2_{ard}\exp(-\frac{1}2\sum_{q=1}^Qw_q(x_{i,q}-x_{j,q})^2) \tag5 k(xi,xj)=σard2exp(−21q=1∑Qwq(xi,q−xj,q)2)(5)
该协方差函数为每个潜在维度假设不同的权重 w q w_q wq,这可以在贝叶斯训练框架中加以利用,以便通过将其相应的权重设为零来“关闭”不相关的维度,从而有助于自动找到复杂模型的结构。 然而,该协方差函数引入的非线性使得该模型的贝叶斯处理具有挑战性。 然而,按照最近的非标准变分推理方法,我们可以解析地定义一个近似的贝叶斯训练过程,这将在下一节中解释。
贝叶斯训练过程需要优化模型证据:
log p ( Y ) = log ∫ X , Z p ( Y ∣ X ) p ( X ∣ Z ) p ( Z ) (6) \log p(Y)=\log \int_{X,Z}p(Y|X)p(X|Z)p(Z)\tag6 logp(Y)=log∫X,Zp(Y∣X)p(X∣Z)p(Z)(6)
当关于观测数据的先验信息可用时(例如,它们的动态性质是先验已知的),可以选择父潜在节点上的先验分布,以便通过先验密度通过级联传播来约束整个潜在空间。这里我们采用 p ( Z ) = N ( Z ∣ 0 , I ) p(Z) = N(Z|0, I) p(Z)=N(Z∣0,I) 的一般情况。 然而,由于通过 GP 先验 f Y f^Y fY 和 f X f^X fX 处理 X X X 和 Z Z Z 的非线性方式,方程 (6) 的积分是难以处理的。 作为第一步,我们应用 Jensen 不等式来找到变分下界 F v ≤ l o g p ( Y ) F_v ≤log p(Y) Fv≤logp(Y),其中
F v = ∫ X , Z , F Y , F X Q l o g p ( Y , F Y , F X , X , Z ) Q (7) F_v=\int_{X,Z,F^Y,F^X}Qlog\frac{p(Y,F^Y,F^X,X,Z)}Q \tag7 Fv=∫X,Z,FY,FXQlogQp(Y,FY,FX,X,Z)(7)
证明:
我们在其中引入了变分分布 Q Q Q,其形式将在后面定义。 通过注意到上面出现的联合分布可以扩展为
p ( Y , F Y , F X , X , Z ) = p ( Y ∣ F Y ) p ( F Y ∣ X ) p ( X ∣ F X ) p ( F X ∣ Z ) p ( Z ) (8) p(Y,F^Y,F^X,X,Z)=p(Y|F^Y)p(F^Y|X)p(X|F^X)p(F^X|Z)p(Z)\tag8 p(Y,FY,FX,X,Z)=p(Y∣FY)p(FY∣X)p(X∣FX)p(FX∣Z)p(Z)(8)
我们看到方程 (7) 的积分仍然难以处理,因为 X X X 和 Z Z Z 仍然分别在 p ( F Y ∣ X ) p(F^Y |X) p(FY∣X) 和 p ( F X ∣ Z ) p(F^X|Z) p(FX∣Z) 项中呈现非线性。 [Titsias and Lawrence, 2010] 的一个关键结果是,使用额外变量扩展 GP 先验 p ( F ∣ X ) p(F|X) p(F∣X)的概率空间允许通过非线性映射 f f f 传播潜在空间上的先验。更准确地说,我们用 K K K 个辅助伪输入 X ^ ∈ R K × Q \hat X ∈ R^{K× Q} X^∈RK×Q 和 Z ^ ∈ R K × Q Z \hat Z ∈ R^{K× Q_Z} Z^∈RK×QZ 来扩充等式 (3) 的概率空间,它们对应于函数值 U Y ∈ R K × D U^Y ∈ R^{K× D} UY∈RK×D 和 U X ∈ R K × Q U^X ∈ R^{K× Q} UX∈RK×Q 的集合 . 按照这种方法,我们得到增广概率空间:
p ( Y , F Y F X , X , Z , U Y , U X , X ^ , Z ^ ) = p ( Y ∣ F Y ) p ( F Y ∣ U Y , X ) p ( U Y ∣ X ^ ) ∗ p ( X ∣ F X ) p ( F X ∣ U X , Z ) p ( U X ∣ X ^ ) p ( Z ) (9) p(Y,F^YF^X,X,Z,U^Y,U^X,\hat X,\hat Z)=p(Y|F^Y)p(F^Y|U^Y,X)p(U^Y|\hat X)*p(X|F^X)p(F^X|U^X,Z)p(U^X|\hat X)p(Z) \tag9 p(Y,FYFX,X,Z,UY,UX,X^,Z^)=p(Y∣FY)p(FY∣UY,X)p(UY∣X^)∗p(X∣FX)p(FX∣UX,Z)p(UX∣X^)p(Z)(9)
伪输入 X ^ \hat X X^和 Z ^ \hat Z Z^ 被称为诱导点,为了清楚起见,从现在起将从我们的表达式中删除。 请注意, F Y F^Y FY 和 U Y U^Y UY来自同一个 GP,因此 p ( U Y ) p(U^Y ) p(UY) 和 p ( F Y ∣ U Y , X ) p(F^Y |U^Y ,X) p(FY∣UY,X) 也是高斯分布(对于 p ( U X ) ; p ( F X ∣ U X , Z p(U^X); p(F^X|U^X,Z p(UX);p(FX∣UX,Z) 也是如此)。
我们现在能够定义一个变分分布 Q Q Q,当它与增强 G P GP GP 先验的新表达式结合时,会产生一个易于处理的变分界。 具体来说,我们有:
Q = p ( F Y ∣ U Y , X ) q ( U Y ) q ( X ) ∗ p ( F X ∣ U X , Z ) q ( U X ) q ( Z ) (10) Q=p(F^Y|U^Y ,X)q(U^Y)q(X) *p(F^X|U^X,Z)q(U^X)q(Z)\tag{10} Q=p(FY∣UY,X)q(UY)q(X)∗p(FX∣UX,Z)q(UX)q(Z)(10)
我们选择 q ( U Y ) q(U^Y) q(UY) 和 q ( U X ) q(U^X) q(UX) 为自由形式的变分分布,而 q ( X ) q(X) q(X) 和 q ( Z ) q(Z) q(Z) 被选择为高斯,关于维度分解:
q ( X ) = ∏ q = 1 Q N ( μ q X , S q X ) , q ( Z ) = ∏ q = 1 Q Z N ( μ q Z , S q Z ) (11) q(X)=\prod_{q=1}^QN(μ_q^X,S_q^X),q(Z)=\prod_{q=1}^{Q_Z}N(μ_q^Z,S_q^Z)\tag{11} q(X)=q=1∏QN(μqX,SqX),q(Z)=q=1∏QZN(μqZ,SqZ)(11)
通过将等式 (10) 代回 (7),同时用等式 (9) 中的增强版本替换原始联合分布,我们看到“困难”项 p ( F Y ∣ U Y , X ) p(F^Y|U^Y ,X) p(FY∣UY,X) 和 p ( F X ∣ U X , Z ) p(F^X|U^X,Z) p(FX∣UX,Z) 在分数中抵消,留下一个可以分析计算的量:
F v = ∫ Q log p ( Y ∣ F Y ) p ( U Y ) p ( X ∣ F X ) p ( U X ) p ( Z ) Q ′ (12) F_v=\int Q\log \frac{p(Y|F^Y)p(U^Y)p(X|F^X)p(U^X)p(Z)}{Q'}\tag{12} Fv=∫QlogQ′p(Y∣FY)p(UY)p(X∣FX)p(UX)p(Z)(12)
其中, Q ′ = q ( U Y ) q ( X ) q ( U X ) q ( Z ) Q'=q(U^Y)q(X)q(U^X)q(Z) Q′=q(UY)q(X)q(UX)q(Z)并且上述积分是关于 { X , Z , F Y , F X , U Y , U X } \{ X,Z,F^Y,F^X,U^Y,U^X\} {X,Z,FY,FX,UY,UX},更具体地说,我们可以通过对分数的变量进行分组来打破等式(12)中的对数,使得边界可以写为:
F v = G Y + R X + H q ( x ) − K L ( q ( Z ) ∣ ∣ p ( Z ) ) (13) F_v=G_Y+R_X+H_{q(x)}-KL(q(Z)||p(Z))\tag{13} Fv=GY+RX+Hq(x)−KL(q(Z)∣∣p(Z))(13)
其中,其中 H 表示关于分布的熵,KL 表示 Kullback – Leibler 散度,并且使用 <.> 表示期望,
G Y = g ( Y , F Y , U Y , X ) = < log p ( Y ∣ F Y ) + log p ( U Y ) q ( U Y ) > p ( F Y ∣ U Y , X ) q ( U Y ) q ( X ) G_Y=g(Y,F^Y,U^Y,X)=<\log p(Y|F^Y)+\log \frac{p(U^Y)}{q(U^Y)}>_{p(F^Y|U^Y,X)q(U^Y)q(X)} GY=g(Y,FY,UY,X)=<logp(Y∣FY)+logq(UY)p(UY)>p(FY∣UY,X)q(UY)q(X)
R X = r ( X , F X , U X , Z ) = < log p ( X ∣ F X ) + log p ( U X ) q ( U X ) > p ( F X ∣ U X , Z ) q ( U X ) q ( Z ) (14) R_X=r(X,F^X,U^X,Z)=<\log p(X|F^X)+\log \frac{p(U^X)}{q(U^X)}>_{p(F^X|U^X,Z)q(U^X)q(Z)}\tag{14} RX=r(X,FX,UX,Z)=<logp(X∣FX)+logq(UX)p(UX)>p(FX∣UX,Z)q(UX)q(Z)(14)
G Y G_Y GY 和 R X R_X RX 都涉及已知的高斯密度,因此是易于处理的。 G Y G_Y GY 项仅与叶子相关联,因此与为贝叶斯 GP-LVM [Titsias and Lawrence, 2010] 找到的界限相同。 由于它只涉及对高斯分布的期望,因此 GP 输出变量只涉及 Y Y T YY^T YYT 形式的数量。 此外,从上述等式可以看出,函数 r ( ⋅ ) r(·) r(⋅) 类似于 g ( ⋅ ) g(·) g(⋅),但它需要对所涉及的所有变量的密度(即关于所有函数输入)的预期。 因此, R X R_X RX 将在一项 < X X T > q ( X ) = ∑ q = 1 Q [ μ q X ( μ q X ) T + S q X ]
尽管主要计算以简单的层次结构演示,但很容易垂直扩展模型,即通过添加更多隐藏层,或水平扩展,即通过考虑属于同一层的潜在变量的条件独立性。 第一种情况只需要向变分界添加更多的 R X R_X RX 函数,即我们现在将得到总和 ∑ h = 1 H − 1 r X h \sum_{h=1}^{H-1}r_{X_h} ∑h=1H−1rXh,而不是单个 R X R_X RX 项:,其中 r X h = r ( X h , F X h , U X h , X h + 1 ) , X H = Z r_{X_h} = r(X_h,F^{X_h},U^{X_h},X{h+1} ) ,X_H = Z rXh=r(Xh,FXh,UXh,Xh+1),XH=Z。
现在考虑水平扩展场景并假设我们希望将层 h h h 的单个潜在空间 X h X_h Xh 分解为 M h M_h Mh 个条件独立子集。 只要选择方程(11)的变分分布 q ( X h ) q(X_h) q(Xh)以一致的方式分解,只需将方程(14)的原始 R X h R_{X_h} RXh项分解为和 ∑ m = 1 M h r X h ( m ) \sum _{m=1}^{M_h}r^{(m )}_{X_h} ∑m=1MhrXh(m) 。 这仅仅源于这样一个事实,即由于独立性假设,它持有 log p ( X h ∣ X h + 1 ) = ∑ m = 1 m h log p ( X h ( m ) ∣ X h + 1 ) \log p(X_h|X_{h+1}) = \sum_{m=1}^{m_h} \log p(X^{(m)}_h| X_{h+1}) logp(Xh∣Xh+1)=∑m=1mhlogp(Xh(m)∣Xh+1)。 请注意,同样的原理也可以通过打破边界的 G Y G_Y GY 项来应用于叶子。 例如,当我们看到多个不同的输出空间时,就会出现这种情况,但是我们相信它们有一些共性。 例如,当观察到的数据来自同一事件的视频和音频记录时。 鉴于上述情况,模型最通用版本的变分界采用以下形式:
F v = ∑ m = 1 M Y G Y ( m ) + ∑ h = 1 H − 1 ∑ m = 1 M h R X h ( m ) + ∑ h = 1 H − 1 H q ( x h ) − K L ( q ( Z ) ∣ ∣ p ( Z ) ) (15) F_v=\sum_{m=1}^{M_Y}G_Y^{(m)}+\sum_{h=1}^{H-1}\sum_{m=1}^{M_h}R^{(m)}_{X_h}+\sum_{h=1}^{H-1}H_{q(x_h)}-KL(q(Z)||p(Z))\tag{15} Fv=m=1∑MYGY(m)+h=1∑H−1m=1∑MhRXh(m)+h=1∑H−1Hq(xh)−KL(q(Z)∣∣p(Z))(15)
图 c 显示了这个目标函数的术语与层次结构的每一层的关联。 回想一下,每个 R X h ( m ) R^{(m)}_{X_h} RXh(m) 和 G Y ( m ) G^{(m)}_{Y} GY(m) 项都与不同的 GP 相关联,因此带有自己的一组自动相关性确定 (ARD) 权重(在等式 (5) 中描述)。
© 说明了 最一般的情况是叶子和所有中间节点被允许形成条件独立的组。 对应于每一层的目标(15)的术语包含在左侧。
如上所述,水平扩展层次结构的特定方式可以看作是一种执行无监督多输出 GP 学习的方法。 这只需要为每个向量 y d y_d yd 分配不同的 G Y G_Y GY 项(以及相关的 ARD 权重),其中 d d d 索引输出维度。 在训练我们的模型之后,我们希望 Y Y Y 中编码相似信息的列将被分配同样相似的相关权重向量。 这个想法可以扩展到层次结构的所有级别,从而获得一个完全分解的深度 GP 模型。
我们模型的这种特殊情况使我们模型的结构和神经网络架构之间的联系更加明显:ARD 参数扮演的角色类似于神经网络的权重,而潜在变量扮演学习特征层次结构的神经元的角色。
在图 1 所示的所有图形变体中,每个箭头表示具有 GP 先验的生成过程,对应于一组参数 { X ^ , θ , σ ϵ } \{\hat X,θ,σ_ϵ\} {X^,θ,σϵ} 。每一层潜在变量对应于一个变分分布 q ( X ) q(X) q(X),它与一组变分均值和协方差相关联,如等式 (11) 所示。父节点可以具有与等式 (11) 相同的形式,或者可以使用信息量更大的先验来约束,该先验将耦合 q ( Z ) q(Z) q(Z) 的点。例如,动态先验会引入 Q × N 2 Q× N^2 Q×N2 参数,但是可以使用较少的变量重新参数化 [Damianou et al., 2011]。然而,从等式 (10) 和 (12) 可以明显看出, q ( X ) q(X) q(X) 和 q ( Z ) q(Z) q(Z) 的诱导点和参数是变分的,而不是模型参数,这对正则化问题有很大帮助。因此,添加层次结构的更多层不会引入更多的模型参数。此外,与高斯过程的常见稀疏方法 [Titsias, 2009] 一样,每个生成 GP 映射的复杂性从典型的 O ( N 3 ) O(N^3) O(N3) 降低到 O ( N M 2 ) O(NM^2) O(NM2)。
在本节中,我们将演示玩具和现实世界数据集中的深度 GP 模型。 对于所有实验,通过在观察中执行降维来初始化模型以获得第一个隐藏层,然后对下一层贪婪地重复此过程。 为了获得堆叠的初始空间,我们尝试了 PCA 和贝叶斯 GP-LVM,但最终结果并没有显着变化。 请注意,深度学习中的通常过程是寻求维度扩展,尤其是在较低层中。 在深度 GP 模型中,这种扩展确实发生在潜在层之间,因为在每个潜在层之间存在与 GP 相关联的无限基层。
我们引入了一个框架,用于对分层高斯过程映射进行有效的贝叶斯训练。我们的方法大致边缘化了潜在空间,从而允许在层次结构中自动发现结构。该方法能够成功地学习描述自然人体运动和手写数字像素的特征层次结构。即使我们实验中的数据相对稀缺(150 个数据点),我们的变分下限也为手写数字选择了深层层次表示。我们提供了有说服力的证据表明,即使对于较小的数据集,深度 GP 模型也足以编码抽象信息。进一步的探索可能包括在其他推理任务上测试模型,例如类条件密度估计,以进一步验证这些想法。我们的方法也可以用来改进现有的深度算法,我们计划通过结合过去方法的想法来进一步研究。事实上,之前将 GP 与深层结构相结合的努力在无监督预训练 [Erhan et al., 2010] 或指导 [Snoek et al., 2012] 传统深度模型方面取得了成功。
虽然这里展示的实验只考虑了层次结构中的多达 5 层,但该方法直接适用于更深层次的架构,我们打算在未来进行实验。潜在空间的边缘化允许这种扩展同时进行正则化。变分下限允许我们在使用不同初始化和不同层数训练的模型之间做出原则性选择。
我们提出的深层层次结构也可以与控制层次结构顶层的输入一起使用,从而产生一个强大的基于高斯过程的回归模型,但它本身不是高斯过程。将来,我们希望在多任务学习(中间层可以学习跨任务共享的表示)和非平稳数据或涉及跳跃的数据的建模中测试该模型的应用。这些都是单层 GP 苦苦挣扎的领域。
剩下的挑战是将我们的方法扩展到非常大的数据集。一种非常有前途的方法是应用随机变分推理 [Hoffman et al., 2012]。在最近的研讨会出版物 Hensman 和 Lawrence [2012] 中表明,可以使标准变分 GP 和贝叶斯 GP-LVM 适应这种形式。深度 GP 的下一步将是整合这些大规模的变分学习算法。