[ICML19] Rates of Convergence for Sparse Variational Gaussian Process Regression

今年ICML的第二篇最佳论文是来自英国剑桥大学和机器学习平台Prowler.io的研究。

之前已经有人开发出了一种高斯过程后验的极好变分近似。避免出现数据集大小为N,计算时间复杂度为O(N3)的情况,将计算成本降低到O(NM2),其中M是一个远小于N的数。虽然计算成本对于N是线性的,但算法的真正复杂度取决于如何增加M以确保一定的近似质量。

本文通过描述向后KL散度(相对熵)上界的行为来解决这个问题。研究者证明,若M比N增长得更慢,KL散度很有可能会变得任意小。一个特例是,对于在具有常见的平方指数核的D维正态分布输入的回归,只要M = O(logD N)就足够保证收敛了。

结果表明,随着数据集的增长,高斯过程后验概率可以被非常容易地近似,并为如何在连续学习场景中增加M提供了一种具体的规则。

研究者证明了,从稀疏广义回归变分近似到后验广义回归的KL散度的边界,它只依赖于之前核的协方差算子特征值的衰减。这个边界证明训练数据集中在一个小区域的光滑核允许高质量、非常稀疏的近似。当M≪N时,真正稀疏的非参数推断仍然可以提供对边界似然性和逐点后验的可靠估计。

本文作者在最后指出,具有非共轭可能性的模型的扩展,尤其是在Hensman等人的框架中由稀疏性引入的附加误差,为未来的研究提供了一个有前景的方向。


Mark 这一篇数学推理较多,等有时间再看。

你可能感兴趣的:(NEW_PAPER)