融合自适应松弛谱正则的贝叶斯矩阵补全方法研究

摘要: 贝叶斯矩阵补全基于低秩矩阵分解的研究已经得到了可靠的结果,不过很少有人提出更直接的方法,为填补谱正则下对贝叶斯矩阵补全的问题的研究空白,本文提出一个新颖的基于谱正则化贝叶斯矩阵补全方法。一方面规避处理奇异向量的正交约束的困难,在推导出限制松弛的等价形式的基础上设计一个适用于贝叶斯推断的自适应谱正则方法。

一 引言

矩阵补全在很多情况下已经发现了广泛的应用,如协同过滤。Zm×n表示m行和n列的数据矩阵,其中只有少量元素中的数据被观察,记作Ω[m]×[n]。我们用PΩ(X)表示在数据矩阵Z可观察部分Ω的可能被噪声污染的观测,这里,是一个保留Ω中元素坐标并将其他元素置为0的投影[Office1]算子。

矩阵补全任务旨在,在低秩假设下,基于PΩ(X) 补全数据矩阵 Z 缺失的元素。当采用平方损失函数,矩阵补全问题可以写成:

这里,λ是一个非负正则化参数; σ2是噪声方差。

不幸的是,rank(Z)项使上述问题(P0)成为NP难问题。因此,核范数||Z||*被广泛采用作为秩函数一个凸的替代,进而将问题P0转换如下凸问题P1:

虽然P1凸的,核范数的定义使问题仍然不容易解决。基于核范数的变分公式,解决P1的等价的简单的低秩矩阵分解形式(MF)是一个比较普遍的办法:

虽然不是联合凸的,矩阵分解形式可以通过交替优化A和B以得到局部最优。

由于MF的正则项比核范数更友好,许多基于矩阵分解方法已经提出用于矩阵补全,包括最大边界矩阵分解(M3F)( Srebro, Rennie, and Jaakkola 2004; Rennie and Srebro 2005)和贝叶斯概率矩阵分解(BPMF)( Lim and Teh 2007; Salakhutdinov and Mnih 2008)。此外,矩阵分解形式的简单性使人们采取此方法并对其泛化;例如(徐、朱和张2012;2013)用最大熵判别(MED)和非参数贝叶斯方法解决了一个修正的矩阵分解问题。

相比之下,有相对较少的算法来直接解决P1而不需要矩阵分解的辅助。这些方法需要处理奇异值的谱。这些谱正则化算法需要在施蒂费尔流形(施蒂费尔1935;詹姆斯1976),它被定义为一组在Rn上的正交向量的k-元组(u1,u2,···,uk)上进行优化。如果有的话,[Office2]这就是阻碍基于谱正则发展贝叶斯方法尝试矩阵补全的主要困难。

虽然基于谱正则的矩阵补全并不容易,矩阵分解的方法也有一些潜在的优势。其中一个优势就是对奇异值的直接控制。通过施加奇异值的多种先验,我们可以结合丰富的信息来帮助补全矩阵。例如,Todeschini 等人(Todeschini Caron和Chavent 2013)把稀疏先验加入奇异值,自然引出分层自适应核范数(HANN)正则化,并且他们报告了可靠的结果。

在本文中,我们的目标是研究一种核范数的新方法,希望能像矩阵分解形式一样简单并保留谱正则化的一些好的属性。想法是证明P1的(施蒂费尔流形上的)正交无意义[Office3]性质。在新方法的基础上,我们通过稀疏引导的奇异值先验设计了一种新颖的贝叶斯模型,允许不同维度拥有不同的正则化参数并自动推断。与通常的贝叶斯矩阵分解相比,我们的方法引入了的一些自然的修正,使其更加灵活和具有适应性。采用实验贝叶斯方法来避免参数调优。在合成矩阵的秩重建和一些常见基准数据集的协同过滤实验,展示我们的方法结果与各种先进的对比算法的比对结果。值得注意的是,合成实验数据表明,当矩阵非常稀疏时我们的方法执行得更好,表明了使用稀疏引导先验的健壮性。

二 松弛谱正则化

基于矩阵分解的贝叶斯矩阵补全相对比较容易,我们有许多例子(Lim and Teh 2007;

Salakhutdinov and Mnih 2008) 。事实上,我们可以将 (1)作为一个最大后验(MAP)估计一个简单的贝叶斯模型,其似然是高斯分布,例如对于 (i,j)  Ω, Xij N((ABT)ij,σ2), A和B的先验也是高斯,例如 和由于先验和可能性是共轭,显而易见,做后验推断是容易的。

然而,当我们试图基于更直接谱正则方式补全贝叶斯矩阵时(P1),同样的过程面临巨大的困难。这是因为先验与高斯似然(或任何其他常见的似然函数)不共轭。更详细地分析p(Z),我们可以对Z进行奇异值分解(SVD),得到,其中是奇异值,和是施蒂费尔数集正交奇异向量。虽然,我们可以定义一个因子化的先验p(Z)= p(d)p(U)p(V),任何U或V的先验(如,均匀哈尔先验(Todeschini, Caron, and Chavent 2013) )需要用施蒂费尔数流形处理,这也是非常重要的。

事实上,嵌入式处理施蒂费尔流形上的分布在很大程度上仍然是一个开放的问题,虽然有些研究结果(Byrne and Girolami 2013; Hoff 2009; Dobigeon and Tourneret 2010) 中存在于方向统计学的文献中。幸运的是,我们将证明定理1:U和V的正交约束不是谱正则的必要条件。相反,对于所有  [r],单位球面约束和,是得到P1相同的最优解的充分条件。我们称这种现象为正交无意义[Office4]”。我们称将正交性约束松弛为单位球面约束的谱正则为松弛谱正则

2.1 谱正则的正交无意义

我们通过证明其正交性无意义属性,以给出一个P1谱正则的等价形式。

给出Z的奇异值分解,我们首先将P1等价地改写为P1’, 显示地写出所有的约束:

其中,r = min(m, n)。然后,我们根据定理1的总结得到一个P1等价公式,这对松弛谱正则的有效性奠定了基础。

定理1. 设最优值为P1(P1’),并让t 为P2的最优值,如下定义:

然后,我们有s = t。进一步地,设P2的一个最优解为,则也是 P1的最优解。类似地,对于P1的任何最优解Z†,存在这样一个分解Z†= ,是P2的最优解。

证明框架:设是P2在最优值t下的一个最优解。由于P1’是与P2相同的带有更严格限制的最优化问题,我们有s≥t

进行奇异值分解得到Z*=,我们可以证明||Z*||*=。如果,则,可以把Z插入P1到得到一个小于t的更小的值,与s≥t矛盾。因此,和s = t

此外,由于s = t和把Z插入P1会导出一个不小于t的值,我们得出这样的结论: Z也是P1的一个最优解。设Z†是P1的任意最优解,我们也可以证明存在这样一个分解是P2的一个最优解。

补充材料1提供了正式的证明和一些评论。

现在我们证明了谱正则的正交无意义[Office5]性质。因此,P2是P1的另一个等价形式,类似于矩阵分解所扮演的角色。松弛谱正则形式是介于矩阵分解和谱正则化之间的折中,因为它比矩阵分解有更多的限制(但也容易解),但仍然保留了奇异值分解的形式。正如之前所讨论的,没有严格的正交约束贝叶斯推断是更容易进行的,因此松弛谱正则模型是我们考察的焦点。

此外,定理1亦可以推广到除了平方误差损失的之外的任意损失函数,这意味着它是如矩阵分解一样广泛适用的。见补充材料备注2以得到更多细节。

2.2 自适应松弛谱正则

基于定理1中的松弛谱正则化方式,一个类似于贝叶斯概率矩阵分解BPMF的贝叶斯矩阵补全算法可以直接导出。设先验αk, βk为单位球体内的均匀哈尔Haar先验;dk的先验为指数分布,其后验与P2的形式完全相同。这种算法与BPMF应该有类似的表现。

我们考虑另一个修正形式,每个dk都有一个正的正则化参数γk,代替构建P2模型。显然,这是一个松弛谱正则的[Office6] æ³�å��并æ�¿è®¤å®�ä½�为ä¸�个ç�¹ä¾�[Office7]。我们定义自适应松弛谱正则问题为:

这种变化将更加灵活并且更好地弥合核范数和秩函数之间的差距,因此,较之标准核范数,其近似秩正则的能力更好。类似的想法之前出现在(Todeschini, Caron, and Chavent 2013) 并被称为分层自适应核范数(HANN)。但是,需要注意,尽管我们提出与分层自适应核范数类似的方法,我们的正则化因为约束松弛的引入与其在本质上是不同的。

然而,由于超参数调参的困难,P3可能比原来的P2更难解决,自适应正则引入了更多的动态超参数。在下一节,我们将为这些超参数建立层次化先验和推导求解P3的贝叶斯算法,并同时推断超参数。

3 自适应松弛谱正则化的贝叶斯矩阵补全

3.1 概率模型

译者注:本节中加粗的拉丁字母表示向量。

我们现在把P3带入等效的最大后验MAP评估。自然地,P3对平方误差损失对应于负对数高斯似然Xij ∼ ,在此uki表示在uk的第i个元素;vkj亦然。关于先验分布,我们使用单位球下的均质哈尔先验作用于UVd服从指数先验,总结如下:

其中,表示一个非归一概率密度函数(p.d.f)。可以证明,在这个概率模型下,负对数后验[Office8]的概率密度p.d.f. 关于 (d, U, V[Office9])与P3成正比。

现在,我们将正则化系数γ := {γk: k∈[r]}作为随机变量并假设其存在gamma先验,即p(γk) ∝ γka-1e-bγk , γk ≥ 0, ∀k ∈[r]。这有两个明显的优势:(1)正则化系数包含于统一的贝叶斯框架,这样,这些系数的值可以自动推断,而不需要作为超参数调优。(2)dk 的先验以边缘化吸收 γ 变成 p(dk) =  =  ,这实际上是一个等效的帕累托分布。与指数分布相比,此分布存在重尾 (Todeschini, Caron, and Chavent 2013) ,因此将[Office10] å�¶ç¨�ç��å¼�导[Office11] å�¯ä»¥å¾�å�°æ�´å¥½ç��æ��æ��[Office12](Bach et al.

2012)。

图模型如图1所示,我们显式地分离X的观测项(即PΩ(X))和非观测项(即(X))。由于条件独立的结构,我们可以简单地以边缘分布吸收(X),进而得到联合分布:

所有的变量隐式地约束于相应的有效域。

3.2 推断

我们现在展示GASR(自适应松弛谱正则的吉布斯抽样)算法以推断后验,做出预测,并通过蒙特卡罗EM算法估计超参数(Casella 2001)。

后验推断 :N(μ,σ2;a,b)表示在区间[a, b]内截取的正态分布N(μ,σ2)(简称为短截[Office13]高斯)。我们通过吉布斯抽样器推断后验分布p(γ , d, U, V | a, b, σ, PΩ (X )),解释如下:

样本γ: 正则化系数 γ 的条件分布为gamma分布。我们通过公式γk∼ ,k[r] 抽样γ

样本d: 在条件(γ, U, V)下,各个dα (α  [r]) 的分布均为短截高斯,,其中,A =, B= +σ2 γα

样本UV: 给出其他变量,(或) 中各元素分布是短截[Office14]高斯,uαβ α[m], β[r],其中,C=, D=和ρ = 。一个类似的过程可以推导vαβ样本,因此省略。

吉布斯抽样器的每次迭代时间复杂度是O(|Ω| r2)。虽然,累积分布函数(c.d.f)反演的抽样短截分布有一个统一的方案,但是,由于实验中发现其数值不稳定,我们没有使用它。相比之下,简单的非抽样方法被证明可以很好地使用。

预测:有了后验分布,我们以后验均值填补缺失元素:

这个积分是非常困难的,但是,我们以抽样近似积分,并补全矩阵。因为我们使用高斯似然,我们有:

因此,我们可以将缺失元素表示为xij = , (i, j)  Ω(X)后验抽样均值。这里,我们将f(x)的抽样均值计作,其中,xi是样本个体和n是样本的数量。

超参数估计:我们通过最大化模型的判据p(PΩ(X)| a ,b ,λ)选择超参数(a, b, σ)。因为直接优化很困难,我们采用一个带有隐变量L:= (d, U, V, γ )的EM算法。为了计算关于PΩ(X)L联合期望,我们使用蒙特卡罗EM(Casella 2001),它可以充分利用吉布斯抽样器获得的样本。

PΩ (X)LL(L | PΩ(X)的期望可以写成

其中C是一个常数。方程(3)可以使用Newton–Raphson迭代关于a, b, σ最大化。定点方程为:

其中,Ψ(x)Ψ(x)分别为digamma和trigamma函数。在我们的实验中,我们发现结果对使用的样本数量不是很敏感,所以我们固定到5。


4 实验

我们现在展示合成数据集和真实数据集上的实验结果,证明秩重建和矩阵补全的有效性。

4.1 合成数据实验

我们做了两个合成数据实验,一个是为了进行秩重建,另一是为了研究在非常稀疏的情况矩阵的算法表现。

在这两个实验中,我们生成标准正态随机矩阵Am×q 和Bn×q并产生秩-q矩阵Z = AB。然后我们使用信号噪声比1与标准高斯噪声污染Z,得到观测X

秩重建:在这个实验中,我们设置m = 10qn = 10q。算法从5到45对q进行测试。我们将秩短截r设置为100,对于所有数据这已经足够大。对于每个Z矩阵,迭代次数固定在1000,最后的结果是200个样本(前800个丢弃老化)平均值得到的。我们简单地以均匀分布UV的范数固定为0.9和所有d固定为零的条件初始化取样器。我们在X的所有元素上运行吉布斯抽样器来重建Z

在谱正则中,我们可以通过非零dk的数量简单地计算得到的隐变量的数目。然而,由于我们的方法使用MCMC抽样,找到那些完全弥散的dk是很困难的。与直接计数非零元素(d1,d2,···, dr)不同,我们以升序排列元组,试图找到w = arg maxk≥2 dk/ dk1然后丢弃{ dk: dk < dw }。因此,恢复的秩为rw+1。图2的中间面板提供了如何确定隐变量的数目的一个示例。

该实验结果的总结如图2(c),显示恢复的秩与真实值非常接近。当真实的秩会相对较小时,我们的算法能够很好地重建;秩增高时,表现稍差。这可能是由于更大的秩需要更多的迭代次数确保收敛。

我们还在图2(a)说明了向量在合成数据矩阵中如何实现自正交。向量的正交性由其的2-范数和两两对内积的均值量度。图2(a)表明,U和V在一个迭代后即接近正交。这一现象表明,向量在分层贝叶斯模型中仍然倾向于正交。

不同的缺失率:我们生成不同大小和不同的缺失率的矩阵来测试我们的方法的性能,并且与BPMF对比,因为它是唯一一个可以在真实数据集与GASR对比的算法,在下一节将详细说明。

根均方误差(RMSE)结果在表1中列出。补充材料报告了偏差和一些额外的设置。我们可以看到,当观察矩阵只有少量元素的情形下, GASR是明显优于BPMF的,展示了通过稀疏引导先验的GASR估计的鲁棒性。

4.2 真实数据集的协同过滤

我们在MovieLens 1M2和EachMovie数据集测试算法,并与各对比算法比较结果,包括最大边界矩阵分解(M3F) (Rennie and Srebro 2005),无限概率最大边界矩阵分解(iPM3F) (Xu, Zhu, and Zhang 2012), softImpute (Mazumder, Hastie, and Tibshirani 2010), softImpute-ALS (“轮换最小二乘” 的“ALS”) (Hastie et al. 2014), 分层自适应softImpute (HASI) (Todeschini, Caron, and Chavent 2013) 和贝叶斯概率矩阵分解(BPMF) (Salakhutdinov and Mnih 2008).

MovieLens 1M2 数据集包含6040个用户对3952部电影的1000209个评级。评级是从{ 1,2,3,4,5 }中的整数中挑选,每个用户都至少有20个打分。EachMovie 数据集包括74424用户对1648部电影的2811983条打分。像(Marlin 2004 )那样,我们删除了冗余数据并且丢弃了不到20次评级的用户,从而剩下了36656个用户。可能有从0到1的6个可能评级,我们将它们映射到{ 1,2,···,6 }。

协议我们随机将数据集分割成80%的训练和20%的测试。我们进一步分割20% 的训练数据,并用于M3F, iPM3F, SoftImpute, SoftImpute-ALS 和HASI的验证进行超参数调优。BPMF和 GASR可以从训练数据推断超参数,因此不需要验证。我们使用RMSE和归一化平均绝对误差(NMAE)测量性能。NMAE在 (Goldberg et al. 2001)中被定义为:

其中,Ωtest是测试元素的索引集。

实施细则取样器的迭代次数固定为100次,E[PΩ(X)] 的估计值为从100次抽样的均值。我们以生成均匀分布UV和将dk都设置为0初始化算法。我们也规范ukvk的范数为 0.9的初始化条件。图3显示了我们的取样器在此相当的简单初始化下几次迭代后收敛。

我们使用RsoftImpute 以实现softImpute 和SoftImpute-ALS,并使用对应作者提供的M3F, iPM3F, HASI 和BPMF的代码。M3F, iPM3F, SoftImpute, SoftImputeALS和HASI的超参数通过验证集上的网格搜索进行选择。我们随机初始化除HASI外的所有方法,其初始化为SoftImpute的结果,正如(Todeschini, Caron, and Chavent 2013)所建议的那样。BPMF结果平均超过100个样本,和我们的一样。

对于所有的算法,我们设定最大迭代次数为100。MovieLens 1M和EachMovie 的秩短截均 置为30,我们遵循(Todeschini, Caron, and Chavent 2013) 的设置,并在实验中发现,更大的 r 并不能显著的改进其性能。

结果表2给出了NMAE和RMSE 5次重复实验的平均值及其标准差。总体而言,我们可以看到我们的GASR方法比大多数的基准线相比达到更优良的性能。更具体地说,我们有以下的观察:

(一)在MovieLens数据集,GASR与BPMF(当前最优的贝叶斯低秩矩阵补全方法)相当,然而,在 EachMovie数据集上优于BPMF(EachMovie的观测数据集缺失(97.8%)比MovieLens的缺失(95.8%)稀疏)。在两个数据集中,较之iPM3F,当前最优的基于IBP(Griffiths and Ghahramani 2011)矩阵补全非参数贝叶斯方法,GASR获得更低的RMSE。这样的结果证明基于谱正则贝叶斯矩阵补全的可靠性。此外,由于其稀疏引导先验d,GASR产生稀疏解。在MovieLens和EachMovie推断的秩均值都为10,但iPM3F推断的隐变量数目为30,这是秩短截水平。据(Xu, Zhu, and Zhang 2013)报道,在类似的实验设置中发现,由吉布斯iPM3F(一个无秩短截的iPM3F模型的吉布斯抽样版本)推断的最佳潜在维度在MovieLens上为450,EachMovie 上为200,都比我们的要大得多。

(二)与HASI,采用自适应谱正则非贝叶斯方法和其他基于平方误差损失的非贝叶斯方法(即SoftImpute和SoftImpute-ALS) 相比,我们的方法在这两个数据集均得到更好的结果,证明贝叶斯推断的优点。此外,HASI有比SoftImpute更好的性能,展现了自适应性的好处。

(三)基于最大边界的方法(即M3F 和iPM3F)在指标NMAE上较之我们的方法有稍微更好的性能,但却不如我们在RMSE上结果。一个可能的原因是,这些方法都是基于最大边界标准,自然地最小化绝对错误,然而,我们的方法(和其他方法)都是基于平方误差最小化损失。另一个原因,也可能是最重要的一个原因是M3F 和iPM3F预测整数值,然而,我们的方法(和其他方法)提供实值的预测。我们发现仅仅舍入这些实值预测为整数即可极大地提高NMAE指标。例如,将我们的GASR预测值舍入到最近的整数后,在MovieLens和EachMovie数据集上的NMAE指标分别为0.1569±0.0006,0.1877±0.1877。

5 结论

我们提出一个新颖的自适应谱正则贝叶斯矩阵补全方法。我们的方法展现了结合自适应松弛谱正则的分层贝叶斯推断的优势,从而避免参数调优。我们使用蒙特卡洛(随机模拟)估计超参数,其吉布斯抽样器在合成数据和真实数据集上的秩推断和协同过滤均表现出良好的性能。

我们的方法是基于一个定理1的新的形式化方法。这些结果可以很容易进一步推广到其他有噪势函数。对于吉布斯抽样器,我们也可以扩展到非高斯势函数,只要其存在常规概率密度以保证有效抽样。

最后,虽然,本文使用吉布斯抽样,但是,基于定理1研究其他贝叶斯推断方法也是有趣的,因为其可以避免关于施蒂费尔流形的困难。此类研究可能获得更多具有更好收敛特性的可扩展算法。此外,更好的初始化方法较之均匀的随机数生成可能加速收敛,例如,几次迭代HASI的结果通常可以提供一个很好的启动点。

致谢

该研究工作由国家基础研究计划(973计划),中国(编号2013CB329403, 2012CB316301)、中国国家NSF(编号61322308,61322308)、清华信息科学与技术国家实验室大数据计划和清华计划科学研究项目(20141080934)支持。我们感谢清华大学物理系承担了一部分研究费用。

你可能感兴趣的:(融合自适应松弛谱正则的贝叶斯矩阵补全方法研究)