本文翻译自:
http://papers.nips.cc/paper/4292-clustered-multi-task-learning-via-alternating-structure-optimization.pdf
通过交互结构优化的聚类多任务学习
摘要
多任务学习(MTL)通过同时学习多种相关联的任务来提升一般性的表现。交互结构优化(ASO)是一种流行的多任务学习方法,它可以在基于多个任务的假设空间上学习出一个共享的低维度预测结构。交互结构优化已经在许多的真实世界应用中得到成功应用。作为一种非主流的多任务学习方法,聚类多任务学习(CMTL)假设多个任务之间遵循一种聚类结构,比如,任务被分割成一系列的群组,在相同群组中的任务都具有相似性,以及这种聚类结构是未知先验的。ASO与CMTL的目的上的不同在于多个任务是如何相关联的。有意思的是,在这篇文章中我们展示了ASO与CMTL之间的相等关系,提供了显著的新视角来看待ASO与CMTL,以及它们之间的内在联系。CMTL的公式是非凸的,我们采用了一种凸松弛到CMTL的公式中。我们进而建立了预想的CMTL凸松弛与现存的ASO凸松弛之间的相等关系,以及证明了在高维度数据上,预想的凸CMTL结构更为显著地高效。除此之外,我们现在有三种解决凸CMTL公式的算法。我们在基准数据集上的实验结果来展示预想算法的效率。
1 介绍
许多真实世界的问题包括了多种相关联的分类/回归任务。一种幼稚的解决方案是应用单任务学习(STL),以此来独立的解决单个任务,因此,这些任务之间的相关性也就没有得到充分利用。最近,多任务学习(MTL)的热度越发高涨,我们可以通过抽取任务间恰当的共享信息,来同时学习多个相关联的任务。在MTL中,多个任务之间是期待能够相互受益的,进而导致能够提升一般性的表现。MTL的有效性已经在以经验为主的附录[1, 2, 3]以及以理论为主的附录[4, 5, 6]中得到证明。MTL已经被应用在许多实际场景中,例如:生物医学信息学[7],市场营销[1],自然语言处理[2]以及计算机视觉[3]。
许多不同的MTL方法已经在过去被提出,它们的不同之处在于如何对已经建立模型的不同任务之间构建关联性。Evgeniou等人[8]提出了正则化MTL,它强制所有任务的模型都更为紧密地联系。任务之间的相关性也可以通过约束多个任务来共享潜在结构[4, 6, 9, 10]的方式构建。Ando和Zhang[5]提出了一种结构学习公式,它假设不同任务的多个预报器在潜在的预测空间中共享了一个共同的结构。对于线性的预测器而言,它们提出了针对多任务的同时进行推断的交互结构优化(ASO),并且发现了共享的低维度预测结构。ASO已经被证明在许多的实际应用中非常有效[2, 11, 12]。一种对原生ASO结构的限制是它包括了一个非凸优化问题并不能保证全局性的最优解。在[13]中,一种叫做CASO的凸松弛ASO被提出并且分析出来。
许多现存的MTL公式都是基于所有的任务都是相互关联的这一假设之下的。在实际应用中,这些任务可能展示出一种更为复杂的团体结构,同一团体中的任务彼此之间联系更为紧密,不同团体之间的任务则没有这种相似性。在这一路线研究上已经有许多优秀的成果,被称为聚类多任务学习(CMTL)。在[14]中,任务之间共同的关联性是被预估的,并且同一聚类中单个任务的知识可以被转化为另外一个任务的。Bakkers和Heskes在一个贝叶斯设定中使用了聚类多任务学习,通过考虑一个混合高斯模型而不是单高斯先验。Evgeniou等[8]提出了任务聚类正则化并展示了MTL中聚类信息如何被编码,不论群组结构是否被要求先验。Xue等[16]引入了一种技术,在狄利克雷过程之前能够自动鉴别关联任务之间的子群。在[17]中,提出了一个能够同时鉴别聚类以及执行多任务推断的聚类MTL公式。因为这个公式是非凸的,他们也提出了一种凸松弛来达到全局最优[17]。Wang等[18]提出了一种相似的想法,通过引入一种inter-task正则化来考虑聚类任务。
CMTL的目的不同于许多的MTL公式(例如,ASO旨在为所有任务鉴别一个共享的低维度预测结构),这些公式都基于一个所有任务都同等的在相互之间学习的标准假设。在这篇文章中,我们学习在这些表面上两个看起来不同的MTL公式的内在联系。在特定情况下,我们建立ASO与一个特定CMTL公式之间的相等关系,使得它们能够同时多任务学习并且进行任务聚类:首先,我们发现CMTL在任务上执行聚类操作,而ASO在特征上进行一项投射来发掘一个共享的低等级结构。接下来,我们发现CMTL中奇怪的聚类凸松弛(在任务上)以及ASO的投射(在特征上),这导致了完全相同的正则化,这与包括了所有任务模型的负Ky Fan k-norm权重矩阵有关,因此而建立了它们之间的等价关系。如上展示的分析提供了一种具有非凡意义的新视角来看待ASO与CMTL,以及它们之间的内在联系。就我们目前已知的内容而言,从聚类视角来学习ASO还没有被充分地探究
ASO/CMTL公式的一个主要限制是它存在一个非凸最优化,而负Ky Fan k-norm是凹的。我们计划了一种凸松弛CMTL,并且在提出的凸松弛CMTL和凸ASO之间建立了相等关系(见[13])。我们发现我们所提出的凸CMTL公式是在高维度数据上惊人的高效。我们进一步在解决凸CMTL公式问题上提出了三种算法:分别是基于块坐标下降法,加速投射梯度,以及梯度下降法。我们在包括学校和Sarcos的基准数据集上得到了实验结果。我们的实验结果展现了提出算法的高效性。
注意:
在这篇文章中, 代表d维度欧几里得空间。 I 代表一个合适大小的特征矩阵。
代表一组自然数。代表一组 m * m 大小的对称半正定矩阵。 代表B减去A是正半定的。 是对X的追踪。
2 多任务学习:ASO与CMTL
假设我们给定了一个有 m 个任务的多任务学习问题,每个任务 都包括了一组训练数据 ,以及一个线性预测函数 :
其中 是第i个任务的权值向量,d 是数据维度,以及是第i 个任务的样例数目。我们用 作为被估算的权值矩阵。给定一个损失函数,具体的任务可以用如下的公示表示:
我们学习接下来的多任务学习公式: ,其中编码我们之前关于m个任务的先验知识。接下来,我们重新梳理ASO与CMTL,并且探索它们之间的内在联系。
2.1 交互结构优化(ASO)
在ASO[5]中,假设所有的任务都共享了一个共同的特征空间其中 h≤min(m, d)是共享特征空间的维度, 有正交列。举例说明, ASO的预测函数是: , 其中权重由两部分组成,包括高维度特征空间权重 和基于的低维度特征空间权重。ASO将接下来的目标函数最小化:
,其中α是任务相关性的正则化参数。我们可
以通过引入一个处罚规则进一步提升这个公式, ,像在传统的有监督学习上
那样来提升表现。因为 ,我们获得了如下ASO公式:
2.2 聚类多任务学习(CMTL)
在CMTL中,我们假设任务都聚类到 k < m 簇中,以及第j 簇的索引集定义为,用来表示第j簇的平均值。对于一个给定的 K-means聚类中的误差平方和函数(SSE)可以如下表示:
其中,矩阵 是一个正交聚类指标矩阵, 以及 。如果我们忽略F 的特殊结构并且只保持正交的要求,那么放宽条件的
SSE 最小化问题可以如下表示:
导致接下来的CMTL的惩罚函数可以这样表示:
其中第一项是从K-means聚类目标中衍生的,第二项是用来提升整体表现的。结合方程(4)和实验误差项,我们得到了接下来的CMTL公式:
2.3 ASO与CMTL的等价关系
在公式(1)中的ASO方程,很显然最理想的可以通过给出。因此ASO中的惩罚项有着接下来的等价形式:
导致接下来的等价ASO公式:
在方程(7)中的惩罚项看起来与方程(5)中CMTL的惩罚项非常相似,然而它们涉及的操作时完全不同的。在方程(5)中的CMTL公式,它的矩阵 F 是在任务的维度上进行操作的,因为它是在对任务的K-means聚类过程中衍生出来的。然而在方程(7)中的ASO公式,矩阵 θ 是在特征层面上进行操作的,因为它旨在为所有的任务鉴别出一个共享的低维度预测结构。尽管在数学公式上有所不同,我们发现在接下来的理论中CMTL与ASO的目的是等价的。
3 集群多任务学习的凸松弛
在方程(5)中的公式是非凸的。一个自然地解决办法是在CMTL上执行一个凸松弛。我们首先重构方程(5)中的惩罚项为如下形式:
其中,接下来表示为:
因此,我们可以重构方程(8)中的为如下的等价形式:
进而得到接下来的等价CMTL方程:
沿着[13, 17],我们从方程(10)中延续的凸松弛,叫做 cCMTL:
在方程(11)中的最优化问题是对M 与 W共同进行凸操作。
3.1 cASO与cCMTL的等价关系
一个方程(7)中的ASO的凸松弛(cASO)已经在[13]中被提出:
其中被定义为:
在方程(13)中的cASO公式以及在方程(11)中的cCMTL公式在正则化项上有所不同:它们关于权值矩阵W 各自正则化 Hessian矩阵是不同的。与定理2.1相类似,我们的分析证明了cASO与cCMTL是等价的。
4 优化算法
在这一部分,我们提出采用三种不同的方法,也就是,交替优化方法(altCMTL),加速投影梯度法(apgCMTL),以及直接梯度下降法(graCMTL),来解决方程(11)中的凸松弛问题。请留意,我们在这篇文章中着力于平滑损失函数。
4.1 交替优化方法
交替优化方法(altCMTL)与块坐标下降(BCD)方法是相类似的,它们都可以在其它变量固定的情况下交替对特定的变量进行优化。关于altCMTL的伪代码提供在了补充材料中,注意,使用[23]中之一的相似技术,我们可以证明altCMTL找到了关于方程(11)的全局最优解。altCMTL算法在每次迭代过程中包括了以下两个步骤:
对于W 的最优化 对于固定的M,最佳W矩阵可以通过解决这个问题得到:
上面列举的这个问题是平滑且凸的。它可以通过梯度类型的方法[22]解决。在一个最小平方损失函数的特殊情况中,方程(19)的问题允许一个解析解。
对于M 的最优化 对于固定的W,最佳 M矩阵可以通过解决这个问题得到:
从定理3.1中可知,对于方程(20)的最优化矩阵M 是通过给定的得到的,其中的是从方程(18)中得到的。方程(18)中的问题可以利用[17]类似的工具来高效地解决。
4.2 加速投影梯度法
加速投影梯度法(APG)已经被应用在解决许多机器学习公式中[24]。我们采用APG来解决方程(11)中的cCMTL公式。这个算法叫做apgCMTL。apgCMTL的关键部分是按照如下步骤计算一个临近算子:
其中关于解释的具体细节可以在[24]中找到。方程(21)中的最优化问题用apgCMTL来参与每一次迭代,因此它的计算是对apgCMTL的实际效率至关重要。我们发现在下列对于方程(21)的最优化矩阵可以被高效的计算
Computation of Wz 对于方程(21)的最优化矩阵 Wz 可以通过计算下面的问题得到:
其中并不保证是半正定的。我们的分析结果发现方程(23)的最优解允许通过解一个简单的凸投射问题来得到一个解析解。主要的实验结果以及apgCMTL的伪码描述都提供在了附加材料中。
4.3 直接梯度下降法
在[17]中使用了直接梯度下降法,方程(11)的cCMTL问题可以重构为一个有单一变量W的最优化问题,描述如下:
从graCMTL的第(k-1)次迭代给定中间解,我们计算的梯度,然后采用一般梯度下降策略[25]来获得 注意在一维搜索过程中的每一次迭代步骤,我们需要解决来自方程(20)的最优化问题。的梯度通过[26, 27]给出:
,其中是通过解决在条件下的方程(20)得到的。关于graCMTL的伪代码描述提供在了附加材料中。
5 实验
在这一部分,我们对所提出的算法在合成和真实数据集上的有效性和效率进行了实证评价。规范均方差(nMSE)以及平均均方误差(aMSE)都作为表现措施在[23]中被使用。注意在这篇文章中我们并没有发明一种新的MTL 公式,相反地,我们的主要着力点在于理论层面上来理解ASO与CMTL之间的内在联系。因此,对各类MTL算法的广泛比较研究超出了本文探讨的范围。作为一个例证,在接下来的实验中我们仅比较cCMTL和两个基准技术:岭回归STL(RidgeSTL)和正则化MTL(RegMTL)。
模拟学习 我们在一个合成的数据集(包括一个预先定义的簇结构)上采用了在方程(11)中提出的cCMTL公式。我们使用了五倍交叉验证来为所有的方法决定正则化参数。我们按照类似[17]中的程序构造合成数据集:构造的合成数据集包括五个簇,其中每一簇包括20个(回归)任务,并且每一个任务都用一个长度d = 300的权值向量表示。具体的构造在附加材料中所提供的。我们在构造的合成数据集上使用了RidgeSTL,RegMTL以及cCMTL方法。所得全职响亮的相关系数矩阵如图1所示。从结果中,我们可以观察到:(1)cCMTL能够在任务中捕获集群结构并实现一个小测试错误;(2)RegMTL在测试错误上比RidgeSTL有更好的表现。然而,由于假设所有任务都是相关的,因此在任务之间引入了不必要的相关性;(3)在cCMTL中我们也注意到一些“干扰”联系,这可能是因为奇怪的松弛导致的。
效果比较 接下来,我们用真实世界的基准数据集将cCMTL的公式与RidgeSTL和RegMTL进行对比,来评估它的有效性,这个基准数据集中包括了 学校数据(1 http://www.cs.ucl.ac.uk/staff/A.Argyriou/code/)与 Sarcos数据(2 http://gaussianprocess.org/gpml/data/)。 所有算法的正则化参数都通过5重交叉验证来决定;报告的实验结果平均超过10次随机重复。学校的数据包括来自139所中学的15362名学生的考试成绩,每个学生都有27个属性来表述。我们改变了集合5*{1,2,··,6}%的训练比率,并记录各自的性能。实验的结果被列举在了表格1(上页Table 1)中。我们可以观察发现cCMTL在所有的设定中都是表现最优的。Sarcos数据集的实验结果可以在补充材料中查看。
效率比较 我们比较了三种算法的效率,包括altCMTL,apgCMTL和graCMTL来计算方程(11)中的cCMTL公式。对于接下来的实验,我们设置了cCMTL中的参数。α=1,β=1并且k = 2。我们观察到在参数的其它设定中出现相同的趋势。具体地说,我们研究了特征维数、样本大小和任务数如何影响收敛的所需计算成本(以秒为单位)。实验的初始设置如下:当两个连续步骤的目标值变化小于10 的-5次方并记录得到的目标值时,我们终止apgCMTL,并且记录获得的目标值; 然后,我们在graCMTL和altCMTL中使用这样的值作为停止标准,也就是说,当graCMTL或altCMTL达到或小于apgCMTL获得的目标值时,我们将停止graCMTL或altCMTL。我们使用雅虎艺术数据进行前两个实验。因为在雅虎数据中任务数目非常小,我们为第三个实验构建了一个合成数据。
在第一个实验中,我们在集合中改变特征维度为[500:500:2500],样本大小固定在4000,任务数目固定在17。实验结果呈现在Figure 2 的左图中。在第二个实验中,我们改变集合中样本大小为[3000 :1000: 9000],并且将维度固定在500,任务数目固定在17。实验结果呈现在了Figure 2的中图上。在第三个实验中,我们将集合中的任务数设置为[10: 10: 190],特征维度固定为600,样本大小固定为2000。所采用的合成数据集是这样构造的:对于每个任务,我们从标准正态分布中产生数据矩阵的条目,并且用标准正态分布产生权值向量条目,相应的向量可以表示为,其中代表干扰向量。实验结果呈现在Figure2的右图中。我们可以发现altCMTL比其它两个算法更高效。
6 结论
在这篇文章中我们构建了两个多任务学习工具之间的等价关系:交互结构优化(ASO)和聚类多任务学习(CMTL)。我们进一步在我们提出的CMTL凸松弛和现存的ASO凸松弛之间建立了等价关系。除此之外,我们提出了三种算法来解决凸CMTL公式并展示了它们在基准数据集上的效能和效率。所提出的算法涉及到SVD的计算。在过于庞大的任务数量情况下SVD的计算开销非常大。我们通过采用近似的方法来进一步提升三种算法的效率。除此之外,我们计划将所提议的算法应用到其他涉及多个(集群)任务的实际应用程序中。
Acknowledgments
This work was supported in part by NSF IIS-0812551, IIS-0953662, MCB-1026710, CCF-1025177, and NIH R01 LM010730. 8
References
[1] T. Evgeniou, M. Pontil, and O. Toubia. A convex optimization approach to modeling consumer heterogeneity in conjoint estimation. Marketing Science, 26(6):805–818, 2007.
[2] R.K. Ando. Applying alternating structure optimization to word sense disambiguation. In Proceedings of the Tenth Conference on Computational Natural Language Learning, pages 77–84, 2006.
[3] A. Torralba, K.P. Murphy, and W.T. Freeman. Sharing features: efficient boosting procedures for multiclass object detection. In Computer Vision and Pattern Recognition, 2004, IEEE Conference on, volume 2, pages 762–769, 2004.
[4] J. Baxter. A model of inductive bias learning. J. Artif. Intell. Res., 12:149–198, 2000.
[5] R.K. Ando and T. Zhang. A framework for learning predictive structures from multiple tasks and unlabeled data. The Journal of Machine Learning Research, 6:1817–1853, 2005.
[6] S. Ben-David and R. Schuller. Exploiting task relatedness for multiple task learning. Lecture notes in computer science, pages 567–580, 2003.
[7] S. Bickel, J. Bogojeska, T. Lengauer, and T. Scheffer. Multi-task learning for hiv therapy screening. In Proceedings of the 25th International Conference on Machine Learning, pages 56–63. ACM, 2008.
[8] T. Evgeniou, C.A. Micchelli, and M. Pontil. Learning multiple tasks with kernel methods. Journal of Machine Learning Research, 6(1):615, 2006.
[9] A. Argyriou, C.A. Micchelli, M. Pontil, and Y. Ying. A spectral regularization framework for multi-task structure learning. Advances in Neural Information Processing Systems, 20:25–32, 2008.
[10] R. Caruana. Multitask learning. Machine Learning, 28(1):41–75, 1997.
[11] J. Blitzer, R. McDonald, and F. Pereira. Domain adaptation with structural correspondence learning. In Proceedings of the 2006 Conference on EMNLP, pages 120–128, 2006.
[12] A. Quattoni, M. Collins, and T. Darrell. Learning visual representations using images with captions. In Computer Vision and Pattern Recognition, 2007. IEEE Conference on, pages 1–8. IEEE, 2007.
[13] J. Chen, L. Tang, J. Liu, and J. Ye. A convex formulation for learning shared structures from multiple tasks. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 137–144. ACM, 2009.
[14] S. Thrun and J. O’Sullivan. Clustering learning tasks and the selective cross-task transfer of knowledge. Learning to learn, pages 181–209, 1998.
[15] B. Bakker and T. Heskes. Task clustering and gating for bayesian multitask learning. The Journal of Machine Learning Research, 4:83–99, 2003.
[16] Y. Xue, X. Liao, L. Carin, and B. Krishnapuram. Multi-task learning for classification with dirichlet process priors. The Journal of Machine Learning Research, 8:35–63, 2007.
[17] L. Jacob, F. Bach, and J.P. Vert. Clustered multi-task learning: A convex formulation. Arxiv preprint arXiv:0809.2085, 2008.
[18] F. Wang, X. Wang, and T. Li. Semi-supervised multi-task learning with task regularizations. In Data Mining, 2009. ICDM’09. Ninth IEEE International Conference on, pages 562–568. IEEE, 2009. [19] C. Ding and X. He. K-means clustering via principal component analysis. In Proceedings of the twentyfirst International Conference on Machine learning, page 29. ACM, 2004.
[20] H. Zha, X. He, C. Ding, M. Gu, and H. Simon. Spectral relaxation for k-means clustering. Advances in Neural Information Processing Systems, 2:1057–1064, 2002.
[21] K. Fan. On a theorem of Weyl concerning eigenvalues of linear transformations I. Proceedings of the National Academy of Sciences of the United States of America, 35(11):652, 1949.
[22] J. Nocedal and S.J. Wright. Numerical optimization. Springer verlag, 1999.
[23] A. Argyriou, T. Evgeniou, and M. Pontil. Convex multi-task feature learning. Machine Learning, 73(3):243–272, 2008.
[24] Y. Nesterov. Gradient methods for minimizing composite objective function. ReCALL, 76(2007076), 2007.
[25] S.P. Boyd and L. Vandenberghe. Convex optimization. Cambridge University Press, 2004.
[26] J. Gauvin and F. Dubeau. Differential properties of the marginal function in mathematical programming. Optimality and Stability in Mathematical Programming, pages 101–119, 1982.
[27] M. Wu, B. Scholkopf, and G. Bak?0?3r. A direct method for building sparse kernel learn ¨ ing algorithms. The Journal of Machine Learning Research, 7:603–624, 2006.
[28] T. Evgeniou and M. Pontil. Regularized multi–task learning. In Proceedings of the tenth ACM SIGKDD International Conference on Knowledge discovery and data mining, pages 109–117. ACM, 2004.