多任务学习-MMOE-Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

简介

针对多任务学习的应用场景,MMOE论文提出了多门多专家的混合结构的多任务学习方法,如下图c所示。针对其他的经典算法,比如a-硬共享share-bottom结构的方式,引入了一组不同的专家网络;针对b-MOE结构,扩展了门网络的数量,使得网络结构对于多任务的相关性较低时,能够更好的优化。

多任务学习-MMOE-Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts_第1张图片

模型

专家组合

MMOE可以看作MOE模型(专家组合模型)的扩展。其中MOE可以表述为

其中,g(x)_i是第i个专家模型f(x)_i的概率,所有专家模型的概率和为1。n个专家模型作为一组专家模型,不共享参数。

 多门专家组合

基于MOE,我们提出了MMOE(多门专家)模型,主要目的是为了在不显著增加参数计算量的前提下,捕获不同任务的差异。相对于MOE,其主要差别是,针对不同的子任务k,增加了其对应的门网络g(x)_k,表示为

多任务学习-MMOE-Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts_第2张图片

其中专家网络,由全连接网络+RELU激活函数构成,门网络相对较浅,由LR+softmax激活函数构成。

其中W_gk为线性变换的可训练参数。

多任务影响

由于多门专家网络,允许每个子任务更灵活的选择一组专家的线性组合作为最终的优化目标,因此任务与任务之间的“跷跷板”现象会得到一定的缓解,当子任务间的相关性差异较大时,效果:多门专家模型>专家模型>bottom-share模型。

因为bottom-share因为共享底层网络的原因,当子任务间的差别较大时,任务与任务间会形成冲突;MOE虽然通过gate网络对多专家模型进行了选择,但只是利用了多专家更强的学习能力,但还是公用gate,没有解决不同子任务间的冲突;MMOE的多任务通过使用不同的gate网络,控制了不同子任务中,专家网络的权重,在一定程度减少了子任务间的互相冲突。

多任务学习-MMOE-Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts_第3张图片

实验效果

真实大规模推荐系统的参与度。

多任务学习-MMOE-Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts_第4张图片

你可能感兴趣的:(排序,推荐,多任务,排序算法,推荐算法)