Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第1张图片

论文链接:https://dl.acm.org/doi/pdf/10.1145/3219819.3220007

许多基于 DNN 的多任务模型对:数据分布、任务之间的差异很敏感,导致并不一定是多任务会优于单模型

每个专家网络是一个前馈网络(采用局部模型的方法更容易拟合训练样本,这就是专家Experts的作用

门控网络采用输入特征,输出专家的不同权重的softmax门(设计方式是: 线性变换+softmax层)

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第2张图片

x的shape是(d,1)和w(gk)相乘后得 n*1,然后再计算softmax,得到每个专家网络的权重

为了解 MMoE 如何针对不同级别的任务,学习其专家和门控网络,我们用 Pearson 相关性来衡量不同任务之间的相关性。 与 [24] 类似,我们使用两个合成回归任务并使用正弦函数作为数据生成,引入非线性的机制。 我们的方法表现出色,尤其是在任务相关时低时。 在这组实验中,我们还发现 MMoE 是在多次运行期间更容易训练并收敛到更好的损失。这与最近的发现有关,即调制和门控机制可以提高训练非凸深度的可训练性神经网络 [10, 19]。

本文的贡献有三个:
首先,我们提出了一个新的多门专家混合模型,明确建模任务关系。 通过调制和门控网络,我们的模型自动调整建模之间的参数化共享信息和建模任务特定信息。 
第二,我们对合成数据进行控制实验。 我们报告如何任务相关性影响多任务学习中的训练动态和MMoE 如何提高模型的表现力和可训练性。
最后,我们对真实的基准数据和一个拥有数百个产品的大规模生产推荐系统数以百万计的用户和项目。 我们的实验验证了效率以及我们提出的方法在现实世界环境中的有效性。

共享底层的优缺点

1:相比单任务,缓解了过拟合

2:由于多任务,会有任务优化冲突

推荐系统,发现多任务学习有助于提供上下文感知 [28, 35]

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第3张图片

从公式可以看出,P越接近1,w2就越接近 c*u1 ,w1和w2就越接近。影响到下面的y1 y2这两种label也就越相近(在同一个x的情况下)

cos(w1,w2) = p,任务相关性就用w1 w2这两个权重相关性来代替

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第4张图片

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第5张图片

这是在Shared-Bottom model上做的实验,共享层只是1层的mlp,各自任务是1层的mlp,使用adam优化器,证明了:多任务模型随着任务的相关增加而效果变好

对于大型神经网络模型,我们非常关心它们的可训练性:即模型在一系列超参数内的鲁棒性、模型初始化方案

直方图中有三个有趣的观察结果。首先,在所有任务相关性设置中,Shared-Bottom 模型表现差异比基于 MoE 的模型大得多。这意味着 Shared-Bottom 模型通常具有比基于 MoE 的模型质量差得多的局部最小值。其次,虽然 OMoE 模型在任务相关性为1时的的性能方差更小,但是OMoE的鲁棒性不太好(当任务相关性降低时)。请注意,两者之间的唯一区别MMoE和OMoE是否存在多栅结构。这验证了多门结构在解决由于任务差异冲突引起的局部最小值,有比较好的鲁棒性。最后,值得观察的是,所有三种模型的最低损失是可比的。这并不奇怪,因为神经网络理论上通用的逼近器。有足够的模型容量,应该存在一个“正确”的 Shared-Bottom 模型,它可以同时学习任务很好。但是,请注意,这是 200 次独立实验的分布。我们怀疑对于更大的和更复杂的模型(例如,当共享底层网络是循环神经网络),获得“正确”模型的机会的任务关系会更低。因此,明确建模任务关系仍然是可取的。

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第6张图片

在现实数据集上做下测试

(1) 针对参与度相关的优化目标,例如点击率和参与时间;
(2) 优化满意度相关目标,例如喜欢率

我们通过以下方式评估多任务模型,为深度排名模型创建两个二元分类任务:(1) 预测用户参与相关的行为; (2) 预测用户满意度相关的行为。 我们将这两个任务命名为参与子任务和满意度子任务。

Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts_第7张图片

你可能感兴趣的:(精排模型(多目标模型),算法)