深度学习中的MTL效果为什么会好

对MTL的分析可以从两个角度进行,第一个是feature representation共享,第二个是regularization。

1、特征共享。人们发现神经网络有很强的特征表达能力,其提取出的特征虽然维度不高但是能包含丰富的信息,这来自于神经网络强大的特征提取和表达能力吗,其提取的特征远强于人hand-crafted的特征,包含了更加高效线性可分的特征。这就给MTL在神经网络中的应用提供了潜力,多个任务共享特征从而最大化对特征的利用率,将神经网络feature representation的潜力最大化释放出来。

2、正则化。神经网络具有很强的泛化性。在机器学习中,泛化性越好的模型性能越稳定。神经网络的泛化性来自于其训练中会见到大量的数据以及正则化项的共同作用。而MTL要求神经网络学到更加泛化的特征,MTL的多个任务的loss组合在一起会起到很强的抑制过拟合的作用。一个具象的例子是,如果一个神经网络在某几个样本上的分类效果过于出色一定会导致其在其它任务上的效果下降,这就是没有免费的午餐定理,随着任务个数的增加,神经网络的loss会强迫神经网络的权值朝着更强的泛化性上变化。

note:MTL对于单个任务的效果既有可能提高也有可能破坏,这取决于所有任务之间的关联度。关联度大于一定阈值的情况下,MTL会提升所有任务的性能,但如果关联度小于某个阈值,则会导致所有任务的效果下降。MTL训练中有许多trick,例如同时训练、轮转着训练,各种对loss weight的精巧控制(当然最好保证所有任务的loss都差不多大)。

你可能感兴趣的:(深度学习中的MTL效果为什么会好)