Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习

2018 ACL 论文
Strong Baselines for Neural Semi-supervised Learning under Domain Shift

不同数据集的迁移学习
MT-Tri方法在情感分析上(无监督域适应)超过DANN方法
Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习_第1张图片
半监督学习结合了监督学习和无监督学习方法,能在有标签但标签不完整的数据中使用机器学习算法。本文重点介绍半监督学习算法中特殊算法,它们能在未标记数据上生成代理标签(proxy-label),并将其与已经标记好的数据共同使用。这些标签是模型本身或其变体生成的,无需额外监督——这意味着它们可能并不能反映事实,是嘈杂的、微弱的,但我们还是能从中提取到一些有用的学习信号。

a) self-training (Self);
b) tri-training (Tri);
c) tri-training with disagreement (Tri-D); and
d) asymmetric tri-training (Saito et al., 2017).
e) MT-Tri
Self-training(自训练算法)
Self-training有一个模型m、一个含标签训练数据集L和一个不含标签数据集U。每次迭代中,模型m会基于标签集C,为U中的样本x生成一个标签概率m(x)。如果m(x)大于阈值τ,我们就用p(x)=argmax m(x)为样本x生成一个伪标签(pseudo-label),然后把它归入训练集L中。
这个过程通常要重复固定次数的迭代,直到为所有“没有把握”的样本确定一个靠谱的伪标签。
Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习_第2张图片

Co-training(协同训练)
Co-training有m1和m2两个模型,它们分别在不同的特征集上训练。每轮迭代中,如果两个模型里的一个,比如模型m1认为自己对样本x的分类是可信的,置信度高,分类概率大于阈值τ,那m1会为它生成伪标签,然后把它放入m2的训练集。简而言之,一个模型会为另一个模型的输入提供标签。以下是它的伪代码:
Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习_第3张图片

Tri-training(三体训练法)
在采样变体上分别训练出m1、m2、m3三个模型后,它们无需计算置信度,只需按照“少数服从多数”的做法筛选出标签。选择两个模型m1,m2都agree的label,并且m3 disagree的label,将此样本加入m3的训练集中。那么算法会为样本生成多数同意的伪标签,然后把它放入mi的训练集。
Tri-training with disagreement
Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习_第4张图片

Asymmetric tri-training
Asymmetric tri-training让三个模型中的一个只在代理标签上训练,而不是已有标签集(算法4中的第10行),并且这个模型只会在测试期间完全对目标域样本进行分类。这就是它非对称(Asymmetric)的原因——三个模型的作用是不一样的。此外,三个模型使用的相同的特征提取器。

Multi-task tri-training
如果说Tri-training有什么缺点,那应该就是它有三个独立模型要训练,所以必须依赖大量训练数据,这在实践中的代价昂贵的。为了缓解这一问题,2018年,Ruder和Plank把迁移学习思想引入半监督学习,提出Multi-task tri-training算法[23],旨在减少三体训练过程中的时间、空间复杂度,实现跨模型知识共享和加速训练。正如Multi-task这个词所显示的,Multi-task tri-training不再单独训练模型,而是共享参数,并用多任务学习(MTL)机制对它们进行联合训练。需要注意的是,这里的三个模型还是作用相同的,所以这只是个伪MTL。
Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习_第5张图片
如下图伪代码所示,和经典Tri-training算法相比,Multi-task tri-training可以联合训练多任务模型及其三个特定模型的输出,而且因为正交约束强制模型m1和m2之间的不同表示,算法不用对带标签的源域数据进行bootstrap采样直至收敛。第三个模型m3只在生成了伪标签的目标样本上训练,最后算法会依据“多数投票”机制决定最终预测结果。
Strong Baselines for Neural Semi-supervised Learning under Domain Shift半监督学习_第6张图片

附:Self-ensembling
Ladder networks
Virtual Adversarial Training
Π model
Temporal Ensembling
Mean Teacher

参考:https://www.jqr.com/article/000264

你可能感兴趣的:(半监督学习)