【单塔 无监督】利用同一输入每次过dropout后生成不同embedding的特性,完美规避了传统文本增强方法伴随的语义漂移问题,同一文本dropout两次得到正样本(的embedding),batch中其他文本dropout两次为负样本样本优化样本增强。
【双塔 有监督】原论文把相似当作正例,矛盾和中立当作负例。
温度系数越小,越重视困难样本。
训练目标等价于 增加正样本之间的相似度。
(a)是单塔【无监督】,(b) 是双塔【有监督】
第一个代理任务 启发于神经网络中的防过拟合技术——Dropout。我们知道,Dropout是在神经网络中随机关闭掉一些神经元的连接,那么关闭的神经元不一样,模型最终的输出也就不一样。因此,作者在这里通过 将一句话分两次过同一个模型,但使用两种不同的dropout,这样得到的两个sentence embedding就作为模型的正例,而同一个batch中的其他embedding就变为了负例。
第二个代理任务 就更加的直接。作者直接采用NLI有监督数据集做对比学习训