[论文笔记]SimCSE

引言

今天带来一篇当时引起轰动的论文SimCSE笔记,论文题目是 语句嵌入的简单对比学习。

SimCSE是一个简单的对比学习框架,它可以通过无监督和有监督的方式来训练。

对于无监督方式,输入一个句子然后在一个对比目标中预测它自己,仅需要标准的Dropout作为噪声。这种简单的方式效果却惊人地好。将Dropout作为小型数据增强,移除Dropout会导致表示坍塌(representation collapse):将所有的句子判断为相似或不相似的。

对于有监督方式,合并NLI数据集有标注数据对到对比学习框架,具体做法是,将蕴含对作为正例,矛盾对作为困难负例。

最后,作者也通过理论和实验表明,对比学习目标正则化预训练嵌入的各向异性(anisotropic)空间成为更均匀,在有监督下能更好地对齐正样本对。

总体介绍

作者提出SimCSE(Simple contrastive sentence embedding)框架,能从无标签和有标签数据中产生优秀的句嵌入。

无监督的SimCSE仅通过dropout作为噪声来简单地预测输入语句本身,如图1(a)。

[论文笔记]SimCSE_第1张图片

图1

换言之,将同样的句

你可能感兴趣的:(论文翻译/笔记,#,文本匹配[论文],论文阅读,文本匹配,SIMCSE)