【论文阅读-对比学习】ConSERT- A Contrastive Framework for Self-Supervised Sentence Representation Transfer

今天继续来看对比学习的一篇论文,比SimCSE稍晚几个月发的,主要关注在embeddings层的不同的数据增强方式。
该阅读笔记首发于:https://zhuanlan.zhihu.com/p/481581904

Title: ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

From: ACL 2021

Link: https://aclanthology.org/2021.acl-long.393/

Code: https://github.com/yym6472/ConSERT

在计算句子相似度时,可以看到BERT生成的句向量相似度偏高,也就是embeddings都被映射到一个小区域(各向异性),无法进行有效区分。这两张图和上一篇的图类似,上一篇的图中横纵坐标是相似度和编辑距离,这篇论文的图是gold相似度和predicted相似度。

【论文阅读-对比学习】ConSERT- A Contrastive Framework for Self-Supervised Sentence Representation Transfer_第1张图片

Motivation:

预训练得到的向量表现不佳,对其进行微调又需要大量的标注数据,如何在减少标注数据量的情况下来微调预训练模型,使其在下游任务上提升性能呢?

创新点:

  1. 在未标注的数据集上微调预训练模型,达到embeddings在下游任务上的迁移与适配;

  2. 研究对比学习框架中多种数据增强策略;

数据增强策略

选用了4种方式来构建对比学习的正负例。

【论文阅读-对比学习】ConSERT- A Contrastive Framework for Self-Supervised Sentence Representation Transfer_第2张图片

1. 对抗攻击:利用梯度反传加入对抗扰动,需要有监督

2. Token Shuffling:打乱句子中tokens的顺序

3. Cutoff:随机删除横向或者纵向的特征

4. Dropout:和SimCSE一样,做dropout

这些数据增强也都是在embedding层做的,而不是在原始的文本上做,避免其带来的语义变化问题。

实验

  • 主实验

ConSERT的性能要比SimCSE差。论文的后续实验结果发现,几种数据增强方式中,dropout的作用在比较靠后的位置。和SimCSE对比下,可以看到两篇论文用dropout的方式是不同的。

SimCSE 用的是预训练模型自带的dropout,是把text输入模型两次,得到两个随机dropout的表示;此外没有再额外增加dropout层。

ConSERT是将预训练得到的embeddings送入自己添加的dropout层,得到一个增广的数据。

(这就导致了性能差别这么大嘛)

  • 其他实验

除了STS的几个数据集上的实验结果,文章还给出了在few-shot下模型的鲁棒性。

【论文阅读-对比学习】ConSERT- A Contrastive Framework for Self-Supervised Sentence Representation Transfer_第3张图片

总之还是不错的工作,相比于之前的方法有了突破,但是在SimCSE的光辉下,显得有点弱了。

你可能感兴趣的:(论文阅读,对比学习,机器学习,bert)