过年刷【千言数据集:文本相似度】比赛

过年刷千言数据集:文本相似度数据集

  • 1.比赛信息
  • 2. 数据集介绍
  • 3. 模型细节
      • 3.1 数据增强:
      • 3.2 模型:
      • 3.3 训练:
      • 3.4 模型融合:
  • 其他:可以提高的点 或者 没有用尝试。
      • 1.领域数据进一步预训练。
      • 2.半监督训练(self-training的思想):
      • 3. simCSE的训练:
      • 4.stacking模型融合:

1.比赛信息

“千言数据集:文本相似度” 是网易易智在 CCF 和百度联合举办的行业测评任务,这个榜单在2021年出提出。刚好过年有时间刷一下这个任务,由于时间有限,且已经有相当多的提交,最后在假期结束取得15/2000的成绩。
在这里插入图片描述
代码地址:https://github.com/xxyliuyang/qianyan_similarity
依赖: allennlp2.0.1、transfomers4.1.0、torch==1.7.1

2. 数据集介绍

具体数据来源查看官网数据介绍,这里介绍三个数据比较大的问题:千言数据集:文本相似度述

  • 问题一:领域数据:BQ Corpus是金融领域相关的数据。
  • 问题二:文本质量: PAWS-X的输入文本质量不高,存在很多中英混合句子,英文大部分是英文实体词汇。
  • 问题三:label质量:观察部分数据,标签存在标注错误的情况。

3. 模型细节

3.1 数据增强:

交换句子度,将训练数据翻倍。

3.2 模型:

bert构建句子对模型,使用[CLS]的输出的向量做二分类。

3.3 训练:

使用R-drop正则方法,其训练逻辑类似于对抗训练。

3.4 模型融合:

使用robert,albet,macbert分别训练,然后将输出的概率求平均。

其他:可以提高的点 或者 没有用尝试。

还有很多方法没有尝试,读者可以自行尝试,进入前十还是不难。

1.领域数据进一步预训练。

条件是可以获取或者爬取相关领域的文本。

2.半监督训练(self-training的思想):

条件是获取相关数据。

3. simCSE的训练:

尝试simCSE的训练,但是没有收益,猜测是因为simCSE提高句子embedding的方法,然而这个任务是句子对的任务,两个任务的出发点有区别。如果有更好的解释,欢迎评论。

4.stacking模型融合:

更好的融合模型可以提高效果

参考文献
[1] R-Drop
[2] simCSE

你可能感兴趣的:(nlp,深度学习,自然语言处理,pytorch)