中文语义相似度检测AI模型实践

个人博客原文地址

上方模型若是未能加载出来,点击这里主动跳转

语义相似度

输入两句中文,判断是否意思相同

大概细节

数据集
LCQMC 是一个公开的中文问句匹配数据集,由哈尔滨工业大学(HIT)的研究团队创建,最初发布于 2018 年。它旨在研究如何判断两个中文问句是否具有相似的语义。
微调模型
simcse-chinese-roberta-wwm-ext 是一个基于 SimCSE(Simple Contrastive Sentence Embedding)框架训练的中文预训练模型,底层使用的是 chinese-roberta-wwm-ext 作为基础模型。

我通过微调上述预训练的模型三个epochs,得到了一个用于中文语义相似度检测的模型,当前的判断相同阈值为0.6

吐槽

NLP的训练,所需的中文数据很难找,且数据质量参差不齐.

试验中曾经多次切换模型和数据集,参数也是多次调整,结果很难令人满意,对于入门者来说,这是一个很大的挑战。
以下是我在训练过程中,切换和涉及的一些值得记录的东西:

  • 数据集:LCQMC、PAWS-X、STS-B
  • 模型:simcse-chinese-roberta-wwm-ext、chinese-roberta-wwm-ext
  • 数据增强:使用Helsinki-NLP对数据转为英文再翻译回中文,让同义数据更多,以增加训练数据,减少过拟合,但效果不明显

你可能感兴趣的:(AI实践,人工智能)