1)Gitee库
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{“sentence1”: “双十一花呗提额在哪”,
“sentence2”: “里可以提花呗额度”,
“label”: “0”}
2)蚂蚁金融NLP竞赛数据集
https://pan.baidu.com/share/init?surl=BIgFyK_kmJU4QwbLL82Hxg
5ig5
来源:https://blog.csdn.net/u014732537/article/details/81038260
(好像两个不是一个数据集)
竞赛数据集
Gitee库:
eg:
{“id”: 5,
“sentence1”: “女孩子到底是不是你”,
“sentence2”: “你不是女孩子吗”,
“label”: “1”}
{“id”: 18,
“sentence1”: “小影,你说话慢了”,
“sentence2”: “那你说慢一点”,
“label”: “0”}
第三届“魔镜杯”
https://www.biendata.net/competition/CCKS2018_3/
输入是两个句子,输出是0或1。其中0代表语义不相似,1代表语义相似。
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办?[分隔符] 父母没钱买房子 [分隔符] 0
https://github.com/CLUEbenchmark/SimCLUE
多个数据集的整合,不仅可用于语义相似度
https://github.com/CLUEbenchmark/QBQTC
Train/dev集格式:
[id, query1, query2, label],0,相关程度差;1,有一定相关性;2,非常相关。数字越大相关性越高。
示例:
{“id”: 76, “query”: “泰拉瑞亚蓝仙灵有什么用”, “title”: “泰拉瑞亚blue+fairy有什么用泰拉瑞亚blue+fairy作用详情快吧单机游戏”, “label”: “2”}
{“id”: 82, “query”: “frankribery”, “title”: “刀疤脸–frankribery冷碧秋水新浪博客”, “label”: “1”}
Test集不含标签
Baseline模型:
1)ERINE:
https://github.com/PaddlePaddle/ERNIE
文心大模型ERNIE是百度发布的产业级知识增强大模型,涵盖了NLP大模型和跨模态大模型。
2)BERT模型集合:
https://github.com/YJiangcm/Chinese-sentence-pair-modeling
包含数据集:BQ Corpus, CMNLI, LCQMC, OCNLI, XiAn_STS和常用bert模型
3)CLUE benchmark:
https://github.com/CLUEbenchmark/CLUE
(第一个中间NLP的部分)
1)STS Benchmark
2)GLUE Benchmark(MRPC)