问题匹配/文本匹配数据集(自用)

问题匹配(question matching)/Chinese Sentence Pair Classification:

1、AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus

1)Gitee库
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{“sentence1”: “双十一花呗提额在哪”,
“sentence2”: “里可以提花呗额度”,
“label”: “0”}

2)蚂蚁金融NLP竞赛数据集
https://pan.baidu.com/share/init?surl=BIgFyK_kmJU4QwbLL82Hxg
5ig5
来源:https://blog.csdn.net/u014732537/article/details/81038260
(好像两个不是一个数据集)

2、BUSTM 小布助手对话短文本匹配数据集 XiaoBu Dialogue Short Text Matching

竞赛数据集

Gitee库:
eg:
{“id”: 5,
“sentence1”: “女孩子到底是不是你”,
“sentence2”: “你不是女孩子吗”,
“label”: “1”}
{“id”: 18,
“sentence1”: “小影,你说话慢了”,
“sentence2”: “那你说慢一点”,
“label”: “0”}

3、拍拍贷问题相似度匹配比赛数据集

第三届“魔镜杯”

4、CCKS 2018 微众银行智能客服问句匹配大赛

https://www.biendata.net/competition/CCKS2018_3/

5、LCQMC数据集:

输入是两个句子,输出是0或1。其中0代表语义不相似,1代表语义相似。
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办?[分隔符] 父母没钱买房子 [分隔符] 0

6、BQ 智能客服问句匹配 Question Matching for Customer Service

7、SIMCLUE数据集

https://github.com/CLUEbenchmark/SimCLUE
多个数据集的整合,不仅可用于语义相似度

8、QBQTC: QQ浏览器搜索相关性数据集

https://github.com/CLUEbenchmark/QBQTC
在这里插入图片描述
Train/dev集格式:
[id, query1, query2, label],0,相关程度差;1,有一定相关性;2,非常相关。数字越大相关性越高。
示例:
{“id”: 76, “query”: “泰拉瑞亚蓝仙灵有什么用”, “title”: “泰拉瑞亚blue+fairy有什么用泰拉瑞亚blue+fairy作用详情快吧单机游戏”, “label”: “2”}
{“id”: 82, “query”: “frankribery”, “title”: “刀疤脸–frankribery冷碧秋水新浪博客”, “label”: “1”}

Test集不含标签

Baseline模型:
1)ERINE:
https://github.com/PaddlePaddle/ERNIE
文心大模型ERNIE是百度发布的产业级知识增强大模型,涵盖了NLP大模型和跨模态大模型。

2)BERT模型集合:
https://github.com/YJiangcm/Chinese-sentence-pair-modeling
包含数据集:BQ Corpus, CMNLI, LCQMC, OCNLI, XiAn_STS和常用bert模型

3)CLUE benchmark:
https://github.com/CLUEbenchmark/CLUE
(第一个中间NLP的部分)

英文语义匹配(STS):

1)STS Benchmark
2)GLUE Benchmark(MRPC)

你可能感兴趣的:(机器学习,自然语言处理,人工智能)