文本匹配数据集(支持语义搜索训练),超丰富语料

数据集

数据集名称 领域 数量 任务类型 Prompt 质量 数据提供者 说明 是否开源/研究使用 是否商用 脚本 Done URL 是否同质
cmrc2018 百科 14,363 问答 问答 Yiming Cui, Ting Liu, Wanxiang Che, Li Xiao, Zhipeng Chen, Wentao Ma, Shijin Wang, Guoping Hu https://github.com/ymcui/cmrc2018/blob/master/README_CN.md 专家标注的基于维基百科的中文阅读理解数据集,将问题和上下文视为正例 https://huggingface.co/datasets/cmrc2018
belle_0.5m 百科 500,000 指令微调 LianjiaTech/BELLE belle 的指令微调数据集,使用 self instruct 方法基于 gpt3.5 生成 https://huggingface.co/datasets/BelleGroup/
firefily 百科 1,649,399 指令微调 YeungNLP Firefly(流萤) 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。使用了词表裁剪、ZeRO等技术,有效降低显存消耗和提高训练效率。 在训练中,我们使用了更小的模型参数量,以及更少的计算资源。 未说明 未说明 https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
alpaca_gpt4 百科 48,818 指令微调 Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao 本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据,约5万条。 https://huggingface.co/datasets/shibing624/alpaca-zh
zhihu_kol 百科 1,006,218 问答 问答 wangrui6 知乎问答 未说明 未说明 https://huggingface.co/datasets/wangrui6/Zhihu-KOL
amazon_reviews_multi 电商 210,000 问答 文本分类 摘要 亚马逊 亚马逊产品评论数据集 https://huggingface.co/datasets/amazon_reviews_multi/viewer/zh/train?row=8
mlqa 百科 85,853 问答 问答 patrickvonplaten 一个用于评估跨语言问答性能的基准数据集 未说明 https://huggingface.co/datasets/mlqa/viewer/mlqa-translate-train.zh/train?p=2
xlsum 新闻 93,404 摘要 摘要 BUET CSE NLP Group BBC的专业注释文章摘要对 https://huggingface.co/datasets/csebuetnlp/xlsum/viewer/chinese_simplified/train?row=259
ocnli 口语 17,726 自然语言推理 推理 Thomas Wolf 自然语言推理数据集 https://huggingface.co/datasets/clue/viewer/ocnli
BQ 金融 60,000 文本分类 相似 Intelligent Computing Research Center, Harbin Institute of Technology(Shenzhen) http://icrc.hitsz.edu.cn/info/1037/1162.htm BQ 语料库包含来自网上银行自定义服务日志的 120,000 个问题对。它分为三部分:100,000 对用于训练,10,000 对用于验证,10,000 对用于测试。 数据提供者: 哈尔滨工业大学(深圳)智能计算研究中心 https://huggingface.co/datasets/shibing624/nli_zh/viewer/BQ
lcqmc 口语 149,226 文本分类 相似 Ming Xu 哈工大文本匹配数据集,LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同 https://huggingface.co/datasets/shibing624/nli_zh/viewer/LCQMC/train
paws-x 百科 23,576 文本分类 相似 Bhavitvya Malik PAWS Wiki中的示例 https://huggingface.co/datasets/paws-x/viewer/zh/train
wiki_atomic_edit 百科 1,213,780 平行语义 相似 abhishek thakur 基于中文维基百科的编辑记录收集的数据集 未说明 未说明 https://huggingface.co/datasets/wiki_atomic_edits
chatmed_consult 医药 549,326 问答 问答 Wei Zhu 真实世界的医学相关的问题,使用 gpt3.5 进行回答 https://huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset
webqa 百科 42,216 问答 问答 suolyer 百度于2016年开源的数据集,数据来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索;数据整体质量中,因为混合了很多检索而来的文章 未说明 https://huggingface.co/datasets/suolyer/webqa/viewer/suolyer–webqa/train?p=3
dureader_robust 百科 65,937 机器阅读理解 问答 问答 百度 DuReader robust旨在利用真实应用中的数据样本来衡量阅读理解模型的鲁棒性,评测模型的过敏感性、过稳定性以及泛化能力,是首个中文阅读理解鲁棒性数据集。 https://huggingface.co/datasets/PaddlePaddle/dureader_robust/viewer/plain_text/train?row=96
csl 学术 395,927 语料 摘要 Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao and Hui Zhang 提供首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。 https://huggingface.co/datasets/neuclir/csl
snli-zh 口语 419,402 文本分类 推理 liuhuanyong 中文SNLI数据集,翻译自英文SNLI https://github.com/liuhuanyong/ChineseTextualInference/
SimCLUE 百科 2,678,694 平行语义 相似 数据集合,请在 simCLUE 中查看 整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。 https://github.com/CLUEbenchmark/SimCLUE

如果您想要查看数据集的构建方法,你可以在 https://github.com/shibing624/text2vec/blob/master/examples/data/build_zh_nli_dataset.py 中找到生成 nli-zh-all 数据集的脚本,所有数据均上传到 huggingface datasets。

references

  • m3e-base

你可能感兴趣的:(数据合集,搜索引擎,语义搜索,文本匹配,问答系统,自然语言处理,数据集)