收藏 | 中文公开聊天语料库及使用方法(附链接)

640?wx_fmt=png

来源:专知

本文约1000字建议阅读5分钟

该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。


语料内容


该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。


640?wx_fmt=png

640?wx_fmt=png


使用方法


下载语料


网盘链接:

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex


将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:


 
    

raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...


执行命令即可


 
    

python main.py


生成结果


每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。


生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer


 
    

query \t answer


Github地址:

https://github.com/codemayq


编辑:王菁

校对:林亦霖


640?wx_fmt=png640?wx_fmt=jpeg

你可能感兴趣的:(收藏 | 中文公开聊天语料库及使用方法(附链接))