别找了,送你 20 个文本数据集


源 / DataCastle数据城堡

中科大自然语言处理与信息检索共享平台


http://www.nlpir.org/?action-category-catid-28


别找了,送你 20 个文本数据集_第1张图片


搜狗实验室


搜狗实验室提供了一些高质量的中文文本数据集,但时间比较早,多为2012年以前的数据。


https://www.sogou.com/labs/resource/list_pingce.php


别找了,送你 20 个文本数据集_第2张图片


中文文本分类数据集THUCNews


THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。


http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews


别找了,送你 20 个文本数据集_第3张图片


中文完形填空数据集


https://github.com/ymcui/Chinese-RC-Dataset


别找了,送你 20 个文本数据集_第4张图片


清华大学开放中文词库


http://thuocl.thunlp.org/


别找了,送你 20 个文本数据集_第5张图片


中华古诗词数据库


最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。


https://github.com/chinese-poetry/chinese-poetry


别找了,送你 20 个文本数据集_第6张图片


上百种预训练中文词向量


https://github.com/Embedding/Chinese-Word-Vectors


别找了,送你 20 个文本数据集_第7张图片


《口袋妖怪》跨语种命名对照数据集


任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照,中文包含繁简体两种格式。


https://pokewiki.de/index.php?title=Pok%C3%A9mon-Liste


别找了,送你 20 个文本数据集_第8张图片


中国宗教用户关键词列表


https://www.dcjingsai.com/common/share/73.html


别找了,送你 20 个文本数据集_第9张图片


1998年《人民日报》词性标注库


https://pan.baidu.com/s/1gd6mslt


别找了,送你 20 个文本数据集_第10张图片


中文突发事件语料库


https://github.com/shijiebei2009/CEC-Corpus


别找了,送你 20 个文本数据集_第11张图片


中国股市爬取信息数据集


https://github.com/startprogress/China_stock_announcement


别找了,送你 20 个文本数据集_第12张图片


中文语料小数据


包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。


https://github.com/crownpku/Small-Chinese-Corpus


别找了,送你 20 个文本数据集_第13张图片


Tushare财经数据接口


TuShare是一个免费、开源的python财经数据接口包。


http://tushare.org/


别找了,送你 20 个文本数据集_第14张图片


保险行业语料库


https://github.com/Samurais/insuranceqa-corpus-zh


别找了,送你 20 个文本数据集_第15张图片


中文人名语料库


包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。


https://github.com/wainshine/Chinese-Names-Corpus


别找了,送你 20 个文本数据集_第16张图片


中文简称数据集


https://github.com/zhangyics/Chinese-abbreviation-dataset


别找了,送你 20 个文本数据集_第17张图片


汉字拆字字典


https://github.com/kfcd/chaizi


别找了,送你 20 个文本数据集_第18张图片


中文实体情感知识库


刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。


https://github.com/rainarch/SentiBridge


别找了,送你 20 个文本数据集_第19张图片


中文对话情感分析数据集


https://github.com/z17176/Chinese_conversation_sentiment


别找了,送你 20 个文本数据集_第20张图片

推荐阅读

再次重申 5 个Python 的坏习惯

全军覆没!麻省理工零录取中国学生,斯坦福取消中国大陆面试! 这是怎么了?

教你用Python感知女朋友的情绪变化!

640?wx_fmt=png

喜欢就点击“在看”吧!

你可能感兴趣的:(别找了,送你 20 个文本数据集)