「自然语言处理(NLP)」中文自然语言处理可能用到的数据集

来源: AINLPer
微信公众号(每日更新…
编辑: ShuYini
校稿: ShuYini
时间: 2020-08-08

引言: 给大家分享一下中文自然语言处理可能用到的数据集,感兴趣的小伙伴可以收藏,以备不时之需。具体主要包括:中文常用词停用词数据集汉语拆字词表中文词表人名语料库中文缩写数据库中文专业领域词库中文敏感词库维基百科词条(104万)新闻语料json版(250万篇)百科类问答json版(150万)社区问答json版(410万)、**翻译语料(520万对)**等

以下数据打包获取方式:关注AINLPer 微信公众号(每日更新…)回复:YL001

「自然语言处理(NLP)」中文自然语言处理可能用到的数据集_第1张图片

中文常用词停用词数据集

    该数据集主要包括中文停用词表、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库四个部分。

词表名 词表文件
中文停用词表 cn_stopwords.txt
哈工大停用词表 hit_stopwords.txt
百度停用词表 baidu_stopwords.txt
四川大学机器智能实验室停用词库 scu_stopwords.txt

汉语拆字词表

    该词表主要用以提供字旁和部首查询的拆字字典数据库,有利于使用者去查难打汉字等用途。该数据集收录了17,803个不同汉字的拆法,分为繁体拆字表和简体字拆字表两个版本。拆字法有别于固有的笔顺字库。拆字尽量把每个字拆成两个以上的组成部件,而不是拆成手写字时所使用的笔画。

繁体eg:丳 串 丿
        丵 业 丷 干
简体eg:丗 廿 丨 十 凵
        丘 厂 工 厂 丅 一

中文词表

    本词表主要包括:同义词表、反义词表、否定词表。

同义词表eg:Aa01A04= 劳力 劳动力 工作者、Aa01A05= 匹夫 个人、Aa01A08= 每人 各人 每位、等等。
反义词表eg:前-后、冷-热、高-矮、进-退、等等。
否定词表eg:非、别、不、没、无、勿、等等。

人名语料库

    该语料库主要包括中文人名语料库【中文常见人名(数据量:120万)、中文古代人名(数据量:25万)、中文姓氏(数据量:1千)、中文称呼(数据量:5千))】、英文人名语料库【翻译人名(数据量:48万)】、日文人名语料库【日本人名(数据量:18万)】、中文成语词典(数据量:5万)。

中文成语词库、中文名字词库(古代名字词库、中文关系称呼词库、现代名字词库、中文名字性别词库、中文姓氏词库)

中文缩写数据库

    缩略语是一种跨语言的普遍现象,尤其是在汉语中。在大多数情况下,如果一个表达可以缩写,它的缩写会比它的完整形式使用的更多,因为人们倾向于以最简明的方式传达信息。对于各种语言处理任务,缩略语是提高性能的一个障碍,因为缩略语的文本形式不能表达有用的信息,除非它被扩展为完整的形式。本数据库主要是中文的简写,比如:影业是电影业的缩写、北大是北京大学的缩写、村委会是村民委员会、优种是优良的品种等。

史地: 历史/n 和/cc 地理/n
文委会: 文化/n 教育委员会/nt
营运: 营业/vn 运行/vn

中文专业领域词库

    该词库主要包括IT行业、财经、汽车、成语、地名、食物、法律、历史名人、医药、诗词等。

IT.txt、car.txt、chengyu.txt、diming.txt、food.txt、law.txt、lishimingren.txt、medical.txt、poem.txt、…

中文敏感词库

    该词库主要包括暴恐词库、反动词库、民生词库、敏感词词库、色情词库、贪腐词库。

暴恐词库.txt、反动词库.txt、民生词库.txt、敏感词库表统计.txt、色情词库.txt、贪腐词库.txt 等等

维基百科词条(104万)

    该数据具体包含104万个词条(1,043,224条; 原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7),可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。

例子: {“id”: “53”, “url”: “https://zh.wikipedia.org/wiki?curid=53”, “title”: “经济学”, “text”: “经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。…”}

新闻语料json版(250万篇)

    包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);亦可以通过新闻渠道区分出新闻的类型。

例子: {“news_id”: “610130831”, “keywords”: “导游,门票”,“title”: “故宫淡季门票40元 “黑导游”卖外地客140元”, “desc”: “近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售”, “source”: “新华网”, “time”: “03-22 12:00”, “content”: “近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售40元的门票,被“黑导游”加价出售,最高加到140元。故宫方面表示,请游客务必通过正规渠道购买门票,避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟,耐心排队购票也不会等待太长时间。…再反弹”的态势,打击黑导游需要游客配合,通过正规渠道购买门票。”}

百科类问答json版(150万)

    含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。数据集划分:数据去重并分成三个部分。训练集:142.5万;验证集:4.5万;测试集,数万,不提供下载。 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。

{“qid”: “qid_2540946131115409959”, “category”: “生活知识”, “title”: "冬天进补好一些呢,还是夏天进步好啊? ", “desc”: “”, “answer”: “你好!\r\r当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。” \r\r二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。”}

社区问答json版(410万)

    含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。
    除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
    数据集划分:数据去重并分成三个部分。训练集:412万;验证集:6.8万;测试集a:6.8万;测试集b,不提供下载。
用途介绍

1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据
2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。
3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、
问题与答案的相关性,找到最好的答案。
4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。
5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。

例子: {“qid”: 65618973, “title”: “AlphaGo只会下围棋吗?阿法狗能写小说吗?”, “desc”: “那么现在会不会有智能机器人能从事文学创作?
如果有,能写出什么水平的作品?”, “topic”: “机器人”, “star”: 3, “content”: “AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个”, “answer_id”: 545576062, “answerer_tags”: “人工智能@游戏业”}

翻译语料(520万对)

    该语料包括中英文平行语料520万对。每一对包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词(单词如“she”)
数据集划分:数据去重并分成三个部分。训练集:516万;验证集:3.9万;测试集,数万,不提供下载。
可使用的用途

可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;
例子:{“english”: “In Italy, there is no real public pressure for a new, fairer tax system.”, “chinese”: “在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。”}

Attention

更多自然语言处理相关知识,还请关注 AINLPer公众号,极品干货即刻送达。

你可能感兴趣的:(自然语言数据集分享,人工智能,深度学习,机器学习,大数据,自然语言处理)