【NLP】自然语言处理的语料库与词库

 大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流

个人主页-Sonhhxg_柒的博客_CSDN博客 

欢迎各位→点赞 + 收藏⭐️ + 留言​

系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

 foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟

文章目录 

语料库

词库及词法工具


语料库

资源名(Name) 描述(Description) 链接
人名语料库 wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors 各种中文词向量 github repo
中文聊天语料 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 link
中文谣言数据 该数据文件中,每一行为一条json格式的谣言数据 github
中文问答数据集 链接 提取码 2dva
微信公众号语料 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 github
中文自然语言处理 语料、数据集 github
任务型对话英文数据集 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 github
语音识别语料生成工具 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 github
LitBankNLP数据集 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github
中文ULMFiT 情感分析 文本分类 语料及模型 github
省市区镇行政区划数据带拼音标注 github
教育行业新闻 自动文摘 语料库 github
中文自然语言处理数据集 github
百度知道问答语料库 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 github
维基大规模平行文本语料 85种语言、1620种语言对、135M对照句 github
古诗词库 github repo
更全的古诗词库
低内存加载维基百科数据 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s github
对联数据 700,000 couplets, 超过70万对对联 github
《配色辞典》数据集 github
42GB的JD客服对话数据(CSDD) github
70万对联数据 link
用户名黑名单列表 github
依存句法分析语料 4万句高质量标注数据 Homepage
人民日报语料处理工具集 github
虚假新闻数据集 fake news corpus github
诗歌质量评价/细粒度情感诗歌语料库 github
中文自然语言处理相关的开放任务 数据集以及当前最佳结果 github
中文缩写数据集 github
中文任务基准测评 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 github
中文谣言数据库 github
CLUEDatasetSearch 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 github
多文档摘要数据集 github
让人人都变得“彬彬有礼”礼貌迁移任务 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 paper and code
粤语/英语会话双语语料库 github
中文NLP数据集列表 github
类人名/地名/组织机构名的命名体识别数据集 github
中文语言理解测评基准 包括代表性的数据集&基准模型&语料库&排行榜 github
OpenCLaP多领域开源中文预训练语言模型仓库 民事文书、刑事文书、百度百科 github
中文全词覆盖BERT及两份阅读理解数据 DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
github
Dakshina数据集 十二种南亚语言的拉丁/本地文字平行数据集合 github
OPUS-100 以英文为中心的多语(100种)平行语料 github
中文阅读理解数据集 github
中文自然语言处理向量合集 github
中文语言理解测评基准 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 github
NLP数据集/基准任务大列表 github
LitBankNLP数据集 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github
70万对联数据 github
文言文(古文)-现代文平行语料 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 github
COLDDateset,中文冒犯性语言检测数据集 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 paper

词库及词法工具

资源名(Name) 描述(Description) 链接
textfilter 中英文敏感词过滤 observerss/textfilter
人名抽取功能 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 cocoNLP
中文缩写库 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn github
汉语拆字词典 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 kfcd/chaizi
词汇情感值 山泉水:0.400704566541
充沛: 0.37006739587
rainarch/SentiBridge
中文词库、停用词、敏感词 dongxiexidian/Chinese
python-pinyin 汉字转拼音 mozillazg/python-pinyin
zhtools 中文繁简体互转 skydark/nstools
英文模拟中文发音引擎 say wo i ni #说:我爱你 tinyfool/ChineseWithEnglish
chinese_dictionary 同义词库、反义词库、否定词库 guotong1988/chinese_dictionary
wordninja 无空格英文串分割、抽取单词 wordninja
汽车品牌、汽车零件相关词汇 data
THU整理的词库 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 link
罪名法务名词及分类模型 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 github
分词语料库+代码 百度网盘链接 - 提取码 pea6
基于Bi-LSTM + CRF的中文分词+词性标注 keras实现 link
基于Universal Transformer + CRF 的中文分词和词性标注 link
快速神经网络分词包 java version
chinese-xinhua 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 github
SpaCy 中文模型 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 github
中文字符数据 github
Synonyms中文近义词工具包 github
HarvestText 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) github
word2word 方便易用的多语言词-词对集62种语言/3,564个多语言对 github
多音字词典数据及代码 github
汉字、词语、成语查询接口 github
103976个英语单词库包 (sql版,csv版,Excel版) github
英文脏话大列表 github
词语拼音数据 github
186种语言的数字叫法库 github
世界各国大规模人名库 github
汉字字符特征提取器 (featurizer) 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 github
char_featurizer - 汉字字符特征提取工具 github
中日韩分词库mecab的Python接口库 github
g2pC基于上下文的汉语读音自动标记模块 github
ssc, Sound Shape Code 音形码 - 基于“音形码”的中文字符串相似度计算方法 version 1
version 2
blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 github
Tokenizer快速、可定制的文本词条化库 github
Tokenizers 注重性能与多功能性的最先进分词器 github
通过同义词替换实现文本“变脸” github
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 github
繁简体转换 github
粤语NLP工具 github
领域词典库 涵盖68个领域、共计916万词的专业词典知识库 github

你可能感兴趣的:(自然语言处理(NLP),自然语言处理,人工智能)