大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流
个人主页-Sonhhxg_柒的博客_CSDN博客
欢迎各位→点赞 + 收藏⭐️ + 留言
系列专栏 - 机器学习【ML】 自然语言处理【NLP】 深度学习【DL】
foreword
✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。
如果你对这个系列感兴趣的话,可以关注订阅哟
文章目录
语料库
词库及词法工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
人名语料库 | wainshine/Chinese-Names-Corpus | |
Chinese-Word-Vectors | 各种中文词向量 | github repo |
中文聊天语料 | 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 | link |
中文谣言数据 | 该数据文件中,每一行为一条json格式的谣言数据 | github |
中文问答数据集 | 链接 提取码 2dva | |
微信公众号语料 | 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 | github |
中文自然语言处理 语料、数据集 | github | |
任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 | github |
语音识别语料生成工具 | 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 | github |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
中文ULMFiT | 情感分析 文本分类 语料及模型 | github |
省市区镇行政区划数据带拼音标注 | github | |
教育行业新闻 自动文摘 语料库 | github | |
中文自然语言处理数据集 | github | |
百度知道问答语料库 | 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 | github |
维基大规模平行文本语料 | 85种语言、1620种语言对、135M对照句 | github |
古诗词库 | github repo 更全的古诗词库 |
|
低内存加载维基百科数据 | 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s | github |
对联数据 | 700,000 couplets, 超过70万对对联 | github |
《配色辞典》数据集 | github | |
42GB的JD客服对话数据(CSDD) | github | |
70万对联数据 | link | |
用户名黑名单列表 | github | |
依存句法分析语料 | 4万句高质量标注数据 | Homepage |
人民日报语料处理工具集 | github | |
虚假新闻数据集 fake news corpus | github | |
诗歌质量评价/细粒度情感诗歌语料库 | github | |
中文自然语言处理相关的开放任务 | 数据集以及当前最佳结果 | github |
中文缩写数据集 | github | |
中文任务基准测评 | 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 | github |
中文谣言数据库 | github | |
CLUEDatasetSearch | 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 | github |
多文档摘要数据集 | github | |
让人人都变得“彬彬有礼”礼貌迁移任务 | 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 | paper and code |
粤语/英语会话双语语料库 | github | |
中文NLP数据集列表 | github | |
类人名/地名/组织机构名的命名体识别数据集 | github | |
中文语言理解测评基准 | 包括代表性的数据集&基准模型&语料库&排行榜 | github |
OpenCLaP多领域开源中文预训练语言模型仓库 | 民事文书、刑事文书、百度百科 | github |
中文全词覆盖BERT及两份阅读理解数据 | DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。 |
github |
Dakshina数据集 | 十二种南亚语言的拉丁/本地文字平行数据集合 | github |
OPUS-100 | 以英文为中心的多语(100种)平行语料 | github |
中文阅读理解数据集 | github | |
中文自然语言处理向量合集 | github | |
中文语言理解测评基准 | 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 | github |
NLP数据集/基准任务大列表 | github | |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
70万对联数据 | github | |
文言文(古文)-现代文平行语料 | 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 | github |
COLDDateset,中文冒犯性语言检测数据集 | 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 | paper |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
textfilter | 中英文敏感词过滤 | observerss/textfilter |
人名抽取功能 | 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 | cocoNLP |
中文缩写库 | 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn | github |
汉语拆字词典 | 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 | kfcd/chaizi |
词汇情感值 | 山泉水:0.400704566541 充沛: 0.37006739587 |
rainarch/SentiBridge |
中文词库、停用词、敏感词 | dongxiexidian/Chinese | |
python-pinyin | 汉字转拼音 | mozillazg/python-pinyin |
zhtools | 中文繁简体互转 | skydark/nstools |
英文模拟中文发音引擎 | say wo i ni #说:我爱你 | tinyfool/ChineseWithEnglish |
chinese_dictionary | 同义词库、反义词库、否定词库 | guotong1988/chinese_dictionary |
wordninja | 无空格英文串分割、抽取单词 | wordninja |
汽车品牌、汽车零件相关词汇 | data | |
THU整理的词库 | IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 | link |
罪名法务名词及分类模型 | 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 | github |
分词语料库+代码 | 百度网盘链接 - 提取码 pea6 | |
基于Bi-LSTM + CRF的中文分词+词性标注 | keras实现 | link |
基于Universal Transformer + CRF 的中文分词和词性标注 | link | |
快速神经网络分词包 | java version | |
chinese-xinhua | 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 | github |
SpaCy 中文模型 | 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 | github |
中文字符数据 | github | |
Synonyms中文近义词工具包 | github | |
HarvestText | 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) | github |
word2word | 方便易用的多语言词-词对集62种语言/3,564个多语言对 | github |
多音字词典数据及代码 | github | |
汉字、词语、成语查询接口 | github | |
103976个英语单词库包 | (sql版,csv版,Excel版) | github |
英文脏话大列表 | github | |
词语拼音数据 | github | |
186种语言的数字叫法库 | github | |
世界各国大规模人名库 | github | |
汉字字符特征提取器 (featurizer) | 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 | github |
char_featurizer - 汉字字符特征提取工具 | github | |
中日韩分词库mecab的Python接口库 | github | |
g2pC基于上下文的汉语读音自动标记模块 | github | |
ssc, Sound Shape Code | 音形码 - 基于“音形码”的中文字符串相似度计算方法 | version 1 version 2 blog/introduction |
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 | github | |
Tokenizer快速、可定制的文本词条化库 | github | |
Tokenizers | 注重性能与多功能性的最先进分词器 | github |
通过同义词替换实现文本“变脸” | github | |
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 | github | |
繁简体转换 | github | |
粤语NLP工具 | github | |
领域词典库 | 涵盖68个领域、共计916万词的专业词典知识库 | github |