NLP 工具

文章目录

    • 综合工具
    • 预处理
      • 综合工具
    • 分词
    • 语言转换
      • 中文转拼音
      • 繁转简
      • 粤语转中文
      • 中文数字 --> 阿拉伯数字
      • 语言类型检测
      • NER 命名实体识别
    • 文本对齐
    • 文本纠错
    • 其他文本工具
    • 情感分析
    • 标注工具
    • 数据增强
      • 分类
    • 相似度


综合工具

  • nltk
    https://github.com/nltk/nltk
  • hanlp
    https://github.com/hankcs/HanLP
  • spacy
    https://github.com/explosion/spaCy
  • SpaCy 中文模型
    https://github.com/howl-anderson/Chinese_models_for_SpaCy
  • pyltp
    https://github.com/HIT-SCIR/pyltp
  • StanfordNLP
    https://stanfordnlp.github.io/stanfordnlp/
  • Apache OpenNLP
    https://opennlp.apache.org/
    The Apache OpenNLP library is a machine learning based toolkit for the processing of natural language text.
  • 百度 nlp 开源工具集
    https://nlp.baidu.com/homepage/researchIntro/openTools
  • LAC,全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。
  • DDParser是百度自然语言处理部基于大规模标注数据研发的依存句法分析工具。
  • Senta是百度NLP研发的情感分析工具集,该工具支持三类经典的情感分析任务,句子级情感分类,评价对象级情感分类、观点抽取
  • Familia,包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型

预处理

综合工具

  • HarvestText
    https://github.com/blmoistawinde/HarvestText
    文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
  • PreNLP:自然语言预处理库
    https://github.com/lyeoni/prenlp
  • 全面简便的中文 NLP 工具包
    https://github.com/dongrixinyu/JioNLP
  • Texthero:文本数据高效处理包,包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等
    https://github.com/jbesomi/texthero

分词

  • jieba_fast 加速版的 jieba
    使用 cpython 重写了 jieba 分词库中计算 DAG 和 HMM 中的 vitrebi 函数,速度得到大幅提升
    https://github.com/deepcs233/jieba_fast
  • Tokenizers:注重性能与多功能性的最先进分词器
    https://github.com/huggingface/tokenizers
  • Tokenizer:快速、可定制的文本词条化库
    https://github.com/OpenNMT/Tokenizer
  • 中文地址分词(地址元素识别与抽取),通过序列标注进行 NER
    https://github.com/yihenglu/chinese-address-segment
  • LineFlow:面向所有深度学习框架的 NLP 数据高效加载器
    https://github.com/tofunlp/lineflow
  • 将自然语言数字串解析转换为整数和浮点数
    https://github.com/jaidevd/numerizer

语言转换

中文转拼音

  • pypinyin
    https://github.com/mozillazg/python-pinyin

繁转简

  • OpenCC 精度更高
    https://github.com/BYVoid/OpenCC
  • zhconv
    https://github.com/gumblex/zhconv
  • hanziconv
    https://github.com/berniey/hanziconv

粤语转中文

https://github.com/jacksonllee/pycantonese


中文数字 --> 阿拉伯数字

  • cn2an
    https://github.com/HaveTwoBrush/cn2an
  • chinese2digits
    https://github.com/Wall-ee/chinese2digits
  • numerizer 将自然语言数字串解析转换为整数和浮点数
    https://github.com/jaidevd/numerizer

语言类型检测

  • langid
    https://github.com/saffsd/langid.py
  • langdetect
    https://github.com/Mimino666/langdetect

NER 命名实体识别

  • CLUENER 细粒度命名实体识别 Fine Grained Named Entity Recognition
    https://github.com/CLUEbenchmark/CLUENER2020
  • 基于 BERT 的中文命名实体识别
    https://github.com/lonePatient/BERT-NER-Pytorch
  • 类似于人名/地名/组织机构名的命名体识别数据集
    https://github.com/LG-1/video_music_book_datasets
  • 中文命名实体识别:NeuroNER vs. BertNER
    https://github.com/EOA-AILab/NER-Chinese

文本对齐

  • bleualign
    https://github.com/rsennrich/Bleualign
  • Bilingual Sentence Aligner
    基于IBM模型
    https://www.microsoft.com/en-us/download/details.aspx?id=52608
  • Champollion in scala
    https://github.com/jhclark/akerblad
  • WinAlign
    https://fix4dll.com/winalign_dll
  • Abbyy Aligner
    https://www.abbyy.com/en-eu/support/linguistic/aligner2/info/sr/
  • TmxEditor
    https://sourceforge.net/projects/tmxeditor/
  • Okapi Olifant
    http://okapi.sourceforge.net/downloads.html
  • You Align
    https://youalign.com/
  • Transmate Aligner
    http://5icat.cn/thread-4246-1-1.html
  • BasicCAT Aligner
    https://www.basiccat.org/zh/new-tool-bitext-aligner/
  • MemoQ LiveDocs
    https://www.memoq.com/en/livedocs
  • Super Align
    http://sourceforge.net/projects/superalign
  • hunalign (LGPL)
    http://mokk.bme.hu/resources/hunalign
  • Europarl sentence aligner
    http://code.google.com/p/corpus-tools/downloads/list
  • MetaCpan
    http://search.cpan.org/~achimru/Text-GaleChurch-1.00/lib/Text/GaleChurch.pm
  • Gale & Church in Python
    https://github.com/vchahun/galechurch
  • Gargantua
    http://sourceforge.net/projects/gargantua/
  • Melamed’s GMA (GPL)
    http://nlp.cs.nyu.edu/GMA/
  • Bob Moore’s sentence aligner
    http://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/
  • LF aligner
    http://sourceforge.net/projects/aligner/
  • Bleualign
    https://github.com/rsennrich/bleualign
  • maligna
    http://sourceforge.net/projects/align/
  • tca-align
    http://freeterm.wordpress.com/2010/06/30/tca2-parallel-text-processing-at-uib-no/
  • sentence aligner from Uplug
    http://sourceforge.net/projects/uplug/
  • Movie subtitle alignment
    http://opus.lingfil.uu.se/tools.php
  • AlignFactroy
    http://www.terminotix.com/index.asp?name=AlignFactory
  • free on-line aligner
    http://www.youalign.com/
  • Comparisons of alignment performance
    http://www.ims.uni-stuttgart.de/~fraser/pubs/braune_coling2010.pdf
  • Tools for book alignment
    http://search.cpan.org/~andrefs/
  • Extract parallel sentences from comparable corpora
    http://jgosme.perso.info.unicaen.fr/sentpair.html
  • Accurat toolkit
    http://www.accurat-project.eu/index.php?p=accurat-toolkit
  • yalign
    https://github.com/machinalis/yalign
  • 其它
    ABBalign, 雪人对齐, tmxmall

文本纠错

  • error-detection
    https://github.com/zedom1/error-detection
  • pycorrector 音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正
    https://github.com/shibing624/pycorrector
  • 英文拼写检查库
    https://github.com/barrust/pyspellchecker

纠错平台

  • 写作猫:中文写作校对网站
    https://xiezuocat.com/
  • Grammarly
    https://douc.cc/35bOwr
  • Hemingway
    https://douc.cc/1JXon4
  • Nounplus
    https://douc.cc/48FLVk
  • Spellcheckplus
    https://douc.cc/1XKmN6
  • Essay
    https://douc.cc/2o0Yt3
  • Forum
    https://douc.cc/2o0Yt3
  • VirtualWritingTutor
    https://douc.cc/42HPDt
  • Ginger
    https://douc.cc/2qLrLx
  • Prowritingaid
    https://douc.cc/2rJEib
  • Whitesmoke
    https://douc.cc/0ld3uy
  • Papersogay
    https://douc.cc/3zUy86
  • AutoCrit
    https://www.autocrit.com/
  • Online Editing
    https://www.autocrit.com/
  • Writing and Book Editing
    https://prowritingaid.com/
  • Software
    https://prowritingaid.com/
  • StyleWriter
    http://www.editorsoftware.com/StyleWriter.html
  • 1checker
    http://www.1checker.com/
  • Linggle
    https://linggle.com/
  • 搜狗写作助手
    https://fanyi.sogou.com/writing
  • 微软爱写作
    http://aimwriting.mtutor.engkoo.com/
  • Enpuz
    http://enpuz.com/
  • Writefull
    https://writefullapp.com/
  • Language Tool
    https://languagetool.org/
  • Microsoft Editor
    https://www.microsoft.com/en-us/microsoft-365/microsoft-editor

其他文本工具

  • observerss/textfilter 过滤敏感词
    https://github.com/observerss/textfilter
  • ls0f/phone 中国手机归属地查询
    https://github.com/ls0f/phone
  • AfterShip/phone 国际手机、电话归属地查询
    https://github.com/AfterShip/phone
  • NGender 根据名字判断性别
    https://github.com/observerss/ngender
  • cocoNLP,从文本提取数据
    https://github.com/fighting41love/cocoNLP

情感分析

  • 中文 ULMFiT 情感分析 文本分类 语料及模型
    https://github.com/bigboNed3/chinese_ulmfit
  • awesome-nlp-sentiment-analysis- 情感分析、情绪原因识别、评价对 象和评价词抽取
    https://github.com/haiker2011/awesome-nlp-sentiment-analysis
  • 情感分析技术:让智能客服更懂人类情感
    https://developer.aliyun.com/article/761513?utm_content=g_1000124809
  • 情感波动分析:词库已整理到本 repo 的 data 文件夹中.本 repo 项目是一个通过与人对话获得其情感值波动图谱, 内用词库在 data 文件夹中.
    https://github.com/CasterWx/python-girlfriend-mood/
  • 中文 ULMFiT 情感分析 文本分类 语料及模型
    https://github.com/bigboNed3/chinese_ulmfit
  • 诗歌质量评价/细粒度情感诗歌语料库
    https://github.com/THUNLP-AIPoet/Datasets
  • awesome-nlp-sentiment-analysis- 情感分析、情绪原因识别、评价对象和评价词抽取
    https://github.com/haiker2011/awesome-nlp-sentiment-analysis
  • 方面情感分析包
    https://github.com/ScalaConsultants/Aspect-Based-Sentiment-Analysis

标注工具

  • NLP 标注平台综述
    https://github.com/alvations/annotate-questionnaire
  • Datasaur.ai 在线数据标注工作流管理工具
    https://datasaur.ai/

标注平台

  • Brat https://brat.nlplab.org/
  • Alpaca https://inklab.usc.edu/AlpacaTag/
  • Folia http://proycon.github.io/folia/
  • Doccano https://github.com/doccano/doccano
  • Eva https://github.com/Ericsson/eva
  • Inception https://github.com/inception-project/inception
  • WebAnno https://webanno.github.io/webanno/
  • Annotation Studio https://github.com/hyperstudio/Annotation-Studio
  • Appraise https://github.com/cfedermann/Appraise

数据增强

  • 中文 NLP 数据增强(EDA)工具
    https://github.com/zhanlaoban/eda_nlp_for_Chinese
  • 英文 NLP 数据增强工具
    https://github.com/makcedward/nlpaug
  • 一键中文数据增强工具
    https://github.com/425776024/nlpcda
  • 数据增强在机器翻译及其他 nlp 任务中的应用及效果
    https://mp.weixin.qq.com/s/_aVwSWuYho_7MUT0LuFgVA

分类

  • NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具
    https://github.com/Tencent/NeuralNLP-NeuralClassifier
  • PySS3:面向可解释 AI 的 SS3 文本分类器机器可视化工具
    https://github.com/sergioburdisso/pyss3

相似度

  • 中文问题句子相似度计算比赛及方案汇总
    https://github.com/ShuaichiLi/Chinese-sentence-similarity-task
  • Python 字符串相似性算法库
    https://github.com/luozhouyang/python-string-similarity
  • 中文词语相似度计算方法
    综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。
    https://github.com/yaleimeng/Final_word_Similarity
  • MatchZoo 句子、QA 相似度匹配
    文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。
    https://github.com/NTMC-Community/MatchZoo
  • 基于 Siamese bilstm 模型的相似句子判定模型,提供训练数据集和测试数据集
    提供了 10 万个训练样本
    https://github.com/liuhuanyong/SiameseSentenceSimilarity
  • similarity:相似度计算工具包,java 编写
    https://github.com/shibing624/similarity
    用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算

你可能感兴趣的:(NLP,自然语言处理,人工智能,nlp)