一、分词
1、 ICTCLAS
http://www.ictclas.org/包含分词、词性标注功能, C++编写,提供Java借口,业界比较出名。
2、 Ansj中文分词
http://www.ansj.org/ 分词 词性等 Java,为ICTCLAS重新实现版本
以下三个为Lucene提供的中文分词模块
3、 IKAnalyzer
http://code.google.com/p/ik-analyzer/ Java编写
4、 paoding
http://code.google.com/p/paoding/ Java
5、 imdict-chinese-analyzer
http://code.google.com/p/imdict-chinese-analyzer/ Java HHMM分词模型
6、 Stanford Word Segmenter
http://nlp.stanford.edu/software/segmenter.shtml
二、词性标注
1、 Stanford POS Tagger
http://nlp.stanford.edu/software/tagger.shtml
2、 TreeTagger
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
3、 TnT
http://www.coli.uni-saarland.de/~thorsten/tnt/
4、 ICTCLAS支持中文词性标注
三、句法分析
Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml
Berkeley Parser http://nlp.cs.berkeley.edu/Main.html#Parsing
Charniak Parser http://www.cs.brown.edu/~ec/
依存分析
Stanford Parserhttp://nlp.stanford.edu/software/lex-parser.shtml
MSTparser http://www.ryanmcd.com/MSTParser/MSTParser.html
MaltParser http://www.maltparser.org/
四、命名实体识别
Stanford NER http://nlp.stanford.edu/software/CRF-NER.shtml
五、语义角色标注
Illinois Semantic Role Labeler (SRL) http://cogcomp.cs.illinois.edu/page/software_view/SRL
六、综合应用
1、 LTP http://ir.hit.edu.cn/ltp/
哈工大语言技术平台,LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注等模块,C++编写
2、 FudanNLP http://code.google.com/p/fudannlp/
Java编写
信息检索: 文本分类 新闻聚类
中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别
结构化学习: 在线学习 层次分类 聚类 精确推理
3、 Stanford CoreNLP http://nlp.stanford.edu/software/corenlp.shtml
包括词性标注、命名实体识别、句法分析和指代消解功能
4、ClearNLP https://code.google.com/p/clearnlp/
This project provides several NLP tools such as a dependency parser,a semantic role labeler, a penn-to-dependency converter, a prop-to-dependencyconverter, and a morphological analyzer.
All tools are written in Java and developed by the ComputationalLanguage and EducAtion Research (CLEAR) group at the University of Colorado atBoulder.
cleartk http://code.google.com/p/cleartk/