自然语言处理中文 工具包

1. Java自然语言处理 LingPipe

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等API。

下载链接:http://alias-i.com/lingpipe/web/download.html

2.中文自然语言处理工具包 FudanNLP

FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。

演示地址: http://jkx.fudan.edu.cn/nlp/query

FudanNLP目前实现的内容如下:

  1. 中文处理工具
    1. 中文分词
    2. 词性标注
    3. 实体名识别
    4. 句法分析
    5. 时间表达式识别
  2. 信息检索
    1. 文 本分类
    2. 新闻聚类
    3. Lucene中文分词
  3. 机 器学习
    1. Average Perceptron
    2. Passive-aggressive Algorithm
    3. K-means
    4. Exact Inference
下载链接:http://code.google.com/p/fudannlp/downloads/list

3.自然语言处理工具 OpenNLP

OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等。

4.自然语言处理工具 CRF++

CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。CRF++本身已经是个比较老的工具了,但鉴于其性能较好,仍然是自然语言处理很重要的一个工具。

NlpBamboo 中文分词库在使用该工具。

下载链接:http://sourceforge.net/projects/crfpp/files/



你可能感兴趣的:(Lucene,自然语言处理,工具,classification,Parsing,中文分词库)