语义分析
LingPipe的优势是:
- 比较全面的覆盖自然语言处理的各个分支,文本分词,聚类,语义情感分析,领域知识学习等等
- 具有全套在research上免费的源码,样列代码,测试代码(商业与非商业均同一套代码),并且文档详细,对于其中模型所参考的论文都引用出来,适合研究学习.
- 作为相对开源资源缺少的领域,项目一直持续更新中.
包含的模块:
- 主题分类(Top Classification) : 基于文本语言模型训练,归类
- 命名实体识别(Named Entity Recognition):基于first-best, n-best and per-entity confidencemodes识别,以及训练与评估识别器
- 聚类(Clustering): 基于single-link andcomplete-link多层聚类,包裹一些聚类评估技术
- 词性标注(Part-of Speech Tagging):
- 句题检测(Sentence Detection):
- 拼写更正(Spelling Correction):基于"你要找的是"风格的检查引擎
- 数据库文本挖掘(Database Text Mining)
- 字符串比较(String Comparison) :基于距离与相似度测量,包括权重距离,TF/IDF距离,Jaccard distance, Jaro-Winkler distance,等
- 兴趣短语检测(Interseting Phrase Detection)
- 字符语言建模(Character Language Modeling)
- 中文分词(Chinese WordSegmentation)基于空格分割类似训练库,机器学习,发现认知新词
- 数据库文本挖掘(Database Text Mining)
- 情感分析(Sentiment Analysis)基于文本聚类
- 断字识音(Hyphenation and Syllabification)
- 语言辨别(Language Identification)
- 奇异值分解(Singular Value Decomposition)
- 逻辑回归 (Logistic Regression)
- 期望最大化(Expectation Maximization)
- 词义排歧(Word Sense Disambiguation)
LingPipe包含资源:
- Papaer&language material :source,介绍中均包含有所引用资源
目前个人应用LingPipe包中的中文分词,结合情感分析模块研究中文情感检测与辨别。API接口均已高度概括化,便于快速实现,不过所运用的算法需要详尽的分析。
-
中文自然语言处理工具包 FudanNLPFudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习…
-
Java自然语言处理 LingPipeLingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括…
-
自然语言处理工具 OpenNLPOpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务…
-
自然语言工具包 NLTKNLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上。那些熟悉…
-
自然语言处理工具 CRF++CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。CRF++本身已经…
-
分布式在线机器学习框架 JubatusJubatus 是一个分布式处理框架和机器学习库,包含以下功能: 在线机器学习库,包括…
-
机器学习软件包 MalletMallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进…
-
大规模知识加速器 LarKC欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器(LarKC,其发音为“…
-
DKPro CoreDKPro Core 是基于 Apache UIMA 框架之上的自然语言处理(NLP)的软件组件。DKPro…
-
TextTeaserTextTeaser是一个自动摘要算法,结合了自然语言处理的力量和机器学习产生好结果。…
OpenNLP
FudanNLP
Standford NLP
机器学习
Support Vector Machine
- SVMlight
- LIBSVM
Decision Tree
- C4.5
Maximum Entropy
- YASMET
Conditional Random Field
- CRF++
自然语言处理
综合
- OpenNLP
- CMU Statistical Language Modeling Toolkit
- The Dragon ToolKit
- LingPipe
- track mentions of entities (e.g. people or proteins);
- link entity mentions to database entries;
- uncover relations between entities and actions;
- classify text passages by language, character encoding, genre, topic, or sentiment;
- correct spelling with respect to a text collection;
- cluster documents by implicit topic and discover significant trends over time; and
- provide part-of-speech tagging and phrase chunking.
- Natural Language Toolkit
- Antelope
- Advanced Natural Lange Object-oriented Processing Environment.包括一系列工具(特别c#的stanford parser)
分词
- ICTCLAS
- Stanford Chinese Word Segmenter
词性标注
- Brill tagger
- Stanford POS Tagger
- MBT:Memory-based Tagger
- TreeTagger
- SVMTool , a POS Tagger based on SVMs
- QTAG Part of speech tagger
命名实体识别
- Stanford Named Entity Recognizer
- LingPipe
- YamCha
Stemming
- Porter Stemming
- Snowball
句法分析
- Stanford Parser
- Berkeley Parser
文本挖掘
摘要
- Rouge Rouge在Windows下的配置
其他
加密
- OpenSSL
压缩
- zlib
日志
- Apache Logging Services
- log4j for Java,
- log4cxx for C++, and
- log4net for MS .Net framework.
Unicode
- ICU
XML
- Xerces
多字符串匹配
- AC in C# : Aho-Corasick string matching in C#
HTML Parser
- Html Agility Pack , an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT. It is a .NET code library that allows you to parse "out of the web" HTML files.
- Majestic-12 , an open source high-performance .NET C# module that was created to parse HTML for links, indexing and other purposes. 速度快,但不生成dom树
外部联接
- An annotated list of resources by Stanford NLP Group
- KDnuggets 有一些与KDD相关的软件等
自然语言处理
http://www.oschina.net/p/lingpipe/similar_projects
http://opennlp.apache.org/cgi-bin/download.cgi
https://code.google.com/p/fudannlp/