MALLET简介

MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。

MALLET包括复杂的用于 文件分类 的工具:
有效的用于转换文本到“特征”的 程序 ,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。

除了分类,MALLET包括序列标注的工具,像从文本中提供命名实体的应用。算法包括隐马尔科夫模型,最大熵马尔科夫模型,和条件随机场。这些方法在一个扩展的系统中实现,用于有限状态机转换器。

主题建模对于分析大规模的无标签文本集合非常有用。
MALLET中的主题建模(topic modeling)工具集包括有效的,基于采样的 Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA的实现.

MALLET中的很多算法依赖于数值优化(NUmerical Optimization)。MALLET包括有效的有限内存BFGS的实现(在许多其他优化方法中),

除了复杂的机器学习应用,MALLET包括转换文本文件为数值表示,然后进行有效处理的程序。该处理是通过一种灵活的“pipes”系统来实现的。它处理各种不同的任务,像标记字符串,去除停顿词,转换序列为计数向量。

另外,MALLET的一种称为GRMM的附加包,包含对通用图形化模型中的推理的支持。利用任意图像结构来训练CRFs。

注:MALLET工具集是一个开源软件,基于CPL发布。

你可能感兴趣的:(MALLET简介)