关键字提取工具(面向英文)

最近研究关键字提取技术(毕设需要)。语料集是英文。推荐一些相关工具。

开源工具:
RAKE(https://github.com/zelandiya/RAKE-tutorial)
KEA(http://www.nzdl.org/Kea/) 监督式机器学习,使用训练数据和受控词表。
maui indexer(https://code.google.com/archive/p/maui-indexer/) 在kea的基础上进行拓展,增加新的特征项目,拓展了维基百科作为受控词表。
carrot2(http://project.carrot2.org/) 无监督方法,支持多种输入,输出格式和参数设置。
mallet topic modeling module(http://mallet.cs.umass.edu/topics.php)
Stanford topic modeling tool (http://nlp.stanford.edu/software/tmt/tmt-0.3/)
Mahout clustering algorithms(http://mahout.apache.org/)

商业API:
Alchemy API(http://www.alchemyapi.com/api/keyword-extraction)
zemanta API(http://developer.zemanta.com/)
yahoo term extraction api
(https://developer.yahoo.com/search/content/V1/termExtraction.html)

作为穷人,必然是开源的优先,目前主要使用了RAKE,KEA和maui indexer。
最初接触RAKE(Rapid Automatic Keyword Extraction)算法是通过伯乐在线的一篇翻译版的文章(http://python.jobbole.com/82230/),这篇文章的原作者是Alyona Medelyan,RAKE的更新版本就是她完成的,muai indexer也是她的杰作,她的GitHub上有很多关键字提取的项目。(https://github.com/zelandiya),目前在新西兰经营了一家NLP相关的公司。大部分论文和资料都可以在提供的链接中找到。

参考文献:
[1 ] Automatic keyword extraction from individual documents。
[2 ] KEA Practical Automatic Keyphrase Extraction
[3 ] Keyphrase Extraction in Scientific Publications

你可能感兴趣的:(文本挖掘)