中文分词工具

最近从头开始对复旦大学以及搜狗的数据进行分词。

关于分词工具,下载地址总结如下

1 ictcas  包括Java,LinuxC, WindowsC 的版本均在  http://www.ictclas.org/index.html 有下载。

2 imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,作者高小平,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供中文分词支持。 也可以在 http://www.ictclas.org/index.html 下载。

3 LingPipe is a suite of Java libraries for the linguistic analysis of human language. http://alias-i.com/lingpipe/index.html。 这个工具中的分词部分中,可以通过学习形成模型,或者从网站上下载模型。

4

rmmseg-cpp is a high performance Chinese word segmentation utility for
Ruby. It features full Ferret integration
as well as support for normal Ruby program usage.

rmmseg-cpp is a re-written of the original
RMMSeg gem in C++. RMMSeg is written
in pure Ruby. Though I tried hard to tweak RMMSeg, it just consumes
lots of memory and the segmenting process is rather slow.下载地址http://rmmseg.rubyforge.org/

你可能感兴趣的:(科研)