java中文分词

最近由于工作原因,接触到了JAVA的中文分词, 现在来讲讲具体操作.

java的分词器都是基于 lucene 核心的.

我选择的是

ikanalyzer2.0.2的最新版本

具体调用过程如下:

需要 的JAR如下:

lucene-analyzers-2.4.1.jar

lucene-core-2.4.1.jar

当然少不了

IKAnalyzer2.0.2OBF.jar

在UNIX下使用的话,注意对中文的编码问题.

你可能感兴趣的:(java,apache,工作,unix,Lucene)