开发JAVA的程序用ICTCLAS分词确实不怎么舒服,但是没有办法:谁让研究都是以它的分词作为标准的呢!

好了闲话少说,进入正题.

第一步:下载ICTCLAS  

下载地址:

http://ictclas.nlpir.org/upload/20130416090617_nlpir_ictclas2013_release.zip

http://ictclas.nlpir.org/upload/20130416090224_Win-32bit-JNI-lib.zip


第二步:在下载的同时,我们就可以建立新的JAVA项目了。取名ICTCLAS_2013

第三步:下载完成后,把Win-32bit-JNI-lib.zipnlpir_ictclas2013_release.zip解压,

解压后的Win-32bit-JNI-lib.zip截图如下:

NLPIR(ICTCLAS2013)分词器的配置及使用_第1张图片

nlpir_ictclas2013_release.zip的截图如下:

NLPIR(ICTCLAS2013)分词器的配置及使用_第2张图片

第四步:把Win-32bit-JNI-lib中的kevin目录及TestNLPIR.java复制到项目的src目录下,把NLPIR_JNI.dll复制到ICTCLAS_2013的根目录下。把nlpir_ictclas2013_release.zip中的Datatest目录复制到ICTCLAS_2013的根目录下。

复制成功后,截图如下:

NLPIR(ICTCLAS2013)分词器的配置及使用_第3张图片

第五步:修改TestNLPIR.java的源代码,把代码的第31行修改成:

String argu = ".";

然后把4749行修改如下:

//初始化分词组件

String argu1 = "./test/test.TXT";

String argu2 = "./test/test_result1.TXT";

然后把项目中的所有出现:GB2312的地方换成UTF-8
第六步:运行TestNLPIR

结果如下

NLPIR(ICTCLAS2013)分词器的配置及使用_第4张图片