ACM的征途以很悲剧的方式收尾了!接下来就应该全力转向Lucene的学习了,研究怎么用Lucene把人名聚类这个东西做好,作为我的毕业设计。

今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了!

在网上找到了两种分词器,ansjimdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,主要是学习的案例要多一些,好学一点。Imdict称能在Lucene中调用,而且分词的速度挺快的,但是貌似不支持人名识别!

Ansj就相当了不起了,感觉虽然由于加词典的缘故,速度慢了点,但是跟用C++版本的ICTCLAS一样,能进行实体识别。

Java版分词器的学习博客为:

http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html

Imdict的下载网址为:http://code.google.com/p/imdict-chinese-analyzer/

Ansj项目有一篇博文很值得一看:开源 Java 中文分词器 Ansj 作者孙健专访

http://www.iteye.com/magazines/102

Ansj的下载地址为:https://github.com/ansjsun/ansj_seg

那么这两种分词器怎么来用呢?

先说imdict, 先到下载地址下载imdict-chinese-analyzer-java5.zip,然后解压。把解压后的项目导入eclipse中就OK了!截图如下:

Lucene下分词工具的学习探讨_第1张图片

需要注意一下就是下载到的chinese-analyzer是没有lib文件夹及lucene-core-2.4.1.jar文件的,需要我们自己创建。运行的结果看test包下TestSmartChineseAnalyzer就可以了!

 

再看ansj的应用,我直接自己新建立一个Project,然后把下载到的ansj_seg-master.zip文件夹解压,把解压包里面的相关文件及文件夹copyProject下面,截图如下:

Lucene下分词工具的学习探讨_第2张图片

所有的演示案例都在src源文件夹下了!其功能之丰富让人惊叹!

这两个项目都是在

Eclipse Java EE IDE for Web Developers.

Version: Indigo Release

Build id: 20110615-0604

下面编译运行的,选择的工作编码是utf-8,而不是默认的GBK了!

lucene_01项目的下载地址:http://down.51cto.com/data/598960

chinese_analyzer项目的下载地址:http://down.51cto.com/data/598961