IKAnalyzer 中文分词器

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。

IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。

项目地址:http://www.oschina.net/p/ikanalyzer/

下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF

示例代码:

该代码的工程结构:下图

IKAnalyzer 中文分词器_第1张图片

部署在web应用

把IKAnalyzer.cfg.xml与stopword.dic配置在WEB-INF\lib\目录下就行了。

中文停用词

中文停用词所在文件(一般就直接加在stopword.dic中)要求utf-8无bom格式编码,否则无效。

你可能感兴趣的:(IKAnalyzer 中文分词器)