前几天弄过solr的中文分词插件,当时看了一个博客,一步步来,感觉挺简单的,就没在意,今天觉得应该一步一步把这个细节知识点都过一遍。

1、  下载IK Analyzer 2012FF_hf1.zip压缩包。

下载网址:http://code.google.com/p/ik-analyzer/downloads/list

2、  IK Analyzer 2012FF_hf1.zip解压,并把解压后的文件夹中的IKAnalyzer2012FF_u1.jar复制到D:\Tomcat6.0\webapps\solr\WEB-INF\lib目录下,也就是solr.war部署的地方。

3、  D:\Tomcat6.0\webapps\solr\WEB-INF目录下创建classes文件夹,并把IK Analyzer 2012FF_hf1.zip解压包中的IKAnalyzer.cfg.xmlstopword.dic复制到新创建的classes目录中。

4、  配置D:\solr\collection1\conf目录中的schema.xml配置文件。

加入如下配置项:

   
   
   
   
  1.  
  2.        <fieldType name="text" class="solr.TextField"> 
  3.               <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"> 
  4.               analyzer>  
  5.        fieldType> 

5、  启动Tomcat服务器,在浏览器中输入网址:

http://localhost:8983/solr/#/collection1/analysis

如下配置正常,则显示如下界面:

solr学习之(二)_在solr4.2中部署IKAnalyzer中文分词插件_第1张图片

 

Field Value (Index)下面的文本框中输入中文:

IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。

然后在Analyse Fieldname / FieldType:右边的下拉框中选择“text”。点击“Analyse Values”则会显示分词的结果:

solr学习之(二)_在solr4.2中部署IKAnalyzer中文分词插件_第2张图片

 

这样就把IKAnalyzer加入到solr4.2中去了。需要提示一下的是,solr4.2的分词方式与以前的版本有所不同,没有BaseTokenizerFactory接口了。的所以配置的方式也会有所不同。