SOLR企业搜索平台 二 (分词安装)

标签: linux  lucene  分词  solr  全文检索
原创作品,允许转载,转载时请务必以超链接形式标明文章  原始出处 、作者信息和本声明。否则将追究法律责任。 http://3961409.blog.51cto.com/3951409/833417

 中文分词器安装

1)下载分词器,下载地址: http://code.google.com/p/mmseg4j/downloads/list(版本自己选择吧,我用的是1.8.5)

2)解压mmseg4j-1.8.5.zip,将mmseg4j-all-1.8.5.jar和dist中的mmseg4j-solr-1.8.5.jar一并复制到tomcat的webapps\solr\WEB-INF\lib\中

3)打开{solr.home}下的solr/conf/schema.xml,加入如下代码(在types标签内加入)

  1. <!--MMesgAnalyazed--> 
  2.     <fieldType name="textComplex" class="solr.TextField" 
  3.       <analyzer
  4.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> 
  5.       </analyzer
  6.     </fieldType
  7.     <fieldType name="textMaxWord" class="solr.TextField" 
  8.       <analyzer
  9.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> 
  10.       </analyzer
  11.     </fieldType
  12.     <fieldType name="textSimple" class="solr.TextField" 
  13.       <analyzer
  14.         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/> 
  15.       </analyzer
  16.     </fieldType

 

dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录),mode 指定分词模式(simple|complex|max-word,默认是max-word)。这段代码也可以在mmseg4j-1.8.5.zip解压目录下的readme中找到.

 

4)在{solr.home}的solr目录下新建名为dic文件夹

5)将mmseg4j-1.8.5/data/下所有文件复制到dic中

6)访问http://127.0.0.1:8080/solr/admin/analysis.jsp填入如下图信息

 

SOLR企业搜索平台 二 (分词安装)_第1张图片

 

输入:  solr中文分词器

如果分词的结果显示  solr|中文|分词|器   

恭喜安装成功! 

本文出自 “李明泽” 博客,请务必保留此出处http://3961409.blog.51cto.com/3951409/833417

你可能感兴趣的:(Solr)