1.登录solr的官方网站下载最新版本,目前是5.5.0。http://lucene.apache.org/solr/downloads.html
5.为该core:good添加索引,java使用solrj为该core添加索引 具体实现可以参照/trade/src/main/java/com/echin/query/SolrWeb.java 至此,solr服务器基本配置完毕。
solr服务器默认是不开启中文分词的,这时需要配置中文分词器,目前比较流行的IKAnalyzer分词器、mmseg4j分词器、还有solr自带的分词器solr.SmartChineseSentenceTokenizerFactory
本项目配置的solr-5.4.1 和 mmseg4j-2.3.0版本,下面介绍如何配置mmseg4j-2.3.0到solr-5.4.1上
1.首先需要登录mmseg4j的官方网站 https://github.com/chenlb/mmseg4j-solr 下载最新版本 2.3.0
2.下载完毕之后,把解压的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放到solr服务器所在的\solr-5.4.1\server\solr-webapp\webapp\WEB-INF\lib文件夹下
3.吧下面一段话复制到 你的配置文件managed-schema中
<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/dic"/>
</analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
</analyzer>
</fieldtype>
<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="G:\ymy\solr\solr-5.4.1\server\solr\good\dic" />
</analyzer>
</fieldtype>
4.现在mmseg4j配置成功后,加入你有一个字段需要使用这种分词模式,在加上下面一句话
<field name="title" type="textComplex" multiValued="false" indexed="true" stored="true"/>
solr服务器配置完毕,mmseg4j也配置到服务器中,剩下的关键一步是如何让solr根据我们自己需要的关键字进行搜索,比如“爱他美”、“喜宝”、“花裤衩”等
1、首先找到mmseg4j-core-1.10.0.jar,把jar包下的data文件夹下的那个三个文件,chars.dic,units.dic,words.dic
2.把这三个文件拷到G:\ymy\solr\solr-5.4.1\server\solr\good\dic下
3.把你想要作为关键字的词语,如“爱他美”等添加到words.dic中,一个词语一行,添加下一个,敲回车