---------------------------------------------------------------------------------------------------------------
//词库发分词 环境搭建
用的分词软件:IK Analyzer 2012FF_hf1.zip
[root@baozi ik]# pwd
/usr/local/ik
[root@baozi ik]# unzip IK\ Analyzer\ 2012FF_hf1.zip
[root@baozi ik]# ll
总用量 9204
drwxr-xr-x. 5 root root 4096 10月 23 2012 doc
-rw-r--r--. 1 root root 1165908 10月 26 2012 IKAnalyzer2012FF_u1.jar
-rw-r--r--. 1 root root 414 2月 14 2012 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root 841268 10月 24 2012 IKAnalyzer??+-??-??V2012_FF-??+-??.pdf
-rw-r--r--. 1 root root 17778 1月 17 2012 LICENSE.txt
-rw-r--r--. 1 root root 278 1月 19 2012 NOTICE.txt
-rw-r--r--. 1 root root 161 4月 15 2011 stopword.dic
[root@baozi ik]#
[root@baozi ik]# cp IKAnalyzer2012FF_u1.jar /usr/local/solr/example/solr-webapp/webapp/WEB-INF/lib/
[root@baozi WEB-INF]# pwd
/usr/local/solr/example/solr-webapp/webapp/WEB-INF
[root@baozi WEB-INF]# mkdir classes
[root@baozi ik]# cp IKAnalyzer.cfg.xml /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/
[root@baozi ik]# cp stopword.dic /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/
网页查看:
http://192.168.1.200:8983/solr
在网页分词模块输入:
输入“我们是中国人”;
我们
我
们
是
中国人
中国
国人
---------------------------------------------------------------------------------------------------------------
//自定义索引库:
配置schema.xml: 加个分词器别名 text_ik:
[root@baozi conf]# pwd
/usr/local/solr/example/solr/collection1/conf
[root@baozi conf]# vi schema.xml
<fieldType name="text_ik" class="solr.TextField">
<!--索引时候的分词器-->
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<!--查询时候的分词器-->
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
//自定义分词段:
[root@baozi classes]# ll
总用量 12
-rw-r--r--. 1 root root 15 5月 12 20:58 baozi.dic
-rw-r--r--. 1 root root 416 5月 12 20:53 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root 161 5月 12 20:46 stopword.dic
[root@baozi classes]# more baozi.dic
我爱吃包子
[root@baozi classes]#
//把自定义分词段加入到配置文件:IKAnalyzer.cfg.xml:
[root@baozi classes]# vim IKAnalyzer.cfg.xml
[root@baozi classes]# more IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">baozi.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
[root@baozi classes]#
//再分词就会把‘我爱吃包子’作为一个整体:
分词是输入“我爱吃包子”,就会分成整个单词出现;
我爱吃包子
我
爱吃
包子