(9-4)词库分词



---------------------------------------------------------------------------------------------------------------
//词库发分词  环境搭建


用的分词软件:IK Analyzer 2012FF_hf1.zip


[root@baozi ik]# pwd
/usr/local/ik


[root@baozi ik]# unzip IK\ Analyzer\ 2012FF_hf1.zip




[root@baozi ik]# ll
总用量 9204
drwxr-xr-x. 5 root root    4096 10月 23 2012 doc
-rw-r--r--. 1 root root 1165908 10月 26 2012 IKAnalyzer2012FF_u1.jar
-rw-r--r--. 1 root root     414 2月  14 2012 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root  841268 10月 24 2012 IKAnalyzer??+-??-??V2012_FF-??+-??.pdf
-rw-r--r--. 1 root root   17778 1月  17 2012 LICENSE.txt
-rw-r--r--. 1 root root     278 1月  19 2012 NOTICE.txt
-rw-r--r--. 1 root root     161 4月  15 2011 stopword.dic
[root@baozi ik]#


[root@baozi ik]# cp IKAnalyzer2012FF_u1.jar /usr/local/solr/example/solr-webapp/webapp/WEB-INF/lib/




[root@baozi WEB-INF]# pwd
/usr/local/solr/example/solr-webapp/webapp/WEB-INF


[root@baozi WEB-INF]# mkdir classes


[root@baozi ik]# cp IKAnalyzer.cfg.xml /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/
[root@baozi ik]# cp stopword.dic /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/





网页查看:
http://192.168.1.200:8983/solr



在网页分词模块输入:
输入“我们是中国人”;


我们



中国人
中国
国人
---------------------------------------------------------------------------------------------------------------
//自定义索引库:


配置schema.xml: 加个分词器别名 text_ik:
[root@baozi conf]# pwd
/usr/local/solr/example/solr/collection1/conf
[root@baozi conf]# vi schema.xml





       
       
       
       
   







//自定义分词段:
[root@baozi classes]# ll
总用量 12
-rw-r--r--. 1 root root  15 5月  12 20:58 baozi.dic
-rw-r--r--. 1 root root 416 5月  12 20:53 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root 161 5月  12 20:46 stopword.dic
[root@baozi classes]# more baozi.dic
我爱吃包子

[root@baozi classes]#


//把自定义分词段加入到配置文件:IKAnalyzer.cfg.xml:
[root@baozi classes]# vim IKAnalyzer.cfg.xml
[root@baozi classes]# more IKAnalyzer.cfg.xml



        IK Analyzer 扩展配置
       
        baozi.dic;
       
        stopword.dic;



[root@baozi classes]#




//再分词就会把‘我爱吃包子’作为一个整体:
分词是输入“我爱吃包子”,就会分成整个单词出现;


我爱吃包子

爱吃

包子




你可能感兴趣的:(Bigdatda-solr)