(9-4)词库分词



---------------------------------------------------------------------------------------------------------------
//词库发分词  环境搭建


用的分词软件:IK Analyzer 2012FF_hf1.zip


[root@baozi ik]# pwd
/usr/local/ik


[root@baozi ik]# unzip IK\ Analyzer\ 2012FF_hf1.zip




[root@baozi ik]# ll
总用量 9204
drwxr-xr-x. 5 root root    4096 10月 23 2012 doc
-rw-r--r--. 1 root root 1165908 10月 26 2012 IKAnalyzer2012FF_u1.jar
-rw-r--r--. 1 root root     414 2月  14 2012 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root  841268 10月 24 2012 IKAnalyzer??+-??-??V2012_FF-??+-??.pdf
-rw-r--r--. 1 root root   17778 1月  17 2012 LICENSE.txt
-rw-r--r--. 1 root root     278 1月  19 2012 NOTICE.txt
-rw-r--r--. 1 root root     161 4月  15 2011 stopword.dic
[root@baozi ik]#


[root@baozi ik]# cp IKAnalyzer2012FF_u1.jar /usr/local/solr/example/solr-webapp/webapp/WEB-INF/lib/




[root@baozi WEB-INF]# pwd
/usr/local/solr/example/solr-webapp/webapp/WEB-INF


[root@baozi WEB-INF]# mkdir classes


[root@baozi ik]# cp IKAnalyzer.cfg.xml /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/
[root@baozi ik]# cp stopword.dic /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/





网页查看:
http://192.168.1.200:8983/solr



在网页分词模块输入:
输入“我们是中国人”;


我们



中国人
中国
国人
---------------------------------------------------------------------------------------------------------------
//自定义索引库:


配置schema.xml: 加个分词器别名 text_ik:
[root@baozi conf]# pwd
/usr/local/solr/example/solr/collection1/conf
[root@baozi conf]# vi schema.xml




<fieldType name="text_ik" class="solr.TextField">
        <!--索引时候的分词器-->
        <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
        <!--查询时候的分词器-->
        <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>







//自定义分词段:
[root@baozi classes]# ll
总用量 12
-rw-r--r--. 1 root root  15 5月  12 20:58 baozi.dic
-rw-r--r--. 1 root root 416 5月  12 20:53 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root 161 5月  12 20:46 stopword.dic
[root@baozi classes]# more baozi.dic
我爱吃包子

[root@baozi classes]#


//把自定义分词段加入到配置文件:IKAnalyzer.cfg.xml:
[root@baozi classes]# vim IKAnalyzer.cfg.xml
[root@baozi classes]# more IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">baozi.dic;</entry>
        <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords">stopword.dic;</entry>


</properties>

[root@baozi classes]#




//再分词就会把‘我爱吃包子’作为一个整体:
分词是输入“我爱吃包子”,就会分成整个单词出现;


我爱吃包子

爱吃

包子




你可能感兴趣的:(9-4词库分词)