ES 中文分词

一、大名鼎鼎的中文插件IK的安装配置

1. 在插件目录中建立IK的目录

mkdir $ES_HOME/plugins/analysis-ik

 

2. 下载IK 的类库jar 文件到IK目录

cd  $ES_HOME/plugins/analysis-ik

wget https://github.com/medcl/elasticsearch-rtf/blob/master/plugins/analysis-ik/elasticsearch-analysis-ik-1.2.6.jar

 

3. 放置数据字典

将打包的ik.zip 解压缩到$ES_HOME/config目录中

unzip  ik.zip  -d  /usr/local/elasticsearch/config/

 

4. 设置配置文件

在配置文件中添加IK的配置

vi $ES_HOME/config/elasticsearch.yml

 

在最后添加下边的内容

index:

  analysis:                   

    analyzer:      

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

          type: ik

          use_smart: true

      ik_smart:

          type: ik

          use_smart: false

 

5.重新启动es 看IK 插件运行是否正常

$ES_HOME/bin/elasticsearch –d

 

查看启动日志中是否加载analysis-ik

cat  $ES_HOME/logs/7jia2.log | grep 'analysis-ik'

[2014-10-12 22:03:31,309][INFO ][plugins ] [spt] loaded [analysis-ik], sites [bigdesk, head]

 

看到analysis-ik表示加载成功

6. 测试分词效果

curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=ik" -d'

{

    "text" : "女士冲锋衣"

}'

 

clip_image002

 

二 Medcl 大神的另一个分词利器mmseg

1. 在插件目录中建立IK的目录

mkdir $ES_HOME/plugins/ analysis-mmseg

 

2. 下载IK 的类库jar 文件到IK目录

cd  $ES_HOME/plugins/ analysis-mmseg

wget https://github.com/medcl/elasticsearch-rtf/blob/master/plugins/analysis-mmseg/elasticsearch-analysis-mmseg-1.2.2.jar

 

3.放置数据字典

将打包的mmseg.zip 解压缩到$ES_HOME/config目录中

unzip  mmseg.zip  -d  /usr/local/elasticsearch/config/

 

4. 设置配置文件

在配置文件中添加IK的配置

vi $ES_HOME/config/elasticsearch.yml

 

使最后的分析器如下显示

index:

  analysis:

    tokenizer:

      mmseg_maxword:

        type: mmseg

        seg_type: max_word

      mmseg_complex:

        type: mmseg

        seg_type: complex

      mmseg_simple:

        type: mmseg

        seg_type: simple

    analyzer:

      ik:

        alias:

        - ik_analyzer

        type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

        type: ik

        use_smart: false

      ik_smart:

        type: ik

        use_smart: true

      mmseg:

        alias:

        - mmseg_analyzer

        type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

      mmseg_maxword:

        type: custom

        filter:

        - lowercase

        tokenizer: mmseg_maxword

      mmseg_complex:

        type: custom

        filter:

        - lowercase

        tokenizer: mmseg_complex

      mmseg_simple:

        type: custom

        filter:

        - lowercase

        tokenizer: mmseg_simple

 

5.重新启动es 看IK 插件运行是否正常

$ES_HOME/bin/elasticsearch –d

 

查看启动日志中是否加载mmseg

cat  $ES_HOME/logs/7jia2.log | grep 'analysis-mmseg '

loaded [analysis-mmseg, analysis-ik, jdbc-1.3.0.4-247a6f5], sites [bigdesk, head]

 

看到mmseg表示加载成功

6.测试分词效果

Curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=mmseg" -d'

{

    "text" : "女士冲锋衣"

}'

 

clip_image002[4]

 

curl -XPOST "http://192.168.1.248:7200/lvyoumall/_analyze?analyzer=mmseg_complex" -d'

{

    "text" : "女士冲锋衣"

}'

 

clip_image002[6]

你可能感兴趣的:(中文分词)