两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:

plugin -install medcl/elasticsearch-analysis-ik/1.1.0

下载ik相关配置词典文件到config目录

cd config wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate unzip ik.zip rm ik.zip

安装mmseg插件:

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0 

下载相关配置词典文件到config目录

cd config wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate unzip mmseg.zip rm mmseg.zip 

分词配置

ik分词配置,在elasticsearch.yml文件中加上

index:   analysis:                        analyzer:             ik:           alias: [ik_analyzer]           type: org.elasticsearch.index.analysis.IkAnalyzerProvider

index.analysis.analyzer.ik.type : “ik”

这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中

index:   analysis:     analyzer:       mmseg:           alias: [news_analyzer, mmseg_analyzer]           type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider 

index.analysis.analyzer.default.type : "mmseg" 

mmseg分词还有些更加个性化的参数设置如下

index:   analysis:     tokenizer:       mmseg_maxword:           type: mmseg           seg_type: "max_word"       mmseg_complex:           type: mmseg           seg_type: "complex"       mmseg_simple:           type: mmseg           seg_type: "simple" 

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

{    "page":{       "properties":{          "title":{             "type":"string",             "indexAnalyzer":"ik",             "searchAnalyzer":"ik"          },          "content":{             "type":"string",             "indexAnalyzer":"ik",             "searchAnalyzer":"ik"          }       }    } }

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

java mapping代码如下:

XContentBuilder content = XContentFactory.jsonBuilder().startObject()         .startObject("page")           .startObject("properties")                    .startObject("title")               .field("type", "string")                          .field("indexAnalyzer", "ik")               .field("searchAnalyzer", "ik")             .endObject()              .startObject("code")               .field("type", "string")                        .field("indexAnalyzer", "ik")               .field("searchAnalyzer", "ik")             .endObject()                .endObject()          .endObject()        .endObject()

定义完后操作索引就会以指定的分词器来进行分词。

附:

ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik

mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg

如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf