【ES插件】analysis-icu和analysis-kuromoji

《ES analysis-icu插件》

一、analysis-icu插件简介

【ES插件】analysis-icu和analysis-kuromoji_第1张图片
ICU - International Components for Unicode
Elasticsearch的ICU 分析器插件使用国际化组件 Unicode (ICU) 函数库(详情查看 site.project.org)提供丰富的处理 Unicode 工具。 这些包含对处理亚洲语言特别有用的 icu_分词器 ,还有大量对除英语外其他语言进行正确匹配和排序所必须的分词过滤器。

注意事项

ICU 插件是处理英语之外语言的必需工具,非常推荐你安装并使用它,不幸的是,因为是基于额外的 ICU 函数库, 不同版本的ICU插件可能并不兼容之前的版本,当更新插件的时候,你需要重新索引你的数据

icu_分词器

  1. icu_分词器 和 标准分词器 使用同样的 Unicode 文本分段算法, 只是为了更好的支持亚洲语,添加了泰语、老挝语、中文、日文、和韩文基于词典的词汇识别方法,并且可以使用自定义规则将缅甸语和柬埔寨语文本拆分成音节。
  2. 相较而言, 标准分词器 分词中文和日文的时候“过度分词”了,经常将一个完整的词拆分为独立的字符,因为单词之间并没有空格,很难区分连续的字符是间隔的单词还是一个句子中的单字。
  3. 虽然每个字符本身可以是一个单词,但使词汇单元保持更大的原始概念比使其仅作为一个词组的一部分要有意义的多:
  • 标准分词器在下面的例子中将每个字符输出为单独的词汇单元: 向 , 日 , 葵 。
  • icu_分词器则会输出单个词汇单元:向日葵 (sunflower) 。

GET /_analyze?tokenizer=standard
向日葵

GET /_analyze?tokenizer=icu_tokenizer
向日葵

二、安装analysis-icu

可以通过plugin manager安装:

sudo bin/elasticsearch-plugin install analysis-icu

如果你有很多节点并以集群方式运行的,你需要在集群的每个节点都安装这个插件,每个节点安装完成后都需要重启才能生效。

三、卸载analysis-icu

在卸载icu插件之前,必须先停止节点,再通过以下命令进行移除:

sudo bin/elasticsearch-plugin remove analysis-icu

*######################################## 分割线 ######################################## *

《ES analysis-kuromoji插件》

  1. Introduction
    The kuromoji_tokenizer accepts the following settings:
    mode
    discard_punctuation
    user_dictionary
    nbest_cost/nbest_examples

来看看mode参数
The tokenization mode determines how the tokenizer handles compound and unknown words. It can be set to:

  • normal
    Normal segmentation, no decomposition for compounds. Example output:
    関西国際空港
    アブラカダブラ
  • search
    Segmentation geared towards search. This includes a decompounding process for long nouns, also including the full compound token as a synonym. Example output:
    関西, 関西国際空港, 国際, 空港
    アブラカダブラ
  • extended
    Extended mode outputs unigrams for unknown words. Example output:
    関西, 国際, 空港
    ア, ブ, ラ, カ, ダ, ブ, ラ
  1. Installation
    This plugin can be installed using the plugin manager:

sudo bin/elasticsearch-plugin install analysis-kuromoji

The plugin must be installed on every node in the cluster, and each node must be restarted after installation.

This plugin can be downloaded for offline install from
https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-kuromoji/analysis-kuromoji-6.7.2.zip.

  1. Removal
    The plugin can be removed with the following command:

sudo bin/elasticsearch-plugin remove analysis-kuromoji

The node must be stopped before removing the plugin.

你可能感兴趣的:(Elasticsearch,Lucene)