elasticsearch 拼音分词(elasticsearch-analysis-pinyin)


elasticsearch 拼音分词(elasticsearch-analysis-pinyin)

 

官网:https://github.com/medcl/elasticsearch-analysis-pinyin

 

 

*****************************

安装pinyin分词

 

进入容器,在线安装

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.5.1/elasticsearch-analysis-pinyin-7.5.1.zip

 

查看分词插件

      elasticsearch 拼音分词(elasticsearch-analysis-pinyin)_第1张图片

 

 

*****************************

pinyin分词介绍

 

pinyin插件提供

analyzer:pinyin

tokenizer:pinyin

token-filter:pinyin

 

**********************

相关参数

 

keep_first_letter:默认为true,刘德华==》ldh

keep_separate_first_letter:默认为false,刘德华==》l、d、h

limit_first_letter_length:限制first_letter的长度,默认为16

keep_none_chinese_in_first_letter:首字母中保存非中文,默认为true,刘德华2020==》ldh2020

 

keep_full_pinyin:默认为true,刘德华==》[liu、de、hua]

keep_joined_full_pinyin:默认为false,刘德华==》liudehua

keep_none_chinese:保存非中文字符,默认为true

keep_none_chinese_together:非中文字符在一起,默认为true,DJ音乐家==》[DJ、yin、yue、jia]

 

none_chinese_pinyin_tokenize:非中文分词,默认为true,liudehua==》liu、de、hua,需先开启keep_none_chinese、keep_none_chinese_together

 

keep_original:保存原始文本,默认为false

lowercase:非中文字符小写,默认为true

trim_whitespace:空白字符分隔,默认为true

remove_duplicated_term:移除重复的分词,默认为true,de的==》de

ignore_pinyin_offset:忽略拼音的偏移量,默认为true

 

 

*****************************

测试pinyin分词

 

        elasticsearch 拼音分词(elasticsearch-analysis-pinyin)_第2张图片

 

        elasticsearch 拼音分词(elasticsearch-analysis-pinyin)_第3张图片

 

 

你可能感兴趣的:(elasticsearch,elasticsearch)