ElasticSeach-自定义分词器

自定义分词词

elasticsearch中分词器(analyzer)的组成包含三部分:

  • character filters : 在tokenizer 之前对文本进行处理,例如删除字符替换字符
  • tokenizer: 将文本按照一定的规则切割成词条(term)。例如keyword就是不分词,还有ik_smark
  • tokenizer-filters: 将tokenizer 输出的词条进一步处理。例如大小写转换,统一次处理,拼音处理等。

ElasticSeach-自定义分词器_第1张图片

自定义分词器语法

ElasticSeach-自定义分词器_第2张图片

自定义分词词的问题

ElasticSeach-自定义分词器_第3张图片

处理自定义分词器的问题

创建索引时,使用拼音分词器
查询文档时,不使用拼音分词器,用ik_max_smart或 ik_smart

ElasticSeach-自定义分词器_第4张图片

ElasticSeach-自定义分词器_第5张图片

你可能感兴趣的:(ElasticSearch,elasticsearch,搜索引擎)