elasticsearch分词器

1.什么是分词器

分词器(analyzer)主要包含两个功能: 切分词语,normalization(时态的转换,单复数的转换,同义词的转换,大小写的转换等等)
分词器主要包含2个部分:

  • tokenizer(分解器)
  • token filter(词元过滤器)
    tokenizer:
    分解器在处理之前会经过预处理,比如去除html标记等,这些预处理的算法叫做字符过滤器(character filter)
    一个分解器会有一个或多个character filter。分解器可以把一个字符串分解成一系列的词元(就是单个的词条).
    token filter
    token filter会将tokenizer处理完的一系列token进一步处理,比如转换大小写,同义词处理,停止词去掉等。
    elasticsearch分词器_第1张图片
    分词器流程
2.分词器种类

此处仅列出一部分。
es内置分词器:
standard analyzer,whitespace analyzer,language analyzer...

你可能感兴趣的:(elasticsearch分词器)