Elasticsearch 篇之倒排索引与分词

正排索引

  文档ID到文档内容、单词的关联关系。比如书的目录页对应正排索引(指明章节名称,指明页数)用于查看章节

倒排索引:

  单词到文档ID的关联关系。比如索引页对应倒排索引(指明关键词、指明页数)用于关键词查找
  倒排索引时搜索引擎的核心,主要包含两个部分:

  • 单词词典
    记录所有文档的单词,一般都比较大
    记录单词到倒排列表的关联信息
  • 倒排列表
    记录了单词对应的文档集合,由倒排索引项组成。倒排索引项包含如下信息:
    • 文档ID,用于获取原始信息
    • 单词频率,记录该单词在该文档中的出现次数,用于后续相关性算分
    • 位置,记录单词在文档中的粉刺位置,用于做词语搜索
    • 偏移,记录单词在文档的开始和结束位置,用于做高亮显示



分词

分词是指将文本转换成一系列单词的过程,也可以叫做文本分析,在es里面成为Analysis




Analyze_api




ES自带分词器

























image.png

image.png

你可能感兴趣的:(Elasticsearch 篇之倒排索引与分词)