进阶之深入剖析搜索结果的highlight高亮显示

1、一个基本的高亮例子

PUT /blog_website
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "blogs": {
      "properties": {
        "title": {
          "type": "text",
          "analyzer": "ik_max_word"
        },
        "content": {
          "type": "text",
          "analyzer": "ik_max_word"
        }
      }
    }
  }
}
PUT /blog_website/blogs/1
{
  "title":"我的第一篇博客",
  "content":"大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
}
GET /blog_website/blogs/_search
{
  "query": {
    "match": {
      "title": "博客"
    }
  },
  "highlight": {
    "fields": {
      "title": {}
    }
  }
}
{
  "took": 85,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "blog_website",
        "_type": "blogs",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "title": "我的第一篇博客",
          "content": "大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
        },
        "highlight": {
          "title": [
            "我的第一篇博客"
          ]
        }
      }
    ]
  }
}
GET /blog_website/blogs/_search 
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "title": "博客"
          }
        },
        {
          "match": {
            "content": "博客"
          }
        }
      ]
    }
  },
  "highlight": {
    "fields": {
      "title": {},
      "content": {}
    }
  }
}

highlight中的field,必须跟query中的field一一对齐的

2、三种highlight介绍

plain highlight: Lucene highlight,默认

posting highlight: index_options=offsets
(1)性能比plain highlight要高,因为不需要重新对高亮文本进行分词
(2)对磁盘的消耗更少
(3)将文本切割为句子,并且对句子进行高亮,效果更好
mapping设置:

PUT /blog_website
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "blogs": {
      "properties": {
        "title": {
          "type": "text",
          "analyzer": "ik_max_word"
        },
        "content": {
          "type": "text",
          "analyzer": "ik_max_word",
          "index_options": "offsets"
        }
      }
    }
  }
}

fast vector highlight
index-time term vector设置在mapping中,就会用fast vector highlight
(1)对大field而言(大于1mb),性能更高
mapping设置:

PUT /blog_website
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "blogs": {
      "properties": {
        "title": {
          "type": "text",
          "analyzer": "ik_max_word"
        },
        "content": {
          "type": "text",
          "analyzer": "ik_max_word",
          "term_vector": "with_positions_offsets"
        }
      }
    }
  }
}

强制使用某种highlighter,比如对于开启了term vector的field而言,可以强制使用plain highlight

GET /blog_website/blogs/_search
{
  "query": {
    "match": {
      "content": "博客"
    }
  },
  "highlight": {
    "fields": {
      "content": {
        "type":"plain"
      }
    }
  }
}

其实可以根据你的实际情况去考虑,一般情况下,用plain highlight也就足够了,不需要做其他额外的设置
如果对高亮的性能要求很高,可以尝试启用posting highlight
如果field的值特别大,超过了1mb,那么可以用fast vector highlight

3、设置高亮html标签,默认是标签

GET /blog_website/blogs/_search
{
  "query": {
    "match": {
      "content": "博客"
    }
  },
  "highlight": {
    "pre_tags": [""], 
    "post_tags": [""], 
    "fields": {
      "content": {
        "type":"plain"
      }
    }
  }
}
{
  "took": 8,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.39556286,
    "hits": [
      {
        "_index": "blog_website",
        "_type": "blogs",
        "_id": "1",
        "_score": 0.39556286,
        "_source": {
          "title": "我的第一篇博客",
          "content": "大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
        },
        "highlight": {
          "content": [
            "大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
          ]
        }
      }
    ]
  }
}

4.高亮片段fragment的设置

fragment_size: 你一个field的值,比如有长度是1万,但是你不可能在页面上显示这么长,设置要显示出来的fragment文本判断的长度,默认是100
number_of_fragment: 你可能你的高亮的fragment文本片段有多个片段,你可以指定就显示几个片段

PUT /blog_website/blogs/2
{
  "title":"我的第二篇博客",
  "content":"大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!"
}
GET /blog_website/blogs/_search
{
  "query": {
    "match": {
      "content": "博客"
    }
  },
  "highlight": {
    "fields": {
      "content": {
        "fragment_size": 20,
        "number_of_fragments": 3
      }
    }
  }
}
{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0.36427522,
    "hits": [
      {
        "_index": "blog_website",
        "_type": "blogs",
        "_id": "2",
        "_score": 0.36427522,
        "_source": {
          "title": "我的第二篇博客",
          "content": "大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!大家好,这是我写的第一篇博客,特别喜欢这个博客网站!!!"
        },
        "highlight": {
          "content": [
            "大家好,这是我写的第一篇博客,特别喜欢这个博客网站",
            "大家好,这是我写的第一篇博客,特别喜欢这个博客网站",
            "大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
          ]
        }
      },
      {
        "_index": "blog_website",
        "_type": "blogs",
        "_id": "1",
        "_score": 0.32347375,
        "_source": {
          "title": "我的第一篇博客",
          "content": "大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
        },
        "highlight": {
          "content": [
            "大家好,这是我写的第一篇博客,特别喜欢这个博客网站"
          ]
        }
      }
    ]
  }
}

你可能感兴趣的:(进阶之深入剖析搜索结果的highlight高亮显示)