十五、Elasticsearch相关排序及算法

1、定制排序规则

GET /website/article/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "term": {

          "author_id": 11400

        }

      }

    }

  },

  "sort": [

    {

      "post_date": {

        "order": "desc"

      }

    }

  ]

}

可以使用constant_score的filter,最常用的还是sort


如果对一个string field进行排序,结果往往不准确,因为分词后是多个单词,再排序就不是我们想要的结果了

通常解决方案是,将一个string field建立两次索引,一个分词,用来进行搜索;一个不分词,用来进行排序


PUT /website

{

  "mappings": {

    "article": {

      "properties": {

        "title": {

          "type": "text",

          "fields": {

            "raw": {

              "type": "string",

              "index": "not_analyzed"

            }

          },

          "fielddata": true

        },

        "content": {

          "type": "text"

        },

        "post_date": {

          "type": "date"

        },

        "author_id": {

          "type": "long"

        }

      }

    }

  }

}


GET /website/article/_search

{

  "query": {

    "match_all": {}

  },

  "sort": [

    {"title.raw": {

        "order": "desc"

      }}]}

2、elasticsearch排序算法

得分(relevance score)算法,简单来说就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度

Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法


Term frequency:搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关

Inverse document frequency:搜索文本中的各个词条在整个索引的所有文档中出现了多少次,出现的次数越多,就越不相关

Field-length norm:field长度,field越长,相关度越弱

 

3、_score是如何被计算出来的

GET /test_index/test_type/_search?explain

{

  "query": {

    "match": {

      "test_field": "test hello"

    }

  }

}

4、分析一个document是如何被匹配上的


GET /website/article/1/_explain

{

   "query": {

    "match": {

      "title": "article"

    }

  }

}


搜索的时候,要依靠倒排索引;排序的时候,需要依靠正排索引,看到每个document的每个field,然后进行排序,所谓的正排索引,其实就是doc values

在建立索引的时候,一方面会建立倒排索引,以供搜索用;一方面会建立正排索引,以供排序,聚合,过滤等操作使用

doc values是被保存在磁盘上的,此时如果内存足够,os会自动将其缓存在内存中,性能还是会很高;如果内存不足够,os会将其写入磁盘上

5、preference


决定了哪些shard会被用来执行搜索操作

_primary, _primary_first, _local, _only_node:xyz, _prefer_node:xyz, _shards:2,3

bouncing results问题,两个document排序,field值相同;不同的shard上,可能排序不同;每次请求轮询打到不同的replica shard上;每次页面上看到的搜索结果的排序都不一样。这就是bouncing result,也就是跳跃的结果。


搜索的时候,是轮询将搜索请求发送到每一个replica shard(primary shard),但是在不同的shard上,可能document的排序不同


解决方案就是将preference设置为一个字符串,比如说user_id,让每个user每次搜索的时候,都使用同一个replica shard去执行,就不会看到bouncing results了


6、search_type

default:query_then_fetch

dfs_query_then_fetch,可以提升relevance sort精准度

你可能感兴趣的:(十五、Elasticsearch相关排序及算法)