Elasticsearch 按照标签匹配个数优先排序查询

有一种相似度匹配需求，需要以匹配到的标签个数优先，这种情况就需要用到自定义查询语句。

先上代码，这里我用的是PHP的数组结构，最终提交的时候是会转成json格式的，暂且不表：

'query' => [
    'script_score' => [
        "query"  => [],
        'script' => [
            'source' => '
                        def matches = 0;
                        for (t in params.tags) {
                            if(doc["tags"].contains(t)) {
                                matches += 1;
                            }
                        }
                        return _score * matches * matches;
                        ',
            "params" => [
                "tags" => $tags,
            ],
        ]
    ],
]

首先最外层的数组就是我们通常写的query语句，放在body中进行请求的，主要看query里面的结构，这种需要自定义脚本处理评分的，query中只放了一个script_score：

script_score包含了两个部分，一部分是query，另外一部分是自定义的script，这里面的query，就是正常原本写在外层的query中的查询结构，原本怎么写还是怎么写，比如这里面可能还会需要一个标签匹配的，那么继续加一个terms来查询。

然后来看script部分，这里面又分为两个东西：

source 自定义的评分排序脚本
params 自定义的评分脚本参数

首先看params，这里我传递了$tags，这是一个标签数组，最终会在source里进行调用，source部分会放到elasticsearch中进行编译，形成类似于函数的东西，然后params就是一个参数，在source的代码中需要调用tags这个参数，采用params.tags来进行调用。

然后再看source代码部分，这里面会把搜索到的结果doc中的tags字段（这doc中的tags也是一个数组）与所期望的tags进行校验对比，最后得到实际匹配的个数：matches。

最后看source中的return部分，这里会返回评分结果，这里的_score是搜索本身计算的相似度评分，然后这个地方_score * matches * matches，这里是采用标签个数对评分结果进行放大，标签数匹配越多，自然放大结果就越大。

举个例子：

匹配文档	_score	标签个数	结果分	排序位置
文档A	40	2	160	2
文档B	30	3	270	1

可见最终受到标签影响更大，实现了标签结果数优先的排序。

当然，至于放大形式，比如说，评分一样，以标签数优先，那么不用进行标签平方处理，另外所期望的放大结果根据具体情况可以自行处理。

另外，在文章末尾帖上elasticsearch的脚本语法链接：

https://www.elastic.co/guide/...

Elasticsearch 按照标签匹配个数优先排序查询

你可能感兴趣的:(Elasticsearch 按照标签匹配个数优先排序查询)