ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)

(一)text字段和keyword字段的区别

以下给出一个例子:

首先建立一个索引和类型,引入一个keywork的字段:

PUT my_index
{
  "mappings": {
    "products": {
      "properties": {
        "name": {
          "type": "keyword"
        }
      }
    }
  }
}

 

然后查询是否有索引:

GET _cluster/state

可以看到已经创建成功:

 ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第1张图片

添加一条数据:

POST my_index/products
{
  "name":"washing machin"
}

然后查询:

GET my_index/products/_search
{
  "query": {
    "term": {
      "name": "washing"
    }
  }
}

 

可以看到没有匹配到任何数据:
ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第2张图片

然后查询:

GET my_index/products/_search
{
  "query": {
    "term": {
      "name": "washing machine"
    }
  }
}

 

可以看到成功匹配到了数据:

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第3张图片

所以将字段设置成keyword的时候查询的时候已有的值不会被分词。

现在添加一个text类型的字段:

PUT my_index/_mapping/products?update_all_types
{
  "properties": {
      "tag": {
        "type": "text"
      }
  }
}

 

 

可以看到添加成功:

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第4张图片

 

往之前已经创建的doc之中添加tag的数据:

POST my_index/products/AWf9f66WV8yLH435XhgI
{
  "name":"washing machine",
  "tag":"electric household"
}

查询一下,可以看到:

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第5张图片

然后对tag字段进行查询:

POST  /my_index/products/_search
{
  "query": {
    "term": {
      "tag": "household"
    }
  }
}

 

可以看到虽然没有全部输入,但是已经查询到了:
ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第6张图片

现在输入全部的查询:

POST  /my_index/products/_search
{
  "query": {
    "term": {
      "tag": "electric household"
    }
  }
}

 

 发现现在已经查询不到了:

 

说明text类型的字段会被分词,查询的时候如果用拆开查可以查询的到,但是要是直接全部查,就是查询不到。

注意“1, 2”会被拆分成[1, 2],但是"1,2"是不拆分的,少了个空格。

(二)match和term的区别

 ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第7张图片

 1.term

 1)term查询keyword字段。

 term不会分词。而keyword字段也不分词。需要完全匹配才可。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第8张图片

 ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第9张图片

成功。

但是如果:

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第10张图片

则查询失败。

 2)term查询text字段。

因为text字段会分词,而term不分词,所以term查询的条件必须是text字段分词后的某一个。

 ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第11张图片

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第12张图片

查询成功。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第13张图片

查询失败,因为现在tag已经被分词了,存储的是[he, is, silly, man]。

 这样查询:

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第14张图片

也是失败了,道理跟上面的是一样的。

2.

1)match查询keyword字段

match会被分词,而keyword不会被分词,match的需要跟keyword的完全匹配可以。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第15张图片

 ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第16张图片

其他的不完全匹配的都是失败的。

2)match查询text字段

match分词,text也分词,只要match的分词结果和text的分词结果有相同的就匹配。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第17张图片

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第18张图片

成功。如果都不相同就失败了。

3.

1)match_phrase匹配keyword字段。

这个同上必须跟keywork一致才可以。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第19张图片

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第20张图片

只有这种情况才是成功的。

2)match_phrase匹配text字段。

match_phrase是分词的,text也是分词的。match_phrase的分词结果必须在text字段分词中都包含,而且顺序必须相同,而且必须都是连续的。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第21张图片

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第22张图片

这是成功的。

如果不是连续的,就会失败。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第23张图片

 4.

1)query_string查询key类型的字段,试过了,无法查询。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第24张图片

失败的,无法查询。

2)query_string查询text类型的字段。

和match_phrase区别的是,不需要连续,顺序还可以调换。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第25张图片

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第26张图片

成功。

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第27张图片

ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)_第28张图片

这样也是可以的。

 

match

最简单的一个match例子:

查询和"我的宝马多少马力"这个查询语句匹配的文档。

{
  "query": {
    "match": {
        "content" : {
            "query" : "我的宝马多少马力"
        }
    }
  }
}


# 另一种写法
{
  "query": {
    "match": {
      "content": "我的宝马多少马力"
    }
  }
}

上面的查询匹配就会进行分词,比如"宝马多少马力"会被分词为"宝马 多少 马力", 所有有关"宝马 多少 马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。
并且根据lucene的评分机制(TF/IDF)来进行评分。

match_phrase

比如上面一个例子,一个文档"我的保时捷马力不错"也会被搜索出来,那么想要精确匹配所有同时包含"宝马 多少 马力"的文档怎么做?就要使用 match_phrase 了

{
  "query": {
    "match_phrase": {
        "content" : {
            "query" : "我的宝马多少马力"
        }
    }
  }
}


# 另一种写法
{
  "query": {
    "match_phrase": {
      "content": "我的宝马多少马力"
    }
  }
}

完全匹配可能比较严,我们会希望有个可调节因子,少匹配一个也满足,那就需要使用到slop。

slop参数告诉match_phrase查询词条能够相隔多远时仍然将文档视为匹配。相隔多远的意思是,你需要移动一个词条多少次来让查询和文档匹配?

{
  "query": {
    "match_phrase": {
        "content" : {
            "query" : "我的宝马多少马力",
            "slop" : 1
        }
    }
  }
}

为了让查询 quick fox 能匹配一个包含 quick brown fox 的文档, 我们需要 slop 的值为 1:

            Pos 1         Pos 2         Pos 3
-----------------------------------------------
Doc:        quick         brown         fox
-----------------------------------------------
Query:      quick         fox
Slop 1:     quick                 ↳     fox

 

multi_match

如果我们希望两个字段进行匹配,其中一个字段有这个文档就满足的话,使用multi_match

{
  "query": {
    "multi_match": {
        "query" : "我的宝马多少马力",
        "fields" : ["title", "content"]
    }
  }
}



# 提升权重

{
  "multi_match": {
    "query": "` + keyword + `",
    "fields": [
      "goodsName.goodsName^3",
      "categoryName^2",
      "goodsName.goodsNameMax^1",
      "jingle^1",
      "specString^1"
    ],
    "type": "cross_fields",
    "minimum_should_match": "5<90%"
  }
}

但是multi_match就涉及到匹配评分的问题了。

dis_max

dis_max 查询就是返回匹配了 query 的文档,分值是最佳匹配字段产生的分值。加上 tie_breaker 可得出很好的搜索效果。

{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "Quick pets" }},
                { "match": { "body":  "Quick pets" }}
            ],
            "tie_breaker": 0.3
        }
    }
}

multi_match 查询提供了一个简便的方法对多个字段执行相同的查询。默认情况下,该查询以 best_fields 类型执行,它会为每个字段生成一个 match 查询,然后将这些查询包含在一个 dis_max 查询中。

例如:

GET /_search
{
  "query": {
    "multi_match" : {
      "query":      "brown fox",
      "type":       "best_fields",
      "fields":     [ "subject", "message" ],
      "tie_breaker": 0.3
    }
  }
}

执行时就变成了:

GET /_search
{
  "query": {
    "dis_max": {
      "queries": [
        { "match": { "subject": "brown fox" }},
        { "match": { "message": "brown fox" }}
      ],
      "tie_breaker": 0.3
    }
  }
}

可通过 caret 语法(^) 对个别字段加权,如:

{
    "multi_match": {
        "query":  "Quick brown fox",
        "fields": [ "title", "chapter_title^2" ]
    }
}

我们希望完全匹配的文档占的评分比较高,则需要使用best_fields

{
  "query": {
    "multi_match": {
      "query": "我的宝马发动机多少",
      "type": "best_fields",
      "fields": [
        "tag",
        "content"
      ],
      "tie_breaker": 0.3
    }
  }
}

意思就是完全匹配"宝马 发动机"的文档评分会比较靠前,如果只匹配宝马的文档评分乘以0.3的系数

我们希望越多字段匹配的文档评分越高,就要使用most_fields

{
  "query": {
    "multi_match": {
      "query": "我的宝马发动机多少",
      "type": "most_fields",
      "fields": [
        "tag",
        "content"
      ]
    }
  }
}

我们会希望这个词条的分词词汇是分配到不同字段中的,那么就使用cross_fields

{
  "query": {
    "multi_match": {
      "query": "我的宝马发动机多少",
      "type": "cross_fields",
      "fields": [
        "tag",
        "content"
      ]
    }
  }
}

 

你可能感兴趣的:(ES,ES,搜索10,(match,match_phrase,qu)