(一)text字段和keyword字段的区别
以下给出一个例子:
首先建立一个索引和类型,引入一个keywork的字段:
PUT my_index
{
"mappings": {
"products": {
"properties": {
"name": {
"type": "keyword"
}
}
}
}
}
然后查询是否有索引:
GET _cluster/state
可以看到已经创建成功:
添加一条数据:
POST my_index/products
{
"name":"washing machin"
}
然后查询:
GET my_index/products/_search
{
"query": {
"term": {
"name": "washing"
}
}
}
然后查询:
GET my_index/products/_search
{
"query": {
"term": {
"name": "washing machine"
}
}
}
可以看到成功匹配到了数据:
所以将字段设置成keyword的时候查询的时候已有的值不会被分词。
现在添加一个text类型的字段:
PUT my_index/_mapping/products?update_all_types
{
"properties": {
"tag": {
"type": "text"
}
}
}
可以看到添加成功:
往之前已经创建的doc之中添加tag的数据:
POST my_index/products/AWf9f66WV8yLH435XhgI
{
"name":"washing machine",
"tag":"electric household"
}
查询一下,可以看到:
然后对tag字段进行查询:
POST /my_index/products/_search
{
"query": {
"term": {
"tag": "household"
}
}
}
现在输入全部的查询:
POST /my_index/products/_search
{
"query": {
"term": {
"tag": "electric household"
}
}
}
发现现在已经查询不到了:
说明text类型的字段会被分词,查询的时候如果用拆开查可以查询的到,但是要是直接全部查,就是查询不到。
注意“1, 2”会被拆分成[1, 2],但是"1,2"是不拆分的,少了个空格。
(二)match和term的区别
1.term
1)term查询keyword字段。
term不会分词。而keyword字段也不分词。需要完全匹配才可。
成功。
但是如果:
则查询失败。
2)term查询text字段。
因为text字段会分词,而term不分词,所以term查询的条件必须是text字段分词后的某一个。
查询成功。
查询失败,因为现在tag已经被分词了,存储的是[he, is, silly, man]。
这样查询:
也是失败了,道理跟上面的是一样的。
2.
1)match查询keyword字段
match会被分词,而keyword不会被分词,match的需要跟keyword的完全匹配可以。
其他的不完全匹配的都是失败的。
2)match查询text字段
match分词,text也分词,只要match的分词结果和text的分词结果有相同的就匹配。
成功。如果都不相同就失败了。
3.
1)match_phrase匹配keyword字段。
这个同上必须跟keywork一致才可以。
只有这种情况才是成功的。
2)match_phrase匹配text字段。
match_phrase是分词的,text也是分词的。match_phrase的分词结果必须在text字段分词中都包含,而且顺序必须相同,而且必须都是连续的。
这是成功的。
如果不是连续的,就会失败。
4.
1)query_string查询key类型的字段,试过了,无法查询。
失败的,无法查询。
2)query_string查询text类型的字段。
和match_phrase区别的是,不需要连续,顺序还可以调换。
成功。
这样也是可以的。
最简单的一个match例子:
查询和"我的宝马多少马力"这个查询语句匹配的文档。
{
"query": {
"match": {
"content" : {
"query" : "我的宝马多少马力"
}
}
}
}
# 另一种写法
{
"query": {
"match": {
"content": "我的宝马多少马力"
}
}
}
上面的查询匹配就会进行分词,比如"宝马多少马力"会被分词为"宝马 多少 马力", 所有有关"宝马 多少 马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。
并且根据lucene的评分机制(TF/IDF)来进行评分。
比如上面一个例子,一个文档"我的保时捷马力不错"也会被搜索出来,那么想要精确匹配所有同时包含"宝马 多少 马力"的文档怎么做?就要使用 match_phrase 了
{
"query": {
"match_phrase": {
"content" : {
"query" : "我的宝马多少马力"
}
}
}
}
# 另一种写法
{
"query": {
"match_phrase": {
"content": "我的宝马多少马力"
}
}
}
完全匹配可能比较严,我们会希望有个可调节因子,少匹配一个也满足,那就需要使用到slop。
slop参数告诉match_phrase查询词条能够相隔多远时仍然将文档视为匹配。相隔多远的意思是,你需要移动一个词条多少次来让查询和文档匹配?
{
"query": {
"match_phrase": {
"content" : {
"query" : "我的宝马多少马力",
"slop" : 1
}
}
}
}
为了让查询 quick fox
能匹配一个包含 quick brown fox
的文档, 我们需要 slop
的值为 1
:
Pos 1 Pos 2 Pos 3
-----------------------------------------------
Doc: quick brown fox
-----------------------------------------------
Query: quick fox
Slop 1: quick ↳ fox
如果我们希望两个字段进行匹配,其中一个字段有这个文档就满足的话,使用multi_match
{
"query": {
"multi_match": {
"query" : "我的宝马多少马力",
"fields" : ["title", "content"]
}
}
}
# 提升权重
{
"multi_match": {
"query": "` + keyword + `",
"fields": [
"goodsName.goodsName^3",
"categoryName^2",
"goodsName.goodsNameMax^1",
"jingle^1",
"specString^1"
],
"type": "cross_fields",
"minimum_should_match": "5<90%"
}
}
但是multi_match就涉及到匹配评分的问题了。
dis_max 查询就是返回匹配了 query 的文档,分值是最佳匹配字段产生的分值。加上 tie_breaker 可得出很好的搜索效果。
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Quick pets" }},
{ "match": { "body": "Quick pets" }}
],
"tie_breaker": 0.3
}
}
}
multi_match 查询提供了一个简便的方法对多个字段执行相同的查询。默认情况下,该查询以 best_fields 类型执行,它会为每个字段生成一个 match 查询,然后将这些查询包含在一个 dis_max 查询中。
例如:
GET /_search
{
"query": {
"multi_match" : {
"query": "brown fox",
"type": "best_fields",
"fields": [ "subject", "message" ],
"tie_breaker": 0.3
}
}
}
执行时就变成了:
GET /_search
{
"query": {
"dis_max": {
"queries": [
{ "match": { "subject": "brown fox" }},
{ "match": { "message": "brown fox" }}
],
"tie_breaker": 0.3
}
}
}
可通过 caret 语法(^) 对个别字段加权,如:
{
"multi_match": {
"query": "Quick brown fox",
"fields": [ "title", "chapter_title^2" ]
}
}
{
"query": {
"multi_match": {
"query": "我的宝马发动机多少",
"type": "best_fields",
"fields": [
"tag",
"content"
],
"tie_breaker": 0.3
}
}
}
意思就是完全匹配"宝马 发动机"的文档评分会比较靠前,如果只匹配宝马的文档评分乘以0.3的系数
{
"query": {
"multi_match": {
"query": "我的宝马发动机多少",
"type": "most_fields",
"fields": [
"tag",
"content"
]
}
}
}
{
"query": {
"multi_match": {
"query": "我的宝马发动机多少",
"type": "cross_fields",
"fields": [
"tag",
"content"
]
}
}
}