elasticsearch-dsl语言

目录

  • 1 什么是DSL
  • 2 DSL校验 - 定位不合法的查询语句
  • 3 match query的使用
    • 3.1 简单功能示例
      • 3.1.1 查询所有文档
      • 3.1.2 查询满足一定条件的文档
      • 3.1.3 分页查询文档
      • 3.1.4 指定返回的结果中包含的字段
    • 3.2 精确查询 - match_phrase
      • 3.2.1 精确匹配 - exact value
      • 3.2.2 全文搜索 - full text
    • 3.3 控制匹配规则 - operator
    • 3.4 指定命中的百分比 - minimum_should_match
    • 3.5 多字段的匹配 - multi_match
  • 4 bool query的使用
    • 4.1 简单功能示例
    • 4.2 嵌套使用bool query
    • 4.3 直接filter操作 - 使用constant_score
    • 4.4 指定should的匹配个数 - minimum_should_match
  • 5 term query的使用
    • 5.1 不分词查询 - term query
    • 5.2 in查询 - terms query

1 什么是DSL

DSL: Domain Specific Language, 领域特定语言, 指的是专注于某个应用程序领域的、具有高度针对性的计算机语言.

Query String 与 Query DSL之间的区别:

Query String: 在请求的URL后直接拼接查询条件;
Query DSL: 在请求的Request Body中携带查询条件.

DSL功能强大, 可以构建复杂的查询、过滤、聚合条件 —— 最常用的使用方式.

2 DSL校验 - 定位不合法的查询语句

对于复杂的查询, 很有必要在查询前使用validate API进行验证, 保证DSL语句的正确有效:

// 要查询name中包含"java"的文档: 
GET shop/it_book/_validate/query?explain
{
    "query": {
        "math": {            // 错误的查询名称, 应该是match
            "name": "java"
        }
    }
}

// 校验结果:
{
“valid”: false,
“error”: “org.elasticsearch.common.ParsingException: no [query] registered for [math]”
}

// 修改math为match后, 校验结果为:
{
“valid”: true,
“_shards”: {
“total”: 1,
“successful”: 1,
“failed”: 0
},
“explanations”: [
{
“index”: “shop”,
“valid”: true, // 校验通过, DSL有效
“explanation”: “+name:java #_type:it_book” // 查询条件, +表示必须存在
}
]
}

3 match query的使用

3.1 简单功能示例

3.1.1 查询所有文档

GET shop/it_book/_search
{
    "query": {
        "match_all": {}
    }
}

3.1.2 查询满足一定条件的文档

查询name中包含"java"的文档, 同时按照价格升序排序:

GET shop/it_book/_search
{
    "query": {
        "match": {
            "name": "java"
        }
    }, 
    "sort": [
        { 
            "price": {"order": "asc"} 
        }
    ]
}

3.1.3 分页查询文档

GET shop/it_book/_search
{
    "query": {
        "match_all": {}
    },
    "from": 0,      // 开始记录数, 起始数为0
    "size": 1       // 页大小, 即每页显示的记录数
}

3.1.4 指定返回的结果中包含的字段

GET shop/it_book/_search
{
    "query": {
        "match_all": {}
    }, 
    "_source": [
        "name",     // 显示商品名称
        "price"     // 显示商品价格
    ]
}

3.2 精确查询 - match_phrase

不同的数据类型在建立倒排索引时, 有的会作为full text处理, 有的作为exact value处理.

对查询串分词时, 使用的分析器(analyzer)必须和创建index时使用的相同, 否则将检索不到准确的数据.

3.2.1 精确匹配 - exact value

常见的exact value类型有date - 日期类型.

ES检索时, 不会对String进行分词, 而是完全根据String的值去精确匹配, 查找相应的文档.

在DSL中, 通过match_phrase短语匹配达到精确匹配的目的 —— 不会对查询串进行分词, 而是直接精确匹配查找.

示例: 查询name中包含"thinking in java"的文档, 不会对查询串进行分词:

GET shop/_search
{
    "query": {
        "match_phrase": {
            "name": "thinking in java"
        }
    }
}

3.2.2 全文搜索 - full text

常见的full text类型有: text - 文本串.

ES检索时, 会对检索串进行分词, 包括缩写、时态、同义词等转换手段, 然后根据分词结果与倒排索引进行匹配, 查找相应的文档.

索引中只要有任意一个相关field的分词 匹配拆分后的词, 这个文档就可以出现在结果中, 只是匹配度越高的排名越靠前.

示例: 查询name中包含"thinking in java"的文档, 会将查询串拆分为"think", "in", "java"三个词:

GET shop/_search
{
    "query": {
        "match": {
            "name": "thinking in java"
        }
    }
}

3.3 控制匹配规则 - operator

operator 操作符, 用来指定ES对分词后的词项如何进行检索过滤. 选项有:

and, 作用 == match_phrase, 即全部匹配;
or, 作用 == match, 即部分匹配.

使用示例:

GET shop/_search
{
    "query": {
        "match": {
            "name": {                   // 要查询的field 
                "query": "编程思想",
                "operator": "or"        // 操作符
            }
        }
    }
}

3.4 指定命中的百分比 - minimum_should_match

minimum_should_match 用来指定最少要匹配多少比例的分词, 才算符合条件并返回结果.

示例: 搜索name中包含"并发编程的艺术", 被拆分成"并发", "编程", "艺术"等词, 现在要求至少匹配50%的分词, 可以这样:

GET shop/_search
{
    "query": {
        "match": {
            "name": {
                "query": "并发编程的艺术", 
                "minimum_should_match": "50%"
            }
        }
    }
}

当然这种需求也可以用 must、must_not、should 匹配同一个字段的方式进行组合查询.

3.5 多字段的匹配 - multi_match

multi_match 用来对多个字段同时进行匹配: 任意一个字段中存在相应的分词, 就可作为结果返回.

示例 ① : 查询 name 或 desc 字段中包含 "面试经典" 的文档 —— 会对查询串进行分词:

GET shop/_search
{
    "query": {
        "multi_match": {
            "query": "面试经典", 
            "fields": [
                "name", 
                "desc"
            ]
        }
    }
}

示例 ② : 查询 name 或 desc 字段中同时包含 "面试经典" 的文档 —— 不对查询串进行分词:

GET shop/_search
{
    "query": {
        "multi_match": {
            "query": "面试经典",
            "type": "cross_fields", // 还有best_fields、most_fields、phrase、phrase_prefix选项
            "operator": "and",      // 全部匹配, or是部分匹配
            "fields": [
                "name", 
                "desc"
            ]
        }
    }
}

4 bool query的使用

bool query, 顾名思义, 就是 真假/有无 查询. 包括4个子查询:

① must - 必须匹配, 类似于SQL中的 = ;
② must_not - 必须不匹配, 类似于SQL中的 != ;
③ should - 不强制匹配, 类似于SQL中的 or ;
④ filter - 过滤, 将满足一定条件的文档筛选出来.

除filter之外, 每个子查询都会根据自己的条件计算出每个文档的相关度分数, 然后bool综合所有分数, 合并为一个.

4.1 简单功能示例

GET shop/_search
{
    "query": {
        "bool": {
            "must":[ 
                { "match": { "name": "Java" } }
            ], 
            "must_not": [
                { "match": { "desc": "编程" } }
            ], 
            "should": [
                { "match": { "publisher": "机械工业" } }
            ], 
            "filter": {
                "bool": { 
                    "must": [
                        { "range": { "date": { "gte": "2010-01-01" }}},
                        { "range": { "price": { "lte": 99.00 }}}
                    ]
                }
            }
    }
}

}

4.2 嵌套使用bool query

GET shop/_search
{
    "query": {
        "bool": {
            "should": [
                { "term": { "name.keyword": "Java编程思想" } },
                {
                    "bool": {
                        "must": [
                            { "term": { "product_desc": "刷头" } }
                        ]
                    }
                }
            ]
        }
    }
}

4.3 直接filter操作 - 使用constant_score

如果不指定query条件而直接filter, 将抛出no [query] registered for [filter], 此时通过constant_score即可实现直接filter.

GET shop/_search 
{
    "query": {
        "constant_score": {
            "filter": {
                "range": { "price": { "gte": 80 } }
            }
        }
    }
}

4.4 指定should的匹配个数 - minimum_should_match

如果组合查询中没有must, 就会至少匹配一个should.

可以通过 minimum_should_match 指定匹配的should的个数.

GET shop/_search
{
    "query": {
        "bool": {
            "should": [
                { "match": { "name": "java" } }, 
                { "match": { "desc": "编程"} }, 
                { "match": { "price": 109 } }
            ], 
            "minimum_should_match": 2
        }
    }
}

5 term query的使用

5.1 不分词查询 - term query

term query: 把查询串当作一个整体来执行查询, 即不会对查询串分词.

term是完全匹配查询, 要用在不分词的字段上, 如果某个field在映射中被分词了, term查询将不起作用.
所以, 不分词的field, 要在mapping中设置为不分词.

—— ES 5.x之后, 为每个text类型的字段新增了名为keyword的子字段, 是不分词的, 默认保留256个字符.

—— 可以使用keyword字段进行term查询. 示例:

GET shop/_search
{
    "query": {
        "term": {
            "name.keyword": "Java编程思想"
        }
    }
}

5.2 in查询 - terms query

terms, 相当于多个term查询, 类似于SQL中in关键字的用法, 即在某些给定的数据中查询:

GET shop/_search
{
    "query": {
        "terms": {
            "name.keyword": [
                "Java编程思想", "Java并发编程的艺术"
            ]
        }
    }
}

参考资料

Elasticsearch DSL 常用语法介绍

版权声明

作者: 马瘦风(https://healchow.com)

出处: 博客园 马瘦风的博客(https://www.cnblogs.com/shoufeng)

感谢阅读, 如果文章有帮助或启发到你, 点个[

你可能感兴趣的:(elasticsearch,springboot,elasticsearch,java)