match_all
下面我们以一个基本的查询语句来举例,比如,我们需要查询索引库 hotel
全部内容,使用的DSL语句如下:
GET /hotel/_search
{
"query": {
"match_all": {}
}
}
全文检索常用的有两个查询函数,分别是 match
以及 multi_match
。
match
函数会对用户输入内容分词,然后去倒排索引库检索,语法如下:GET /indexName/_search
{
"query": {
"match": {
"FIELD": "TEXT"
}
}
}
比如搜索 hotel
索引库中的 name
字段,如下:GET /hotel/_search
{
"query": {
"match": {
"name": "酒店"
}
}
}
multi_match
函数与 match
类似,不过允许查询多个字段,语法如下:GET /indexName/_search
{
"query": {
"multi_match": {
"query": "TEXT",
"fields": ["FIELD1", " FIELD2"]
}
}
}
比如搜索 hotel
索引库中的 name
字段,如下:GET /hotel/_search
{
"query": {
"multi_match": {
"query": "如家",
"fields": ["name", " brand"]
}
}
}
精确查询的语句函数主要有 term
语句和 range
语句,精确查询必须要查询的内容与字段里面的所有内容完全匹配才行,一般的查询是keyword、数值、日期、boolean等类型字段。
term
的语法如下:GET /indexName/_search
{
"query": {
"term": {
"FIELD": {
"value": "VALUE"
}
}
}
}
range
查询的语法如下:GET /indexName/_search
{
"query": {
"range": {
"FIELD": {
"gte": 10,
"lte": 20
}
}
}
}
其中 gt
是大于,lt
是小于,gte
是大于等于,lte
是小于等于。地理查询主要是根据经纬度来进行查询的,主要使用的函数有 geo_bounding_box
和 geo_distance
。
geo_bounding_box
函数的语法如下:GET /indexName/_search
{
"query": {
"geo_bounding_box": {
"FIELD": {
"top_left": {
"lat": 31.1,
"lon": 121.5
},
"bottom_right": {
"lat": 30.9,
"lon": 121.7
}
}
}
}
}
该函数能够将在一个矩阵框中的经纬度全部筛选出来,该矩阵的左上角的点以及右下角的点如上述定义所示,根据这两个点已经就能够定义一个矩形了,。geo_distance
函数的语法如下:GET /indexName/_search
{
"query": {
"geo_distance": {
"distance": "15km",
"FIELD": "31.21,121.5"
}
}
}
该函数是筛选距离定义经纬度点指定距离内的所有点,这个距离指的是距定义点方圆的距离。在使用关键词等进行查询的时候,会有一个 _score
属性,这就是每条数据与查询关键词的相关性分数,该分数在ElasticSearch5.0之前是使用的 TF-IDF
算法进行的评分,ElasticSearch5.0之后是使用的 BM25
算法进行评分。
我们可以使用 function score query
,修改文档的相关性算分(query score),根据新得到的算分排序。修改算分的示例语句如下:
GET /hotel/_search
{
"query": {
"function_score": {
"query": { "match": {"all": "外滩"} },
"functions": [
{
"filter": {"term": {"id": "1"}},
"weight": 10
}
],
"boost_mode": "multiply"
}
}
}
在上面的例句中,
query
是正常的查询语句filter
表示过滤条件,符合条件的文档才会被重新算分weight
是指算分函数,算分函数的结果称为 function score
,将来会与原始的 query score
运算,得到新算分,常见的算分函数有:
boost_mode
定义function score与query score的运算方式,常见的加权方式如下:
布尔查询时一个或多个查询的字句,子查询的组合方式有:
示例如下:
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{"term": {"city": "上海" }}
],
"should": [
{"term": {"brand": "皇冠假日" }},
{"term": {"brand": "华美达" }}
],
"must_not": [
{ "range": { "price": { "lte": 500 } }}
],
"filter": [
{ "range": {"score": { "gte": 45 } }}
]
}
}
}
elasticsearch支持对搜索结果排序,默认是根据相关度算分(_score
)来排序。可以排序字段类型有:keyword类型、数值类型、地理坐标类型、日期类型等。
GET /indexName/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"FIELD": "desc" // 排序字段和排序方式ASC、DESC
}
]
}
以上就是指定字段的排序, ASC
代表升序,DASC
代表降序,如果有多个排序字段,那么按照从上到下的优先级进行排序。
举个例子,如果我们想要按照某一个经纬度的距离进行排序,那么模板如下:
GET /indexName/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"_geo_distance" : {
"FIELD" : "纬度,经度",
"order" : "asc",
"unit" : "km"
}
}
]
}
ElasticSearch查询时默认只显示10条数据,那如果我们想要看到其他的数据怎么办呢?这就涉及到了分页。ElasticSearch分页的方式有很多种,这里讲一下使用 from, size
参数以及 search after
来进行分页。
使用 from, size
两个参数进行分页。可以在搜索时规定这两个参数的值, from
表示从何处开始进行查看,默认是 0 0 0 ,size
表示每次查询的信息有多少条。比如每也10条数据,我们想要查看第二页的数据,那么就需要设置 from: 10,size:10
,格式如下:
GET /hotel/_search
{
"query": {
"match_all": {}
},
"from": 990, // 分页开始的位置,默认为0
"size": 10, // 期望获取的文档总数
"sort": [
{"price": "asc"}
]
}
但是,这种方式要求 from+size
不大于 10000 10000 10000 ,且该方式是先查询所有的数据,然后再对数据进行截取,不可避免的,该方式会面临深度分页问题,即我们的ElasticSearch肯定是要有集群的,当我们需要取出前 1000 1000 1000 个结果时,需要整理每个集群中的结果,再重新排序,再选出前 1000 1000 1000 个,但是,如果结果集很大,这对内存以及CPU的消耗就很大。
使用 search after
进行分页。针对深度分页,ElasticSearch提供了 search after
方法,该方法没有查询上限,只限制了单次的 size
不超过 10000 10000 10000 。 search after
方法分页时需要排序,原理是从上一次的排序值开始,查询下一页数据。
例如,我们查询到了第一页的数据,最后一条数据如下:
我们将最后一条数据的 sort
字段复制到 search_after
中,再规定一个 size
属性,就能够在该条数据之后再显示 size
条数据,语法模板如下:
GET /hotel/_search
{
"query": {
"match_all": {}
},
"search_after": [
161
],
"size": 10,
"sort": [
{"price": "asc"}
]
}
在使用搜索引擎进行搜索时,我们发现我们输入的关键词显示都是用了高亮进行显示,这就是搜索结果的高亮。其实,这种高亮的显示是在搜索结果中将关键字用标签进行标注出来,再到页面中进行CSS的渲染。默认在进行高亮查询时会在高亮字段前后添加 em
标签,如果想添加其他标签可以进行更改,语法模板如下:
GET /hotel/_search
{
"query": {
"match": {
"FIELD": "TEXT"
}
},
"highlight": {
"fields": { // 指定要高亮的字段,可以添加多个字段
"FIELD": {
"pre_tags": "", // 用来标记高亮字段的前置标签,默认就是em标签,所以可以不写
"post_tags": "" // 用来标记高亮字段的后置标签
}
}
}
}
这里我们对酒店数据进行查询的例子如下:
GET /hotel/_search
{
"query": {
"match": {
"all": "如家"
}
},
"highlight": {
"fields": {
"name": {
"require_field_match": "false"
}
}
}
}
在上面的搜索中, all
字段是 name, brand
等字段 copy_to
后的属性,而下面高亮显示的属性是 name
属性,这就导致了查询的属性与高亮显示的属性不一致的情况,这种情况默认是不会进行高亮显示的,需要查询的属性与高亮显示的属性一致才进行高亮显示。但是我们就可以设置 require_field_match
属性为 false
控制高亮显示与查询字段和高亮显示的字段无关。
查询全部的代码如下所示,
@Test
void testMatchAll() throws IOException {
//1.准备Request对象
SearchRequest request = new SearchRequest("hotel");
//2.准备DSL
request.source().query(QueryBuilders.matchAllQuery());
//3.发送请求
SearchResponse response = restHighLevelClient.search(request, RequestOptions.DEFAULT);
//4.解析响应
SearchHits searchHits = response.getHits();
//5.1 获取总条数
long total = searchHits.getTotalHits().value;
System.out.println("共有" + total + "条数据");
//5.2 文档数组存储文档
SearchHit[] hits = searchHits.getHits();
for(SearchHit hit: hits){
//6.获取文档source
String json = hit.getSourceAsString();
//7.反序列化
HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
System.out.println(hotelDoc);
}
System.out.println(response);
}
其实其他查询语句与上述查询全部的语句中大部分代码是类似的,唯一变化的是 request.source().query()
中 query
的参数。
// 分别是字段名和查询的语句
request.source().query(QueryBuilders.matchQuery("all", "如家"));
// 分别是查询词以及查询字段
request.source().query(QueryBuilders.matchQuery("如家", "name", "brand"));
// 分别是查询字段以及查询词
request.source().query(QueryBuilders.termQuery("city", "成都"));
// 分别是查询词以及查询条件
request.source().query(QueryBuilders.rangeQuery("price").gte(100).lte(300));
// 构建布尔查询
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
// must语句
boolQuery.must(QueryBuilders.termQuery("city", "成都"));
//filter语句
boolQuery.filter(QueryBuilders.rangeQuery("price").gte(100).lte(300))
request.source().query(boolQuery);
排序与分页的代码也仅需要在 request.source().query()
上进行修改即可,修改示例如下:
request.source().query(QueryBuilders.termQuery("city", "成都"));
// 排序
request.source().sort("price", SortOrder.ASC);
//分页
request.source().from(0).size(10);
高亮显示仅需要在查询的内容后面添加一行代码即可,如下:
// 设置高亮显示并关闭查询字段与高亮字段一致
request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));
但是,设置了高亮后输出发现并不是高亮的内容,需要高亮的内容前后没有标签,这是怎么回事呢?
回顾上面可以发现,高亮的内容与 _source
内容是分开的,是重新的一个字段,于是,我们需要用高亮的字段覆盖原来的字段,那么循环里面的代码如下:
for(SearchHit hit: hits){
//6.获取文档source
String json = hit.getSourceAsString();
//7.反序列化
HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
//获取高亮结果
Map<String, HighlightField> highlightFieldMap = hit.getHighlightFields();
//简洁判断,判断highlightFieldMap是否为空或者size==0
if(!CollectionUtils.isEmpty(highlightFieldMap)){
//获取highlight属性中的name属性
HighlightField highlightField = highlightFieldMap.get("name");
if(highlightField != null){
//得到name属性的第一个值的字符串
String name = highlightField.getFragments()[0].string();
//覆盖原本的值
hotelDoc.setName(name);
}
}
System.out.println(hotelDoc);
}