在SpringCloud系列(十五)[分布式搜索引擎篇] - 结合实际应用场景学习并使用 RestClient 客户端 API这篇文章中我们已经对 RestClient 有了初步的了解, 并且已经将一些数据进行了存储, 但是这并不是我们学习 ElasticSearch 的目的, ElasticSearch 最擅长的还是对数据的搜索及分析, 因此本篇博客将对 ElasticSearch 的数据搜索功能进行演示.
常见查询类型:
下面所有的查询语法基本如出一辙:
GET /索引库名/_search
{
"query": {
"查询类型": {
"查询条件": "条件值"
}
}
}
GET /hotel/_search
{
"query": {
"match_all": {}
}
}
因为是查询所有的数据, 所以没有查询条件, 查询类型为 match_all, 查询所有一般用不到, 使用场景也就仅限于测试的时候使用;
全文检索查询的使用场景比较多, 我们生活中也经常使用, 如在淘宝上买鞋子买衣服等, 都是搜索某一个牌子的名称或者是物品的名称, 也就是说需要拿着词条去索引库中匹配, 因此参与搜索的字段也必须是可分词的 text 类型的字段; 通过这个例子可以得到全文检索查询的基本流程如下:
关于全文检索的查询主要包括 match / multi_match 两种, 一个是单字段查询, 一个是多字段查询, 多字段查询的意思就是任意一个字段符合条件就满足查询条件. 示例如下:
match:
GET /hotel/_search
{
"query": {
"match": {
"all":"喜来登"
}
}
}
multi_match:
GET /hotel/_search
{
"query": {
"multi_match": {
"query":"上海喜来登",
"fields": ["name","business"]
}
}
}
这里需要注意: multi_match 是根据多个字段进行查询, 参与的字段越多, 查询的效率就会越低, 因此一般使用 match 查询即可.
精准查询的使用场景也是挺多的, 如查询某个日期范围内的数据, 或者是精确查询某一个地区的数据;
term 查询:
GET /hotel/_search
{
"query": {
"term": {
"city": {
"value": "上海"
}
}
}
}
这里需要注意: 词条必须是精确的, 不能是多个词语组成的短语, 如果是北京上海, 是搜索不到结果的, 如下所示:
range 查询:
GET /hotel/_search
{
"query": {
"range": {
"price": {
"gte": "2000",
"lte":"5000"
}
}
}
}
出去游玩打车或者订酒店经常需要进行定位附近的快车及酒店, 地理坐标的查询就能实现这样的功能, 一种是根据地理坐标的经纬度进行查询, 如根据矩形范围进行查询:
GET /hotel/_search
{
"query": {
"geo_bounding_box": {
"FIELD": {
"top_left": {
"lat": 31.35786,
"lon": 121.59324
},
"bottom_right": {
"lat": 31.35493,
"lon": 121.59838
}
}
}
}
}
这里首先要确定左上角的点的坐标及右下角的点的坐标, 比较复杂, 但是有一种简单的方式, 可以根据距离进行查询, 查询到指定中心点小于某个距离值的所有数据; 也就是说以我现在的位置为中心, 距离我某个距离的圆弧内都符合条件, 如下所示:
GET /hotel/_search
{
"query": {
"geo_distance": {
"distance": "5km",
"location": "39.94076,116.46099"
}
}
}
这里我查询的是以三里屯为中心点, 距离三里屯 5 km 所有的数据:
复合查询可以将其简单的查询组合起来, 实现更加复杂的搜索逻辑, 主要有以下两种:
当我们使用 match 进行查询时, 文档结果会根据与搜索词条的关联度进行打分, 返回的结果也会按照分值的降序进行排序; ElasticSearch 早起使用的打分算法是 TF-IDF 算法, 关于算法的公式如下:
但是 TF-IDF 算法有一个缺陷: 当词条的频率越来越高的时候, 文档的得分也会越来越高, 单个词条对文档的影响较大. 针对这样的问题, ElasticSearch 将打分算法改进为 BM25, BM25 会让单个词条的算分有一个上限, 曲线更加的平滑.公式如下:
GET /hotel/_search
{
"query": {
"function_score": {
"query": {
"match": {
"all": "北京"
}
},
"functions": [
{
"filter": {
"term": {
"id": "1"
}
},
"weight": 10
}
],
"boost_mode": "multiply"
}
}
}
如图所示, 可以看得出分数值是降序的, 具体的语法说明如下:
具体流程如下:
例如: 给北京的喜来登排名靠前, 如下:
原始查询, 得分为 2.6944847;
添加算分函数后, 得分为 4.6944847, 如下:
布尔查询的使用场景还是挺多的, 如上图在淘宝上搜索 阿迪达斯, 我们可以进行选择筛选, 可以根据鞋码 / 性别等; 因为每一个字段都是不同的, 查询的条件或者方式也不一样, 因此肯定是多个不同的查询, 那么要组合这些查询就用到了布尔查询;
总之, 布尔查询也是一个或者多个字句的组合, 每一个字句都是一个子查询, 组合方式有:
例子:
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{"term": {"city": "北京"}}
],
"should": [
{"term": {"brand":"希尔顿"}},
{"term": {"brand":"喜来登"}}
],
"must_not": [
{"range": {"price": {"lte": 1200} }}
],
"filter": [
{"range": {
"score": {
"gte": 47
}
}},
{"geo_distance": {
"distance": "50km",
"location": {
"lat": 39.91979,
"lon": 116.41804
}
}}
]
}
}
}
代码解读:
这里需要注意的是: 搜索过程中, 参与打字的字段越多, 查询的性能就会越差劲, 因此多条件查询时, 需要注意以下两点: