elasticsearch的查询依然是基于JSON风格的DSL来实现的。
Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。常见的查询类型包括:
查询所有:查询出所有数据,一般测试用。例如:match_all
全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
地理(geo)查询:根据经纬度查询。例如:
复合(compound)查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
GET /indexName/_search
{
"query": {
"查询类型": {
"查询条件": "条件值"
}
}
}
// 查询所有
GET /indexName/_search
{
"query": {
"match_all": {
}
}
}
全文检索查询的基本流程如下:
常见的全文检索查询包括:
match查询语法如下:
GET /indexName/_search
{
"query": {
"match": {
"FIELD": "TEXT"
}
}
}
mulit_match语法如下:
GET /indexName/_search
{
"query": {
"multi_match": {
"query": "TEXT",
"fields": ["FIELD1", " FIELD12"]
}
}
}
#match查询
{
"query": {
"match": {
"all": "外滩"
}
}
}
#mylti_match查询
GET /hotel/_search
{
"query": {
"multi_match": {
"query": "外滩如家",
"fields": ["brand","name","business"]
}
}
}
以上两种查询结果是一样的。
因为我们将brand、name、business值都利用copy_to复制到了all字段中。因此你根据三个字段搜索,和根据all字段搜索效果当然一样了。
但是,搜索字段越多,对查询性能影响越大,因此建议采用copy_to,然后单字段查询的方式。
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有:
因为精确查询的字段是不分词的字段,因此查询的条件也必须是不分词的词条。查询时,用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多,反而搜索不到数据。
# term 精确查询
GET /indexName/_search
{
"query": {
"term": {
"FIELD": {
"value": "VALUE"
}
}
}
}
# term精确查询
GET /hotel/_search
{
"query": {
"term": {
"city": {
"value": "上海"
}
}
}
}
# range精确查询
GET /indexName/_search
{
"query": {
"range": {
"FIELD": {
"gte": 10, # 这里的gte代表大于等于,gt则代表大于
"lte": 20 # lte代表小于等于,lt则代表小于
}
}
}
}
# range精确查询
GET /hotel/_search
{
"query": {
"range": {
"price": {
"gte": 1000,
"lte": 3000
}
}
}
}
所谓的地理坐标查询,其实就是根据经纬度查询,官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
查询时,需要指定矩形的左上、右下两个点的坐标,然后画出一个矩形,落在该矩形内的都是符合条件的点。
# geo_bounding_box查询
GET /indexName/_search
{
"query": {
"geo_bounding_box": {
"FIELD": {
"top_left": { #左上点
"lat": 31.1,
"lon": 121.5
},
"bottom_right": { #右下点
"lat": 30.9,
"lon": 121.7
}
}
}
}
}
附近查询,也叫做距离查询(geo_distance):查询到指定中心点小于某个距离值的所有文档。
在地图上找一个点作为圆心,以指定距离为半径,画一个圆,落在圆内的坐标都算符合条件:
# geo_distance 查询
GET /indexName/_search
{
"query": {
"geo_distance": {
"distance": "15km", # 半径
"FIELD": "31.21,121.5" # 圆心
}
}
}
# geo_distance 附近查询
GET /hotel/_search
{
"query": {
"geo_distance":{
"distance":"15km",
"location":"31.21,121.5"
}
}
}
复合(compound)查询:复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。常见的有两种:
当我们利用match查询时,文档结果会根据与搜索词条的关联度打分(_score),返回结果时按照分值降序排列。
TF-IDF算法有一各缺陷,就是词条频率越高,文档得分也会越高,单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限。
后来的5.1版本升级中,elasticsearch将算法改进为BM25算法,公式如下:
人为控制相关性算分,就需要利用elasticsearch中的function score 查询了。
function score 查询中包含四部分内容:
需求:给“如家”这个品牌的酒店排名靠前一些
翻译一下这个需求,转换为之前说的四个要点:
因此最终的DSL语句如下:
#function score查询
GET /hotel/_search
{
"query": {
"function_score": {
"query": { # 原始查询,可以是任意条件
"match": {
"all": "外滩"
}
},
"functions": [ # 算分函数
{
"filter": { # 满足的条件,品牌必须是如家
"term": {
"brand": "如家" # "如家"
}
},
"weight": 10 # 算分权重
}
],
"boost_mode": "sum" # 加权模式,求和
}
}
}
function score query定义的三要素是什么?
布尔查询是一个或多个查询子句的组合,每一个子句就是一个子查询。子查询的组合方式有:
需要注意的是,搜索时,参与打分的字段越多,查询的性能也越差。因此这种多条件查询时,建议这样做:
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{
"term": {
"city": "上海"
}
}
],
"should": [
{
"term": {
"brand": "华美达"
}
},
{
"term": {
"brand": "皇冠假日"
}
}
],
"must_not": [
{
"range": {
"price": {
"lte": 500
}
}
}
],
"filter": [
{
"range": {
"price": {
"gte": 45
}
}
}
]
}
}
}
需求:搜索名字包含“如家”,价格不高于400,在坐标31.21,121.5周围10km范围内的酒店。
分析:
# bool 查询
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{"match": {
"name": "如家"
}}
],
"must_not": [
{"range": {
"price": {
"gt": 400
}
}}
],
"filter": [
{"geo_distance": {
"distance": "10km",
"location": {
"lat": 31.21,
"lon": 121.5
}
}}
]
}
}
}
bool查询有几种逻辑关系?