记得小时候去北京时,关于北京城的地图还卖两块钱一份,得益于科技的进步,现在我们总是可以知道自己的准确位置,比如距离自己 5 km 内的餐馆,距离自己最近的酒店等等。
es 中不仅提供了地理位置的功能,还可以将地理位置、全文搜索、结构化搜索和分析结合到一起。
es提供了 两种表示地理位置的方式:
(1)用纬度-经度表示的坐标点使用 geo_point
字段类型。
(2) 以 GeoJSON 格式定义的复杂地理形状,使用 geo_shape
字段类型。
当然两种方式有着不同的作用,geo_point
计算距离某个坐标点一定距离的所有坐标点,并根据坐标点之间的距离进行打分、或者聚合到显示在地图上的一个网络; 而 geo_shape
完全是用来过滤的。他可以判断两个地理形状是否有重合,或者一个地理形状是否包含另一个地理形状。
1. 经纬度坐标表示
注意,地理坐标点不能被自动映射,必须手动指定该字段的类型为 geo_point
,比如下列:
PUT /attractions
{
"mappings": {
"restaurant": {
"properties": {
"name": {
"type": "string"
},
"location": {
"type": "geo_point"
}
}
}
}
}
mapping定义完成之后,就可以索引包含位置信息的文档了,经纬度信息的形式可以使字符串、数组或者对象。
PUT /attractions/restaurant/1
{
"name": "Chipotle Mexican Grill",
"location": "40.715, -74.011" // lat, lon
}
PUT /attractions/restaurant/2
{
"name": "Pala Pizza",
"location": {
"lat": 40.722,
"lon": -73.989
}
}
PUT /attractions/restaurant/3
{
"name": "Mini Munchies Pizza",
"location": [ -73.983, 40.719 ] // lon, lat
}
注意: 使用字符串进行表示地理位置时是经度在前,纬度在后,但是是数组表示时,却正好相反,唯独在前,经度在后。在es内部,无论是什么形式,都是按照经度在前,纬度在后进行保存的。
2. 地理坐标点过滤
有四种地理坐标点相关的过滤器可以用来选中或者排除文档:
(1)geo_bounding_box
: 找出落在矩形框中的点
该过滤器是目前为止最有效的过滤器,使用简单,只需要指定矩形的顶部,底部和左右边界勾勒出一个矩形,就可以寻找在该矩形内的所有文档,使用方式如下:
GET /attractions/restaurant/_search
{
"query": {
"bool": {
"filter": {
"geo_bounding_box": {
"location": { // 也可以使用 bottom_left, top_right
"top_left": {
"lat": 40.8,
"lon": -74.0
},
"bottom_right": {
"lat": 40.7,
"lon": -73.0
}
}
}
}
}
}
}
(2)geo_distance
: 找出与指定位置给定距离的点
地理距离过滤器,是指定一个圆心和半径,寻找该圆中的所有文档。两点之间的距离运算是非常耗时的,也许我们并不需要非常精确的结果,所以我们可以指定计算距离的算法,我们可以根据需要从精度和性能之间做出权衡。
1): arc
,最慢但是最精确。
2): plane
:这种方式是将地球看成是平面,所以这种方式相对于arc
快一些,但是不是很精确。
3):sloppy_arc
:使用 Haversine formula 来计算距离。它比 arc
计算方式快 4 到 5 倍,并且距离精度达 99.9%。这也是默认的计算方式。
GET /attractions/restaurant/_search
{
"query": {
"bool": {
"filter": {
"geo_distance": {
"distance": "1km",
"distance_type": "plane",
"location": {
"lat": 40.715,
"lon": -73.988
}
}
}
}
}
}
对于distance
参数,访问 Distance Units 查看所支持的距离表示单位。
(3)geo_distance_range
: 找出与指定位置给定最小距离和最大距离之间的点
地理距离区间过滤器,相比于上一个过滤器的区别,就是它是一个环,它会排除内圈中的所有文档。
GET /attractions/restaurant/_search
{
"query": {
"bool": {
"filter": {
"geo_distance_range": {
"gte": "1km",
"lt": "2km",
"location": {
"lat": 40.715,
"lon": -73.988
}
}
}
}
}
}
(4)geo_polygon
: 找出落在多边形中的点
注意:这些过滤器判断点是否落在指定区域时的计算方法稍有不同,但过程类似。指定的区域被转换成一系列以quad/geohash为前缀的tokens,并被用来在倒排索引中搜索拥有相同tokens的文档。由于需要做很多复杂的操作,所以地理过滤器的代价比较昂贵,在使用时应该尽可能使用其他代价较小的过滤器比如 bool 过滤器过滤掉更多的文档,最后再使用地理坐标过滤器进行筛选。
3. 按距离排序
搜索结果可以按照距离进行排序
GET /attractions/restaurant/_search
{
"query": {
"match_all": {}
},
"sort": [
{
"_geo_distance": {
"location": { // 计算所有文档按照该指定位置的距离
"lat": 40.715,
"lon": -73.998
},
"order": "asc",
"unit": "km", // 将距离以 km 为单位写入每个返回结果的sort键中
"distance_type": "plane"
}
}
]
}