Elasticsearch 支持如下简单域类型:
string
byte
, short
, integer
, long
float
, double
boolean
date
很有可能,我们希望 tag
域包含多个标签。我们可以以数组(List)的形式索引标签:
{ "tag": [ "search", "nosql" ]}
Java表示
List tags;
对于数组,没有特殊的映射需求。就像普通字段一样分析得到多个词条。
这暗示 数组中所有的值必须是相同数据类型的 。你不能将日期和字符串混在一起
我们讨论的最后一个 JSON 原生数据类是 对象 , 或者理解成HashMap。
内部对象 经常用于嵌入一个实体或对象到其它对象中。例如,与其在 tweet
文档中包含 user_name
和 user_id
域,我们也可以这样写:
{
"tweet": "Elasticsearch is very flexible",
"user": {
"id": "@johnsmith",
"gender": "male",
"age": 26,
"name": {
"full": "John Smith",
"first": "John",
"last": "Smith"
}
}
}
ES会将这种多层级对象进行扁平化处理
Lucene 不理解内部对象。 Lucene 文档是由一组键值对列表组成的。为了能让 Elasticsearch 有效地索引内部类,它把我们的文档转化成这样:
{
"tweet": [elasticsearch, flexible, very],
"user.id": [@johnsmith],
"user.gender": [male],
"user.age": [26],
"user.name.full": [john, smith],
"user.name.first": [john],
"user.name.last": [smith]
}
内部字段可以通过名称引用(例如, first
)。为了区分同名的两个字段,我们可以使用全 路径 (例如, user.name.first
) 或 type
名加路径( tweet.user.name.first
)。
在前面简单扁平的文档中,没有 user
和 user.name
字段。Lucene 索引只有标量和简单值,没有复杂数据结构。
字段声明成"geo_point", 我们就可以索引包含了经纬度信息的文档了。经纬度信息的形式可以是字符串、数组或者对象:
{
"name": "Chipotle Mexican Grill",
"location": "40.715, -74.011"
}
PUT /attractions/restaurant/2
{
"name": "Pala Pizza",
"location": {
"lat": 40.722,
"lon": -73.989
}
}
PUT /attractions/restaurant/3
{
"name": "Mini Munchies Pizza",
"location": [ -73.983, 40.719 ]
}
Java中主需要带上注解 @GeoPointField 或 @GeoPoint注解即可(根据你的版本定), 对象可以选择字符串, 经纬度逗号分隔,
注意:
可能所有人都至少一次踩过这个坑:地理坐标点用字符串形式表示时是纬度在前,经度在后( "latitude,longitude"
),而数组形式表示时是经度在前,纬度在后( [longitude,latitude]
)—顺序刚好相反。
其实,在 Elasticesearch 内部,不管字符串形式还是数组形式,都是经度在前,纬度在后。不过早期为了适配 GeoJSON 的格式规范,调整了数组形式的表示方式。
因此,在使用地理位置的路上就出现了这么一个“捕熊器”,专坑那些不了解这个陷阱的使用者。
所以我建议使用官方推荐的对象: GeoPoint
@GeoPointField
private GeoPoint location;
当你首次创建一个索引的时候,可以指定类型的映射。你也可以使用 /_mapping
为新类型(或者为存在的类型更新映射)增加映射。
尽管你可以 增加 一个存在的映射,你不能修改 存在的域映射。如果一个域的映射已经存在,那么该域的数据可能已经被索引。如果你意图修改这个域的映射,索引的数据可能会出错,不能被正常的搜索。
我们可以更新一个映射来添加一个新域,但不能将一个存在的域从 analyzed
改为 not_analyzed
。
为了描述指定映射的两种方式,我们先删除 gd
索引: