(1378条消息) Elasticsearch教程(19) 详解mapping之keyword_亚瑟弹琴的博客-CSDN博客_elasticsearch keywordhttps://blog.csdn.net/winterking3/article/details/108254346
ES的keyword类型家族有3种:
其中第1个keyword类型是最常用的类型,后面2个类型出现的比较晚,使用的场景也比较少。
keyword类型通常存储结构化数据,对keyword类型不能进行match查询,适合用keyword的例子:
场景 | 值 |
---|---|
订单状态 | 1:未付款;2:已付款;3:申请退款;4:已退款 |
HTTP状态码 | 200,400,500,404 |
ID/手机号/邮箱/性别 | 对手机号没必要分词,也不需要数学计算,所以也不能设为数字类型 |
用户画像标签 | 学生,IT男,腐女,宝妈 |
(1)创建一个文档
PUT /pigg_user/_doc/1
{
"name": "冬哥",
"age": 32
}
(2)查询name="冬哥"的数据,用term在name字段上查询,是查询不到文档的
这条语句是查询不到的
GET /pigg_user/_search
{
"query": {
"term": {
"name": "冬哥"
}
}
}
(3)查看文档的mapping
要想探知没有搜到的原因,得先看排查文档的mapping,发现name是text类型,其下面有一个keyword子类型。
GET /pigg_user/_mapping
#返回如下
{
"pigg_user" : {
"mappings" : {
"properties" : {
"age" : {
"type" : "long"
},
"name" : {
"type" : "text",
"fields" : {
"keyword" : { #这行的keyword是字段名,全称是name.keyword
"type" : "keyword", #这行的keyword是指类型
"ignore_above" : 256 #这里的ignore_above下面会讲
}
}
}
}
}
}
}
(4)分析原因
如果不设置mapping,ES默认把字符串设为text类型,并包含一个keyword子类型。
name是text类型,“冬哥”这个词已经被拆成“冬”和“哥”这2个词。
所以上面用term来匹配“冬哥”时,查询不到数据。
简单理解:
#根据name匹配“冬”,可以查询到文档
GET /pigg_user/_search
{
"query": {
"term": {
"name": "冬"
}
}
}
#根据name.keyword匹配"冬哥",可以查询到文档
GET /pigg_user/_search
{
"query": {
"term": {
"name.keyword": "冬哥"
}
}
}
#根据name.keyword匹配"冬",查询不到文档
GET /pigg_user/_search
{
"query": {
"term": {
"name.keyword": "冬"
}
}
}
#先删除之前创建的index
DELETE pigg_user
#设置name为keyword,age为short。
PUT pigg_user
{
"mappings": {
"properties": {
"name": {
"type": "keyword"
},
"age": {
"type": "short"
}
}
}
}
#新增一个文档
PUT /pigg_user/_doc/1
{
"name": "冬哥",
"age": 32
}
#根据name精确匹配,可以查到数据
GET /pigg_user/_search
{
"query": {
"term": {
"name": "冬哥"
}
}
}
constant_keyword 是 keyword 字段的特例,用于索引中所有文档具有相同值的情况。
PUT logs-debug
{
"mappings": {
"properties": {
"@timestamp": {
"type": "date"
},
"message": {
"type": "text"
},
"level": {
"type": "constant_keyword", #指明level这个字段是constant_keyword类型
"value": "debug" #且所有文档的level字段的值都是debug
}
}
}
}
constant_keyword 支持与 keyword 字段相同的查询和聚合,而且constant_keyword的效率更高,因为ES利用所有文档的的某个constant_keyword字段的值必须相同的这一事实,进行了针对性优化。
允许提交没有字段值或值等于映射中配置的值的文档。 以下两个索引请求是等效的:
POST logs-debug/_doc
{
"date": "2019-12-12",
"message": "Starting up Elasticsearch",
"level": "debug"
}
POST logs-debug/_doc
{
"date": "2019-12-12",
"message": "Starting up Elasticsearch"
}
如果把level设置成非debug的值,比如error,则会返回错误
POST logs-debug/_doc
{
"date": "2019-12-12",
"message": "Starting up Elasticsearch",
"level": "error"
}
返回如下错误提示:
"caused_by" : {
"type" : "illegal_argument_exception",
"reason" : "[constant_keyword] field [level] only accepts values that are equal to the value defined in the mappings [debug], but got [error]"
}
constant_keyword类型使用的场景确实非常少见,所以用的很少。
当你要在某个非结构化数据上进行wildcard或regexp查询的时候,wildcard类型就比较合适了。这种非结构化数据的内容一般是机器产生的(machine-generated),它们的可阅读比较低,不适合我们人阅读,比如日志message或者HTTP的请求体。
PUT my-index-000001
{
"mappings": {
"properties": {
"my_wildcard": {
"type": "wildcard"
}
}
}
}
PUT my-index-000001/_doc/1
{
"my_wildcard" : "This string can be quite lengthy"
}
GET my-index-000001/_search
{
"query": {
"wildcard": {
"my_wildcard": {
"value": "*quite*lengthy"
}
}
}