Elasticsearch之Mapping设置详解

Elasticsearch之Mapping详解

  • 什么是Mapping?
    • 字段的数据类型
  • Dynamic Mapping
    • ES类型自动识别机制
    • 更新mapping
  • 定义Mapping
    • 1.控制字段是否被索引
    • 2.索引配置
    • 3.Null Value
    • 4.copy to
    • 5.数组


什么是Mapping?

Mapping类似于数据库中的表定义,主要有以下几个作用:

  1. 定义索引中字段的名称
  2. 定义字段的数据类型,例如:字符串、数字…
  3. 倒排索引的相关配置,是否分词,字段分词器选择等

Mapping设置会把JSON文档映射成Lucence所需要的扁平格式。

es7.0开始,一个索引只能有一个type,所以就可以说Mapping属于索引的type,每个文档都属于一个Type,每个Type都有一个Mapping。听起来好像很难理解,我们接着看。

字段的数据类型

简单类型

  • Text / Keyword
  • Date
  • Integer / Floating
  • Boolean
  • IPv4 & IPv6

复杂类型:对象类型、嵌套类型
特殊类型:geo_point 、geo_shape、percolator等

ES中的字段类型详解.

Dynamic Mapping

什么是Dynamic Mapping? 它主要有以下几个作用:

  • 在写入文档的时候,有可能当前文档的索引并不存在,就会为我们自动创建索引
  • DynamicMapping使得我们无需手动定义Mapping字段信息,ES根据文档的信息来推断出文档的类型。
  • ES推算的字段类型并不完全准确。
  • 当类型设置的不对时,有些功能无法正常运行,比如聚合、分词、范围查询等等。

ES类型自动识别机制

JSON类型 ES类型
字符串 匹配日期,设置为Date。匹配数字,设置为float或者long(默认关闭)。会为字符串类型设置为Text,并增加keyword子字段。
布尔值 boolean
浮点数 float
整数 long
对象 Object
数组 有第一个非空数值的类型所决定
忽略

例子:我们新创建一个索引,不指定mapping,写入一个文档,查看ES为我们自动生成的mapping。
查看mapping:get index/_mapping

put index
put index/_doc/1
{
  "firstName":"程",
  "lastName":"大帅",
  "date":"2021-12-01T00:00:00.000Z",
  "age":18,
  "isvid":true
}
-------------------------------------
{
  "index" : {
    "mappings" : {
      "properties" : {
        "age" : {
          "type" : "long"
        },
        "date" : {
          "type" : "date"
        },
        "firstName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "isvid" : {
          "type" : "boolean"
        },
        "lastName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

可以看到时间格式的字段,es为我们转成了date类型,age转成了数字,字符串为我们设置了text字段和子类型keyword,布尔值自动映射为boolean类型。

更新mapping

上述示例我们可以看到,新建一个索引并插入文档后,ES会自动帮我们生成一个mapping,有时候自动生成的mapping字段格式并不是我们想要的,那么能否对mapping设置进行修改呢?

两种情况:

  1. 对已有字段来说,一旦字段中有数据写入,就不再支持修改字段定义。因为ES的搜索基于Lucene,倒排索引一旦生成之后,就不允许被修改
  2. 如果希望改变已有数据的字段类型,必须重建索引 Reindex
  3. 对于新增加的字段,有几种情况。
    • Dynamic设置为true时,如果有新增字段的文档写入,Mapping会更新,相应的对新增字段定义类型。
    • Dynamic设置为false,Mapping不会被更新,并且新增字段的数据无法被索引,但是,信息会出现在_source中。
    • Dynamic设置为Strict,文档会写入失败!

ES之所以有上述规则,是因为如果字段的数据类型能够被随意更改,那么就会导致倒排索引的紊乱,影响到搜索,甚至无法被搜索。
但是如果时新增加的字段,相应的字段数据并不存在,则不会有这样的影响

我们可以在创建索引的时候指定Dynamic

PUT index
{
  "mappings":{
    "dynamic":"false"
  }
}

也可以对索引mapping的dynamic属性进行修改

PUT index/_doc/_mapping?include_type_name=true
{
  "dynamic":"false"
}

Dynamic有三个值可以设置:true、false、strict
设置为true时:文档可索引、字段可索引、mapping允许被更新。
设置为false时:文档可索引、字段不可索引、mapping不允许被更新。
设置为true时:文档不可索引、字段不可索引、mapping不允许被更新。

定义Mapping

其实对于实际开发过程中,我们有一些小诀窍来减少创建mapping的工作量。

  1. 可以先创建一个临时的index,写入一些JSON格式的样本数据。
  2. 通过get index/_mapping来获取到临时index的mapping定义
  3. 基于DynamicMapping自动生成的定义来做一些修改,使用此配置来重建新的索引。

1.控制字段是否被索引

在我们设定一个mapping文件的时候,可以显示的指定某些字段不被可以被搜索。

比如我设置了firstname字段的index为false

PUT index/_doc/_mapping?include_type_name=true
{
    "dynamic":"false",
    "properties":{
        "age":{
            "type":"long"
        },
        "date":{
            "type":"date"
        },
        "firstName":{
            "type":"text",
            "index":false
        },
        "isvid":{
            "type":"boolean"
        },
        "lastName":{
            "type":"text"
        }
    }
}
---------------------------------------
get index/_search
{
  "query":{
    "match":{
      "firstName":"程"
    }
  }
}


"status" : 400
failed to create query: Cannot search on field [firstName] since it is not indexed.

当我们对设置了"index":false的字段进行搜索的时候,直接报错400。

2.索引配置

索引配置(Index Options):可以控制倒排索引记录的内容。记录的内容越多,所占用的存储空间就越大。不同的索引配置也可以达到性能优化的目的

  • docs - 记录doc id
  • freqs - 记录doc id +(term出现频率)term frequencies
  • positions (默认) - 记录 doc id +(term出现频率)term frequencies + (term所在语句位置)term position
  • offsets - 记录 doc id +(term出现频率)term frequencies + (term所在语句位置)term position + (词条所在的偏移量)character offsets

示例:

PUT index/_doc/_mapping?include_type_name=true
{
    "dynamic":"false",
    "properties":{
        "age":{
            "type":"long"
        },
        "date":{
            "type":"date"
        },
        "firstName":{
            "type":"text",
            "index":false
        },
        "isvid":{
            "type":"boolean"
        },
        "lastName":{
            "type":"text"
            "index_options":"offsets"
        }
    }
}

3.Null Value

有时候我们插入的文档,某些字段是null,但是需求需要对其进行搜索,那么我们就可以给字段指定"null_value:"xxx"",搜索时让字段匹配xxx即可搜索到null值。
注意:只有keyword类型支持null_value

PUT index2
{
  "mappings":{
    "properties":{
        "date":{
            "type":"date"
        },
        "firstName":{
            "type":"keyword",
            "null_value":"N"
        },
        "lastName":{
            "type":"text"
        }
    }
  }
}
--------------------
GET index2/_search
{
  "query":{
    "match":{
      "firstName":"N"
    }
  }
}

Elasticsearch之Mapping设置详解_第1张图片

4.copy to

copy to可以满足一些特定的搜索需求,它的作用是:将多个字段的数据拷贝到目标字段中,目标字段可以用于搜索,拷贝字段不在_source中保存。

PUT index
{
  "mappings":{
    "properties":{
        "firstName":{
            "type":"text",
            "copy_to":"fullName"
        },
        "lastName":{
          "type":"text",
          "copy_to":"fullName"
        }
    }
  }
}
---------------------------
put index/_doc/1
{
  "firstName":"程",
  "lastName":"大帅"
}
----我们就可以使用fullName进行搜索----
get index/_search
{
  "query":{
    "match":{
      "fullName":"程"
    }
  }

Elasticsearch之Mapping设置详解_第2张图片
我们get index/_mapping看一下,可以看到fullName被放进mapping内,但是搜索结果的_source中是没有这个字段的

{
  "index" : {
    "mappings" : {
      "properties" : {
        "firstName" : {
          "type" : "text",
          "copy_to" : [
            "fullName"
          ]
        },
        "fullName" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "lastName" : {
          "type" : "text",
          "copy_to" : [
            "fullName"
          ]
        }
      }
    }
  }
}

5.数组

ES中不提供专门的数组类型。任何字段都可以包含多个相同字段的数据

比如还是上面创建的索引,我现在将 程二帅 也想保存到ES中,就可以这样写。

put index/_doc/2
{
  "firstName":"程",
  "lastName":["大帅","二帅"]
}
----------------------------
get index/_search
{
  "query":{
    "match":{
      "fullName":"帅"
    }
  }
}

Elasticsearch之Mapping设置详解_第3张图片

你可能感兴趣的:(Elasticsearch,elasticsearch,大数据,java)