Mapping

Mapping类似数据库中的schema定义，作用如下:

定义索引中的字段的名称  
定义字段的数据类型，例如字符串，数字，布尔
字段，倒排索引的相关配置

Mapping会把json文档映射成Lucene所需要的扁平格式

一个Mapping属于一个索引的Type

每个文档都属于一个Type
一个Type有一个mapping定义  
7.0开始，不需要在mapping定义中指定type信息

字段的数据类型

简单类型

Text / Keyword
Date
Integer / Floating
Boolean
IPv4 & IPv6

复杂类型 - 对象和嵌套对象
```
对象类型 / 嵌套类型  
```
特殊类型
```
geo_point & geo_shape / percolator
```

什么是Dynamic Mapping

在写入文档时候，如果索引不存在，会自动创建索引
Dynamic Mapping的机制，使得我们无需手动定义Mappings。 Elasticsearch会自动根据文档信息，推算出字段的类型
但是有时候会推算的不对，例如地理位置信息
当类型如果设置不对时，会导致一些功能无法正常运行，例如Range查询
查看Mapping:

image.png

能否更改Mapping的字段类型

新增加字段

Dynamic设为true时，一旦有新增字段的文档写入，Mapping也同时被更新  
Dynamic设为false时，Mapping不会被更新，新增字段的数据无法被索引，但是信息会出现在_source中  
Dynamic设置成strict，文档写入失败

对已有字段，一旦已经有数据写入，就不再支持修改字段定义
```
Lucene实现的倒排索引，一旦生成后，就不允许修改  
```
如果希望改变字段类型，必须Reindex API，重建索引

修改索引的dynamic值:

PUT movies/_mappings
{
  "dynamic":false
}

如何显示定义一个Mapping

PUT movies
{
    "mappings":{
       // define your mappings here
    }
}

控制当前字段是否被索引

Index - 控制当前字段是否被索引。默认为true。如果设置成false,该字段不可被搜索

image.png

Index Options

image.png

四种不同级别的Index Options配置，可以控制倒排索引记录的内容

docs - 记录doc id  
freqs - 记录doc id 和 term frequencies  
positions - 记录doc id / term frequencies / term position
offsets - doc id /term frequencies / term position / character offects

Text类型默认记录positions,其他默认为docs
记录内容越多，占用的存储空间越大

null_value

GET users/_search?q=mobile:NULL

image.png

需要对NULL值实现搜索
只有Keyword类型支持设定NULL_Value

copy_to 设置

image.png

GET users/_search?q=fullName:(Xu Colin)

_all在7中被copy_to所替代
满足一些特定的搜索需求
copy_to 将字段的数值拷贝到目标字段，实现类似_all的作用
copy_to 的目标字段不出现在_source中

多字段类型

image.png

厂商名字实现精确匹配
增加一个keyword字段

使用不同的analyzer

不同语言 
pinyin字段的搜索  
还支持为搜索和索引指定不同的analyzer

精确值(Exact Values) 和全文本(Full Text)

Exact Values: 包括数字/日期/具体的一个字符串
Elasticsearch中的keyword
全文本，非结构化的文本数据
Elasticsearch中的text

image.png

自定义分词

当Elasticsearch自带的分词器无法满足时，可以自定义分词器。通过自组合不同的组件实现

character filter
tokenizer
token filter

Character Filters

在Tokenizer之前对文本进行处理，例如增加删除及替换字符。可以配置多个Character Filters。会影响Tokenizer的position和offset信息
一些自带的Character Filters

HTML strip - 去除html标签
Mapping - 字符串替换
Pattern replace - 正则匹配替换

Tokenizer

将原始的文本按照一定的规则，切分为词(term or token)

Elasticsearch内置的Tokenizers

whitespace / standard / uax_url_email / pattern / keyword / path hierarchy

可以用java开发插件，实现自己的Tokenizer

Token Filters

将Tokenizer输出的单词(term),进行增加，修改，删除

自带的Token Filters

Lowercase / stop / synonym(添加近义词)

image.png

上面的例子使用了Character Filters去除html标签

image.png

上面是通过mapping把-替换成了_进行分词

image.png

上面是自己创建了个多音字分词器
脚本：

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer":{
          "type":"custom",
          "char_filter":[
            "duoyin"
          ],
          "tokenizer":"standard"
        }
      },
      "char_filter": {
         "duoyin":{
           "type":"mapping",
               "mappings":["重 => 重 zhong chong "]
         }
      }
    }
  }
}

POST /my_index/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":"你很重要"
}

ElasticSearch - Mapping

Mapping

字段的数据类型

什么是Dynamic Mapping

能否更改Mapping的字段类型

如何显示定义一个Mapping

控制当前字段是否被索引

Index Options

null_value

copy_to 设置

多字段类型

精确值(Exact Values) 和全文本(Full Text)

自定义分词

Character Filters

Tokenizer

Token Filters

你可能感兴趣的:(ElasticSearch - Mapping)

ElasticSearch - Mapping

Mapping

字段的数据类型

什么是Dynamic Mapping

能否更改Mapping的字段类型

如何显示定义一个Mapping

控制当前字段是否被索引

Index Options

null_value

copy_to 设置

多字段类型

精确值(Exact Values) 和 全文本(Full Text)

自定义分词

Character Filters

Tokenizer

Token Filters

你可能感兴趣的:(ElasticSearch - Mapping)

精确值(Exact Values) 和全文本(Full Text)