ES 的fieldData

1.fielddata含义

当ES进行排序(sort),统计(aggs)时,ES把涉及到的字段数据全部读取到内存(JVM Heap)中进行操作。相当于进行了数据缓存,提升查询效率。
所以fielddata是延迟加载的,在加载的时候是这个字段所有的字段都要加载。
ES中利用fielddata这个正排索引,即从文档到item,来加快统计排序等操作,fielddata实际存储方式为列式存储。

2.fielddata

2.1 内存占用

默认是没有限制的,无限制可能导致频繁的OOM,限制使用则有可能导致频繁的驱逐(eict和relaod)、大量的IO性能损耗,已经内存碎片,gc。
elasticsearch.yml: indices.fielddata.cache.size: 20%,超出限制,清除内存已有的fielddata。
也可以设置为绝对内存比如16g等。

2.2 监控fielddata内存使用

GET /_stats/fielddata?fields=* //各个分片、索引的fielddata在内存中的占用情况
GET /_nodes/stats/indices/fielddata?fields=* //每个node的fielddata在内存中的占用情况
GET /_nodes/stats/indices/fielddata?level=indices&fields=* //每个node中的每个索引的fielddata在内存中的占用情况

需要说明的是:evictions即是驱逐的数量,比较关键的数据。


ES 的fieldData_第1张图片
网上的图

上图是ES的JVM Heap中的状况,可以看到有两条界限:驱逐线 和 断路器。当缓存数据到达驱逐线时,会自动驱逐掉部分数据,把缓存保持在安全的范围内。当用户准备执行某个查询操作时,断路器就起作用了,缓存数据+当前查询需要缓存的数据量到达断路器限制时,会返回Data too large错误,阻止用户进行这个查询操作。

2.3 fielddata内存配置

可以增加配置:

elasticsearch.yml
 
#这个 fielddata 断路器限制fielddata的大小,默认情况下为堆大小的60%
indices.breaker.fielddata.limit:
 
#这个 request 断路器估算完成查询的其他部分要求的结构的大小, 默认情况下限制它们到堆大小的40%。
indices.breaker.request.limit: 
#这个 total 断路器封装了 request 和 fielddata 断路器去确保默认情况下这2个部分使用的总内存不超过堆大小的70%。
indices.breaker.total.limit:综合上面两个,限制在70%以内

当缓存区大小到达断路器所配置的大小 返回 Data too large异常。

也可以动态修改,看我的上一个文章。
fielddata filter的细粒度内存加载控制:

POST /test_index/_mapping/my_type
{
  "properties": {
    "my_field": {
      "type": "text",
      "fielddata": { 
        "filter": {
          "frequency": { 
            "min": 0.01, 
            "min_segment_size": 500  
          }
        }
      }
    }
  }
}

说明:
min:仅仅加载至少在1%的doc中出现过的term对应的fielddata
比如说某个值,hello,总共有1000个doc,hello必须在10个doc中出现,那么这个hello对应的fielddata才会加载到内存中来。
min_segment_size:少于500 doc的segment不加载fielddata
加载fielddata的时候,也是按照segment去进行加载的,某个segment里面的doc数量少于500个,那么这个segment的fielddata就不加载。

预加载,即在建索引的时候就加载这样可以提升排序和统计的性能:


POST /test_index/_mapping/test_type
{
  "properties": {
    "test_field": {
      "type": "string",
      "fielddata": {
        "loading" : "eager" 
      }
    }
  }
}

控制数据缓存到内存中的格式,在map中设置。
{
"tag": {
"type": "string",
"fielddata": {
"format": "fst"
}
}
}
对于String类型,format有以下几种:

  • paged_bytes (默认)
    使用大量的内存来存储这个字段的terms和索引。

  • fst
    FST的形式来存储terms。这在terms有较多共同前缀的情况下可以节约使用的内存,但访问速度上比paged_bytes 要慢。

  • doc_values
    fieldData始终存放在disk中,不加载进内存。访问速度最慢且只有在index:no/not_analyzed的情况适用。

参考

文章非原创,只是总结,主要整理自:
https://blog.csdn.net/hereiskxm/article/details/46744985
https://blog.csdn.net/wuzhiwei549/article/details/80480157

你可能感兴趣的:(ES 的fieldData)