云三木

ElasticSearch 基础（六）之字段映射类型测试

前言
一、核心类型
- 1、字符串类型
- - 1.1、text
  - - 1.1.1、synthetic source 源数据合成重建
    - 1.1.2、fielddata 映射参数
  - 1.2、keyword
  - - 1.2.1、synthetic source 源数据合成重建
    - 1.2.2、ignore_above 忽略
    - 1.2.3、constant keyword 常量关键字
    - 1.2.4、wildcard 通配符
- 2、数字类型
- - 2.1、整数类型
  - - 2.1.1、integer
    - 2.1.2、long
    - 2.1.3、short
    - 2.1.4、byte
    - 2.1.5、unsigned_long
  - 2.2、浮点类型
  - - 2.2.1、double
    - 2.2.2、float
    - 2.2.3、half_float
    - 2.2.4、scaled_float
- 3、逻辑类型
- - 3.1、boolean
- 4、日期类型
- - 4.1、date
  - 4.2、date_nanos
- 5、范围类型
- - 5.1、range
- 6、二进制类型
- - 6.1、binary
- 7、IP类型
- - 7.1、ip
- 8、地理类型
- - 8.1、地理坐标类型
  - - 8.1.1、geo_point
  - 8.2、地理地图类型
  - - 8.2.1、geo_shape
二、复合类型
- 1、数组类型
- - 1.1、array
- 2、对象类型
- - 2.1、object
- 3、嵌套类型
- - 3.1、nested
  - - 3.1.1、对象数组是如何扁平化
    - 3.1.2、将nested字段用于对象数组
    - 3.1.3、与nested文档交互
    - 3.1.4、nested字段的参数
    - 3.1.5、nested映射和对象的限制
三、其他类型
- 查看官方文档

前言

到现在已经基本熟悉 ES 的映射基本了，现在本篇内容就是开始正式测试，文本内容同之前一样大部分转载于官网文档，这里对映射类型进行了分类，文档中的是按照字母排序的有点乱。

映射字段类型时我们都需要去设置映射参数，更多用法查看官方文档：Elastic Docs ›Elasticsearch Guide [8.6] › Mapping 。下面对映射参数简单整理出一个表格，方便查看：

参数	作用
analyzer	定义文本字段的分词器，默认对索引和查询都是有效的。默认分词器使用的关键字分词，英文和汉字都会分成一个个，这是当我们使用 term 只能匹配单个关键字，我们需要根据需求去设置分词器。
coerce	强制尝试清除脏值以适合字段的数据类型，默认为 true，可以将字符串强制转换为数字和浮点将被截断为整数值。例：设置数字为integer类型，存入字符串 “1”，文档依然可以创建，如果设置成 false，则必须传入 integer 类型。
copy_to	可以将多个字段的值，复制到同一个字段中。
doc_values	支持排序、聚合会占用额外存储空间，与 source 独立，同时开启 doc_values 和 _source 则会将该字段原始内容保存两份。doc_values 数据在磁盘上采用列式存储，关闭后无法使用排序和聚合。
dynamic	动态映射，默认 true。自动设置字段类型。
eager_global_ordinals	提升高基数聚合性能，默认 false。开启会影响写入性能，适用场景：高基数聚合。高基数聚合场景中的高基数含义：一个字段包含很大比例的唯一值。
enabled	是否对该字段进行索引，默认 true。ES 默认会索引所有的字段，但是有的字段可能只需要存储，不需要索引。关闭后，只在 _source中存储。
format	日期格式。format 可以规范日期格式，而且一次可以定义多个 format。
ignore_above	用于指定分词和索引的字符串最大长度，超过最大长度的话，该字段将不会被索引，这个字段只适用于 keyword 类型。
ignore_malformed	忽略格式不对的数据，默认 false。
index	字段是否被索引，默认 true。关闭后无法对其进行搜索，但字段仍会存储到 _source 和 doc_values，字段可以被排序和聚合。
index_options	控制索引时哪些信息被存储到倒排索引中（用在 text 字段中），可设置：docs（默认，只存储文档编号），freqs（在 docs 基础上，存储词项频率），positions（在 freqs 基础上，存储词项偏移位置），offsets（在 positions 基础上，存储词项开始和结束的字符位置）。
index_phrases	将两个词的组合词索引到一个单独的字段中。默认false。
index_prefixes	为字段值的前缀编制索引，以加快前缀搜索速度。
meta	附加到字段的元数据。
fields	为不同的目的以不同的方式对同一字段建立索引。
normalizer	用于解析前（索引或者查询）的标准化配置，可以在索引和查询时，分别对文档进行预处理，比如索引和查询单词全部小写。
norms	用于计算查询的文档分数，默认true。对于仅用于过滤或聚合的字段，不需要对字段进行打分排序时设置为false。
null_value	使用指定的值替换为null值，以便可以进行索引和搜索。
position_increment_gap	当为具有多个值的文本字段建立索引时，将在值之间添加“假”间隙，以防止大多数短语查询在值之间进行匹配，默认值为100。
properties	类型映射，object字段和nested字段包含子字段叫properties。
search_analyzer	查询时候的分词器。默认情况下，如果没有配置 search_analyzer，则查询时，首先查看有没有 search_analyzer，有的话，就用 search_analyzer 来进行分词，如果没有，则看有没有 analyzer，如果有，则用 analyzer 来进行分词，否则使用 es 默认的分词器。
similarity	字段打分的相似性算法，默认 BM25。
store	单独存储属性值。默认对字段值进行索引以使其可搜索，但不单独存储它们，但是已存储在_source字段中。
subobjects	8.3版本以后新增映射参数，默认为 true，用于保留字段名称中的 `.` ，这些字段将扩展到相应的对象结构。子对象设置为 false 的对象只能保存叶子子字段，而不能保存其他对象。
term_vector	存储分析过程的词矢量（Term vectors）信息。包括：词、位置、偏移量、有效载荷。

找到一个 ES7.7 版本的中文文档，速度很快。

一、核心类型

1、字符串类型

text：

会分词，然后进行索引，用于全文搜索。

支持模糊、精确查询

不支持聚合

keyword：

不进行分词，直接索引，keyword用于关键词搜索

支持模糊、精确查询

支持聚合

有时候对同一字段同时使用 text 和 keyword 两种类型会很有用：一个用于全文搜索和其他用于聚合和排序。

1.1、text

官方文档。

文本字段最适合非结构化但可读的内容，比如Email内容、产品描述，应该使用 text 类型。当一个字段设置 text 类型以后，字段内容会被分析，字符串会被分析器分成一个一个词项，生成倒排索引。text类型的字段不用于排序，很少用于聚合。

//请求
PUT test
{
  "mappings": {
    "properties": {
      "address": {
        "type":  "text"
      }
    }
  }
}
//返回：
{
  "acknowledged": true,
  "shards_acknowledged": true,
  "index": "test"
}

ES 自动为字符串类型添加text和keyword类型：

//添加数据：
POST test/_doc/1
{
  "address": "江苏省苏州市苏州工业园区"
}

//查看映射：
GET test/_mapping
{
  "test": {
    "mappings": {
      "properties": {					# 定义属性关键字
        "address": {					# 声明字段
          "type": "text",				# 声明字段类型
          "fields": {					# 多字段属性
            "keyword": {				# 多字段属性名，可使用 address.keyword 进行操作
              "type": "keyword",		# 声明字段类型
              "ignore_above": 256		# 索引最大程度，超过不被索引
            }
          }
        }
      }
    }
  }
}

1.1.1、synthetic source 源数据合成重建

倒排索引可以提供全文检索能力，但是无法提供对排序和数据聚合的支持。doc_values 本质上是一个序列化的列式存储结构，适用于聚合（aggregations）、排序（Sorting）、脚本（scripts access to field）等操作。默认情况下，ES几乎会为所有类型的字段存储 doc_value，但是 text 或 text_annotated 等可分词字段不支持 doc values 。如果不需要对某个字段进行排序或者聚合，则可以关闭该字段的doc_value 存储。

ES 为了存储原始数据，设计了 _source 来存储，为了解决设计排序与聚合统计，又设计了doc_values 存储对应的列，这造成了数据重复存储，现在通过混合方式，重建构建 source，部分数据可以来自 列式doc_values，这会显著节约索引存储占用。

// 设置 synthetic 模式
PUT test
{
  "mappings": {
    "_source": { "mode": "synthetic" },
    "properties": {
      "address": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      }
    }
  }
}
//添加数据：
PUT test/_doc/1
{
  "address": [
    "address 11",
    "address 11",
    "address 222"
  ]
}
//查询文档,数据会被去重：
GET test/_source/1
{
  "address": [
    "address 11",
    "address 222"
  ]
}

如果文本字段将store设置为true，则保留顺序和重复项：

PUT test
{
  "mappings": {
    "_source": { "mode": "synthetic" },
    "properties": {
      "address": {
        "type": "text",
        "store": true 		# 字段是否要被单独存储
      }
    }
  }
}
//添加数据：
PUT test/_doc/1
{
  "address": [
    "address 11",
    "address 11",
    "address 222"
  ]
}
//查询文档：
GET test/_source/1
{
  "address": [
    "address 11",
    "address 11",
    "address 222"
  ]
}

1.1.2、fielddata 映射参数

默认情况下，文本字段是可搜索的，但默认情况下不可用于聚合、排序或脚本编写。

fielddata 默认是关闭的，映射时在你的字段上设置 "fielddata": true，以便通过取消倒排索引将 fielddata 加载到内存中。注意，这可能会占用大量内存。

PUT <index>/_mapping
{
  "properties": {
    "my_field": { 
      "type":     "text",
      "fielddata": true
    }
  }
}

在 text 字段上启用 fielddata 通常没有意义。因为 fielddata 与 fielddata 缓存 一起存储在堆中，计算起来很昂贵。计算 fielddata 会导致延迟峰值，而堆使用率的增加会导致集群性能问题。

大多数希望对 text 字段进行更多操作的用户都使用 fields 多字段映射，既有用于全文搜索的文本字段，也有用于聚合的未分析关键字字段。

1.2、keyword

官方文档。

keyword 用于结构化内容，如ID、电子邮件地址、主机名、状态码、邮政编码或标记。通常用来排序(sorting)、聚合(aggregations)和 term-level 查询，例如 term。

1.2.1、synthetic source 源数据合成重建

keyword 的 synthetic 模式和 text 是一样的：

//设置映射：
PUT test
{
  "mappings": {
    "_source": { "mode": "synthetic" },
    "properties": {
      "address": {
        "type": "keyword"
      }
    }
  }
}
//添加数据：
PUT test/_doc/1
{
  "address": [
    "address 11",
    "address 11",
    "address 222"
  ]
}
//查询文档,数据会被去重：
GET test/_source/1
{
  "address": [
    "address 11",
    "address 222"
  ]
}

如果文本字段将store设置为true，则保留顺序和重复项。

1.2.2、ignore_above 忽略

长度超过ignore_above设置的字段文档会被存储，但不会被索引。

//设置映射：
PUT test
{
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword",
        "ignore_above": 10
      }
    }
  }
}

//添加数据：
POST test/_doc/1
{
  "name": "abcdefghijklmn"
}

//搜索数据：
GET /test/_search
{
  "query": {
    "term": {
      "name": "a"
    }
  }
}
//索引不到结果：
{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 0,
      "relation": "eq"
    },
    "max_score": null,
    "hits": []
  }
}

//查询文档：
GET test/_source/1
{
  "name": "abcdefghijklmn"
}

1.2.3、constant keyword 常量关键字

constant_keyword 是索引中所有文档都具有相同值的情况下关键字字段的特例。

constant_keyword 支持与 keyword 字段相同的查询和聚合，但利用所有文档每个索引具有相同值的事实来更有效地执行查询。允许提交没有字段值或值等于映射中配置的值的文档。

//设置映射：
PUT test
{
  "mappings": {
    "properties": {
      "message": {
        "type": "text"
      },
      "level": {
        "type": "constant_keyword",
        "value": "debug"
      }
    }
  }
}

//添加数据：
POST test/_doc
{
  "message": "Starting up Elasticsearch 1",
  "level": "debug"
}
POST test/_doc
{
  "message": "Starting up Elasticsearch 2"
}

//搜索：
GET /test/_search
{
  "query": {
    "match": {
      "level": "debug"
    }
  }
}
//两个文档都会被索引到
{
  "took": 36,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 2,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "T62Lz4YBD3T716op1iuU",
        "_score": 1,
        "_source": {
          "message": "Starting up Elasticsearch 1",
          "level": "debug"
        }
      },
      {
        "_index": "test",
        "_id": "UK2Lz4YBD3T716op3CtV",
        "_score": 1,
        "_source": {
          "message": "Starting up Elasticsearch 2"
        }
      }
    ]
  }
}

当第一个文档里定义的 level 的值为 debug，那么之后所有的文档将视 debug 为索引 test 字段 level 的默认值。设置映射时如果没有设置 value值，那么第一个文档中的 value 就是默认值。

1.2.4、wildcard 通配符

wildcard 字段类型是一个专门的 keyword 字段，用于非结构化机器生成的内容，你计划使用 grep-like 的 wildcard 和 regexp 查询进行搜索。wildcard 类型针对具有大值或高基数的字段进行了优化。

在内部，wildcard字段使用 ngrams 索引整个字段值，并存储完整字符串。索引用作粗过滤器，通过检索和检查完整值来减少随后检查的值的数量。此字段特别适合在日志行上运行类似 grep 的查询。存储成本通常低于 keyword 字段的存储成本，但在完整术语上精确匹配的搜索速度较慢。如果字段值共享许多前缀，例如同一网站的URL，则 wildcard 字段的存储成本可能高于等效 keyword 字段。

//映射：
PUT test
{
  "mappings": {
    "properties": {
      "address": {
        "type": "wildcard"
      }
    }
  }
}

//添加数据
POST test/_doc/1
{
  "address" : "江苏省苏州市苏州工业园区"
}

//搜索文档
GET /test/_search
{
  "query": {
    "wildcard": {
      "address": "*苏州*"
    }
  }
}
//匹配结果：
{
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "1",
        "_score": 1,
        "_source": {
          "address": "江苏省苏州市苏州工业园区"
        }
      }
    ]
  }
}

wildcard 字段与 keyword 字段一样是未排序的，因此不支持依赖于单词位置的查询，例如短语(phrase)查询。

运行 wildcard 查询时，将忽略任何重写参数。得分总是一个恒定的分数。

2、数字类型

ES 支持以下数字类型：

类型	范围
long	最小值为-263，最大值为263-1的有符号64位整数。
integer	最小值为-231，最大值为231-1的有符号32位整数。
short	最小值为-32768，最大值为32767的有符号16位整数。
byte	最小值为-128，最大值为127的有符号8位整数。
double	一种双精度64位IEEE 754浮点数，限制为有限值。
float	一种单精度32位IEEE 754浮点数，限制为有限值。
half_float	一种半精度16位IEEE 754浮点数，限于有限值。
scaled_float	一种浮点数字，由一个固定的双倍缩放因子进行缩放的长数字支持。
unsigned_long	一个无符号64位整数，最小值为0，最大值为264-1。

数字类型尽可能选择范围小的数据类型，字段的长度越短，索引和搜索的效率越高，尽可能避免浮点类型，如果必须使用，优先考虑带缩放因子的浮点类型。

支持的映射参数：

参数	作用
coerce	尝试将字符串转换为数字，并截断整数的小数部分。接受true (默认) 和false。
boost	映射字段级查询时提升。接受浮点数，默认值为1.0。
doc_values	是否应该以列跨度(column-stride)的方式将字段存储在磁盘上，以便以后用于排序、聚合或编写脚本? 接受true(默认) 或false。
ignore_malformed	如果为true，则忽略格式错误的数字。如果为false(默认值)，格式错误的数字会抛出异常并拒绝整个文档。
index	该字段应该是可搜索的吗？接受true (默认) 和 false。
null_value	接受与字段type相同的数值，用于替换任何显式null值。默认值为null，这意味着该字段被视为缺失。
store	字段值是否应该与_source字段分开存储和检索。接受true或false (默认)。
meta	字段的元数据。

2.1、整数类型

就整数类型(byte、short、integer和long)而言，应该选择满足用例的最小类型。这将有助于提高编制索引和搜索的效率。但是请注意，存储是基于存储的实际值进行优化的，因此选择一种类型而不是另一种类型不会影响存储需求。

这里示例根据需求自行选择整数类型：

PUT <index>
{
  "mappings": {
    "properties": {
      "NUMBER_FIELD": {
        "type": "long|integer|short|byte|unsigned_long"	# ES 默认设置 long 类型
      }
    }
  }
}

2.1.1、integer

2.1.2、long

2.1.3、short

2.1.4、byte

2.1.5、unsigned_long

2.2、浮点类型

2.2.1、double

2.2.2、float

2.2.3、half_float

double、float 及 half_float 三种浮点类型用法并无区别，根据取值范围选择：

PUT <index>
{
  "mappings": {
    "properties": {
      "NUMBER_FIELD": {
        "type": "double|float|half_float"
      }
    }
  }
}

double、float 及 half_float 类型认为 -0.0 和 +0.0 的值是不同的。因此，在 -0.0 上进行 term 查询将与 +0.0 不匹配，反之亦然。对于 range 查询也是一样：如果上限是 -0.0，则 +0.0 将不匹配，如果下限是 +0.0，则 -0.0将不匹配。

2.2.4、scaled_float

scaled_float 是带有缩放因子的缩放类型浮点数。需配合缩放因子scaling_factor 一起使用。

在存储距离、价格等浮点类型的数据，推荐使用scaled_float类型。比如价格等，单位为元，我们使用scaled_float类型，然后将比例因子（scaling_factor）设置为100，这样价格在ES中就会以“分”进行存储。

例如：假设缩放因子scale_factor为100，这样scaled_float字段将在ES内部存储10.25（元）为1025（分）。存储10.2588（元）为1026（分）。

scaled_float类型注意事项: 必须指定缩放因子scaling_factor。ES索引时，原始值会乘以该缩放因子并四舍五入得到新值，ES内部储存的是这个新值，但返回结果仍是原始值。使用比例因子的好处是整型比浮点型更易压缩，节省磁盘空间。

//映射：
PUT test
{
  "mappings": {
    "properties": {
      "total": {
        "type": "scaled_float",	# 设置为 scaled_float 浮点类型
        "scaling_factor": 100	# 缩放因子
      }
    }
  }
}

//索引文档：
POST test/_doc/1
{
  "total" : "3.1415926" # 3.1415926 * 100（缩放因子） = 314.15926，然后四舍五入得到314，所以内部真正存储的索引值是314。
}
POST test/_doc/2
{
  "total" : "3.1455926" # 3.1455926 * 100（缩放因子） = 314.55926，然后四舍五入得到315，所以内部真正存储的索引值是315。
}

//搜索文档：
GET /test/_search
{
  "query": {
    "match": {
      "total": "3.1416" # 3.1416 * 100（缩放因子） = 314.16，然后四舍五入得到314。
    }
  }
}
//搜索结果：
{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "1",			
        "_score": 1,
        "_source": {
          "total": "3.1415926"	# 所以只匹配到文档 3.1415926
        }
      }
    ]
  }
}

需要注意的是，虽然ES在内部做了缩放处理，但是查询返回值还是原始值。

3、逻辑类型

3.1、boolean

布尔字段接受JSON true 和 false 值，但也可以接受被解释为 true 或 false 的字符串：

false 值：
- false,
- “false”
- “” (空字符串)
true 值
- true
- “true”

映射语法：

PUT <index>
{
  "mappings": {
    "properties": {
      "BOOLEAN_FIELD": {
        "type": "boolean" 
      }
    }
  }
}

插入测试：

// 请求：
POST /test/_bulk
{"create":{}}
{"is_published":""}
{"create":{}}
{"is_published":false}
{"create":{}}
{"is_published":"false"}
{"create":{}}
{"is_published":true}
{"create":{}}
{"is_published":"true"}
{"create":{}}
{"is_published":"aaaaa"} # 这个会失败，无法转换成布尔值
//返回结果：
{
  "took": 9,
  "errors": true,
  "items": [
    {
      "create": {						# "" 空字符串
        "_index": "test",
        "_id": "ZK212YYBD3T716opVSu4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 14,
        "_primary_term": 1,
        "status": 201
      }
    },
    {									# false
      "create": {
        "_index": "test",
        "_id": "Za212YYBD3T716opVSu4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 15,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "false"
        "_index": "test",
        "_id": "Zq212YYBD3T716opVSu4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 16,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# true
        "_index": "test",
        "_id": "Z6212YYBD3T716opVSu4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 17,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "true"
        "_index": "test",
        "_id": "aK212YYBD3T716opVSu4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 18,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "aaaaa" 添加失败
        "_index": "test",
        "_id": "aa212YYBD3T716opVSu4",
        "status": 400,
        "error": {
          "type": "mapper_parsing_exception",
          "reason": "failed to parse field [is_published] of type [boolean] in document with id 'aa212YYBD3T716opVSu4'. Preview of field's value: 'aaaaa'",
          "caused_by": {
            "type": "illegal_argument_exception",
            "reason": "Failed to parse value [aaaaa] as only [true] or [false] are allowed."
          }
        }
      }
    }
  ]
}

4、日期类型

4.1、date

JSON没有日期数据类型，因此Elasticsearch中的日期可以是下列之一：

包含格式化日期的字符串，例如 “2015-01-01"或"2015/01/01 12:10:30”。
用数字表示的从新纪元开始的毫秒数(milliseconds-since-the-epoch)。
用数字表示的从新纪元开始的秒数(seconds-since-the-epoch)。

在ES的内部，时间会被转换为UTC时间（如果声明了时区）并使用从新纪元开始的毫秒数的长整形数字类型的进行存储。

在日期字段上的查询，内部将会转换为使用长整形的毫秒进行范围查询，根据与字段关联的日期格式，聚合和存储字段的结果将转换回字符串。

注意点：日期最终都会作为字符串呈现，即使最开始初始化的时候是利用JSON文档的 long 声明的。

日期的格式可以被定制化的，如果没有声明日期的格式，它将会使用默认的格式：

"strict_date_optional_time||epoch_millis"

这意味着它将接受带有可选时间戳的日期，这些时间戳符合strict_date_optional_time 或自纪元以来的 毫秒数(milliseconds-sin-the-epoch) 支持的格式。

epoch_millis： 是从开始纪元（1970-01-01 00:00:00 UTC）开始的毫秒数（long型），1970以前的时间也可以, 值是负数。

strict_date_optional_time： 是date_optional_time的严格级别，这个严格指的是年份、月份、天必须分别以4位、2位、2位表示，不足两位的话第一位需用0补齐。常见格式如下：

yyyy

yyyyMM

yyyyMMdd

yyyyMMddHHmmss

yyyy-MM

yyyy-MM-dd

yyyy-MM-ddTHH:mm:ss # dd后面有个T，T即Time, 就是表示其后的数据为time, 其之前的数据为 Date。

yyyy-MM-ddTHH:mm:ss.SSS

yyyy-MM-ddTHH:mm:ss.SSSZ # "Z"表示时区。

工作常见到是yyyy-MM-dd HH:mm:ss，但ES默认不支持这格式，我们可以在format里自定义支持它。

映射语法：

PUT <index>
{
  "mappings": {
    "properties": {
      "DATE_FIELD": {
        "type": "date"
      }
    }
  }
}

日期格式测试：

POST /test/_bulk
{"create":{}}
{"date_test":1672502400}
{"create":{}}
{"date_test":"20230102"}
{"create":{}}
{"date_test":"20230102030405"}
{"create":{}}
{"date_test":"2023-01"}
{"create":{}}
{"date_test":"2023-01-02"}
{"create":{}}
{"date_test":"2023-01-02T03:04:05"}
{"create":{}}
{"date_test":"2023-01-02T03:04:05.000"}

//返回结果：
{
  "took": 20,
  "errors": false,
  "items": [
    {
      "create": {						# 1672502400
        "_index": "test",
        "_id": "cq3s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 6,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "20230102"
        "_index": "test",
        "_id": "c63s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 7,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "20230102030405"
        "_index": "test",
        "_id": "dK3s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 8,
        "_primary_term": 1,
        "status": 201
      }
    },
    {									# "2023-01"
      "create": {
        "_index": "test",
        "_id": "da3s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 9,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "2023-01-02"
        "_index": "test",
        "_id": "dq3s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 10,
        "_primary_term": 1,
        "status": 201
      }
    },
    {									# "2023-01-02T03:04:05"
      "create": {
        "_index": "test",
        "_id": "d63s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 11,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {						# "2023-01-02T03:04:05.000"
        "_index": "test",
        "_id": "eK3s2YYBD3T716opsyu8",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 12,
        "_primary_term": 1,
        "status": 201
      }
    }
  ]
}

经常使用的 yyyy-MM-dd HH:mm:ss 格式 ES 默认不支持：

//插入 yyyy-MM-dd HH:mm:ss 格式
POST /test/_doc
{
  "date_test":"2023-01-02 03:04:05"
}
//返回结果：
{
  "error": {
    "root_cause": [
      {
        "type": "mapper_parsing_exception",
        "reason": "failed to parse field [date_test] of type [date] in document with id 'ea3z2YYBD3T716opGCvh'. Preview of field's value: '2023-01-02 03:04:05'"
      }
    ],
    "type": "mapper_parsing_exception",
    "reason": "failed to parse field [date_test] of type [date] in document with id 'ea3z2YYBD3T716opGCvh'. Preview of field's value: '2023-01-02 03:04:05'",
    "caused_by": {
      "type": "illegal_argument_exception",
      "reason": "failed to parse date field [2023-01-02 03:04:05] with format [strict_date_optional_time||epoch_millis]",
      "caused_by": {
        "type": "date_time_parse_exception",
        "reason": "Failed to parse with all enclosed parsers"
      }
    }
  },
  "status": 400
}

我们可以在format里自定义支持 yyyy-MM-dd HH:mm:ss：

// 支持 yyyy-MM-dd HH:mm:ss 格式
PUT test
{
  "mappings": {
    "properties": {
      "date_test": {
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||strict_date_optional_time||epoch_millis"
      }
    }
  }
}

// 添加 yyyy-MM-dd HH:mm:ss
POST /test/_doc
{
  "date_test":"2023-01-02 03:04:05"
}
//返回：
{
  "_index": "test",
  "_id": "eq342YYBD3T716opcivY",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

4.2、date_nanos

该数据类型是对 date 数据类型的补充。然而，这两者之间有一个重要的区别。现有的 date 数据类型以毫秒为分辨率存储日期。 date_nanos 数据类型以纳秒为分辨率存储日期，这将其日期范围限制在大约1970年到2262年之间，因为日期仍然存储为长整型类型，表示自纪元以来的纳秒。

对纳秒的查询在内部转换为对这种长整型表示形式的范围查询，聚合的结果和存储的字段根据与字段相关联的日期格式转换回字符串。

可以自定义日期格式，但是如果没有指定 format，则使用默认格式：

"strict_date_optional_time||epoch_millis"

这意味着它将接受带有可选时间戳的日期，这些时间戳符合strict_date_optional_time 支持的格式，包括最多九个小数的秒或自纪元以来的毫秒数(因此失去了纳秒部分的精度)。

这意味着它将接受带有可选时间戳的日期，这些时间戳符合strict_date_optional_time 或 自纪元以来的毫秒数(milliseconds-sin-the-epoch) 支持的格式。

// 设置 date_nanos 类型
PUT test
{
  "mappings": {
    "properties": {
      "date_nanos_test": {
        "type": "date_nanos"
      }
    }
  }
}

// 创建文档：
POST /test/_doc
{
  "date_test": "2023-01-03T03:14:15.123456789Z"
}

5、范围类型

5.1、range

range(范围)数据类型支持以下几种范围类型：

类型	范围
integer_range	32位整数范围，最小值为-231，最大值为231-1。
float_range	单精度32位 IEEE 754 浮点值范围。
long_range	64位有符号整数，最小值为-263，最大值为263-1。
double_range	64位双精度 IEEE 754 浮点值范围。
date_range	自系统纪元以来，以无符号64位整数毫秒表示的日期值范围。
ip_range	支持IPv4或IPv6(或混合)地址的IP值范围。

// 添加映射：
PUT test
{
  "mappings": {
    "properties": {
      "integer_range_test": {
        "type": "integer_range"
      },
      "date_range_test": {
        "type": "date_range",  		# 	
date_range类型接受由date类型定义的相同的字段参数。
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

// 添加文档：
POST test/_doc
{
  "integer_range_test" : {  # 为10~20名与会者的会议编制索引的示例。
    "gte" : 10,
    "lte" : 20
  },
  "date_range_test" : { # 日期范围接受与日期范围查询中所述相同的格式。
    "gte" : "2015-10-31 12:00:00",  # 使用日期时间戳的日期范围示例。 还可以接受date math格式。 请注意，在索引时不能使用“now”。
    "lte" : "2015-11-01"
  }
}

integer_range 搜索测试：

// 搜索：
GET test/_search
{
  "query" : {
    "term" : {
      "integer_range_test" : {
        "value": 12
      }
    }
  }
}
//搜索结果：
{
  "took": 1407,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "fa0c2oYBD3T716opZSsZ",
        "_score": 1,
        "_source": {
          "integer_range_test": {
            "gte": 10,
            "lte": 20
          },
          "date_range_test": {
            "gte": "2015-10-31 12:00:00",
            "lte": "2015-11-01"
          }
        }
      }
    ]
  }
}

date_range 搜索测试：

GET test/_search
{
  "query" : {
    "range" : {
      "date_range_test" : { # 范围查询的工作方式与范围查询中描述的相同。
        "gte" : "2015-10-31",
        "lte" : "2015-11-01",
        "relation" : "within"  # range 字段上的范围查询支持参数relation，该参数可以是WITHIN、CONTAINS、INTERSECTS(默认)之一。
      }
    }
  }
}

//搜索结果：
{
  "took": 168,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "fa0c2oYBD3T716opZSsZ",
        "_score": 1,
        "_source": {
          "integer_range_test": {
            "gte": 10,
            "lte": 20
          },
          "date_range_test": {
            "gte": "2015-10-31 12:00:00",
            "lte": "2015-11-01"
          }
        }
      }
    ]
  }
}

6、二进制类型

6.1、binary

binary(二进制) 类型接受二进制值以Base64编码的字符串。默认情况下，该字段不存储，并且不可搜索：

PUT my_index
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "blob": {
        "type": "binary"
      }
    }
  }
}

PUT my_index/_doc/1
{
  "name": "Some binary blob",
  "blob": "U29tZSBiaW5hcnkgYmxvYg==" 
}

7、IP类型

7.1、ip

ip字段可以索引/存储IPv4及IPv6地址。

PUT test
{
  "mappings": {
    "properties": {
      "ip_addr": {
        "type": "ip"
      }
    }
  }
}

//创建文档：
POST test/_doc
{
  "ip_addr": "192.168.1.1"
}

查询ip地址最常用的方法是使用 CIDR 符号：[ip_address]/[prefix_length]。

// 搜索文档：
GET test/_search
{
  "query": {
    "term": {
      "ip_addr": "192.168.0.0/16"
    }
  }
}
//搜索结果：
{
  "took": 990,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "g61j2oYBD3T716opuyuG",
        "_score": 1,
        "_source": {
          "ip_addr": "192.168.1.1"
        }
      }
    ]
  }
}

还可以使用 ip_range 数据类型在单个字段中存储 IP 范围。

8、地理类型

8.1、地理坐标类型

8.1.1、geo_point

geo_point 类型的字段接受经度-纬度对，可用于：

查找边界框(bounding box)内、中心点的特定距离(distance)内、多边形(polygon)内或geo_shape查询内的地理坐标点。
按地理位置或离中心点的距离(distance)来聚合文件。
将距离整合到文档的相关性评分中。
按距离排序(sort)文档。

有五种方法可以指定 geo-point，如下所示：

对象的geo-point，带有lat(纬度)和lon(经度)键。
字符串形式表示的geo-point，格式为：“lat,lon”。
geohash 的geo-point。
数组形式表示的geo-point，格式为：[ lon, lat]。
表示为众所周知的文本点，格式为：“POINT(lon lat)”。

表示为对象的geo-point，带有lat(纬度)和lon(经度)键。
以字符串形式表示的geo-point，格式为：“lat,lon”。
表示为 geohash 的geo-point。
以数组形式表示的geo-point，格式为：[ lon, lat]。
表示为众所周知的文本点，格式为：“POINT(lon lat)”
映射：

//添加映射：
PUT test
{
  "mappings": {
    "properties": {
      "location": {
        "type": "geo_point"
      }
    }
  }
}

// 添加文档：
POST /test/_bulk
{"create":{}}
{"text":"Geo-point as an object","location":{"lat":41.12,"lon":-71.34}}
{"create":{}}
{"text":"Geo-point as a string","location":"41.12,-71.34"}
{"create":{}}
{"text":"Geo-point as a geohash","location":"drm3btev3e86"}
{"create":{}}
{"text":"Geo-point as an array","location":[-71.34,41.12]}
{"create":{}}
{"text":"Geo-point as a WKT POINT primitive","location":"POINT (-71.34 41.12)"}
//返回结果：
{
  "took": 2078,
  "errors": false,
  "items": [
    {
      "create": {
        "_index": "test",
        "_id": "fq1X2oYBD3T716opeiv4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 0,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {
        "_index": "test",
        "_id": "f61X2oYBD3T716opeiv4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 1,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {
        "_index": "test",
        "_id": "gK1X2oYBD3T716opeiv4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 2,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {
        "_index": "test",
        "_id": "ga1X2oYBD3T716opeiv4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 3,
        "_primary_term": 1,
        "status": 201
      }
    },
    {
      "create": {
        "_index": "test",
        "_id": "gq1X2oYBD3T716opeiv4",
        "_version": 1,
        "result": "created",
        "_shards": {
          "total": 2,
          "successful": 1,
          "failed": 0
        },
        "_seq_no": 4,
        "_primary_term": 1,
        "status": 201
      }
    }
  ]
}

搜索：

GET test/_search
{
  "query": {
    "geo_bounding_box": {  # geo_bounding_box：一种地理边界框查询，用于查找落在该框内的所有 geo-point。
      "location": {
        "top_left": {
          "lat": 42,
          "lon": -72
        },
        "bottom_right": {
          "lat": 40,
          "lon": -74
        }
      }
    }
  }
}
//搜索结果：
{
  "took": 917,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 5,
      "relation": "eq"
    },
    "max_score": 1,
    "hits": [
      {
        "_index": "test",
        "_id": "fq1X2oYBD3T716opeiv4",
        "_score": 1,
        "_source": {
          "text": "Geo-point as an object",
          "location": {
            "lat": 41.12,
            "lon": -71.34
          }
        }
      },
      {
        "_index": "test",
        "_id": "f61X2oYBD3T716opeiv4",
        "_score": 1,
        "_source": {
          "text": "Geo-point as a string",
          "location": "41.12,-71.34"
        }
      },
      {
        "_index": "test",
        "_id": "gK1X2oYBD3T716opeiv4",
        "_score": 1,
        "_source": {
          "text": "Geo-point as a geohash",
          "location": "drm3btev3e86"
        }
      },
      {
        "_index": "test",
        "_id": "ga1X2oYBD3T716opeiv4",
        "_score": 1,
        "_source": {
          "text": "Geo-point as an array",
          "location": [
            -71.34,
            41.12
          ]
        }
      },
      {
        "_index": "test",
        "_id": "gq1X2oYBD3T716opeiv4",
        "_score": 1,
        "_source": {
          "text": "Geo-point as a WKT POINT primitive",
          "location": "POINT (-71.34 41.12)"
        }
      }
    ]
  }
}

表示为数组或字符串的 geo-point:

请注意，字符串格式的 geo-point 按 lat,lon排序，而数组格式的 geo-point 按相反顺序排序：lon,lat。

最初，lat,lon顺序都在数组和字符串中使用，但是数组格式在早期被改变以符合 GeoJSON 使用的格式。

一个地理位置坐标点可以表示为一个geohash值。

geohash 是经纬度交织的base32编码的字符串。 geohash 中的每个字符都会为精度增加5比特位。所以 hash 越长，就越精确。出于索引的目的，geohash被转换成纬度-经度对。在此过程中，仅使用前12个字符，因此在 geohash 中指定超过12个字符并不会提高精度。 12个字符提供了60个比特位，这应该会将可能的误差减少到小于2厘米。

8.2、地理地图类型

8.2.1、geo_shape

geo_shape 数据类型便于索引和搜索任意地理形状，如矩形和多边形。当被索引的数据或被执行的查询包含形状而不仅仅是坐标点时，应该使用它。

可以使用 geo_shape查询 来查询使用此类型的文档。

这个就不多说了，参考官方文档吧。

二、复合类型

1、数组类型

1.1、array

在Elasticsearch中,没有专用的array(数组)数据类型。默认情况下，任何字段都可以包含零个或多个值，但是数组中的所有值必须具有相同的数据类型。例如:

一个字符串数组：[ "one", "two" ]
一个整数数组：[ 1, 2 ]
一个数组的数组：[ 1, [ 2, 3 ]]，其等价于 [ 1, 2, 3 ]
一个对象数组：[ { "name": "Mary", "age": 12 }, { "name": "John", "age": 10 }]

对象数组并不像能你期望的那样工作：不能独立于数组中的其他对象独立查询每个对象。如果你需要能够这样做，那么应该使用 nested 数据类型而不是object(对象)数据类型。

更多详情在nested(嵌套)中解释了。

当动态添加字段时，数组中的第一个值决定字段的类型(type)。所有后续的值必须是相同的数据类型，或者至少可以将后续的值强制转换为相同的数据类型。

不支持混合类型的数组：[ 10, "some string" ]

数组可能包含 null 值，这些值要么被配置的 null_value 替换，要么被完全跳过。空数组 [] 被视为缺失字段，即没有值的字段。

不需要预先配置任何东西就可以在文档中使用数组，它们是开箱即用的，我们来添加一个数组测试一下：

PUT test/_doc/1
{
  "message": "some arrays in this document...",
  "tags":  [ "elasticsearch", "wow" ], 
  "lists": [ 
    {
      "name": "prog_list",
      "description": "programming list"
    },
    {
      "name": "cool_list",
      "description": "cool stuff list"
    }
  ]
}

查看一下动态映射：

{
  "test": {
    "mappings": {
      "properties": {
        "lists": {						# lists 数组，由于lists数组内第一个元素是对象，所以映射成对象类型
          "properties": {				# lists 的属性关键字
            "description": {			# lists 的 description 字段，映射类型就是字符串的动态映射。
              "type": "text",
              "fields": {
                "keyword": {
                  "type": "keyword",
                  "ignore_above": 256
                }
              }
            },
            "name": {					# name 映射同 description
              "type": "text",
              "fields": {
                "keyword": {
                  "type": "keyword",
                  "ignore_above": 256
                }
              }
            }
          }
        },
        "message": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        "tags": {						# tags 的第一个元素是字符串，所以他是映射成字符串类型
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        }
      }
    }
  }
}

查看映射后我们可以看到 lists 映射为对象类型，tags 是字符串类型，由此验证在动态添加字段时，数组中的第一个值决定字段的类型(type)。

现在再索引一个文档，tags 是字符串，lists 是对象，看看能否添加成功。

// 索引文档
PUT test/_doc/2   # 不包含数组，但是可以索引到相同的字段中。
{
  "message": "no arrays in this document...",
  "tags":  "elasticsearch",
  "lists": {  
    "name": "prog_list",
    "description": "programming list"
  }
}
// 返回成功：
{
  "_index": "test",
  "_id": "2",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 1,
  "_primary_term": 1
}

// 搜索测试：
GET test/_search
{
  "query": {
    "match": {
      "tags": "elasticsearch"  # 在字段tags中查找elasticsearch，两个文档都能匹配到。
    }
  }
}
//搜索结果：
{
  "took": 19,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 2,
      "relation": "eq"
    },
    "max_score": 0.21110919,
    "hits": [
      {
        "_index": "test",
        "_id": "2",
        "_score": 0.21110919,
        "_source": {
          "message": "no arrays in this document...",
          "tags": "elasticsearch",
          "lists": {
            "name": "prog_list",
            "description": "programming list"
          }
        }
      },
      {
        "_index": "test",
        "_id": "1",
        "_score": 0.160443,
        "_source": {
          "message": "some arrays in this document...",
          "tags": [
            "elasticsearch",
            "wow"
          ],
          "lists": [
            {
              "name": "prog_list",
              "description": "programming list"
            },
            {
              "name": "cool_list",
              "description": "cool stuff list"
            }
          ]
        }
      }
    ]
  }
}

再索引一个其他类型，看看能不能成功：

//索引文档：
PUT test/_doc/3
{
  "message": "no arrays in this document...",
  "tags": 10,
  "lists": "programming"
}
//返回：
{
  "error": {
    "root_cause": [
      {
        "type": "mapper_parsing_exception",
        "reason": "object mapping for [lists] tried to parse field [lists] as object, but found a concrete value"
      }
    ],
    "type": "mapper_parsing_exception",
    "reason": "object mapping for [lists] tried to parse field [lists] as object, but found a concrete value"
  },
  "status": 400
}

由上测试我们可以知道，所有后续的值必须是相同的数据类型，或者至少可以将后续的值强制转换为相同的数据类型。

2、对象类型

2.1、object

JSON文档本质上是分层的：文档可能包含内部对象，而内部对象本身又可能包含内部对象：

PUT test/_doc/1
{ 
  "region": "US",
  "manager": { 
    "age":     30,
    "name": { 
      "first": "John",
      "last":  "Smith"
    }
  }
}

在内部，这个文档被索引为一个简单的、扁平的键值对列表，比如下面这样：

{
  "region":             "US",
  "manager.age":        30,
  "manager.name.first": "John",
  "manager.name.last":  "Smith"
}

所以JSON 对象的子级也可以说使用 . 来代替 {}。

查看一下对象的映射：

{
  "test": {
    "mappings": {
      "properties": { # 顶级映射定义中的属性。
        "manager": { # 字段manager是一个内部object字段。
          "properties": {
            "age": {
              "type": "long"
            },
            "name": { # 字段manager.name是在字段manager内的一个内部object字段。
              "properties": {
                "first": { # manager.name.first 是字段manager.name内的一个内部object字段。
                  "type": "text",
                  "fields": {
                    "keyword": {
                      "type": "keyword",
                      "ignore_above": 256
                    }
                  }
                },
                "last": { # manager.name.last 是字段manager.name内的一个内部object字段。
                  "type": "text",
                  "fields": {
                    "keyword": {
                      "type": "keyword",
                      "ignore_above": 256
                    }
                  }
                }
              }
            }
          }
        },
        "region": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        }
      }
    }
  }
}

3、嵌套类型

3.1、nested

nested 类型是 object 数据类型的一个特殊版本，它允许以一种可以相互独立查询的方式对对象数组进行索引。

当摄入包含大量任意键的键值对时，可以考虑将每个键值对建模为包含key 和 value 字段的嵌套文档。相反，可以考虑使用 flattened 数据类型，它将整个对象映射为单个字段，并允许对其内容进行简单的搜索。嵌套的文档及其查询的代价通常是很高的，因此对于这个用例使用 flattened 数据类型是一个更好的选择。

3.1.1、对象数组是如何扁平化

Elasticsearch没有内部对象的概念。因此，它将对象层次结构简化为字段名称和值的简单列表。例如，考虑以下文档：

PUT my_index/_doc/1
{
  "group" : "fans",
  "user" : [ # 字段user是动态映射的，数组的第一个元素类型为其字段类型：object 类型。
    {
      "first" : "John",
      "last" :  "Smith"
    },
    {
      "first" : "Alice",
      "last" :  "White"
    }
  ]
}

上面的文档将在内部转换成如下所示的文档：

{
  "group" :        "fans",
  "user.first" : [ "alice", "john" ],
  "user.last" :  [ "smith", "white" ]
}

那么在映射为 object 类型的情况下，user.first 和 user.last 字段被展平为多值字段，alice 和 white 之间的关联丢失。该文档将错误地匹配查询 alice 和 smith：

GET test/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "user.first": "Alice" }},
        { "match": { "user.last":  "Smith" }}
      ]
    }
  }
}
//搜索结果：
{
  "took": 240,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.5753642,
    "hits": [					# 正常来说是不能搜索到的，但依然可以搜索到
      {
        "_index": "test",
        "_id": "1",
        "_score": 0.5753642,
        "_source": {
          "group": "fans",
          "user": [
            {
              "first": "John",
              "last": "Smith"
            },
            {
              "first": "Alice",
              "last": "White"
            }
          ]
        }
      }
    ]
  }
}

3.1.2、将nested字段用于对象数组

为了解决上面的问题，这就有了 nested 数据类型，如果需要索引对象数组并保持数组中每个对象的独立性，请使用 nested 数据类型而不是 object 数据类型。

在内部，嵌套对象将数组中的每个对象作为单独的隐藏文档进行索引，这意味着可以使用 nested查询独立于其他对象来查询每个嵌套对象：

nested查询:

包裹另一个查询以搜索nested(嵌套)字段。

nested查询搜索嵌套的字段对象，就好像它们被索引为单独的文档一样。如果对象与搜索匹配，nested查询将返回根父文档。

//设置映射：
PUT test
{
  "mappings": {
    "properties": {
      "user": {
        "type": "nested"  # user 字段映射为 nested 数据类型
      }
    }
  }
}

// 索引文档：
PUT test/_doc/1
{
  "group" : "fans",
  "user" : [ 
    {
      "first" : "John",
      "last" :  "Smith"
    },
    {
      "first" : "Alice",
      "last" :  "White"
    }
  ]
}

user 设置为 nested 数据类型，搜索是必须使用 nested查询，再搜索一次 Alice 和 Smith，这时就搜索不到了：

GET test/_search
{
  "query": {
    "nested": {
      "path": "user",
      "query": {
        "bool": {
          "must": [
            { "match": { "user.first": "Alice" }},
            { "match": { "user.last":  "Smith" }} 
          ]
        }
      }
    }
  }
}

//搜索结果：
{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 0,
      "relation": "eq"
    },
    "max_score": null,
    "hits": []
  }
}

再搜索一次 Alice 和 White，可以搜索到：

GET test/_search
{
  "query": {
    "nested": {
      "path": "user",
      "query": {
        "bool": {
          "must": [
            { "match": { "user.first": "Alice" }},
            { "match": { "user.last":  "White" }} 
          ]
        }
      }
    }
  }
}
//搜索结果：
{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 1.3862942,
    "hits": [
      {
        "_index": "test",
        "_id": "1",
        "_score": 1.3862942,
        "_source": {
          "group": "fans",
          "user": [
            {
              "first": "John",
              "last": "Smith"
            },
            {
              "first": "Alice",
              "last": "White"
            }
          ]
        }
      }
    ]
  }
}

3.1.3、与nested文档交互

嵌套文档可以：

使用nested查询对其进行查询。
使用nested和reverse_nested聚合对其进行分析
使用嵌套排序进行排序。
使用嵌套内部命中来获取并高亮。

因为嵌套文档是作为单独的文档进行索引的，所以只能在 nested查询、nested/reverse_nested聚合 或 nested inner hits 的范围内访问它们。

例如，如果嵌套文档中的字符串字段将 index_options 设置为 offsets 以允许在高亮阶段使用发布，则这些 offsets 在高亮阶段(主要阶段之一)将不可用。相反，高亮需要通过 nested inner hits 来执行。在通过 docvalue_fields 或 stored_fields 进行搜索的过程中加载字段时，同样的注意事项也适用。

3.1.4、nested字段的参数

nested 字段接受下列参数：

dynamic：(可选，字符串) 新属性(properties)是否应该被动态的添加到一个已有的嵌套对象中。接受true(默认)，false及strict。
properties：(可选，对象) 嵌套对象内的字段，可以认识任意一种数据类型，包含nested。新属性可能会被添加到一个已有的嵌套对象。
include_in_parent：(可选，布尔) 如果为true，嵌套对象中的所有字段也将作为标准(扁平的)字段添加到父文档中。默认为false。
include_in_root：(可选，布尔) 如果为true，嵌套对象中的所有字段也将作为标准(扁平的)字段添加到根文档中。默认为false。

3.1.5、nested映射和对象的限制

如前所述，每个嵌套对象都作为一个单独的 Lucene 文档进行索引。接着前面的例子，如果我们索引一个包含 100 个 user 对象的文档，那么将会创建 101 个 Lucene 文档：父文档一个，每个嵌套对象一个。由于与nested映射相关的开销，Elasticsearch 进行了一些设置来防止性能问题:

index.mapping.nested_fields.limit
- 一个索引中不同 nested 映射的最大数量。 nested 类型应该只在特殊情况下使用，即当对象数组需要彼此独立地查询时。为了防止映射设计不当，该设置限制了每个索引的唯一 nested 类型的数量。默认值为 50。
- 在前面的例子中，user 映射对这个限制只计为 1。
index.mapping.nested_objects.limit
- 单个文档在所有 nested 类型中可以包含的嵌套 JSON 对象的最大数量。当文档包含太多嵌套对象时，此限制有助于防止内存不足错误。默认值为 10000。
- 为了说明这个设置是如何工作的，考虑在前面的示例映射中添加另一个名为 comments 的 nested 类型。对于每个文档，它包含的 user 和comment 对象的总数必须低于该限制。

有关防止映射爆炸的其他设置，请参考防止映射爆炸的设置。

三、其他类型

查看官方文档

找到一个 ES7.7 版本的中文文档，速度很快。
更多类型查看官网：
Aggregate metric
Alias
Completion
Dense vector
Flattened
Histogram
Join
Percolator
Point
Rank feature
Rank features
Search-as-you-type
Shape
Token count
Unsigned long
Version

你可能感兴趣的:(Elasticsearch,elasticsearch,搜索引擎,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

ElasticSearch 基础（六）之 字段映射类型测试

目录

前言