程裕强

ElasticSearch 6.x 学习笔记：14.mapping参数

14.1 mapping参数概述

官方文档
https://www.elastic.co/guide/en/elasticsearch/reference/6.1/mapping-params.html
ElasticSearch提供了丰富的映射参数对字段的映射进行参数设计，比如字段的分词器、字段权重、日期格式、检索模型等等。

14.2 analyzer

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/analyzer.html

指定分词器(分析器更合理)，对索引和查询都有效。如下，指定ik分词的配置
（1）定义索引

DELETE my_index
PUT my_index

（2）ik_smart分词

GET my_index/_analyze
{
  "analyzer": "ik_smart",
  "text":"安徽省长江流域"
}

{
  "tokens": [
    {
      "token": "安徽省",
      "start_offset": 0,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "长江流域",
      "start_offset": 3,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}

（3）定义mapping

POST my_index/fulltext/_mapping
{
  "properties": {
      "content": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
      }
  }
}

（4）插入数据

POST my_index/fulltext/1
{"content":"美国留给伊拉克的是个烂摊子吗"}

POST my_index/fulltext/2
{"content":"公安部：各地校车将享最高路权"}

POST my_index/fulltext/3
{"content":"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}

POST my_index/fulltext/4
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}

（5）查询

POST /index/fulltext/_search
{
    "query" : { "match" : { "content" : "中国" }}
}

查询结果

{
  "took": 135,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0.6489038,
    "hits": [
      {
        "_index": "index",
        "_type": "fulltext",
        "_id": "4",
        "_score": 0.6489038,
        "_source": {
          "content": "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
        }
      },
      {
        "_index": "index",
        "_type": "fulltext",
        "_id": "3",
        "_score": 0.2876821,
        "_source": {
          "content": "中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"
        }
      }
    ]
  }
}

14.3 normalizer

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/normalizer.html
normalizer用于解析前的标准化配置，比如把所有的字符转化为小写等。

DELETE my_index

PUT my_index
{
  "settings": {
    "analysis": {
      "normalizer": {
        "my_normalizer": {
          "type": "custom",
          "char_filter": [],
          "filter": ["lowercase", "asciifolding"]
        }
      }
    }
  },
  "mappings": {
    "type": {
      "properties": {
        "foo": {
          "type": "keyword",
          "normalizer": "my_normalizer"
        }
      }
    }
  }
}

PUT my_index/type/1 
{"foo": "BÀR"}

PUT my_index/type/2
{"foo": "bar"}

PUT my_index/type/3
{"foo": "baz"}

POST my_index/_refresh

GET my_index/_search
{
  "query": {
    "match": {
      "foo": "BAR"
    }
  }
}

{
  "took": 6,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "my_index",
        "_type": "type",
        "_id": "2",
        "_score": 0.2876821,
        "_source": {
          "foo": "bar"
        }
      },
      {
        "_index": "my_index",
        "_type": "type",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "foo": "BÀR"
        }
      }
    ]
  }
}

14.4 boost

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/mapping-boost.html

官方建议：index time boost is deprecated. Instead, the field mapping boost is applied at query time.
也就是说，官方推荐在查询时指定boost。

我们可以通过指定一个boost值来控制每个查询子句的相对权重，该值默认为1。一个大于1的boost会增加该查询子句的相对权重。

DELETE my_index

put my_index

PUT my_index/my_type/1
{
  "title":"quick brown fox"

}

POST _search
{
    "query": {
        "match" : {
            "title": {
                "query": "quick brown fox",
                "boost": 2
            }
        }
    }
}

查询结果

{
  "took": 48,
  "timed_out": false,
  "_shards": {
    "total": 45,
    "successful": 45,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 1.7260926,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 1.7260926,
        "_source": {
          "title": "quick brown fox"
        }
      }
    ]
  }
}

boost参数被用来增加一个子句的相对权重(当boost大于1时)，或者减小相对权重(当boost介于0到1时)，但是增加或者减小不是线性的。换言之，boost设为2并不会让最终的_score加倍。
相反，新的_score会在适用了boost后被归一化(Normalized)。每种查询都有自己的归一化算法(Normalization Algorithm)。但是能够说一个高的boost值会产生一个高的_score。

14.5 coerce

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/coerce.html#coerce

coerce属性用于清除脏数据，coerce的默认值是true。整型数字5有可能会被写成字符串“5”或者浮点数5.0.coerce属性可以用来清除脏数据：

字符串会被强制转换为整数
浮点数被强制转换为整数
【例子】
（1）重新创建my_index

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "number_one": {
          "type": "integer"
        },
        "number_two": {
          "type": "integer",
          "coerce": false
        }
      }
    }
  }
}

（2）写入一条测试文档

PUT my_index/my_type/1
{
  "number_one": "10" 
}

{
  "_index": "my_index",
  "_type": "my_type",
  "_id": "1",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

（3）写入另一条测试文档

PUT my_index/my_type/2
{
  "number_two": "10" 
}

{
  "error": {
    "root_cause": [
      {
        "type": "mapper_parsing_exception",
        "reason": "failed to parse [number_two]"
      }
    ],
    "type": "mapper_parsing_exception",
    "reason": "failed to parse [number_two]",
    "caused_by": {
      "type": "illegal_argument_exception",
      "reason": "Integer value passed as String"
    }
  },
  "status": 400
}

14.6 copy-to

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/copy-to.html
copy_to属性用于配置自定义的_all字段。换言之，就是多个字段可以合并成一个超级字段。比如，first_name和last_name可以合并为full_name字段。
【例子】
（1）

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "first_name": {
          "type": "text",
          "copy_to": "full_name" 
        },
        "last_name": {
          "type": "text",
          "copy_to": "full_name" 
        },
        "full_name": {
          "type": "text"
        }
      }
    }
  }
}

PUT my_index/my_type/1
{
  "first_name": "John",
  "last_name": "Smith"
}

（2）查询

GET my_index/_search
{
  "query": {
    "match": {
      "full_name": { 
        "query": "John Smith",
        "operator": "and"
      }
    }
  }
}

{
  "took": 22,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.5753642,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.5753642,
        "_source": {
          "first_name": "John",
          "last_name": "Smith"
        }
      }
    ]
  }
}

14.7 doc_values

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/doc-values.html
doc_values是为了加快排序、聚合操作，在建立倒排索引的时候，额外增加一个列式存储映射，是一个空间换时间的做法。默认是开启的，对于确定不需要聚合或者排序的字段可以关闭。

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "status_code": { 
          "type":       "keyword"
        },
        "session_id": { 
          "type":       "keyword",
          "doc_values": false
        }
      }
    }
  }
}

14.8 dynamic

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/dynamic.html

dynamic属性用于检测新发现的字段，有三个取值：

true:新发现的字段添加到映射中。（默认）
flase:新检测的字段被忽略。必须显式添加新字段。
strict:如果检测到新字段，就会引发异常并拒绝文档

【例子】
（1）新建索引
取值为strict，非布尔值要加引号

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "dynamic": "strict", 
      "properties": {
        "title": { "type": "text"}
      }
    }
  }
}

（2）插入新文档

PUT my_index/my_type/1
{
  "title": "test",
  "content": "test dynamic"
}

抛出异常

{
  "error": {
    "root_cause": [
      {
        "type": "strict_dynamic_mapping_exception",
        "reason": "mapping set to strict, dynamic introduction of [content] within [my_type] is not allowed"
      }
    ],
    "type": "strict_dynamic_mapping_exception",
    "reason": "mapping set to strict, dynamic introduction of [content] within [my_type] is not allowed"
  },
  "status": 400
}

14.9 enabled

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/enabled.html
ELasticseaech默认会索引所有的字段，enabled设为false的字段，es会跳过字段内容，该字段只能从_source中获取，但是不可搜。而且字段可以是任意类型。

【例子】
（1）新建索引，插入文档

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "name":{"enabled": false}
      } 
    }
  }
}
PUT my_index/my_type/1
{
  "title": "test enabled",
  "name":"chengyuqiang"
}

（2）查看文档

GET my_index/my_type/1

{
  "_index": "my_index",
  "_type": "my_type",
  "_id": "1",
  "_version": 1,
  "found": true,
  "_source": {
    "title": "test enabled",
    "name": "chengyuqiang"
  }
}

（3）搜索字段

GET my_index/_search
{
  "query": {
    "match": {
      "name": "chengyuqiang"
    }
  }
}

{
  "took": 4,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

14.10 fielddata

14.11 format

在《12.5 date类型》一节已经介绍了日期格式化。
这里需要强调的是：epoch_millis表示毫秒数，epoch_second表示秒数。

更多内置的日期格式https://www.elastic.co/guide/en/elasticsearch/reference/6.1/mapping-date-format.html

14.12 ignore_above

ignore_above用于指定字段索引和存储的长度最大值，超过最大值的会被忽略

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "message": {
          "type": "keyword",
          "ignore_above": 20 
        }
      }
    }
  }
}

PUT my_index/my_type/1 
{
  "message": "Syntax error"
}

PUT my_index/my_type/2 
{
  "message": "Syntax error with some long stacktrace"
}

GET my_index/_search 
{
  "size":0,
  "aggs": {
    "messages": {
      "terms": {
        "field": "message"
      }
    }
  }
}

mapping中指定了ignore_above字段的最大长度为20，第一个文档的字段长小于20，因此索引成功，第二个超过20，因此不索引，返回结果只有”Syntax error”,结果如下

{
  "took": 12,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "messages": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "Syntax error",
          "doc_count": 1
        }
      ]
    }
  }
}

14.13 ignore_malformed

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/ignore-malformed.html
ignore_malformed可以忽略不规则数据。对于账号userid字段，有人可能填写的是整数类型，也有人填写的是邮件格式。给一个字段索引不合适的数据类型发生异常，导致整个文档索引失败。如果ignore_malformed参数设为true，异常会被忽略，出异常的字段不会被索引，其它字段正常索引。

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "number_one": {
          "type": "integer",
          "ignore_malformed": true
        },
        "number_two": {
          "type": "integer"
        }
      }
    }
  }
}

PUT my_index/my_type/1
{
  "text":       "Some text value",
  "number_one": "foo" 
}

PUT my_index/my_type/2
{
  "text":       "Some text value",
  "number_two": "foo" 
}

上面的例子中number_one接受integer类型，ignore_malformed属性设为true，因此文档一种number_one字段虽然是字符串但依然能写入成功；number_two接受integer类型，默认ignore_malformed属性为false，因此写入失败。

{
  "error": {
    "root_cause": [
      {
        "type": "mapper_parsing_exception",
        "reason": "failed to parse [number_two]"
      }
    ],
    "type": "mapper_parsing_exception",
    "reason": "failed to parse [number_two]",
    "caused_by": {
      "type": "number_format_exception",
      "reason": "For input string: \"foo\""
    }
  },
  "status": 400
}

14.14 index_options

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/index-options.html
The index_options parameter controls what information is added to the inverted index, for search and highlighting purposes.
index_options参数控制将哪些信息添加到倒排索引，用于搜索和突出显示目的。

参数	说明
docs	Only the doc number is indexed. Can answer the question Does this term exist in this field?
freqs	Doc number and term frequencies are indexed. Term frequencies are used to score repeated terms higher than single terms.
positions	Doc number, term frequencies, and term positions (or order) are indexed. Positions can be used for proximity or phrase queries.
offsets	Doc number, term frequencies, positions, and start and end character offsets (which map the term back to the original string) are indexed. Offsets are used by the unified highlighter to speed up highlighting.

注意：The index_options parameter has been deprecated for Numeric fields in 6.0.0。6.0.0中的数字字段已弃用index_options参数。

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "text": {
          "type": "text",
          "index_options": "offsets"
        }
      }
    }
  }
}

PUT my_index/my_type/1
{
  "text": "Quick brown fox"
}

GET my_index/_search
{
  "query": {
    "match": {
      "text": "brown fox"
    }
  },
  "highlight": {
    "fields": {
      "text": {} 
    }
  }
}

{
  "took": 50,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.5753642,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.5753642,
        "_source": {
          "text": "Quick brown fox"
        },
        "highlight": {
          "text": [
            "Quick brown fox"
          ]
        }
      }
    ]
  }
}

14.15 index

The index option controls whether field values are indexed. It accepts true or false and defaults to true. Fields that are not indexed are not queryable.
index属性指定字段是否索引，不索引也就不可搜索，取值可以为true或者false。

14.16 fields

https://www.elastic.co/guide/en/elasticsearch/reference/6.1/multi-fields.html

It is often useful to index the same field in different ways for different purposes. This is the purpose of multi-fields. For instance, a string field could be mapped as a text field for full-text search, and as a keyword field for sorting or aggregations。
fields可以让同一文本有多种不同的索引方式，比如一个String类型的字段，可以使用text类型做全文检索，使用keyword类型做聚合和排序。

DELETE my_index

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "city": {
          "type": "text",
          "fields": {
            "raw": { 
              "type":  "keyword"
            }
          }
        }
      }
    }
  }
}

PUT my_index/my_type/1
{
  "city": "New York"
}

PUT my_index/my_type/2
{
  "city": "York"
}

GET my_index/_search
{
  "query": {
    "match": {
      "city": "york" 
    }
  },
  "sort": {
    "city.raw": "asc" 
  },
  "aggs": {
    "Cities": {
      "terms": {
        "field": "city.raw" 
      }
    }
  }
}


{
  "took": 31,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": null,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": null,
        "_source": {
          "city": "New York"
        },
        "sort": [
          "New York"
        ]
      },
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "2",
        "_score": null,
        "_source": {
          "city": "York"
        },
        "sort": [
          "York"
        ]
      }
    ]
  },
  "aggregations": {
    "Cities": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "New York",
          "doc_count": 1
        },
        {
          "key": "York",
          "doc_count": 1
        }
      ]
    }
  }
}

The city.raw field is a keyword version of the city field (.city.raw字段是城市字段的关键字版本。)
The city field can be used for full text search.( city字段可用于全文搜索。)
The city.raw field can be used for sorting and aggregations.( city.raw字段可用于排序和聚合)

CentOS8下安装wget、wget2 奔跑吧邓邓子高效运维 linux centos wget wget2
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
Adaptive AUTOSAR 学习笔记 3 - AP 背景、技术及特征 aFakeProgramer AP AUTOSAR #AP AUTOSAR 新标准解读系列学习笔记
本系列学习笔记基于AUTOSARAdaptivePlatform官方文档R20-11版本。本文从AUTOSAR_EXP_PlatformDesign.pdf开始，一边学习，一边顺带着翻译一下。尽力而为，不保证精确。你若愿意，也可以当作AUTOSARAdaptivePlatform（AP）中文版来阅读1介绍1.1内容本规范（AUTOSAR_EXP_PlatformDesign.pdf）描述AP设计。
学习笔记一：oracle体系结构组件 coxddta29006 数据库操作系统 java
首先声明一下，我的学习笔记参考书主要是官方教材，oracle9idatabaseadministrationfundamentsed2.0我觉得学习是一个循序渐进的过程,从面到点,从宏观到微观,逐步渗透,各个击破,对于oracle,怎么样从宏观上来理解呢?先来看一个图,这个图取自于上面提到的教材,这个图对于从整体上理解ORACLE的体系结构组件，非常关键.下面来解释下这个图.对于一个数据库系统来说
Grafana 小馋喵知识杂货铺性能 grafana
Grafana是一款广泛使用的开源数据可视化与监控平台，通过与Prometheus、InfluxDB、Elasticsearch等多种数据源集成，提供强大的监控、数据展示和告警功能。其告警体系在及时通知系统异常、保障业务稳定性方面起到关键作用。Grafana告警体系概述Grafana的告警体系分为以下几个部分：告警规则：用于定义何时触发告警，包括监控指标、评估条件和评估时间间隔。告警规则可以基于面
3章mysql表连接查询_mysql学习笔记（六）--- 多表查询之外键、表连接、子查询、索引... kindle电子书单 3章mysql表连接查询
本章主要内容：一、外键二、表连接三、子查询四、索引一、外键：1、什么是外键2、外键语法3、外键的条件4、添加外键5、删除外键1、什么是外键：主键：是唯一标识一条记录，不能有重复的，不允许为空，用来保证数据完整性外键：是另一表的主键,外键可以有重复的,可以是空值，用来和其他表建立联系用的。所以说，如果谈到了外键，一定是至少涉及到两张表。例如下面这两张表：上面有两张表：部门表(dept)、员工表(em
ElasticSearch查询第四篇：匹配查询（Match）悦光阴字符串 java python elasticsearch 索引
《ElasticSearch查询》目录导航：ElasticSearch查询第一篇：搜索APIElasticSearch查询第二篇：文档更新ElasticSearch查询第三篇：词条查询ElasticSearch查询第四篇：匹配查询(Match)ElasticSearch查询第五篇：布尔查询匹配(Match)查询属于全文(Fulltext)查询，不同于词条查询，ElasticSearch引擎在处理全
MySQL学习笔记（8）--连接查询绿皮豚二号 MySQL mysql 数据库
·概念将多张表连在一起查询（会导致记录数行和字段数列发生改变）意义：在关系型数据库设计过程中，实体与实体之间是存在很多联系的。在关系型数据库表的设计过程中，遵循着关系来设计：一对一，一对多，多对多。通常在实际操作中，需要利用这层关系来保证数据的完整性。·交叉连接将两张表的数据与另外一张表彼此交叉（笛卡尔积）表1crossjoin表2--实例select*frommy_studentcrossjoi
Mysql之多表查询（几种连接方式）知识进脑的肖老千啊 sql mysql 数据库 sql
Mysql之多表查询（随手记录学习笔记）我们先建立两个表，并向表中插入数据（方便我们等会实验）：#建表createtabledepartment(idint,namevarchar(20));createtableemployee(idintprimarykeyauto_increment,namevarchar(20),sexenum('male','female')notnulldefault
软件测试学习笔记丨Pytest的使用霍格沃兹测试开发学社测试人社区学习笔记 pytest 软件测试测试开发
本文转自测试人社区，原文链接：https://ceshiren.com/t/topic/221581.简介pytest是一个成熟的全功能python测试框架测试用例的skip和xfail，自动失败重试等处理能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动化测试，接口自动化测试pytest有很多第三方插件，并且可以自定义扩展，如pytest-allure（完
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
【Elasticsearch】RestClient操作文档乙卯年QAQ elasticsearch jenkins 大数据 java
RestClient操作文档新增文档实体类API语法查询文档删除文档修改文档批量导入文档小结新增文档将数据库中的信息导入elasticsearch中以商品数据为例实体类定义一个索引库结构对应的实体。@Data@ApiModel(description="索引库实体")publicclassItemDoc{@ApiModelProperty("商品id")privateStringid;@ApiMo
elasticsearch pipeline 总结 weixin_40455124 elasticsearch 代码分析及扩展 pipeline elasticsearch ingest index
pipeline可以理解为elasticsearch对接收到的数据的入库前再处理过程，这个过程可以非常复杂，包括修改数据归属index。pipeline运行在ingestnode上一个pipeline由多个process组成，一个nodes支持哪些process，可以通过GET/_nodes/ingest查看，每种processor用途可以参看https://www.elastic.co/guid
ElasticSearch解析logback日志并处理异常栈轨迹甘蓝聊Java 【更新中...】项目中的那些事 elasticsearch logback pipeline multiline filebeat多行
文章目录背景分析IngestPipeline解析日志-示例查看IngestPipeline创建Pipeline添加Grok处理器添加时间戳、IP地址和用户代理处理器测试Pipeline多行消息管理filestreaminputloginput解决自定义pipeline解析logback日志Grok处理器Date处理器失败处理器为loginput添加多行处理验证调整Kibana数据视图验证失败处理器
es-Ingest pipelines 童小绿笔记 elasticsearch 大数据 big data
Ingestpipelinesnode为ingest角色，对indexingrequest做预处理，主要用于数据转换为合规、期望值的场景官方地址：https://www.elastic.co/guide/en/elasticsearch/reference/7.13/ingest.html#ingest使用pipeline必要条件node角色必须为：ingestpipeline的组成{"descr
Elasticsearch 摄取节点(Ingest Node)使用Pipeline预处理文档 °Fuhb ELK elasticsearch es 预处理节点 pipeline ingest node
1.IngestnodeIngestnode是elasticsearch的节点类型之一，通过在Ingestnode配置pipeline管道，可以在文档存入索引之前对文档进行预处理。例如：删除字段，重命名字段，修改字段值等等。默认情况下，所有节点都是IngestNode，可以通过修改elasticsearch.yml，把node.ingest改成false来关闭node.ingest:false要实
ElasticSearch 实战： ES 文档 API 用心去追梦 elasticsearch jenkins 大数据
Elasticsearch提供了一系列文档（Document）API，用于对索引中的个体数据单元进行增删改查操作。以下是对主要文档API的实战介绍：1.索引文档(IndexAPI)目的：插入或更新文档。请求方式：PUT或POSTURL：PUT//_doc/或POST//_doc/请求体：包含待索引的文档数据，以JSON格式表示。示例：PUT/my_index/_doc/1{"title":"Exa
Elasticsearch 摄取节点(Ingest Node)常用的数据处理器(Processor) °Fuhb ELK elasticsearch es Processor 预处理 Ingest Node
文章目录SetProcessorAppendProcessorRemoveProcessorRenameProcessorConvertProcessorGrokProcessorDotExpanderProcessorDropProcessorFailProcessorJoinProcessorSplitProcessorKVProcessorJSONProcessorTrimProcessor
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
Vue学习笔记二涔溪 vue vue.js 学习笔记
4、Vue基础扩展4.1插槽组件的最大特性就是复用性，而用好插槽能大大提高组件的可复用能力在Vue中插槽是很重要的存在，通过插槽，我们可以把父组件中指定的DOM作用到子组件的任意位置，后面我们坐项目用到的组件库比如element-ui,vant-ui都频繁用到的插槽，Vue的插槽主要有匿名插槽，具名插槽，作用域插槽三种，下面我们分别来认识一下他们。4.1.1匿名插槽★★★★故名思义就是没有名字的插
es 3期第22节-Bucket特殊分桶聚合实战 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
es 3期第25节-运用Rollup减少数据存储 DavidSoCool elasticsearch elasticsearch 大数据搜索引擎
####1.Elasticsearch是数据库，不是普通的Java应用程序，传统数据库需要的硬件资源同样需要，提升性能最有效的就是升级硬件。####2.Elasticsearch是文档型数据库，不是关系型数据库，不具备严格的ACID事务特性，任何企图直接替代严格事务性场景的应用项目都会失败!!!####3.Elasticsearch原则上适合一切非事务性应用场景或能够容许一定的延迟的事务性场景;能
2022年10月15日学习笔记——电能量市场和辅助服务市场联合出清（仅为基础知识概念） XiaoGuYing 电气自动化最优化方法学习
电能量市场和辅助服务市场联合出清（仅为基础知识概念）电能量市场辅助服务市场英国电力市场改革美国电力市场改革北欧电力市场辅助服务的分类辅助服务交易类型电能量市场和辅助服务市场联合出清电能量市场在电力批发市场中，主要的电力交易产品是电能量。按照时间维度，电力交易类型可分为中长期交易、短期交易和及时交易[见《中共中央国务院关于进一步深化电力一直改革的若干意见》（中发[2015]9号文）（简称9号文）]，
ELK Stack：日志管理与分析的神兵利器 Aries263 elk jenkins 运维
在当今的数字化时代，数据是企业运营的核心。而日志数据，作为数据的重要组成部分，对于监控、分析和故障排查具有不可替代的作用。ELKStack（Elasticsearch、Logstash和Kibana的组合）凭借其强大的日志收集、处理和可视化能力，成为了众多企业和开发者首选的日志管理与分析工具。本文将深入探讨ELKStack的工作原理、应用场景以及如何使用它来构建高效的日志管理系统。一、ELKSta
Elasticsearch Date类型使用技巧 weixin_30886233 大数据 json java
elasticsearch原生支持date类型。这里简单记录下使用的方法。使用date类型可以用如下两种方式：使用毫秒的时间戳，直接将毫秒值传入即可。传入格式化的字符串，默认是ISO8601标准，例如2015-02-27T00:07Z(零时区)、2015-02-27T08:07+08:00(东八区),这两个时间实际是同一个，只是时区不同。另外还可以自定义时间格式，参见es的文档。但个人不建议使用自
html与css学习笔记（2）陈王卜学习笔记
一、CSS引入方式具体有3种引入方式，语法如下表格所示：引入方式语法内联样式在HTML标签中使用style属性，例如：这是一个红色的div内部样式表在HTML文件的标签内使用标签，例如：div{color:red;}外部样式表使用标签在HTML文件的标签内引入外部CSS文件，例如：对于上述3种引入方式，企业开发的使用情况如下：1.内联样式会出现大量的代码冗余，不方便后期的维护，所以不常用。2.内部
Redis学习笔记之Redis数据结构与内部编码、单线程架构 dog~south~south 学习笔记 redis 缓存
一、Redis数据结构与内部编码1、Redis数据结构有哪些？StringHashlistsetzset等等2、数据结构与内部编码的关系数据结构是用户能接触的接口内部编码是数据结构的内部实现每种数据结构都有两种及以上的内部编码多种内部编码实现可以在不同的场景下发挥各自的优势二、Redis的单线程架构redis是单线程来处理命令的一条命令从客户端到服务端不会立刻被执行，所有命令都会进入一个队列中，然
Oracle 到 Elasticsearch 数据迁移同步
简述Elasticsearch是一个分布式的实时搜索与数据分析引擎，具有强大的可扩展性和高度的灵活性。CloudCanal对于Elasticsearch的支持经过了多轮迭代，支持版本从6.x和7.x一路扩展到8.x，并适配了其丰富多样的API。同时CloudCanal对Oracle源端同步技术进行了多处优化，大幅提升了数据同步的稳定性和可靠性。本文主要介绍如何使用CloudCanal快速构建一条O
小土堆学习笔记10（利用GPU训练于模型验证）干啥都是小小白 pytorch学习——小土堆学习笔记深度学习
1.利用GPU训练GPU可优化操作如下操作方法1方法2数据获取判断是否可以使用GPU，如果可以直接model.cuda()先设定device，用的时候直接model.to（“device”）损失函数1.1利用以前实战模型训练（经过完整测试最高到70%左右的正确率）实战模型如下：小土堆学习笔记5（sequential与小实战）-CSDN博客具体代码如下：classmymodel(Module):de
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key