zdplife

Elasticsearch 入门学习

没有聚餐和旅游的春节假期，正好学习一下阮一鸣老师的《Elasticsearch 核心技术与实战》，下面是对 Elasticsearch 里的一些入门知识的学习和总结：

什么是 Elasticsearch ？

使用 java 语言开发的一套开源的全文搜索引擎
用于搜索、日志管理、安全分析、指标分析、业务分析、应用性能监控等多个领域
底层基于 Lucene 开源库开发，提供 restAPI，可以被任何语言调用
支持分布式部署，可水平扩展
更新迭代快、社区活跃、文档丰富

什么是 ELK ？

Elasticsearch + Logstash + Kibana（ELK）是一套开源的日志管理方案，可以使用它来搭建可视化的日志分析平台。其中 Elasticsearch 就是本文要讲的开源分布式搜索引擎，经常和它一起使用还有 Logstash，Kibana，Beats，Cerebro，这些工具是用来做什么的呢？

应用程序 -> beats -> [redis | kafka | rabbitMQ] -> logstash -> elasticSearch -> [grafana | kibana]

Logstash

Logstash 是一个用于管理日志的工具，可以用它去收集日志、转换日志、解析日志并将他们作为数据提供给其它模块调用，例如将数据提供给 Elasticsearch 使用。

实时解析和数据转换
IP 地址解析，隐藏敏感信息
扩展性强，有丰富的插件
安全性强，可以对数据传输进行加密

Kibana

Kibana 也是一个开源和免费的数据可视化工具，可以为 ElasticSearch 提供友好的日志分析 Web 界面，可以帮助您汇总、分析和搜索重要数据日志。

Kibana 还提供了一个非常友好的开发工具，是学习 Elasticsearch 必备的 repl 工具，大家可以使用该工具尝试测试和验证 Elasticsearch 中的一些 restAPI 是如何工作的。

Beats

beats 是一组轻量级采集程序的统称，由 go 语言开发，负责日志收集，并将将收集到的数据发送给 Logstash 或者 Elasticsearch。elastic 官方支持的 5 种 Beats：

filebeat: 进行文件和目录采集，主要用于收集日志数据。
metricbeat: 进行指标采集，指标可以是系统的，也可以是众多中间件产品的，主要用于监控系统和软件的性能。
packetbeat: 通过网络抓包、协议分析，对一些请求响应式的系统通信进行监控和数据收集，可以收集到很多常规方式无法收集到的信息。
Winlogbeat: 专门针对 windows 的 event log 进行的数据采集。
Heartbeat: 系统间连通性检测采集，比如 icmp, tcp, http 等系统的连通性监控。

Cerebro

Cerebro 是 Elasticsearch 集群的监控管理工具，使用 Cerebro 我们可以 Elasticsearch 的节点运行情况，磁盘占用情况，并进行实时报警

Elasticsearch 的基础概念

集群（Cluster）

Elasticsearch 集群部署使其可以随时可用和并按需扩容，并保证数据的安全性
通过启动参数 cluster.name 修改集群名称，默认名称为 elasticsearch
下面我们部署一个集群，包括三个节点，默认是 9200 端口启动，启动后通过 http://127.0.0.1:9200 可以查看运行情况

bin/elasticsearch -E node.name=node1 -E cluster.name=myEs -d
bin/elasticsearch -E node.name=node2 -E cluster.name=myEs -d
bin/elasticsearch -E node.name=node3 -E cluster.name=myEs -d

节点(Node)

一个节点是一个 Java 进程实例，一台机器可以运行多个实例，一般情况下一台机器只允许一个节点
一个集群有一个或者多个节点
通过启动参数 node.name 定义节点名称
每个节点都保存了集群的状态信息，只有 Master 节点可以修改集群的状态信息
集群状态信息包括：所有节点信息、索引、Mapping、Settings、分片路由等信息
Master-eligible 节点：

- 每个节点启动，默认自己是一个 Master-eligible 节点
- 可以通过启动参数 node.master: false 禁止当前启动节点是 Master-eligible 节点
- 所有 Master-eligible 都可以参与选主流程，成为 Master 节点

Data 节点：

- 保存分片数据的节点
- 在数据扩展上起了很大的作用
- 通过启动参数 node.data 设置

Coordinating 节点

- 接收客户端请求，将请求分发到合适的节点，最终再对结果进行汇集
- 每个节点默认都是 Coordinating 节点

Hot & Warm 节点：硬件配置不同的节点
Machine Learning 节点：机器学习，用来自动异常检测，自动报警，通过启动参数 node.ml 进行设置

索引（Index）

一个集群下面可以新建多个索引，索引体现了逻辑空间概念
索引是一类相似文档的集合，是文档的容器，类比关系型数据库中的一张表的 Schema 的概念
每个索引有自己的 Mapping 用于定义文档的字段名和字段类型
每个索引有自己的 Settings 用于定义不同的数据分布，也就是索引使用分片的情况

分片(Shard)

分片是物理空间概念，索引中的数据都分布在分片上
一个分片就是运行的一个 Lucene 的实例
分片分为主分片和副分片，一般主分片和副分片应该分布在不同的节点上
主分片用于解决数据水平扩展的问题，主分片的数目在索引创建后指定，后续不容许修改（number_of_shards）
副分片用来解决数据高可用问题，是主分片的拷贝，数量可以动态调整(number_of_replicas)
分片数的设定

- 分片数设置太小，影响后续水平扩展，单个分片数据量太大将导致数据重新分配耗时
- 分片数设置过大，影响搜索结果的相关性打分，影响搜索结果数据准确性
- 分片数设置过大，导致单个节点上会有过多的分片，资源浪费，浪费性能

文档（Document）

文档是所有可搜索数据的最小单位，类似关系数据库中某张表中的一行记录
文档会被序列化成 JSON 格式，JSON 对象由字段组成
每个字段都有对应的字段类型，类型可以自己指定，也可以使用 ElasticSearch 自动推算
JSON 文档支持数组和嵌套
每个文档都有一个唯一性 ID，可以自己指定，也可以系统自动生成
一个文档主要的元信息如下：

1. _index: 文档所属的索引名
2. _type: 文档所属的类型名
3. _id: 文档的唯一ID
4. _source: 文档存储的 Json 数据
5. _version：文档的版本信息
6. _score: 相关性打分

Elasticsearch 插件

Elasticsearch 还提供了插件功能，用户可以根据自己的需求安装相应的插件满足搜索，分析，安全，管理，数据备份等功能，比如我们可以安装 elasticsearch-analysis-ik 来满足我们的中文分词功能。

bin/elasticsearch-plugin install 安装插件
bin/elasticsearch-plugin list 展示插件列表
可以访问 localhost:9200/_cat/plugins 接口显示已经安装的插件

Elasticsearch 类比关系型数据库

Elasticsearch 相对关系型数据库，更适合相关性、高性能全文检索，并且支持 restAPI 调用，而关系型数据库更适合事务性要求较强的场景，以下是两者概念上的类比：

关系型数据库	ElasticSearch
Table	Index
Row	Document
Column	Field
Schema	Mapping
SQL	DSL(domain-specific language)

倒排索引

Elasticsearch 使用一种称为”倒排索引"的结构，它适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表，这样可以通过某个单词快速的找到其所在的文档：

倒排索引包含两部分：单词词典（Team Dictionary）和倒排列表（Posting List）
单词词典记录单词到倒排列表的关联关系，一般通过 B+ 树或者哈希链表实现
倒排列表记录单词对应的文档结合，由倒排索引项组成
倒排索引项由文档ID(docId)，词频（term frequencies），单词位置(term postion)，偏移量(character offsets)组成
ElasticSearch 中默认会对文档中的每个字段做倒排索引，可以强行指定不对某些字段设置倒排索引

分词器

Analysis 是把全文本转换为一系列单词的过程，也叫分词
Analysis 通过 Analyzer 分词器实现，可以使用 ElasticSearch 内置的分词器或者定制化分词器
在写入文档和搜索查询时都需要用到分词器
在写入文档数据时，需要对 TEXT 字段做分词然后建立倒排索引
在搜索查询时，需要对输入的查询语句进行分词，然后通过倒排索引进行搜索
Analyzer 分词器的组成:

1. Character Filters: 对原始文本进行预处理，比如去除 HTML，字符串替换，正则匹配替换
2. Tokenizer: 按照规则切分单词，ES 内置的有 whitespace/standard/uax_url_email/pattern/keyword/path hierarchy 等 Tokenizer
3. Token Filter: 对切分的单词进行加工，例如小写转换(Lowercase)，删除 stopwords(stop)，增加同义词(synonym)等

ElasticSearch 内置分词器有:

Standard Analyzer：默认分词器，按词切换，小写处理
Simple Analyzer: 按照非字母切分，小写处理
Stop Analyzer: 小写处理，停用词过滤
Whitespace Analyzer：按照空格切分，不转换小写
Keyword Analyzer: 不分词，直接将输入当作输出
Patter Analyzer: 正则表达式分词
Language Analyzer：提供 30 多种常见语言的分词器
Customer Analyzer：自定义分词器

常用的中文分词器:

- icu_analyzer: bin/elasticsearch-plugin install analysis-icu
- ik: bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip
- thulac: https://github.com/microbun/elasticsearch-thulac-plugin

关于 Mapping

Mapping 主要用于定义索引的字段名称和数据类型以及倒排索引等相关配置，Mapping 可以系统自动推断生成，也可以由用户自己定义，下面我们看一个简单 Mapping 的格式：

//该索引包含三个字段
//name，类型是 long，不支持索引搜索
//phone，类型是 keyword，对于值为空的情况可以使用"NULL"字符串来搜索
//name，类型是 text，并定义了索引级别，以及自定义的分词器
{
  "mappings" : {
      "properties" : {
        "id" : {
          "type" : "long",
          "index": false
        },
        "name" : {
          "type" : "text",
          "index_options": "positions",
          "copy_to": "fullName",
          "fields": {
            "english_comment":{
              "type": "text",
              "analyzer": "english",
              "search_analyzer": "english"
            }
          }
        },
        "phone" : {
          "type" : "keyword",
          "null_value": "NULL"
        }
      }
    }
}

字段的属性

type：字段的数据类型，并没有提供专门数组类型，通过 TEXT 字段实现，Elasticsearch 主要支持以下几种数据类型：

- Text：默认情况下会进行分词
- Keyword：不会进行分词，全文本匹配
- Date：日期类型
- Integer/Floating：整数/浮点数
- Boolean：布尔类型
- IPv4 & IPv6
- 特殊类型：geo_point & geo_shape & percolator

index：表示该字段是否可以被搜索，是否需要建立倒排索引
index_options 属性：控制倒排索引记录的内容，内容越多，占用空间越大，text 类型默认是 positions，其它默认是 docs

- docs: 记录 docId
- freqs：记录 docId 和 term frequencies
- positions：记录 docId 和 term frequencies 和 term postion
- offsets：记录 docId 和 term frequencies 和 term postion 和 character offsets

null_value：默认情况下 null 是无法被直接搜索的，如果需要对 Null 值进行搜索，可以设置该属性，表示 null 值被当成什么来搜索
copy_to：将值拷贝到对应的字段上，多个字段可以同时 copy_to 到同一个字段上，用于对于多个字段同时查询，目标字段不会出现在 mapping 的定义中，但是可以用于搜索
fields: 多字段特性，可以增加一个 keyword 字段，可以为搜索和索引指定不同的分词器等

Index Template

PUT _template/test_template
{
  "index_patterns": ["test*"],  // 什么样的 index 会使用这个模板
  "order": 1,                   // 设置模板的优先级
  "settings": { 
    "number_of_shards": 1,      // shard 的数量
    "number_of_replicas": 2     //replication 的数量
  },
  "mappings": {
    "date_detection": false,   //字符串的日期类型是否自动转换
    "numeric_detection": true  //字符串的数字类型是否自动转换
  }
}

帮助你设定 Mappings 和 Settings，并按照一定的规则，自动匹配到新创建的索引之上
Index Template 只是对于一个新创建的索引才起作用
可以通过 order 参数来控制模板的优先级
一个 Elasticsearch 可以设置多个 Index Template
创建一个索引时，按照以下顺序配置其 Settings 和 Mappings，后面的覆盖前面的配置

- ES 默认的 Settings 和 Mappings
- order 数值低的 Index Template
- order 数值高的 Index Template
- 用户对于当前索引指定的 Settings 和 Mappings

Dynamic Mapping

在写入文档时，如果索引不存在 ES 会自动创建索引，并且会根据用户写入的数据按照上面介绍的逻辑自动推断每个字段的类型和配置，每个索引有一个 dynamic 属性来控制动态推断逻辑，该属性只会对新增数据写入起作用：

当 dynamic 属性 true 时，当有有新字段的文档写入时，Mapping 也会同时被按照推荐自动更新
当 dynamic 属性 false 时，当有有新字段的文档写入时，Mapping 不会被更新，新增字段无法被索引，但是信息会出现在文档的 _source 属性中
当 dynamic 属性是 Strict 时，文档不可以被写入，当然字段也不可以被索引，数据写入时直接报错
对已有字段，一旦有数据写入，就不再支持修改字段定义，因为建立了倒排索引后就不允许修改了，如果希望修改字段类型，必须 Reindex API，重建索引

同时 Elasticsearch 还支持用户定义 Dynamic Template 来通过字段名称来动态设置字段类型：

PUT my_test_index
{
  "mappings":{
    "dynamic_template": {
      "path_match": "name.*",  //字段以 name 开头
      "path_unmatch": "*.middle",  //字段以 middle 结尾
      "mapping": {
        "type": "text",
        "copy_to": "full_name"
      }
    }
  }
}

根据 ES 识别的数据类型，结合字段名称来动态设置字段类型
与 Index Template 不同，Dynamic Template 是定义在某个具体的索引下的

常用的 RestAPI

文档的 CURD

PUT {index_name}/_create/{id}：增加一条文档记录，必须保证对应 ID 的文档不存在
POST {index_name}/_update/{id}：不会删除原先文档，实现真正的数据更新，可以增加字段或者修改某些字段

//对索引 users 中 ID = 1 的文档进行更新操作
POST users/_update/1
{
  "doc": {
    "user": "chenmangmanga",
    "message": "learning elasticSearch",
    "class": "one",
    "age": 30
  }
}

PUT {index_name}/_doc/{id}：新增一条文档记录，如果记录已经存在，则删除原先文档，版本信息会加 1
POST {index_name}/_doc/：新增一条文档记录，ID 会自动生成
GET {index_name}/_doc/{id}：根据 ID 获取某一文档记录
DELETE {index_name}/_doc/{id}：根据删除一条文档
POST _bulk：文档的批量增删改

/*
- 支持在一次 API 调用中对不同的索引进行操作
- 支持 INDEX/Create/Update/Delete 四种类型的操作
- 单条记录操作失败，并不会影响其它操作
- 返回结果中包括了每一条操作执行的结果
*/

POST _bulk
{"index": {"_index": "users", "_id": "1"}}
{"user": "yangzhiwei2"}
{"delete":{"_index": "users", "_id": "2"}}
{"create":{"_index": "users", "_id": "3"}}
{"user": "zhuweilin","message": "learning elasticSearch","age": 35}
{"update":{"_index":"users","_id": "1"}}
{"doc":{"user": "helloworld"}}

GET _mget：批量读取文档数据

GET _mget
{
  "docs": [{
    "_index": "users",
    "_id": 1
  },{
    "_index": "users",
    "_id": 3
  },{
    "_index": "users",
    "_id": 2
  }]
}

文档的搜索

文档的搜索分为 URI Search 和 Request Body Search 两种方式，URI Search 主要在 URL 中通过 query string 的方式传参进行查询，方便简单；Request Body Search 是通过 POST 的请求体 Body 的方式传参进行搜索，支持丰富的搜索格式，下面是搜索相关的 rest API 如下：

POST|GET /_search: 对集群中所有的索引进行搜索
POST|GET /index1,index2/_search：搜索索引 index1 和 index2
POST|GET /index*/_search: 搜索以 index 开头命名的索引

搜索结果的是否合理，主要取决于搜索的相关性，搜索相关性由下面三个属性决定：

查准率：尽可能返回较少的无关文档
查全率：尽量返回较多的相关文档
排名：是否可以按照相关度进行排序

URI Search 相关示例

//搜索 users 索引下，user 字段包含 chenmangmanga，并对搜索结果按照 year 降序，获取前 10 个搜索结果，搜索超时时间为 1 秒
GET users/_search?q=user:chenmangmanga&sort=year:desc&from=0&size=10&timeout=1s
{
  "profile": true
}

q: 指定查询语句
df: 指定查询的默认字段
sort：按照什么字段进行排序
from/size：用于分页
profile：可以查看查询是如何被执行的
timeout：查询超时时间

Query String Syntax

对于上面查询查询语句 q 字段，Elasticsearch 支持丰富的搜索格式：

普通查询

1. q=status:active：表示搜索 status 字段中包含 active 的文档

布尔查询

1. q=title:(quick OR brown)： 表示搜索 title 字段中包含 quick 或者 brown 的文档，等同于 q=title:(quick brown) 或者 q=title:(quick || brown)
2. q=title:(quick AND brown)： 表示搜索 title 字段中包含 quick 并且包含 brown 的文档，等同于 q=title:(quick && brown) 或者 q=title:(quick +brown)
3. q=author:"John Smith"： 表示搜索 author 字段中包含 John Smith 的文档
4. q=_exists_:title：表示搜索 title 字段为非 null 的文档
5. q=title:(quick NOT brown)： 表示搜索 title 字段中包含 quick 并且不包含 brown 的文档，q=title:(quick ！ brown) 或者 q=title:(quick -brown)

范围查询

1. q=date:[2012-01-01 TO 2012-12-31]：查询 date 字段在 2012-01-01 和 2012-12-31 之间的文档
2. q=count:[10 TO *]：count 字段大于 10 的范围查询
3. q=age:(>=10 AND <20)：查询 age 字段大于等于 10 且小于 20 的文档

通配符查询

通配符占用内存大，一般情况下不建议使用

1. q=status:act?ve*a：“?”表示匹配一个任意字符，“*”表示匹配0个或者多个任意字符

正则查询

1. q=name:/joh?n(ath[oa]n)/

模糊查询和近似查询

1. q=title:befutifl~1 : 表示增加，删除，替换，或者字符位置转换不超过1的模糊匹配
2. q=title:"lord rings"~2：表示lord 和 rings 中间不超过2个字符的模糊匹配情况

Request Body Search 示例

将查询语句通过 HTTP Request Body 的形式发送给 Elasticsearch，支持非常丰富的查询格式，详情请参考官方文档

POST users/_search
{
  "profile": "true",   //输出ES是如何执行查询的
  "query": {
    "match": {         //user字段匹配 chenmangmanga 或者 zhuweil
      "user": {
        "query": "chenmangmanga, zhuweil",
        "operator": "OR"
      }
    }
  },
  "_source": ["user", "age"], //只返回部分字段
  "from": 0,                   //分页
  "size": 2,
  "sort": [{"age": "desc"}],  //排序，支持多个字段排序
  "script_fields": {
    "newField": {             //通过脚本生成新的字段
      "script": {
        "lang": "painless",
        "source": "doc['age'].value + '_hello'"
      }
    }
  }
}

聚合分析

类似关系型数据库，Elasticsearch 同样支持丰富的聚合运算，可以根据某个维度对数据进行求和，平均值，最大值等运算，并可以进行二次聚合运算：

GET kibana_sample_data_flights/_search
{
  "size": 0,
  "aggs":{
    "flight_dest":{
      "terms":{
        "field":"DestCountry"   //根据字段 DestCountry 进行聚合
      },
      "aggs":{
        "avg_price":{                // 求 AvgTicketPrice 的平均值
          "avg":{
            "field":"AvgTicketPrice"
          }
        },
        "wather":{
          "terms": {
            "field": "DestWeather",  // 二次聚合，求每个 DestCountry 下每个 DestWeather 的情况
            "size": 5
          }
        }
      }
    }
  }
}

Elasticsearch 中聚合主要分为以下几类：

Bucket Aggregation: 对满足特定条件的文档的聚合，分成不同的桶，类似关系型数据库中的 Group By
Metric Aggregation：一些数学运算，可以对文档字段进行统计分析，比如最大值，最小值，平均值的计算等
Pipeline Aggregation：对其它的聚合结果进行二次聚合
Matrix Aggregation：支持对多个字段的操作并提供一个结果矩阵

其它 API

GET _cluster/health: 查看集群的健康状态
GET {index_name}: 查看对应索引的状态
GET {index_name}/_count：查看索引的文档总数
POST /_analyze: 使用某个分词器对文本进行分词

POST /_analyze
{
  "analyzer": "standard",
  "text": "hello world, you are right"
}

GET {index_name}/_mapping：查看 mapping 定义
DELETE {index_name}：删除索引
PUT {index_name}：修改 mapping 定义

PUT users/_mapping
{
  "dynamic": "false"
}

PUT /_template/template_test：定义 Index Template

参考文献

Elasticsearch从入门到放弃：文档CRUD要牢记
全文搜索引擎 Elasticsearch 入门教程
ELK和beats

你可能感兴趣的:(Elasticsearch)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
python 写入es_python-elasticsearch从创建索引到写入数据夙砂酒 python 写入es
创建索引fromelasticsearchimportElasticsearches=Elasticsearch('192.168.1.1:9200')mappings={"mappings":{"type_doc_test":{#type_doc_test为doc_type"properties":{"id":{"type":"long","index":"false"},"serial":{"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
Grafana仪表盘设计最佳实践：如何创建有效的监控面板范范0825 grafana 信息可视化
Grafana仪表盘设计最佳实践：如何创建有效的监控面板引言Grafana是一个开源的数据可视化和监控平台，它提供了丰富的仪表盘功能，用于展示和分析各种数据源（如Prometheus、InfluxDB、Elasticsearch等）。有效的仪表盘设计能够帮助团队迅速识别和解决问题，提高系统的可靠性和性能。本文将深入探讨如何设计高效的Grafana仪表盘，涵盖最佳实践和实际应用。1.了解需求和目标1
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
Elasticsearch——配置详解 smart哥 elasticsearch专题 elasticsearch 搜索引擎
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析阶段5、深入jvm源码解析码哥源码部分码哥讲源码-原理源码篇【2024年最新大厂关于线程池使用的场
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><