CasterOxfd

ElasticSearch 服务端开发实践

- ES 简介
  - 索引，分片，副本
  - REST API 接口
- ES 开发步骤
  - setting
    - 获取当前 setting
    - 分片, 索引和副本集等设置
    - analyzer 自定义分析器设置
  - mapping
    - 获取当前 mapping
    - 简单数据类型及自动推导
    - 复杂数据类型
  - DSL
    - 增删改
    - 搜索
      - term 和 terms
      - match 和 match_phrase
      - netsted 类型数据查询
    - 深度分页
    - 使用 Go 写 es 导入工具
    - 重建分片和索引，并导入数据
- ES 开发中的问题集合
- ES 相关资源
  - 在线资源
  - ES head 插件

ES 简介

索引，分片，副本

ElasticSearch 是一个基于 Apache Lucene 搜索引擎的开源的搜索服务器项目，作为一个文档型搜索服务器，其存储和架构和 mongo 等 NoSQL 数据库十分类似，包括文档型的存储，分片，索引，集群和副本集等。

索引
注意，es 的索引和数据库的索引概念是不一样的。
es 的索引相当于mongo 数据库中的集合或者关系型数据库中的库。es 建立索引时的 mapping 字段则相当于mongo 数据库中的表。
以 MongoDB 为例，mongo 数据库中有 order 集合，order 下有 info，其中order_id 为 info 表的索引。
那么在 es 中，索引是 order，info 是 mapping 的类型 _type。
```
//mongo 数据
use order
db.info.find()
{
   "did": 490873,
   "order_id": 3
    ...
}
//es 数据
{                                                
 "_index": "order",                         
 "_type": "info",
 "_source": {
   "did": 490873,
   "order_id": 3
   ....
 }
}
```
分片
当数据量达到单机物理极限时，可以使用分片进行水平扩展，即将数据分割为更小的单元，存储在不同的服务器上，每一个分片负责一部分数据的处理，总的查询将在各个分片查询结束后，汇总结果返回给调用方。因此一个索引的数据会分布在不同的物理机上。
副本
副本集主要用于数据容灾和提高查询的吞吐量，每个分片可以有多个副本集，副本集只是分片的一个复制，可以认为存储了几份相同的数据。分片和其对应的副本集之间，有一个主分片对外提供服务，当主分片故障或其他原因不可用时，将会从副本集中选择一个作为主分片，继续对外提供服务。

如果不指定，es 将默认使用 5 个分片和 1个副本。其架构如下图所示:

REST API 接口

ES 所有的增删改查等操作均通过 REST API 接口实现，甚至包括管理索引，检查集群和节点状态等。
一个简单的 REST API 接口的模型就是操作 + 状态 , es 支持的操作有增删改查，操作后面指定es 的地址和端口，

GET	获取对象信息，可以是集群信息，也可以是 es 中的数据信息，索引信息等
PUT	新建一个对象
POST	修改对象，除了可以设置索引，分片和数据修改外，还可以发送关机，重启等命令
DELETE	删除一个对象

获取 es 集群基本信息

curl -XGET 127.0.0.1:9200   
{
  "name" : "127.0.0.1",
  "cluster_name" : "127.0.0.1",
  "version" : {
    "number" : "2.3.5",
    "build_hash" : "90f439ff60a3c0f497f91663701e64ccd01edbb4",
    "build_timestamp" : "2016-07-27T10:36:52Z",
    "build_snapshot" : false,
    "lucene_version" : "5.5.0"
  },
  "tagline" : "You Know, for Search"
}

新建一个文档

# 在 curl 中使用 XPUT　时，-d 表示使用负载文本，后面的内容用于替换 1 , 所以 1 不能省略
curl -XPUT 127.0.0.1:9200/test/info/1 -d '{"title":"test"}'
{
    "_index": "test",
    "_type": "info",
    "_id": "1",
    "_version": 4,
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "created": false
}

注: es 部署的默认端口为9200

ES 开发步骤

setting

获取当前 setting

curl -XGET 127.0.0.1:9200/test/_settings?pretty

分片, 索引和副本集等设置

es 中分片和副本集的大小设置是在 setting 的 index 字段中

curl -XPUT 127.0.0.1:9200/test -d '
{
  "settings": {
    "index" : {
    "number_of_shards" : '5',   #分片数
    "number_of_replicas" : '1'  #副本数
  }
}

当第一次插入数据时，如果索引不存在，es 会自动创建索引，通过修改 es 的配置文件 elasticsearch.yml 关闭自动创建：

action.auto_create_index :false

通过 PUT 来创建索引，以下是创建名为 test 的索引。

curl -XPUT 127.0.0.1:9200/test/
#创建成功会返回
{"acknowledged":true}

analyzer 自定义分析器设置

es 中的分析器 analyzer 也是在setting 字段中设置，用于字符串类型的分析，系统默认的分析器有以下几种：
standard 、simple 、whiteSpace 、stop 、keyword 、pattern 、 language 、snowball

除使用默认之外可以自定义分析器，analyzer 在 setting 字段中设置， 1 个 analyzer = 1 个分词器 + n 个过滤器

{
    "settings": {
        "analysis": { 
            "analyzer": {
                //自定义分析器名字为 char_analyzer
                "char_analyzer": {   
                    "type": "custom",
                    //一个分词器
                    "tokenizer": "char_split", //这个分词器 char_split 是自定义的
                    //多个过滤器
                    "filter": [ "lowercase", //这个过滤器是系统自带的 "myFilter" //这个过滤器是自定义的 ] }
            },
            //自定义的分词器 char_split
            "tokenizer": {
                "char_split": {
                    "type": "nGram",
                    "min_gram": "1",
                    "max_gram": "1",
                    "token_chars": ["letter", "digit", "whitespace", "punctuation", "symbol"] }
            },
            //自定义的过滤器 myFilter
            "filter":{
                "myFilter":{
                    "type":"kstem" }
            }
        }
    }
}

mapping

在 es 的 json 结构中，mapping 字段是与 setting 字段同级的，es 通过 mapping 来自定义索引的结构和字段之间的映射关系，常用的数据类型有 long 、string 和 nested

获取当前 mapping

curl -XGET 127.0.0.1:9200/test/_mappings?pretty

简单数据类型及自动推导

long : 数值型和数值型的数组字段均使用 long 类型， es 中可以通过 { “dynamic”: “true” } 设置是否动态推断数据类型，设为 true时数值型的字段可以不用设置mapping值，由 es 自动推导其类型
string: 字符串类型，用于搜索和半匹配，可以结合分析器一起使用

复杂数据类型

对于一个包含内部对象的数组，存储时会被扁平化，比如以下数组

{
    "followers": [
        { "age": 35, "name": "Mary White"},
        { "age": 26, "name": "Alex Jones"},
        { "age": 19, "name": "Lisa Smith"}
    ]
}

最终存储结果：

{
    "followers.age":    [19, 26, 35],
    "followers.name":   [alex, jones, lisa, smith, mary, white]
}

{age: 35}与{name: Mary White}之间的关联会消失，因每个多值的栏位会变成一个值集合，而非有序的阵列。
此时使用nested 类型来处理这些嵌套的结构，比如以下的 properties.prop 就是一个多值字段。
以下是一个基本的 mapping 结构

{
    "mappings": {
        "person": {
            "dynamic": "false", 
            "properties": {
                "id": { 
                    "type": "long" },
                "name": {
                    "type": "string",
                    "analyzer": "char_analyzer", //指定分析器
                    //如果希望字符串是全词匹配的，要指定 not_analyzed
                    //"index": "not_analyzed" },
                "prop": {   
                    //嵌套结构使用 nested
                    "type": "nested",
                    "properties": { "propid": {"type": "long", "index": "not_analyzed"}, "propname": {"type": "string", "analyzer": "char_analyzer"}, } }
            }
        }
    }
}

DSL

业务模块已经对 es 接口做了一层封装，需要使用 es 的模块执行初始化之后，调用相应的接口函数即可，下面是使用 REST API 接口的DSL操作

增删改

先看一个 es 文档的具体结构:

{
  "_index": "order",
  "_type": "info",
  "_id": "did-490873_id-3",
  "_version": 6,
  "_score": 1,
  "_routing": "490873",
  "_source": {
    "did": 490873,
    "order_id": 3,
    ....
  }
}

可以看到，一个es 文档一定包含以下字段：
_index : 索引名称 , 可以理解为 mongo 中的数据库名，也用于在执行其他操作时指定的索引 $es_addr/_index

_type : 类型名称, 可以理解为 mongo 中的表名

_id : 唯一标识符, 一般由各个模块自己指定，用类似 did-10000_id-1 的格式作为 _id 的值

_version: es 自动维护的版本号，数据每次更改会自增

_source : 文档元数据

_routing : 路由值。由于es 中的索引时存储在各个分片上的，当我们创建或检索一个文档时，要知道或指定是在哪一个分片上。所有的文档操作都接收一个_routing参数，它用来自定义文档到分片的映射。自定义路由值可以确保所有相关文档——例如属于同一公司的文档——被保存在同一分片上。可以看到目前所有业务模块的路由值全部使用的 did

搜索

搜索可以同时在多个索引的多个类型上进行

//搜索格式：
curl -X GET '127.0.0.1:9200/index/type/_search'

//没有指定索引 默认在所有索引上搜索
curl -X GET '127.0.0.1:9200/_search/'
//同时指定 order 和 custm 索引搜索
curl -X GET '127.0.0.1:9200/order,custm/_search/'\
//在以g或u开头的索引的所有类型中搜索
curl -X GET '127.0.0.1:9200/g*,u*/_search'
//在order 索引的 info 类型中搜索
curl -X GET '127.0.0.1:9200/order/info/_search'
//在 order 索引的类型 info, setting 中搜索
curl -X GET '127.0.0.1:9200/order/info,setting/_search'
//在所有索引的类型为 info 的集合上搜索
curl -X GET '127.0.0.1:9200/_all/user,tweet/_search'

查询是业务调用最为频繁的接口，也是最复杂的接口，业务模块的主要处理是根据不同的查询操作，制定查询方案，以下是目前一些通用的查询，可以覆盖大多数的搜索方案。
最外层的是 query 和 bool , bool 以内分为四种查询方式：must 、 filter 、should、 must_not
以下是官方文档对四种查询的解释

可以看到如果无需系统评分或相关度计算，仅仅用于搜索，使用filter就可以了。一个典型的查询结构如下图所示：

POST _search
{
    "query": {
        "bool" : {
            "must" : {
                "term" : { "user" : "kimchy" }
            },
            "filter": {
                "term" : { "tag" : "tech" }
            },
            "must_not" : {
                "range" : {
                    "age" : { "gte" : 10, "lte" : 20 } }
            },
            "should" : [
                { "term" : { "tag" : "wow" } },
                { "term" : { "tag" : "elasticsearch" } }
            ],
            "minimum_should_match" : 1,
            "boost" : 1.0
        }
    }
}

在上面四种查询方式下，就是更小一级的对数据的过滤，如 term/terms 、match 、and 、or 、range 等等

term 和 terms

term 是最常用的查询，该查询不会使用分词，必须全匹配， 大小写也是敏感的，所以常用于数字型的搜索

terms 是 term 的数组形式，用于简单的数值型数组的匹配，满足数组中任何一个元素即返回

{
  //查询 did 为 10000, 且 pid 为数组 [22,23,24,25] 子集的文档
  "term":{  "did":10000 },  
  "terms":{ "pid":[22,23,24,25] }
}

match 和 match_phrase

match_phrase 和 match 用于字符串搜索，在定义了分词器的情况下都会使用分词

在 match_phrase 中所有的 term 都出现在数据中时才会返回数据

数据中出现的顺序必须和给定的查询顺序一致才会返回数据

netsted 类型数据查询

netsted 类型的数据查询需要制定 path, 也就是嵌套结构中类型为 nested 的字段，然后嵌套结构内的字段用dot 查询。

以下是一个完整的包含所有查询方式的 json

{
    "query": {
        "bool": {
            "filter": {
                // and 下的条件是需要 同时满足的
                "and": [{  
                        //对于数字类型的搜索，使用 term
                        "term": { "did": 519390 } },{
                        //对于数组类型的搜索  使用 terms
                        "terms": { "follower_pids": [40984,40985] } }, {
                        //范围搜索， 用 range
                        "range": { "create_time": { "gte": 1488211200000, "lte": 1488988799999 } } }
                ]
            },
            //should 下的条件  满足之一即可
            "should": [{   
                    //使用 match_phrase 的是使用分词的，用于搜索字符串，且半词匹配
                    "match_phrase": {   
                        "contact_names": "44" }
                }
            ],
            //should 中应该至少满足的条件个数
            "minimum_should_match": 1, 
            //must 下的也是必须满足的，其实跟放在 and 下也可以  但是and 下一般放数值型的匹配
            "must": [{       
                    "match_phrase": {
                        "name": "234" }
                }, {
         // nested 用于匹配 json 中嵌套json 的数据，在建立 mapping 的时候要使用 nested 并指定 path
                    "nested": {
                        "path": "props",
                        "query": { "bool": { "filter": [{ "term": { "props.propid": 583 } }, { "match_phrase": { "props.propvalue": "44" } } ] } } }
                }, {
                    "nested": {
                        "path": "props",
                        "query": { "bool": { "filter": [{ "term": { "props.propid": 585 } }, { "range": { "props.timestamp": { "gte": 1489507200000, "lte": 1490111999999 } } } ] } } }
                }, {
                    "nested": {
                        "path": "props",
                        "query": { "bool": { "filter": [{ "term": { "props.propid": 588 } }, { "terms": { "props.propmultiselect": ["one"] } } ] } } }
                }
            ],
            "must_not": [{
                    "terms": {
                        "prop_ids": [584] }
                }
            ]
        }
    },
    "sort": [{
            "props.timestamp": {
                "order": "asc",
                "nested_path": "props",
                "nested_filter": {
                    "term": {
                        "props.propid": 586 }
                }
            }
        }
    ],
    "fields": ["custmid", "contid"],
    "from": 0,
    "size": 51
}

深度分页

es 默认采用的分页方式是 from+ size的形式，在深度分页的情况下，这种使用方式效率是非常低的，比如 from = 5000, size=10， es 需要在各个分片上匹配排序并得到5010 条有效数据，然后返回最后10条数据，这种方式类似于mongo的 skip + size。目前支持最大的 skip值是 max_result_window ，默认1w。为了满足深度分页的场景，es 提供了 scroll + scan 的方式进行分页读取。

先获取一个 scroll_id

curl -XGET 127.0.0.1:9200/product/info/_search?pretty&scroll=2m -d 
{"query":{"match_all":{}}}

# 返回结果
{
  "_scroll_id": "cXVlcnlBbmRGZXRjaDsxOzg3OTA4NDpTQzRmWWkwQ1Q1bUlwMjc0WmdIX2ZnOzA7",
  "took": 1,
  "timed_out": false,
  "_shards": {
  "total": 1,
  "successful": 1,
  "failed": 0
  },
  "hits":{...}
}

然后后续的文档读取根据这个scroll_id 来

使用 Go 写 es 导入工具

重建分片和索引，并导入数据

当索引结构改变，需要重新建立索引时，要先清空数据，然后重建索引，再将数据重新导入到 es 里

curl -XDELETE 127.0.0.1:9200/order
#或者使用数据清理脚本，其中 order 是索引地址
es_clean_data.sh 127.0.0.1:9200 order

ES 开发中的问题集合

同样的查询，使用curl 正常而使用head 插件时无数据返回:

将操作请求从 GET 改为 POST
使用 skip 时，对于10000 条以后的数据无法返回:

这是 es 本身默认对skip 的限制，es 分页使用的是
```
{ from：100 , size : 10 }
```
即从第 100 条开始取10条数据。在 es 索引中有个字段 index.max_result_window 默认设置为 10000。
如果 from + size > index.max_result_window ，es 不会返回数据，该字段可以修改，比如指定custm 索引的值为 50000
```
curl -XPUT "127.0.0.1:9200/custm/_settings" -d 
'{ 
"index" : { 
    "max_result_window" : 50000 
}
}'
```
设置之后可以使用以下命令查看 custm 索引的setting 信息
```
curl -XGET 127.0.0.1:9200/custm/_settings?pretty 
```
如果要将当前所有的索引都设置，将索引名改成 _all 就可以
```
curl -XPUT "127.0.0.1:9200/all/_settings" -d 
'{
"index" : { "max_result_window" : 50000 
} 
}'
```
但是后续新建的索引要自己手动加，系统不会帮你加

es 安装问题

如果是初始化安装部署，es 搜索有问题，先看看服务有没有启动，然后判断 es 服务是否可用：

[root@local]# curl -X  GET 127.0.0.1:9200
{
 "name" : "xx.xx.xx.xx",
 "cluster_name" : "xx.xx.xx.xx",
 "version" : {
   "number" : "2.3.5",
   "build_hash" : "90f439ff60a3c0f497f91663701e64ccd01edbb4",
   "build_timestamp" : "2016-07-27T10:36:52Z",
   "build_snapshot" : false,
   "lucene_version" : "5.5.0"
 },
 "tagline" : "You Know, for Search"
}

如果显示的是 connection refused ，要注意 es 的运行的 host 与系统的 host 是否一致，如果是使用配置运行的，检查配置是否正确：/usr/local/elasticsearch/config/elasticsearch.yml

ES 相关资源

在线资源

https://www.elastic.co/

https://www.gitbook.com/book/looly/elasticsearch-the-definitive-guide-cn

ES head 插件

浏览器直接访问地址: http://127.0.0.1:9200/_plugin/head/

使用Chrome 插件访问: Google 应用商店搜索 ES Head 下载即可

【Elasticsearch】安全地删除快照仓库、快照
安全地删除快照仓库、快照1.删除仓库2.删除快照在上一篇博文《【Elasticsearch】快照与恢复功能详解》中，我们针对Elasticsearch的快照和恢复功能进行的讲解。细心的同学可能会对以下的命令产生疑惑，直接删除是安全的吗？本文将会给你答案。删除仓库：DELETE/_snapshot/my_backup_repo删除快照：DELETE/_snapshot/my_backup_repo/
【Elasticsearch】合适的锅炒合适的菜：性能与成本平衡原理公式解析
合适的锅炒合适的菜：性能与成本平衡原理公式解析1.公式本质：用合适的锅炒合适的菜2.拆解成现实场景3.当顾客点单时（数据操作）4.灾难场景：没有分层架构5.分层架构的精妙之处6.对应到Elasticsearch的真实参数在上一篇博客《【Elasticsearch】冷热集群架构》中，我们介绍了一个性能与成本平衡原理公式。总成本=∑i=hotcold(Ni×Cihardware+Qi×Ciquery)
SmartETL中数据库操作与流程解耦的设计与应用
正如ETL这个概念本身所指示的，数据库读写访问是ETL的最常用甚至是最主要的操作。现代信息系统的设计与运行基本都是围绕数据库展开的，很多应用的核心功能都是对数据库的CRUD（创建、检索、更新、删除）操作。SmartETL框架设计之初就考虑到了这个情况，在早期就根据团队的技术栈，实现了对MongoDB、MySQL、ElasticSearch、ClickHouse等数据库的Extract操作（即Loa
YAML基础使用教程（单引号和双引号的区别）奔跑吧邓邓子工具使用 YAML 单引号双引号
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
怎样合理创建es索引_图解Elasticsearch之一——索引创建过程数据分析师怎样合理创建es索引
0、引言这是国外培训ppt课程的节选内容。以下是我们的CoreElasticsearch：Operations课程中的一些很棒的幻灯片，它们有助于解释分片分配的概念。我们建议您更全面地了解这一点，但我会在此提供我们培训的概述：分片分配是将分片分配给节点的过程。这可能发生在初始恢复，副本分配，重新平衡或添加或删除节点期间。大多数时候，你不需要考虑它，这项工作是由Elasticsearch在后台完成的
EFK架构日志采集系统
以下是基于‌Filebeat+Elasticsearch+Kibana（EFK）‌构建日志采集系统的核心要点及部署指南，综合多来源最佳实践整理：一、架构核心要点‌组件角色‌‌Filebeat‌：轻量级日志采集器，实时监控文件/目录变化，高效转发日志数据（资源占用仅为Logstash的1/10）。‌Elasticsearch‌：分布式搜索引擎，存储日志并提供实时检索与分析能力。‌Kibana‌：可视
match_phrase_prefix实现search-time搜索推荐 Shaw_Young
搜索推荐，searchasyoutype，搜索提示，解释一下什么意思hellow-->搜索helloworldhellowehellowinhellowindhellodoghellocathellow-->helloworldhellowehellowinhellowind搜索推荐的功能百度-->elas-->elasticsearch-->elasticsearch权威指南GET/my_ind
【Elasticsearch】dfsPhase
`dfsPhase`（即DFS阶段）是在每个数据节点本地执行的，而不是在协调节点执行的。在Elasticsearch的查询流程中，`dfsPhase`是为了在进行“评分”时更准确地计算全局的term频率（TF-IDF），它需要先在每个数据节点上执行一次本地的DFS操作，收集该节点上每个字段的term统计信息（如docFreq、totalTermFreq），然后将这些信息回传给协调节点。协调节点再合
用ELK日志分析平台分析常见的系统登录问题
通过ELK（Elasticsearch、Logstash、Kibana）日志分析平台，除了登录超时问题，还可深入分析以下常见的系统登录问题，并结合实际场景提供解决方案：一、认证失败分析1.问题定位场景：用户输入错误密码、账户锁定、服务端认证模块故障等。ELK实现：日志解析：通过Logstash的Grok插件提取关键字段（如用户名、IP、错误类型），例如解析/var/log/auth.log中的Fa
【Elasticsearch】IndexService risc123456 Elasticsearch elasticsearch
一句话：IndexService就是“一个索引在单个节点里的运行时总管”，负责把这个索引在本节点托管的所有分片（主/副）以及它们要用到的资源、配置、线程池、缓存、监听等全部管理起来。---✅IndexService的核心职责（节点维度）模块作用分片生命周期创建/删除/关闭本地IndexShard实例（每个分片一个）。线程池提供`index`,`search`,`refresh`,`flush`,`
Docker安装Elasticsearch 7.17.0和Kibana 7.17.0并配置基础安全
1.准备工作确保已安装Docker并启动服务创建必要的目录结构：mkdir-p/opt/es/{config,data,plugins}mkdir-p/opt/kibana/configchmod-R777/opt/es/opt/kibana2.安装Elasticsearch拉取镜像：dockerpullelasticsearch:7.17.0创建配置文件/opt/es/config/elasti
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
【SpringCloud微服务实战09】Elasticsearch 搜索引擎李维山 Java elasticsearch spring cloud 搜索引擎
一、Elasticsearch安装1、Docker安装ES#创建一个网络dockernetworkcreatees-net#拉取ES镜像（这里使用7.17.18版本）dockerpullelasticsearch:7.17.18#新建一个目录存放es数据mkdirescdes#docker运行单机启动esdockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-X
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
Elasticsearch数据库的数据同步机制数据库管理艺术 elasticsearch 数据库 jenkins ai
Elasticsearch数据库的数据同步机制关键词：Elasticsearch、数据同步、近实时搜索、倒排索引、translog、refresh、flush、副本同步摘要：本文深入探讨Elasticsearch数据库的数据同步机制，从底层原理到实际应用进行全面解析。文章首先介绍Elasticsearch的基本架构和数据模型，然后详细分析其近实时搜索的实现原理，包括索引刷新(Refresh)、事务
docker run elasticsearch 报错 EmpressBoost docker elasticsearch 容器
谷粒商城p103前提条件：下载镜像文件#存储和检索数据dockerpullelasticsearch:7.4.2#可视化检索数据dockerpullkibana:7.4.2创建挂载的文件和配置mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/dataecho"http.host:0.0.0.0">>/mydata/ela
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
SkyWalking + Logstash全链路追踪系统详细实施方案 @淡定 skywalking
SkyWalking+Logstash全链路追踪系统详细实施方案一、系统架构与数据流向核心流程：数据采集：SkyWalkingAgent埋点收集调用链路数据日志增强：应用程序通过MDC注入TraceID日志收集：Logstash采集应用日志并发送至Elasticsearch数据存储：SkyWalking指标数据与日志数据分别存储可视化分析：SkyWalkingUI展示链路追踪，Kibana分析日志
自建ELK vs 云商日志服务：成本对比分析亲爱的非洲野猪 elk
在当今数据驱动的时代，日志管理已成为企业IT基础设施中不可或缺的一部分。面对日益增长的日志数据，许多团队都在纠结：是自建ELK（Elasticsearch、Logstash、Kibana）堆栈，还是直接使用云服务商提供的日志服务？本文将从成本角度对这两种方案进行详细对比分析。自建ELK方案成本分析1.硬件/基础设施成本服务器成本：至少需要3个节点（生产环境推荐）实现高可用中等规模部署：3台16核6
【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
Elasticsearch RESTful API入门：基础搜索与查询DSL 辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据搜索引擎全文检索 spring boot
ElasticsearchRESTfulAPI入门：基础搜索与查询DSL本文为Elasticsearch初学者详细解析RESTfulAPI的核心操作与查询DSL语法，包含大量实战示例及最佳实践。一、Elasticsearch与RESTfulAPI简介Elasticsearch（ES）作为分布式搜索分析引擎，其RESTfulAPI是与集群交互的核心方式。通过HTTP协议实现：✅索引文档的CRUD操作
Elasticsearch入门（二）：document数据格式、简单的es restful api m0_50134014 Elasticsearch elasticsearch java
目录一、document数据格式1.1面向文档的搜索分析引擎1.1.1对象数据存储到数据库中1.1.2对象数据存储到ES中二、电商网站商品管理案例背景介绍2.1简单的集群管理2.1.1快速检查集群的健康状况:`GET/_cat/health?v`2.1.2快速查看集群中有哪些索引:`GET/_cat/indices?v`2.1.3创建索引：`PUT/test_index?pretty`2.1.4删
Elasticsearch RESTful API入门：全文搜索实战（Java版）辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful java 大数据搜索引擎全文检索
ElasticsearchRESTfulAPI入门：全文搜索实战（Java版）本文结合Java客户端API，深入讲解Elasticsearch全文搜索的实现。包含10+个实战示例及对应的Java代码，涵盖match、multi_match、高亮显示等核心功能。一、环境准备1.添加Maven依赖org.elasticsearch.clientelasticsearch-rest-high-level
【Elasticsearch】function_score risc123456 Elasticsearch elasticsearch
如果你希望在Elasticsearch查询中降低某些特定`id`的文档评分，可以通过`function_score`查询结合`script_score`函数来实现。`script_score`允许你使用自定义脚本对文档的评分进行调整。以下是一个示例，展示如何降低某些特定`id`的文档评分：示例场景假设我们有一个索引`my_index`，其中包含一些文档，每个文档都有一个`id`字段。我们希望降低某
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin