PHPerJiang

ES7.X 自定义分词+scroll查询

11月拉！

自定义分词

PUT user
{
  "settings": {
    "analysis": {
      "analyzer": {
        "pinyin_analyzer":{
          "tokenizer":"my_piniyin"
        }
      },
      "tokenizer": {
        "my_piniyin":{
          "type":"pinyin",
          "keep_full_pinyin":true,
          "keep_original":true,
          "limit_first_letter_length":16,
          "lowercase":true,
          "remove_duplicated_term":true,
          "keep_separate_first_letter":false
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "keyword",
        "fields": {
          "my_pinyin":{
            "type":"text",
            "analyzer":"pinyin_analyzer"
          }
        }
      }
    }
  }
}

我们先创建一个索引，如上设置，settings设置好自定义索引，起名pinyin_analyzer, 标记是my_pinyin,设置pinyin分词器的各项元素，感觉比较重要的是keep_full_pinyin：true，汉语全量转拼音，具体的可以看文档https://github.com/medcl/elasticsearch-analysis-pinyin。接下来我们开始分词

{
  "tokens" : [
    {
      "token" : "liu",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "刘德华",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "ldh",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "de",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "hua",
      "start_offset" : 0,
      "end_offset" : 0,
      "type" : "word",
      "position" : 2
    }
  ]
}

看我们的pinyin分词已经将刘德华，分词了，还比较详细，使用term倒排查一下就出来，还是蛮好用的。

alias索引别名

POST _aliases
{
  "actions": [
    {
      "add": {
        "index": "movies",
        "alias": "myindex2",
        "filter": {
          "range": {
            "year": {
              "gte": 1
            }
          }
        }
      }
    }
  ]
}

在给一个索引添加别名的时候可以附加一个filter过滤，新的别名索引里只能查询到filter过滤后的docs

复合查询

给查询算分结果*某个字段的值，提升权重

POST movies/_search
{
  "explain": true, 
  "size": 2, 
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query": "Old",
          "fields": ["title","genre.keyword"]
        }
      },
      "field_value_factor": {
        "field":"year",
        "modifier": "log2p",    //分值追加一个函数  _score * log（2 + factor * year）
        "factor": 0.01          //增加函数进行收敛 
      }
    }
  }
}

如上是查询title、genre中带有old或者包含old的文档，并进行相关性打分，将打分结果*字段year的值，然后进行排序。

{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 47,
      "relation" : "eq"
    },
    "max_score" : 9.856819,
    "hits" : [
      {
        "_shard" : "[movies][0]",
        "_node" : "JZoUKVAzQkuhCZV5j8r4Qg",
        "_index" : "movies",
        "_type" : "_doc",
        "_id" : "72696",
        "_score" : 9.856819,
        "_source" : {
          "year" : 2009,
          "genre" : [
            "Comedy"
          ],
          "@version" : "1",
          "id" : "72696",
          "title" : "Old Dogs"
        },
        "_explanation" : {
          "value" : 9.856819,
          "description" : "function score, product of:",
          "details" : [
            {
              "value" : 7.3328753,
              "description" : "max of:",
              "details" : [
                {
                  "value" : 7.3328753,
                  "description" : "weight(title:old in 14201) [PerFieldSimilarity], result of:",
                  "details" : [
                    {
                      "value" : 7.3328753,
                      "description" : "score(freq=1.0), product of:",
                      "details" : [
                        {
                          "value" : 2.2,
                          "description" : "boost",
                          "details" : [ ]
                        },
                        {
                          "value" : 6.3534727,
                          "description" : "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:",
                          "details" : [
                            {
                              "value" : 47,
                              "description" : "n, number of documents containing term",
                              "details" : [ ]
                            },
                            {
                              "value" : 27287,
                              "description" : "N, total number of documents with field",
                              "details" : [ ]
                            }
                          ]
                        },
                        {
                          "value" : 0.5246147,
                          "description" : "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:",
                          "details" : [
                            {
                              "value" : 1.0,
                              "description" : "freq, occurrences of term within document",
                              "details" : [ ]
                            },
                            {
                              "value" : 1.2,
                              "description" : "k1, term saturation parameter",
                              "details" : [ ]
                            },
                            {
                              "value" : 0.75,
                              "description" : "b, length normalization parameter",
                              "details" : [ ]
                            },
                            {
                              "value" : 2.0,
                              "description" : "dl, length of field",
                              "details" : [ ]
                            },
                            {
                              "value" : 2.9695094,
                              "description" : "avgdl, average length of field",
                              "details" : [ ]
                            }
                          ]
                        }
                      ]
                    }
                  ]
                }
              ]
            },
            {
              "value" : 1.3441957,
              "description" : "min of:",
              "details" : [
                {
                  "value" : 1.3441957,
                  "description" : "field value function: log2p(doc['year'].value * factor=0.01)",
                  "details" : [ ]
                },
                {
                  "value" : 3.4028235E38,
                  "description" : "maxBoost",
                  "details" : [ ]
                }
              ]
            }
          ]
        }
      },
      {
        "_shard" : "[movies][0]",
        "_node" : "JZoUKVAzQkuhCZV5j8r4Qg",
        "_index" : "movies",
        "_type" : "_doc",
        "_id" : "50259",
        "_score" : 9.852491,
        "_source" : {
          "year" : 2006,
          "genre" : [
            "Drama"
          ],
          "@version" : "1",
          "id" : "50259",
          "title" : "Old Joy"
        },
        "_explanation" : {
          "value" : 9.852491,
          "description" : "function score, product of:",
          "details" : [
            {
              "value" : 7.3328753,
              "description" : "max of:",
              "details" : [
                {
                  "value" : 7.3328753,
                  "description" : "weight(title:old in 11233) [PerFieldSimilarity], result of:",
                  "details" : [
                    {
                      "value" : 7.3328753,
                      "description" : "score(freq=1.0), product of:",
                      "details" : [
                        {
                          "value" : 2.2,
                          "description" : "boost",
                          "details" : [ ]
                        },
                        {
                          "value" : 6.3534727,
                          "description" : "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:",
                          "details" : [
                            {
                              "value" : 47,
                              "description" : "n, number of documents containing term",
                              "details" : [ ]
                            },
                            {
                              "value" : 27287,
                              "description" : "N, total number of documents with field",
                              "details" : [ ]
                            }
                          ]
                        },
                        {
                          "value" : 0.5246147,
                          "description" : "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:",
                          "details" : [
                            {
                              "value" : 1.0,
                              "description" : "freq, occurrences of term within document",
                              "details" : [ ]
                            },
                            {
                              "value" : 1.2,
                              "description" : "k1, term saturation parameter",
                              "details" : [ ]
                            },
                            {
                              "value" : 0.75,
                              "description" : "b, length normalization parameter",
                              "details" : [ ]
                            },
                            {
                              "value" : 2.0,
                              "description" : "dl, length of field",
                              "details" : [ ]
                            },
                            {
                              "value" : 2.9695094,
                              "description" : "avgdl, average length of field",
                              "details" : [ ]
                            }
                          ]
                        }
                      ]
                    }
                  ]
                }
              ]
            },
            {
              "value" : 1.3436055,
              "description" : "min of:",
              "details" : [
                {
                  "value" : 1.3436055,
                  "description" : "field value function: log2p(doc['year'].value * factor=0.01)",
                  "details" : [ ]
                },
                {
                  "value" : 3.4028235E38,
                  "description" : "maxBoost",
                  "details" : [ ]
                }
              ]
            }
          ]
        }
      }
    ]
  }
}

我们看一下打分详情，即为 _score * log(2+ factor * year)

11.4更

提升分值 boost mode

POST movies/_search
{
  "explain": true, 
  "size": 2, 
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query": "Old",
          "fields": ["title","genre.keyword"]
        }
      },
      "field_value_factor": {
        "field": "year"
      }, 
      "boost_mode": "sum"
    }
  }
}

boost_mode 有四种模式

multiply : 将field_value_factor中获取的数值与query中的相关性打分做乘法运算，然后进行排序
sum: 算分与字段值因素的和
min/max : 算分与字段值因素之间取最大/最小值作为相关性打分

replace: 使用字段值因素取代算分

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 47,
      "relation" : "eq"
    },
    "max_score" : 2020.3269,
    "hits" : [
      {
        "_shard" : "[movies][0]",
        "_node" : "JZoUKVAzQkuhCZV5j8r4Qg",
        "_index" : "movies",
        "_type" : "_doc",
        "_id" : "114250",
        "_score" : 2020.3269,
        "_source" : {
          "year" : 2014,
          "genre" : [
            "Comedy",
            "Drama"
          ],
          "@version" : "1",
          "id" : "114250",
          "title" : "My Old Lady"
        },
        "_explanation" : {
          "value" : 2020.3269,
          "description" : "sum of",
          "details" : [
            {
              "value" : 6.3268967,
              "description" : "max of:",
              "details" : [
                {
                  "value" : 6.3268967,
                  "description" : "weight(title:old in 23775) [PerFieldSimilarity], result of:",
                  "details" : [
                    {
                      "value" : 6.3268967,
                      "description" : "score(freq=1.0), product of:",
                      "details" : [
                        {
                          "value" : 2.2,
                          "description" : "boost",
                          "details" : [ ]
                        },
                        {
                          "value" : 6.3534727,
                          "description" : "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:",
                          "details" : [
                            {
                              "value" : 47,
                              "description" : "n, number of documents containing term",
                              "details" : [ ]
                            },
                            {
                              "value" : 27287,
                              "description" : "N, total number of documents with field",
                              "details" : [ ]
                            }
                          ]
                        },
                        {
                          "value" : 0.4526441,
                          "description" : "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:",
                          "details" : [
                            {
                              "value" : 1.0,
                              "description" : "freq, occurrences of term within document",
                              "details" : [ ]
                            },
                            {
                              "value" : 1.2,
                              "description" : "k1, term saturation parameter",
                              "details" : [ ]
                            },
                            {
                              "value" : 0.75,
                              "description" : "b, length normalization parameter",
                              "details" : [ ]
                            },
                            {
                              "value" : 3.0,
                              "description" : "dl, length of field",
                              "details" : [ ]
                            },
                            {
                              "value" : 2.9695094,
                              "description" : "avgdl, average length of field",
                              "details" : [ ]
                            }
                          ]
                        }
                      ]
                    }
                  ]
                }
              ]
            },
            {
              "value" : 2014.0,
              "description" : "min of:",
              "details" : [
                {
                  "value" : 2014.0,
                  "description" : "field value function: none(doc['year'].value * factor=1.0)",
                  "details" : [ ]
                },
                {
                  "value" : 3.4028235E38,
                  "description" : "maxBoost",
                  "details" : [ ]
                }
              ]
            }
          ]
        }
      }
    ]
  }
}

从分析上来看，相关性的分6.3268967，而字段值因素是2014，所以总分是2020.3269

max_boost : 最大提升上限，此参数可以限制字段值因素的最大分值上限，所获取的分值将在这个上限范围内

POST movies/_search
{
  "explain": true, 
  "size": 1, 
  "query": {
    "function_score": {
      "query": {
        "multi_match": {
          "query": "Old",
          "fields": ["title","genre.keyword"]
        }
      },
      "field_value_factor": {
        "field": "year"
      }, 
      "boost_mode": "sum",
      "max_boost": 10
    }
  }
}

比如上面你的查询，field_value_factor的值会被限制在10（max_boost）内，最大10，因为boost_mode是sum，所以及果实查询的相关性打分加上这个字段值因素的最大值。

random_score 一致性随机函数

GET movies/_search
{
  "explain": true, 
  "size": 1, 
  "query": {
    "function_score": {
      "query": {
        "term": {
          "title": {
            "value": "love"
          }
        }
      },
      "random_score": {
        "seed": 314159265359,
        "field":"_seq_no"
      }
    }
  }
}

7.0之后需要random_score设置field字段，否则会报错，一致性随机函数是根据seed的的序号进行随机，如果seed的值是一样的，那么随机结果也是一致的。

suggest 推荐模块，原理是将查询分解为token，在索引字典里查找相似的term返回

GET movies/_search
{
  "size": 1, 
  "query": {
    "term": {
      "title": {
        "value": "lover"
      }
    }
  },
  "suggest": {
    "my_suggest": {
      "text": "lover",
      "term": {
        "field": "title",
        "suggest_mode":"popular"
      }
    }
  }
}

suggest_mode有几种常用的，比如

missing : 如果索引即terms => lover已经存在，则不提供建议
popular: 推荐出现频率更加高的词

always : 无论这个terms是否存在，都提供建议

{
  "took" : 3,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 12,
      "relation" : "eq"
    },
    "max_score" : 8.87367,
    "hits" : [
      {
        "_index" : "movies",
        "_type" : "_doc",
        "_id" : "2586",
        "_score" : 8.87367,
        "_source" : {
          "year" : 1999,
          "genre" : [
            "Comedy",
            "Crime",
            "Thriller"
          ],
          "@version" : "1",
          "id" : "2586",
          "title" : "Goodbye Lover"
        }
      }
    ]
  },
  "suggest" : {
    "my_suggest" : [
      {
        "text" : "lover",
        "offset" : 0,
        "length" : 5,
        "options" : [
          {
            "text" : "lovers",
            "score" : 0.8,
            "freq" : 25
          },
          {
            "text" : "loved",
            "score" : 0.8,
            "freq" : 14
          },
          {
            "text" : "love",
            "score" : 0.75,
            "freq" : 355
          },
          {
            "text" : "lives",
            "score" : 0.6,
            "freq" : 40
          },
          {
            "text" : "live",
            "score" : 0.5,
            "freq" : 72
          }
        ]
      }
    ]
  }
}

推荐的信息放在自定义的数组中，有分值及频率。需要的时候可以自选。

插播一条刚才遇到的问题。线上es报错查询超过1w条

我们先来了解一下es的配置index.max_result_window，es的配置，可以是全局的，也可以针对某个索引设置，默认1w条
线上引起这次报错的查询来源是什么呢，是一个脚本，while取数，每次20条，没有退出条件，在平时这个脚本不会引发es报错，因为平时数据量没双十一这么高，这几天大促，数据量持续走高，所以导致了超过配置限制。
如何解决这个问题呢？有几个思路，第一，因为他是脚本查询，不是前台实时查询，所以允许延迟时间，这样我们就可以采用es的scroll查询，scroll查询不是针对于实时的，它会对es进行多次查询，通过记录scroll_id+快照的方式进行查询，我们可以指定查询的时间间隔
```
curl -XGET 'localhost:9200/index/type/_search?scroll=1m' -d '
{
    "query": {
        "match_phase" : {
            "title" : "elasticsearch"
        }
    }
}
```
我们指定了scroll = 1min 即与下次查询之间最大间隔1min，超过则断联，第一次查询除了数据外还会返回一个scroll_id用作下次查询，所以下次查询就是如下查询
```
curl -XGET  'localhost:9200/_search/scroll'  -d'
{
    "scroll" : "1m", 
    "scroll_id" : "c2Nhbjs2OzM0NDg1ODpzRlBLc0FXNlNyNm5JWUc1" 
}
```
scroll会一直向指定查询游走，直到查询到对应数据或者查不到数据或者超时断联时会停止请求。但是只是用scroll进行查询是有代价的，它会进行排序，最坏的情况下是全局排序。
所以有些时候我们深度分页的情况下只想要数据，而不想排序，我们可以加上scan参数
```
GET /old_index/_search?search_type=scan&scroll=1m 
{
"query": { "match_all": {}},
"size": 1000
}
```
如上，我们只需加上search_type=scan，则可以禁止排序，从而避免全局排序。还有一种方式是使用_doc去sort得出来的结果，这个执行的效率最快，但是数据就不会有排序，适合用在只想取得所有数据的场景，示例如下
```
GET /old_index/_search?scroll=1m 
{
"query": { "match_all": {}},
"size": 1000,
"sort": [
        "_doc"
        ]
    }
}
```

另外一个优化点是，在使用scroll游标查询的时候，在查询完毕的时候尽可能的清除这个scroll,这样可以减轻es的负担

DELETE 127.0.0.1:9200/_search/scroll
{
    "scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAdsMqFmVkZTBJalJWUmp5UmI3V0FYc2lQbVEAAAAAAHbDKRZlZGUwSWpSVlJqeVJiN1dBWHNpUG1RAAAAAABpX2sWclBEekhiRVpSRktHWXFudnVaQ3dIQQAAAAAAaV9qFnJQRHpIYkVaUkZLR1lxbnZ1WkN3SEEAAAAAAGlfaRZyUER6SGJFWlJGS0dZcW52dVpDd0hB"
}

继续咱们的es学习，上面只是个小查取，等大促过去之后，我再对今天出现的问题做些优化。

【企业研发】ELK开发 flyair_China django python 后端
一、ElasticSearchElasticsearch作为当前最流行的全文检索引擎之一，在众多领域展现出强大的搜索和分析能力。1.1、全文检索与精准检索的差异Elasticsearch提供两种主要的查询方式：全文检索匹配检索(Full-textMatchQuery)和精准匹配检索(ExactMatchQuery)，它们在处理查询词和索引数据时有显著区别。1.精准匹配检索(ExactMatchQu
在 Logstash 中使用 Ruby 脚本 Elastic 中国社区官方博客 Logstash Elastic 大数据 elasticsearch 搜索引擎 ruby 全文检索 logstash
作者：来自ElasticDaiSugimori了解LogstashRubyfilter插件，在你的Logstashpipeline中进行高级数据转换。更多阅读：Logstash：使用Ruby过滤器了解将数据导入Elasticsearch的不同方式，并深入实际示例，尝试一些新方法。Elasticsearch拥有丰富的新功能，帮助你为你的使用场景构建最佳的搜索解决方案。立即开始免费试用。Logstas
Springboot --- 整合spring-data-jpa和spring-data-elasticsearch 百世经纶『一页書』 Springboot Java springboot
Springboot---整合spring-data-jpa和spring-data-elasticsearch1.依赖2.配置文件3.代码部分3.1Entity3.2Repository3.3Config3.4Service3.5启动类3.6Test3.7项目结构SpringBoot:整合Ldap.SpringBoot:整合SpringDataJPA.SpringBoot:整合Elasticse
Elasticsearch 根据字段值去重前的个数过滤数据（qbit）
前言本文对Elasticsearch7.17适用假定有个ip类型的字段client_ip，需要根据字段值的个数过滤数据在query中使用script只能通过doc['client_ip']获取到去重后的个数研究发现使用runtime_mappings可以动态新建字段获取到不去重的个数示例创建索引PUTmy_index{"mappings":{"dynamic":false,"properties"
Elasticsearch 索引文档的流程 jiedaodezhuti elasticsearch 大数据搜索引擎
Elasticsearch索引文档的流程是一个分布式、多阶段的过程，涉及客户端请求、路由、主副本同步及持久化等步骤，具体流程如下：一、客户端请求与路由1.1文档接收与路由计算‌客户端通过RESTAPI发送文档写入请求，需指定索引名、文档ID（可选）及文档内容。Elasticsearch根据文档ID（或自定义routing值）哈希计算目标主分片位置。请求被转发到主分片所在的节点（协调节点或直接定位主
Elasticsearch连接 java.net.ConnectException: Connection refused: getsockopt swany elasticsearch java .net
使用springboot连接Elasticsearch创建全文索引，总是报连接不上的问题，报错如下：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'esContentService':Unsatisfieddependencyexpressedthroughfiel
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
使用docker-compose部署elk
使用DockerCompose部署ELK（Elasticsearch、Logstash、Kibana）的好处主要体现在以下几个方面：集中管理日志数据：ELK能够帮助业务实现日志数据的集中管理，通过Elasticsearch进行搜集、分析和存储，Kibana为Elasticsearch提供图形化界面，使得日志数据的查看和分析更加直观和便捷。快速搜索和分析：ELK能够快速搜索和分析日志数据，从而提高故
Elasticsearch模糊查询、多字段in查询、时间范围查询，DSL和java API两种方式 Gzzz__ Elasticsearch elasticsearch java javascript 开发语言后端
项目场景：Elasticsearch模糊查询某字段、多字段in查询、时间范围查询，通过DSL和javaAPI两种方式解决方案：一、模糊查询wildcard通配符检索使用wildcard相当于SQL的like，前后都可拼接*，匹配0到多个任意字符{"query":{"wildcard":{"name.keyword":"*文件*"}}}BoolQueryBuilderqueryBuilder=Que
Elasticsearch从入门到精通编程界的彭于晏qaq java 数据库缓存 es
Elasticsearch从入门到精通一、引言在当今数字化时代，数据呈现出爆炸式增长的态势，如何高效地存储、检索和分析这些海量数据成为了开发者们面临的重要挑战。Elasticsearch（简称ES）作为一款强大的分布式搜索和分析引擎，凭借其出色的性能、高可扩展性和实时搜索能力，在众多领域得到了广泛的应用。而Java作为一种广泛使用的编程语言，以其强大的功能和丰富的生态系统，成为了与ES结合的首选语
6.24_JAVA_微服务_Elasticsearch搜索灰太狼Coding java 微服务开发语言
1、FinalShell工具：单向工具，能将本地连接到虚拟机。（虚拟机连不到本地）我们用docker建的容器比如MQ，比如ES，我们能够访问它们的WEB操作地址，都是因为前面的地址不是localhost，而是虚拟机的IP。比如ES端口是9200，本地访问localhost:9200会无法访问。但是输入：192.168.XXX.XXX:9200可以访问。我们操作也实际上是操作的虚拟机的数据，而不是本
解决Elasticsearch Python客户端初始化报错：URL must include a ‘scheme‘, ‘host‘, and ‘port‘ Ven% 实用篇 elasticsearch python 阿里云
文章目录问题背景错误复现错误原因分析1.Elasticsearch客户端对URL格式的严格要求2.阿里云Elasticsearch的特殊要求3.环境变量配置不完整解决方案方案一：修改环境变量（推荐）方案二：在代码中自动补全URL方案三：使用客户端的基本认证参数阿里云Elasticsearch连接最佳实践完整代码示例总结问题背景在使用Python的Elasticsearch客户端连接阿里云Elast
Elasticsearch（ES）与 OpenSearch（OS）老兵发新帖 elasticsearch 大数据搜索引擎
Elasticsearch（ES）与OpenSearch（OS）本质上是同源分叉、独立演进的技术，两者关系可概括为“起源相同、目标分化”。以下是关键要点解析：一、核心关系：分叉与独立演进起源相同OpenSearch于2021年由AWS主导，从Elasticsearch7.10.2版本分叉而来[citation:2][citation:3][citation:4]。分叉原因：Elastic公司将El
探秘Flink Connector加载机制：连接外部世界的幕后引擎 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理生态中，SourceFunction负责数据的输入源头，而真正架起Flink与各类外部存储、消息系统桥梁的，则是Connector。从Kafka消息队列到HDFS文件系统，从MySQL数据库到Elasticsearch搜索引擎，Flink通过Connector实现了与多样化外部系统的交互。而这一切交互的基础，都离不开背后强大且精巧的Connector加载机制。接下来，我们将深
Spring Boot 集成 Elasticsearch（含 ElasticsearchRestTemplate 示例）超级小忍 SpringBoot spring boot elasticsearch
Elasticsearch是一个基于Lucene的分布式搜索服务器，具有高效的全文检索能力。在现代应用中，尤其是需要强大搜索功能的系统中，Elasticsearch被广泛使用。SpringBoot提供了对Elasticsearch的集成支持，使得开发者可以轻松地将Elasticsearch集成到SpringBoot应用中，实现高效的搜索、分析等功能。本文将详细介绍如何在SpringBoot中集成E
ELK搭建曾燕辉 elasticsearch logstash elk elasticsearch kibana java logstash
1、elasticsearch和kibana搭建配置见https://blog.csdn.net/yh_zeng2/article/details/148812447?spm=1001.2014.3001.55012、logstash下载下载和elasticsearch版本一致的logstash，下载地址：PastReleasesofElasticStackSoftware|Elastic这里下载
Elasticsearch 结果聚合与分页机制详解亲爱的非洲野猪 elasticsearch 大数据搜索引擎
一、结果聚合原理Elasticsearch的分布式结果聚合是通过两阶段查询过程完成的：1.查询阶段（QueryPhase）分片级处理：协调节点将查询广播到所有相关分片（主分片或副本分片）每个分片独立执行查询，计算本地相关性评分各分片返回前N条结果的文档ID和评分（N=from+size）特点：使用优先级队列（Top-HitsCollector）收集结果默认返回每个分片的Top10结果（可通过pre
【Elasticsearch】请求量和延迟对搜索性能的影响及关键指标分析 G皮T #Elastic elasticsearch 大数据搜索引擎性能搜索监控运维
1.请求量对搜索性能的影响2.延迟对搜索性能的影响3.其他重要的搜索性能指标3.1吞吐量（Throughput）3.2错误率（ErrorRate）3.3召回率（Recall）3.4精确率（Precision）3.5平均响应时间（AverageResponseTime）3.6百分位延迟（PercentileLatency）3.7缓存命中率（CacheHitRatio）3.8索引新鲜度（IndexFr
阿里云Elasticsearch生产环境误删数据恢复指南 Ven% 实用篇阿里云 elasticsearch
文章目录事故场景还原数据恢复全流程第一步：查看可用快照列表第二步：恢复指定快照数据关键参数解析恢复后操作阿里云快照机制注意事项灾难预防建议本文记录了一次生产环境中误删Elasticsearch索引数据的完整恢复过程，通过阿里云自动快照功能实现数据拯救，适用于所有使用阿里云ES服务的用户。事故场景还原某次维护操作中，开发人员误执行了以下命令，导致my_index索引数据被清空：POST/my_ind
从 Elasticsearch 集群中移除一个节点 Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎全文检索数据库
作者：来自ElasticJessicaGarson解释如何从Elasticsearch集群中移除一个节点。更多阅读：Elasticsearch：如何从Elasticsearch集群中删除数据节点Elasticsearch：如何使用集群级别的分片分配过滤（不包括节点）安全地停用节点永久删除Elasticsearch中的主节点想获得Elastic认证？了解下一次ElasticsearchEnginee
Python爬虫进阶：Scrapy+Playwright+智能解析高效爬取B站游戏实况视频数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 笔记开发语言游戏音视频
摘要本文将深入讲解如何构建一个高性能B站游戏实况视频爬虫系统，涵盖从逆向工程到分布式部署的全流程。项目采用Scrapy框架作为核心，集成Playwright处理动态渲染，使用智能解析技术应对B站反爬机制，结合MongoDB和Elasticsearch构建数据存储与检索系统，最终实现每小时可处理10万+视频数据的专业级采集方案。1.B站数据生态分析1.1游戏区数据价值热门游戏实时监测UP主影响力评估
Spring Boot中动态操作Elasticsearch的实践指南携程邮轮
本文还有配套的精品资源，点击获取简介：本文详细介绍了如何在SpringBoot框架下动态地操作Elasticsearch组件。Elasticsearch作为一款强大的分布式搜索引擎，经常用于大数据分析和实时搜索任务。通过利用SpringDataElasticsearch模块，可以简化Java应用中Elasticsearch的CRUD操作。本文将指导如何实现单个文档的增删改查、模糊查询、分页查询、特
springboot2.X集成spring data elasticsearch 向阳不像羊 spring elasticsearch java
1.准备工作在集成es之前，我们需要选择springboot对应的es版本，版本一定要选择正确，否则后面可能会出现各种各样的问题。下图是springboot与es客户端版本对应关系：我的springboot版本是2.4.10，所以这里我选择es客户端7.9.3的版本es下载链接：DownloadElasticsearch|Elasticik分词器下载链接：https://github.com/me
springboot 接入elasticsearch qq_41813060 Java ES elasticsearch spring boot java
准备环境：参考https://blog.csdn.net/weixin_44141284/article/details/121553749修改ES解压目录/config/elasticsearch.yml文件，防止cors，末尾需要添加http.cors.enabled:truehttp.cors.allow-origin:"*"1.springbootpom.xmlorg.springfram
SpringBoot整合Spring Data Elasticsearch 2501_90254160 spring spring boot elasticsearch
2.0.6.RELEASEUTF-8UTF-81.8org.springframework.bootspring-boot-starter-data-elasticsearchorg.springframework.bootspring-boot-starter-testtestorg.springframework.bootspring-boot-maven-plugin目录结构：applica
【Elasticsearch】运维监控：分片和节点 G皮T #Elastic elasticsearch 大数据搜索引擎集群监控运维分片节点
运维监控：分片和节点1.分片对集群健康的影响1.1分片分配状态1.2分片数量配置1.3分片数据均衡2.节点维度对集群健康的影响2.1节点角色失衡2.2节点资源瓶颈2.3节点故障场景3.分片与节点关联影响3.1分片-节点分布关系3.2资源竞争模型4.最佳实践建议1.分片对集群健康的影响1.1分片分配状态未分配分片：直接导致集群状态变为RED/YELLOW。案例：当5个主分片中有1个无法分配时，集群变
Node.js升级工具n 奔跑吧邓邓子高效运维工具使用 nodejs npm
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
The Elastic Stack 简介 wangyadong317 大数据 elasticsearch
AnoverviewoftheElasticStack什么是ElasticStack呢？ElasticStack是一组组件包含：Elasticsearch,Beat,APM,Kibana等是一整套技术栈的组合。从整体视角来看分为三个部分1.Ingest（吸入吸收）数据的吸收，个人理解就是数据的收集我是根据单词直译的当然可能不够信达雅2.Store数据存储，代表技术栈是ElasticSearch3.
ES数据的备份和导入猫狗熊蛇运维 es6
备份ES索引：#!/bin/bash#定义Elasticsearch地址ELASTICSEARCH_URL="http://X.X.X.X:9200"#从命令行参数获取索引名INDEX_NAME=$1BACKUP_DIR="/data/es/lastdata"#定义bulkSize和concurrency参数BULK_SIZE=500CONCURRENCY=3#从命令行参数获取偏移量OFFSET=
Elasticsearch创建快照API详解时昕海Minerva
Elasticsearch创建快照API详解elasticsearch项目地址:https://gitcode.com/gh_mirrors/elas/elasticsearch什么是快照在Elasticsearch中，快照(Snapshot)是一种备份机制，它可以将集群当前的状态和数据保存到一个外部存储系统中。快照功能对于数据备份、灾难恢复和集群迁移等场景非常重要。创建快照API概述创建快照AP
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

ES7.X 自定义分词+scroll查询

11月拉！

11.4更

插播一条刚才遇到的问题。线上es报错查询超过1w条

继续咱们的es学习，上面只是个小查取，等大促过去之后，我再对今天出现的问题做些优化。

你可能感兴趣的:(elasticsearch)