全端工程师

掌握 ElasticSearch 组合查询：Bool Query 详解与实践

- 一、引言 (Introduction)
- 二、Bool 查询基础
- - 2.1 什么是 Bool 查询？
  - 2.2 Bool 查询的四种子句
  - 2.3 语法结构
- 三、Bool 查询的四种子句详解与示例
- - 3.1 `must` 子句
  - 3.2 `filter` 子句
  - 3.3 `should` 子句
  - 3.4 `must_not` 子句
- 四、`minimum_should_match` 参数
- - 4.1 什么是 `minimum_should_match`？
  - 4.2 默认值规则
  - 4.3 使用示例
  - 4.4 注意事项
- 五、嵌套 Bool 查询
- - 5.1 什么是嵌套 Bool 查询？
  - 5.2 使用场景
  - 5.3 示例
- 六、Bool 查询与相关性得分
- - 6.1 Bool 查询如何影响得分？
  - 6.2 调整子句的权重
- 八、总结

一、引言 (Introduction)

在信息检索和数据分析的场景中，我们经常需要面对复杂的查询需求。简单的关键词搜索可能无法满足我们的要求，我们需要更精细的控制，例如：

查找同时满足多个条件的文档（例如，既包含 “Elasticsearch” 又包含 “tutorial” 的文章）。
过滤出符合特定条件的文档（例如，只查看最近一周内发布的文章）。
排除满足特定条件的文档（例如，不显示已下架的商品）。
对搜索结果进行 优先级排序（例如，优先显示标题中包含关键词的文章）。

为了应对这些复杂的查询需求，Elasticsearch 提供了 bool 查询。bool 查询就像一个强大的工具箱，它允许你将多个查询条件组合在一起，形成更复杂的查询逻辑。你可以将 bool 查询看作是乐高积木，通过组合不同的积木块（查询子句），你可以搭建出各种各样的结构（查询逻辑）。

本文将深入探讨 Elasticsearch 7.10 版本中的 bool 查询。你将学习到：

bool 查询的基本概念和工作原理。
bool 查询的四种核心子句：must、filter、should、must_not。
如何使用 minimum_should_match 参数控制 should 子句的行为。
如何嵌套 bool 查询，构建更复杂的查询逻辑。
bool 查询如何影响文档的相关性得分。
通过实战案例学习如何在实际应用中运用 bool 查询。

二、Bool 查询基础

2.1 什么是 Bool 查询？

bool 查询是 Elasticsearch 中一种复合查询（compound query），它允许你将多个查询子句（query clause）组合在一起。这些子句可以是任何类型的查询，例如 match、term、range 等，甚至是另一个 bool 查询（嵌套）。

bool 查询的核心思想是 “more_matches_is_better”，也就是说，文档匹配的子句越多，它的相关性得分（_score）就越高。这使得 bool 查询非常适合用于构建复杂的查询逻辑，同时兼顾查询结果的相关性排序。

为了帮助你更好地理解 bool 查询，我们可以将其类比为编程语言中的逻辑运算符：

must 类似于逻辑与 (AND)：要求所有条件都必须满足。
filter也类似于逻辑与（AND）：要求所有条件都必须满足。
should 类似于逻辑或 (OR)：至少有一个条件满足即可。
must_not 类似于逻辑非 (NOT)：要求所有条件都不满足。

2.2 Bool 查询的四种子句

bool 查询包含四种核心子句，每种子句都有不同的作用和对得分的影响：

子句	作用	对得分的影响
`must`	必须匹配。文档必须满足 `must` 子句中的所有条件。	匹配的 `must` 子句越多，文档得分越高。
`filter`	必须匹配（过滤器上下文）。文档必须满足 `filter` 子句中的所有条件。	不影响得分。
`should`	可以匹配。文档应该满足 `should` 子句中的一个或多个条件。	匹配的 `should` 子句越多，文档得分越高。
`must_not`	必须不匹配（过滤器上下文）。文档必须不满足 `must_not` 子句中的所有条件。	不影响得分。

导出到 Google 表格

要点：

must 和 filter 子句都要求文档必须匹配，但 filter 子句不参与得分计算，因此通常比 must 子句更高效。
should 子句是可选的，但匹配 should 子句会提高文档的得分。
must_not 子句用于排除文档，它也不参与得分计算。
filter 和 must_not 子句处于_过滤器上下文_中，这意味着它们不计算得分，并且 Elasticsearch 会自动缓存这些子句的结果，以提高后续查询的性能。

2.3 语法结构

bool 查询的基本语法结构如下：

GET /_search
{
  "query": {
    "bool" : {
      "must" : [
        { /* 查询 1 */ },
        { /* 查询 2 */ }
      ],
      "filter": [
        { /* 过滤条件 1 */ },
        { /* 过滤条件 2 */ }
      ],
      "should" : [
        { /* 查询 3 */ },
        { /* 查询 4 */ }
      ],
      "must_not" : [
        { /* 排除条件 1 */ },
        { /* 排除条件 2 */ }
      ]
    }
  }
}

解释：

query: 这是 ElasticSearch 查询 DSL 的根元素。
bool: 表示这是一个 bool 查询。
must、filter、should、must_not: 这是 bool 查询的四种子句，每个子句都可以包含一个或多个查询条件（可以是任何类型的查询，例如 match、term、range 等）。

三、Bool 查询的四种子句详解与示例

接下来，我们将深入探讨 must、filter、should 和 must_not 四种子句的用法，并通过示例演示如何在实际场景中应用它们。

数据准备：

首先，我们创建一个名为 articles 的索引，并添加一些示例数据。我们将使用这些数据来演示 bool 查询的各种用法。

PUT articles
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "content": { "type": "text" },
      "category": { "type": "keyword" },
      "status": { "type": "keyword" },
      "author_id": { "type": "keyword" },
      "is_featured": { "type": "boolean" },
      "discount": { "type": "double" },
      "created_at": { "type": "date" },
      "out_of_stock":{ "type":"boolean"}
    }
  }
}

POST articles/_bulk
{"index":{"_index": "articles"}}
{"title": "Elasticsearch Tutorial for Beginners", "content": "This tutorial covers the basics of Elasticsearch.", "category": "technology", "status": "published", "author_id": "123", "is_featured": true, "discount": 0.0, "created_at": "2023-10-26", "out_of_stock": false}
{"index":{"_index": "articles"}}
{"title": "Advanced Logstash Techniques", "content": "Learn advanced techniques for processing logs with Logstash.", "category": "technology", "status": "published", "author_id": "456", "is_featured": false, "discount": 10.0, "created_at": "2023-10-27", "out_of_stock": false}
{"index":{"_index": "articles"}}
{"title": "Introduction to Kibana", "content": "Visualize your Elasticsearch data with Kibana.", "category": "technology", "status": "draft", "author_id": "123", "is_featured": false, "discount": 0.0, "created_at": "2023-10-28", "out_of_stock": false}
{"index":{"_index": "articles"}}
{"title": "Elasticsearch and Logstash Integration", "content": "Integrate Elasticsearch and Logstash for log management.", "category": "devops", "status": "published", "author_id": "789", "is_featured": true, "discount": 20.0, "created_at": "2023-10-29", "out_of_stock": false}
{"index":{"_index": "articles"}}
{"title": "Elasticsearch for Java Developers", "content": "A comprehensive guide to using Elasticsearch with Java.", "category": "technology", "status": "published", "author_id": "123", "is_featured": false, "discount": 0.0, "created_at": "2023-10-25", "out_of_stock": true}
{"index":{"_index": "articles"}}
{"title": "Elasticsearch for Python Developers", "content": "Learn how to use Elasticsearch with Python.", "category": "technology", "status": "published", "author_id": "456", "is_featured": true, "discount": 5.0, "created_at": "2023-10-24", "out_of_stock": false}

3.1 `must` 子句

作用： must 子句要求文档必须匹配其中包含的所有查询条件。可以将其理解为逻辑“与” (AND) 操作。
对得分的影响： 匹配 must 子句中的查询条件会增加文档的相关性得分（_score）。匹配的 must 子句越多，得分越高。

示例：

查找同时包含 “Elasticsearch” 和 “tutorial” 关键词的文章（使用 match 查询）：
```
GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "Elasticsearch" } },
        { "match": { "content": "tutorial" } }
      ]
    }
  }
}
```
这个查询要求文档的 title 字段必须包含 “Elasticsearch”，并且 content 字段必须包含 “tutorial”。只有同时满足这两个条件的文章才会被返回。根据我们创建的数据，只有第一条数据 符合这两个条件：

查找 category 为 “technology” 且 status 为 “published” 的文章（结合 term 查询）：

GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        { "term": { "category": "technology" } },
        { "term": { "status": "published" } }
      ]
    }
  }
}

结果：根据我们创建的数据，第一，二，五，六条会被搜索出来

3.2 `filter` 子句

作用： filter 子句要求文档必须匹配其中包含的所有查询条件，但与 must 子句不同的是，filter 子句 不参与 相关性得分计算。它只起到过滤的作用。
对得分的影响： 无影响（过滤器上下文）。所有匹配 filter 子句的文档得分都相同（默认为 1.0，可以通过 constant_score 查询修改）。
优势：
- 性能更高： 由于不计算得分，filter 子句的执行速度通常比 must 子句更快。
- 结果可缓存： Elasticsearch 会自动缓存 filter 子句的结果，以提高后续相同过滤条件的查询性能。

示例：

在搜索结果中过滤出 created_at 在过去三年内并且标题包含「Elasticsearch」的文章（使用 range 查询）：

GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "Elasticsearch" } }
      ],
      "filter": [
        { "range": { "created_at": { "gte": "now-3y/y" } } }
      ]
    }
  }
}

结果：根据我们创建的数据，第一，二，三，四条会被搜索出来

在搜索结果中过滤出 author_id 为 “123” 的文章（使用 term 查询）：

GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "content": "Elasticsearch" } }
      ],
      "filter": [
        { "term": { "author_id": "123" } }
      ]
    }
  }
}

结果：根据我们创建的数据，有 3 条会被搜索出来

3.3 `should` 子句

作用： should 子句表示文档应该匹配其中包含的查询条件，但 不是必须 的。可以将其理解为逻辑“或” (OR) 操作。
对得分的影响： 匹配 should 子句中的查询条件会增加文档的相关性得分。匹配的 should 子句越多，得分越高。
特殊情况：
- 如果 bool 查询只包含 should 子句，而没有 must 或 filter 子句，则至少需要匹配一个 should 子句（minimum_should_match 默认为 1）。
- 如果 bool 查询包含 must 或 filter 子句，则 should 子句变为可选的加分项，即使一个 should 子句都不匹配，文档也会被返回（只要满足 must 或 filter 条件）。

示例：

搜索文章，优先显示标题中包含 “Elasticsearch” 或 “Logstash” 的文章（使用 match 查询）：
```
GET articles/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title": "Elasticsearch" } },
        { "match": { "title": "Logstash" } }
      ]
    }
  }
}
```
这个查询会返回 title 中包含 “Elasticsearch” 或 “Logstash” 或两者都包含的文章。包含的词项越多，得分越高。由于没有 must 或 filter 子句，至少需要匹配一个 should 子句（minimum_should_match 默认为 1）。根据我们创建的数据，有 5 条会被搜索出来。
搜索文章，优先显示 is_featured 为 true 或 discount 大于 0 的文章：
```
GET articles/_search
{
  "query": {
    "bool": {
       "must": [
        { "match": { "title": "Elasticsearch" } }
      ],
      "should": [
        { "term": { "is_featured": true } },
        { "range": { "discount": { "gt": 0 } } }
      ]
    }
  }
}
```
这个查询首先使用 match 查询查找 title 中包含 “Elasticsearch” 的文章, 然后，它使用 should 子句来提升 is_featured 为 true 或 discount 大于 0 的文章的得分。即使文章不满足 should 子句中的任何条件，只要满足 must 子句，仍然会被返回。根据我们创建的数据，第一，四，五，六条会被搜索出来，并且第一，四，六条分数会更高。

3.4 `must_not` 子句

作用： must_not 子句要求文档 必须不 匹配其中包含的所有查询条件。可以将其理解为逻辑“非” (NOT) 操作。
对得分的影响： 无影响（过滤器上下文）。与 filter 子句类似，must_not 子句不参与相关性得分计算。
注意: 由于 must_not 子句处于过滤器上下文中，因此 Elasticsearch 会自动缓存其结果以提高性能。

示例：

搜索文章，排除 status 为 “draft” 的文章（使用 term 查询）：
```
GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "Elasticsearch" } }
      ],
      "must_not": [
        { "term": { "status": "draft" } }
      ]
    }
  }
}
```
这个查询首先使用 match 查询查找 title 包含 “Elasticsearch” 的文章（must 子句），然后使用 must_not 子句排除 status 为 “draft” 的文章。只有满足 must 条件且不满足 must_not 条件的文章才会被返回。根据我们创建的数据，第一，四，五，六条会被搜索出来。

搜索文章，排除 out_of_stock 为 true 且不是is_featured的文章：

GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        {"match":{"title": "Elasticsearch"}}
      ],
      "must_not": [
        { "term": { "out_of_stock": true } },
        {"term": {"is_featured": false}}
      ]
    }
  }
}

这个查询首先使用 match 查询查找 title 包含 “Elasticsearch” 的文章, 然后使用 must_not 子句排除 out_of_stock 为 true 且不是is_featured的文章。根据我们创建的数据，第一，四，六条会被搜索出来。

四、`minimum_should_match` 参数

4.1 什么是 `minimum_should_match`？

minimum_should_match 参数用于控制 should 子句的行为。它指定了在 bool 查询中，至少需要匹配多少个 should 子句，文档才会被认为是匹配的。

你可以将 minimum_should_match 设置为：

整数： 表示至少需要匹配的 should 子句的数量。
百分比： 表示至少需要匹配的 should 子句占总 should 子句数量的百分比（向下取整）。

4.2 默认值规则

minimum_should_match 的默认值取决于 bool 查询的结构：

只有 should 子句： 如果 bool 查询只包含 should 子句，而没有 must 或 filter 子句，则 minimum_should_match 默认为 1。这意味着至少需要匹配一个 should 子句。
包含 must 或 filter 子句： 如果 bool 查询包含 must 或 filter 子句，则 minimum_should_match 默认为 0。这意味着 should 子句变为可选的加分项，即使一个 should 子句都不匹配，文档也会被返回（只要满足 must 或 filter 条件）。

4.3 使用示例

设置 minimum_should_match 为具体数值：

假设我们要搜索文章，要求标题中包含 “Elasticsearch” 或 “Logstash” 或 “Kibana”，并且至少需要匹配其中两个关键词：
```
GET articles/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title": "Elasticsearch" } },
        { "match": { "title": "Logstash" } },
        { "match": { "title": "Kibana" } }
      ],
      "minimum_should_match": 2
    }
  }
}
```
这个查询要求至少匹配两个 should 子句。例如，如果一篇文章的标题只包含 “Elasticsearch”，则不会被返回；如果标题包含 “Elasticsearch” 和 “Logstash”，则会被返回。

设置 minimum_should_match 为百分比：

假设我们要搜索文章，要求标题或内容中包含 “Elasticsearch”、“Logstash”、“Kibana” 或 “Beats”，并且至少需要匹配其中 50% 的关键词：

GET articles/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title": "Elasticsearch" } },
        { "match": { "title": "Logstash" } },
        { "match": { "content": "Kibana" } },
        { "match": { "content": "Beats" } }
      ],
      "minimum_should_match": "50%"
    }
  }
}

这个查询有 4 个 should 子句，minimum_should_match 设置为 “50%”，这意味着至少需要匹配 4 * 50% = 2 个子句。

4.4 注意事项

当 should 和 must 或者 filter 一起出现的时候，should 会退化为一个加分项，如果一个文档不满足任何 should 中的条件，但是满足 must 中的条件，也是会被搜索出来的。

五、嵌套 Bool 查询

5.1 什么是嵌套 Bool 查询？

嵌套 Bool 查询是指在一个 bool 查询的子句（must、filter、should、must_not）中，再嵌套另一个 bool 查询。通过这种嵌套，你可以构建出非常复杂的查询逻辑，以满足各种细粒度的搜索需求。

5.2 使用场景

嵌套 Bool 查询通常用于以下场景：

构建复杂的逻辑组合： 当你需要组合多个条件，并且这些条件之间存在复杂的 AND、OR、NOT 关系时，可以使用嵌套 Bool 查询。例如，“(A AND B) OR (C AND (D OR E))”。
更精细地控制得分： 通过嵌套 Bool 查询，你可以更精细地控制不同查询子句对最终得分的贡献。例如，你可以将某些条件放在外层 bool 查询的 should 子句中，而将另一些条件放在内层 bool 查询的 must 子句中。

5.3 示例

假设我们需要实现以下搜索需求：

搜索标题中包含 “Elasticsearch” 且 (作者 ID 为 “123” 或为精选文章) 且发布状态不是 “draft” 的文章。

这个需求的逻辑关系比较复杂，可以用如下的逻辑表达式来表示：

(title 包含 "Elasticsearch") AND ((author_id = "123") OR (is_featured = true)) AND (status != "draft")

我们可以使用嵌套 bool 查询来实现这个需求：

GET articles/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "Elasticsearch" } },
        {
          "bool": {
            "should": [
              { "term": { "author_id": "123" } },
              { "term": { "is_featured": true } }
            ],
            "minimum_should_match": 1
          }
        },
        {
          "bool": {
            "must_not": [
              { "term": { "status": "draft" } }
            ]
          }
        }
      ]
    }
  }
}

解释：

外层 bool 查询：
- 使用 must 子句组合三个条件：
  1. match 查询：标题包含 “Elasticsearch”。
  2. 嵌套的 bool 查询：作者 ID 为 “123” 或为精选文章。
  3. 嵌套的 bool 查询 (使用must_not): 排除 status 为 draft 的文章。
内层 bool 查询（作者/精选）：
- 使用 should 子句组合两个条件：
  1. term 查询：作者 ID 为 “123”。
  2. term 查询：is_featured 为 true。
- minimum_should_match: 1，表示至少需要匹配一个 should 子句。
内层 bool 查询 (排除状态)：
- 使用 must_not 子句，其内部是一个 term 查询，用于排除 status 为 draft。

六、Bool 查询与相关性得分

6.1 Bool 查询如何影响得分？

bool 查询的子句对文档相关性得分（_score）的影响，我们已经在前面的章节中详细讨论过：

must 子句： 匹配的 must 子句越多，文档得分越高。
filter 子句： 不影响得分。
should 子句： 匹配的 should 子句越多，文档得分越高。
must_not 子句： 不影响得分。

总结： must 和 should 子句会影响得分，而 filter 和 must_not 子句不影响得分。

6.2 调整子句的权重

在某些情况下，你可能希望调整不同查询子句对得分的贡献。例如，你可能希望标题中包含关键词的文档比内容中包含关键词的文档得分更高。

你可以使用 boost 参数来调整查询子句的权重。boost 参数是一个正数，用于增加或减少查询子句的相对重要性。boost 的默认值为 1.0。

示例：

假设我们搜索文章，希望标题中包含 “Elasticsearch” 的文档比内容中包含 “Elasticsearch” 的文档得分更高：

GET articles/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title": { "query": "Elasticsearch", "boost": 2.0 } } },
        { "match": { "content": "Elasticsearch" } }
      ]
    }
  }
}

在这个查询中，我们为标题的 match 查询设置了 boost 值为 2.0。这意味着标题中包含 “Elasticsearch” 的文档的得分将比内容中包含 “Elasticsearch” 的文档的得分更高（大约是两倍）。

注意： boost 参数只是一个提示，Elasticsearch 不保证得分的精确比例。实际得分还受到其他因素的影响，例如词频、逆文档频率等。

八、总结

bool 查询是 Elasticsearch 中一种非常强大且灵活的查询工具，它可以帮助你构建复杂的查询逻辑，以满足各种搜索需求。通过组合 must、filter、should 和 must_not 四种子句，以及使用 minimum_should_match 参数和嵌套 bool 查询，你可以实现对搜索结果的精细控制。

希望本文能够帮助你深入理解 Elasticsearch 7.10 版本中的 bool 查询，并在实际应用中灵活运用。

你可能感兴趣的:(elasticsearch,elasticsearch,jenkins,大数据)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
20k软件测试工程师必会——Jenkins+Git+Appium 持续集成策略测试小姐姐哟软件测试 jenkins 运维
持续集成（Continuousintegration，简称CI）持续集成是一种开发实践，它倡导团队成员需要频繁的集成他们的工作，每次集成都通过自动化构建（包括编译、构建、自动化测试）来验证，从而尽快地发现集成中的错误。让正在开发的软件始终处于可工作状态，让产品可以快速迭代，同时还能保持高质量。Jenkins是基于Java开发的持续集成工具，开源免费，官网：https://jenkins.io/Ap
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
SkyWalking + Logstash全链路追踪系统详细实施方案 @淡定 skywalking
SkyWalking+Logstash全链路追踪系统详细实施方案一、系统架构与数据流向核心流程：数据采集：SkyWalkingAgent埋点收集调用链路数据日志增强：应用程序通过MDC注入TraceID日志收集：Logstash采集应用日志并发送至Elasticsearch数据存储：SkyWalking指标数据与日志数据分别存储可视化分析：SkyWalkingUI展示链路追踪，Kibana分析日志
自建ELK vs 云商日志服务：成本对比分析亲爱的非洲野猪 elk
在当今数据驱动的时代，日志管理已成为企业IT基础设施中不可或缺的一部分。面对日益增长的日志数据，许多团队都在纠结：是自建ELK（Elasticsearch、Logstash、Kibana）堆栈，还是直接使用云服务商提供的日志服务？本文将从成本角度对这两种方案进行详细对比分析。自建ELK方案成本分析1.硬件/基础设施成本服务器成本：至少需要3个节点（生产环境推荐）实现高可用中等规模部署：3台16核6
【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
基于Java+Maven+Testng+Selenium+Log4j+Allure+Jenkins搭建一个WebUI自动化框架（3）使用dataProvider实现数据驱动用例执行程序员的世界你不懂 UI自动化相关 java maven selenium
在测试一个系统的时候，通常需要对同一个模块的用例输入各种不一样的数据，验证实际结果是否达到了我们期望值，此时如果不对测试数据单独出来维护，会使得测试用例与测试数据的耦合度很高，难以维护，当后期我们想要提供一批新的测试数据，那么我们就得在测试用例中把所有的测试数据全都手动修改一遍，操作很繁琐，下面举个实际例子。我们现在想要测试百度输入框，想测试输入不同数据（手机号、人名、电影名、英文、特殊字符）等，
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

掌握 ElasticSearch 组合查询：Bool Query 详解与实践

掌握 ElasticSearch 组合查询：Bool Query 详解与实践

一、引言 (Introduction)

二、Bool 查询基础

2.1 什么是 Bool 查询？

2.2 Bool 查询的四种子句

2.3 语法结构

三、Bool 查询的四种子句详解与示例

3.1 must 子句

3.2 filter 子句

3.3 should 子句

3.4 must_not 子句

四、minimum_should_match 参数

4.1 什么是 minimum_should_match？

4.2 默认值规则

4.3 使用示例

4.4 注意事项

五、嵌套 Bool 查询

5.1 什么是嵌套 Bool 查询？

5.2 使用场景

5.3 示例

六、Bool 查询与相关性得分

6.1 Bool 查询如何影响得分？

6.2 调整子句的权重

八、总结

你可能感兴趣的:(elasticsearch,elasticsearch,jenkins,大数据)

3.1 `must` 子句

3.2 `filter` 子句

3.3 `should` 子句

3.4 `must_not` 子句

四、`minimum_should_match` 参数

4.1 什么是 `minimum_should_match`？