HinyLover

实时搜索引擎Elasticsearch（4）——Aggregations （聚合）API的使用

上一篇博客介绍了ES中的简单查询API的使用，本篇将介绍ES提供的聚合API的使用。ES提供的聚合功能可以用来进行简单的数据分析。本文仍然以上一篇提供的数据为例来讲解。数据如下：

studentNo	name	male	age	birthday	classNo	address	isLeader
1	刘备	男	24	1985-02-03	1	湖南省长沙市	true
2	关羽	男	22	1987-08-23	2	四川省成都市	false
3	糜夫人	女	19	1990-06-12	1	上海市	false
4	张飞	男	20	1989-07-30	3	北京市	false
5	诸葛亮	男	18	1992-04-27	2	江苏省南京市	true
6	孙尚香	女	16	1994-05-21	3		false
7	马超	男	19	1991-10-20	1	黑龙江省哈尔滨市	false
8	赵云	男	23	1986-10-26	2	浙江省杭州市	false

本文的主要内容有：

metric API的使用
bucketing API的使用
两类API的嵌套使用

1. 聚合API

ES中的Aggregations API是从Facets功能基础上发展而来，官网正在进行替换计划，建议用户使用Aggregations API，而不是Facets API。ES中的聚合上可以分为下面两类：

metric（度量）聚合：度量类型聚合主要针对的number类型的数据，需要ES做比较多的计算工作
bucketing（桶）聚合：划分不同的“桶”，将数据分配到不同的“桶”里。非常类似sql中的group语句的含义。

metric既可以作用在整个数据集上，也可以作为bucketing的子聚合作用在每一个“桶”中的数据集上。当然，我们可以把整个数据集合看做一个大“桶”，所有的数据都分配到这个大“桶”中。

ES中的聚合API的调用格式如下：

"aggregations" : {                  // 表示聚合操作，可以使用aggs替代
    "" : {        // 聚合名，可以是任意的字符串。用做响应的key，便于快速取得正确的响应数据。
        "" : {    // 聚合类别，就是各种类型的聚合，如min等
                  // 聚合体，不同的聚合有不同的body
        }
        [,"aggregations" : { []+ } ]? // 嵌套的子聚合，可以有0或多个
    }
    [,"" : { ... } ]* // 另外的聚合，可以有0或多个
}

1.1 度量类型（metric）聚合

（1）Min Aggregation

最小值查询，作用于number类型字段上。查询2班最小的年龄值。

curl -XPOST "192.168.1.101:9200/student/student/_search" -d 
'
{
  "query": {         // 可以先使用query查询得到需要的数据集
    "term": {
      "classNo": "2"
    }
  },
  "aggs": {
    "min_age": {
      "min": {
        "field": "age"
      }
    }
  }
}
'

查询结果为：

{
  "took": 19,                     // 前面部分数据与普通的查询数据相同
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": 1.4054651,
    "hits": [
      {
        "_index": "student",
        "_type": "student",
        "_id": "2",
        "_score": 1.4054651,
        "_source": {
          "studentNo": "2",
          "name": "关羽",
          "male": "男",
          "age": "22",
          "birthday": "1987-08-23",
          "classNo": "2",
          "isLeader": "false"
        }
      },
      {
        "_index": "student",
        "_type": "student",
        "_id": "8",
        "_score": 1,
        "_source": {
          "studentNo": "8",
          "name": "赵云",
          "male": "男",
          "age": "23",
          "birthday": "1986-10-26",
          "classNo": "2",
          "isLeader": "false"
        }
      },
      {
        "_index": "student",
        "_type": "student",
        "_id": "5",
        "_score": 0.30685282,
        "_source": {
          "studentNo": "5",
          "name": "诸葛亮",
          "male": "男",
          "age": "18",
          "birthday": "1992-04-27",
          "classNo": "2",
          "isLeader": "true"
        }
      }
    ]
  },
  "aggregations": {                    // 聚合结果
    "min_age": {                       // 前面输入的聚合名
      "value": 18,                     // 聚合后的数据
      "value_as_string": "18.0"
    }
  }
}

上面的聚合查询有两个要注意的点：

可以通过query先过滤数据
返回的结果会包含聚合操作所作用的数据全集

有时候我们对作用的数据全集并不太敢兴趣，我们仅仅需要最终的聚合结果。可以通过查询类型（search_type）参数来实现这个需求。下面查询出来的数据量会大大减少，ES内部也会在查询时减少一些耗时的步骤，所以查询效率会提高。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d     // 注意这里的search_type=count
'
{
  "query": {             // 可以先使用query查询得到需要的数据集
    "term": {
      "classNo": "2"
    }
  },
  "aggs": {
    "min_age": {
      "min": {
        "field": "age"
      }
    }
  }
}
'

本次的查询结果为：

{
...

"aggregations": {                    // 聚合结果
    "min_age": {                       // 前面输入的聚合名
      "value": 18,                     // 聚合后的数据
      "value_as_string": "18.0"
    }
  }
}

（2）Max Aggregation

最大值查询。下面查询2班最大的年龄值，查询结果为23。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "query": {
    "term": {
      "classNo": "2"
    }
  },
  "aggs": {
    "max_age": {
      "max": {
        "field": "age"
      }
    }
  }
}
'

（3）Sum Aggregation

数值求和。下面统计查询2班的年龄总和，查询结果为63。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "query": {
    "term": {
      "classNo": "2"
    }
  },
  "aggs": {
    "sum_age": {
      "sum": {
        "field": "age"
      }
    }
  }
}
'

（4）Avg Aggregation

计算平均值。下面计算查询2班的年龄平均值，结果为21。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "query": {
    "term": {
      "classNo": "2"
    }
  },
  "aggs": {
    "avg_age": {
      "avg": {
        "field": "age"
      }
    }
  }
}
'

（5）Stats Aggregation

统计查询，一次性统计出某个字段上的常用统计值。下面对整个学校的学生进行简单地统计。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "stats_age": {
      "stats": {
        "field": "age"
      }
    }
  }
}
'

查询结果为：

{
  ...                     // 次要数据省略

  "aggregations": {
    "stats_age": {
      "count": 8,        // 含有年龄数据的学生计数
      "min": 16,         // 年龄最小值
      "max": 24,         // 年龄最大值
      "avg": 20.125,     // 年龄平均值
      "sum": 161,        // 年龄总和
      "min_as_string": "16.0",
      "max_as_string": "24.0",
      "avg_as_string": "20.125",
      "sum_as_string": "161.0"
    }
  }
}

（6）Top hits Aggregation

取符合条件的前n条数据记录。下面查询全校年龄排在前2位的学生，仅需返回学生姓名和年龄。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
{
  "aggs": {
    "top_age": {
      "top_hits": {
        "sort": [               // 排序
          {
            "age": {            // 按年龄降序
              "order": "desc"
            }
          }
        ],
        "_source": {
          "include": [           // 指定返回字段
            "name",
            "age"
          ]
        },
        "size": 2                 // 取前2条数据
      }
    }
  }
}

返回结果为：

{
  ...

  "aggregations": {
    "top_age": {
      "hits": {
        "total": 9,
        "max_score": null,
        "hits": [
          {
            "_index": "student",
            "_type": "student",
            "_id": "1",
            "_score": null,
            "_source": {
              "name": "刘备",
              "age": "24"
            },
            "sort": [
              24
            ]
          },
          {
            "_index": "student",
            "_type": "student",
            "_id": "8",
            "_score": null,
            "_source": {
              "name": "赵云",
              "age": "23"
            },
            "sort": [
              23
            ]
          }
        ]
      }
    }
  }
}

1.2 桶类型（bucketing）聚合

（1）Terms Aggregation

按照指定的1或多个字段将数据划分成若干个小的区间，计算落在每一个区间上记录数量，并按指定顺序进行排序。下面统计每个班的学生数，并按学生数从大到小排序，取学生数靠前的2个班级。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "terms_classNo": {
      "terms": {
        "field": "classNo",            // 按照班号进行分组
        "order": {                     // 按学生数从大到小排序
          "_count": "desc"
        },
        "size": 2                      // 取前两名
      }
    }
  }
}
'

值得注意的，取得的前2名的学生数实际上是一个近似值，ES的实现方式参见这里。如果想要取得精确值，可以不指定size值，使其进行一次全排序，然后在程序中自行去取前2条记录。当然，这样做会使得ES做大量的排序运算工作，效率比较差。

（2）Range Aggregation

自定义区间范围的聚合，我们可以自己手动地划分区间，ES会根据划分出来的区间将数据分配不同的区间上去。下面将全校学生按照年龄划分为5个区间段：16岁以下、16~18、19~21、22~24、24岁以上，要求统计每一个年龄段内的学生数。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "range_age": {
      "range": {
        "field": "age",
        "ranges": [
          {
            "to": 15
          },
          {
            "from": "16",
            "to": "18"
          },
          {
            "from": "19",
            "to": "21"
          },

          {
            "from": "22",
            "to": "24"
          },
          {
            "from": "25"
          }
        ]
      }
    }
  }
}
'

（3）Date Range Aggregation

时间区间聚合专门针对date类型的字段，它与Range Aggregation的主要区别是其可以使用时间运算表达式。主要包括+（加法）运算、-（减法）运算和/（四舍五入）运算，每种运算都可以作用在不同的时间域上面，下面是一些时间运算表达式示例。

now+10y：表示从现在开始的第10年。
now+10M：表示从现在开始的第10个月。
1990-01-10||+20y：表示从1990-01-01开始后的第20年，即2010-01-01。
now/y：表示在年位上做舍入运算。今天是2015-09-06，则这个表达式计算结果为：2015-01-01。说好的rounding运算呢？结果是做的flooring运算，不知道为啥，估计是我理解错了-_-!!

下面查询25年前及更早出生的学生数。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "range_age": {
      "date_range": {
        "field": "birthday",
        "ranges": [
          {
            "to": "now-25y"
          }
        ]
      }
    }
  }
}
'

（4）Histogram Aggregation

直方图聚合，它将某个number类型字段等分成n份，统计落在每一个区间内的记录数。它与前面介绍的Range聚合非常像，只不过Range可以任意划分区间，而Histogram做等间距划分。既然是等间距划分，那么参数里面必然有距离参数，就是interval参数。下面按学生年龄统计各个年龄段内的学生数量，分隔距离为2岁。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "histogram_age": {
      "histogram": {
        "field": "age",
        "interval": 2,               // 距离为2
        "min_doc_count": 1           // 只返回记录数量大于等于1的区间
      }
    }
  }
}
'

（5）Date Histogram Aggregation

时间直方图聚合，专门对时间类型的字段做直方图聚合。这种需求是比较常用见得的，我们在统计时，通常就会按照固定的时间断（1个月或1年等）来做统计。下面统计学校中同一年出生的学生数。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "data_histogram_birthday": {
      "date_histogram": {
        "field": "birthday",
        "interval": "year",              // 按年统计
        "format": "yyyy"                 // 返回结果的key的格式
      }
    }
  }
}
'

返回结果如下，可以看到由于上面的”format”: “yyyy”，所以返回的key_as_string只返回年的信息。

{
  "buckets": [
    {
      "key_as_string": "1985",
      "key": 473385600000,
      "doc_count": 1
    },
    {
      "key_as_string": "1986",
      "key": 504921600000,
      "doc_count": 1
    },
    {
      "key_as_string": "1987",
      "key": 536457600000,
      "doc_count": 1
    },
    {
      "key_as_string": "1989",
      "key": 599616000000,
      "doc_count": 1
    },
    {
      "key_as_string": "1990",
      "key": 631152000000,
      "doc_count": 1
    },
    {
      "key_as_string": "1991",
      "key": 662688000000,
      "doc_count": 1
    },
    {
      "key_as_string": "1992",
      "key": 694224000000,
      "doc_count": 1
    },
    {
      "key_as_string": "1994",
      "key": 757382400000,
      "doc_count": 1
    }
  ]
}

（6）Missing Aggregation

值缺损聚合，它是一类单桶聚合，也就是最终只会产生一个“桶”。下面统计学生信息中地址栏缺损的记录数量。由于只有学号为6的孙尚香的地址缺损，所以统计值为1。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d 
'
{
  "aggs": {
    "missing_address": {
      "missing": {
        "field": "address"
      }
    }
  }
}
'

1.3 嵌套使用

前面已经说过，聚合操作是可以嵌套使用的。通过嵌套，可以使得metric类型的聚合操作作用在每一“桶”上。我们可以使用ES的嵌套聚合操作来完成稍微复杂一点的统计功能。下面统计每一个班里最大的年龄值。

curl -XPOST "192.168.1.101:9200/student/student/_search?search_type=count" -d
'
{
  "aggs": {
    "missing_address": {
      "terms": {
        "field": "classNo"
      },
      "aggs": {                 // 在这里嵌套新的子聚合
        "max_age": {
          "max": {              // 使用max聚合
            "field": "age"
          }
        }
      }
    }
  }
}
'

返回结果如下：

{
  "buckets": [
    {
      "key": "1",               // key是班级号
      "doc_count": 3,           // 每个班级内的人数
      "max_age": {              // 这里是我们指定的子聚合名
        "value": 24,            // 每班的年龄值
        "value_as_string": "24.0"
      }
    },
    {
      "key": "2",
      "doc_count": 3,
      "max_age": {
        "value": 23,
        "value_as_string": "23.0"
      }
    },
    {
      "key": "3",
      "doc_count": 1,
      "max_age": {
        "value": 20,
        "value_as_string": "20.0"
      }
    },
    {
      "key": "4",
      "doc_count": 1,
      "max_age": {
        "value": 16,
        "value_as_string": "16.0"
      }
    }
  ]
}

2. 总结

本文介绍了ES中的一些常用的聚合API的使用，包括metric、bucketing以及它们的嵌套使用方法。掌握了这些API就可以完成简单的数据统计功能，更多的API详见官方文档。前面的博客中都是介绍了ES的Rest API，接下来的文章中将会介绍Java API的使用，使用Java API可以实现前面介绍的所有API的功能。

【数据中心】网络设计框架 flyair_China 架构
第一章：总体架构设计叶脊架构（Leaf-Spine）全互联无阻塞设计：Leaf与Spine全连接，跨层带宽≥100G，单集群支持10万+服务器（腾讯星脉网络）。分层扩展模型：采用POD（性能优化模块）化设计，单POD支持5000节点，通过超级核心层互联多POD（阿里云实践）。冗余与高可用设备级：双电源/双引擎；链路级：M-LAG多活聚合；协议级：BGPEVPN替代STP，故障切换<50ms（华为C
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
物联网系统中的可视化大屏定义小赖同学啊 test Technology Precious 物联网
物联网系统中的可视化大屏（也称数据驾驶舱或数字孪生看板）是通过图形化界面集中展示设备状态、业务指标和地理信息的实时监控与决策支持系统。它聚合多源物联网数据，将复杂信息转化为直观图表，帮助管理者快速掌握全局态势并驱动行动。以下是其系统化定义与实现要点：一、核心定义与价值维度说明核心目标实现“一屏知天下”：设备状态透明化、异常可视化、决策数据化数据时效性支持实时流（＜3秒延迟）、近实时（1-5分钟）、
2021年最后一天莲莲
昨晚，没有睡好觉，心里特别不舒服，在瓦房店经历了一年，工作与生活有些喜怒哀乐，有分离与聚合，说不出来的滋味！前几天公公生病，稍有好转，我回到公司，老板约了谈话，说集团模式重组，没有想到，销售的岗位需要调整，因为重新规划的商业重组，如果不改变，企业更难发展，让70后做老师，让90后上场，让更多机会让给90后来做。我还是心里不舒服，很明白这个道理，我们一起努力的朋友，还没有机会舒展自己，我还没有教会他
一文讲解C语言数据类型小夕Coding 零基础学习C语言 c语言
C语言中有四种数据类型——整型、浮点型、指针和聚合类型。所有其他的类型都是从这四种类型的某种组合派生而来。整型整型包括字符、短整型、整型和长整型，使用有符号signed和无符号unsigned两个关键字标记整型，其中signed为C90标准添加的关键字。规定整型值相互之间大小的规则为长整型至少应该和整型一样大，而整型至少应该和短整型一样长。C语言针对不同情况，提供了不同的整数类型。特别是，C语言中
OpenSearch SQL 查询完整指南
OpenSearchSQL查询完整指南目录基础查询字符串查询数值查询日期时间查询数组和嵌套查询聚合查询地理空间查询全文搜索复杂查询性能优化基础查询基本SELECT--查询所有字段SELECT*FROMindex_name;--查询特定字段SELECTname,age,emailFROMusers;--使用别名SELECTnameASuser_name,ageASuser_ageFROMusers;
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
前后端分离小程序（django）- 聚合推客（微信小程序分享） Y大壮 django python
https://juejin.cn/post/7124615000785682462/#heading-0
MongoDB复杂查询聚合框架巴里巴气 MongoDB知识记录 mongodb 数据库
前言前面已经对MongoDB基础的增删改查进行了分享,在增删改方面基本已经够用了,但是查询方面是远远不够的,find方法只能传入一些查询条件。涉及到稍微复杂点的查询就无法实现了,如分组、排序、映射(起别名)等这些操作的时候就没有办法实现。所以我接下来给同志们分享专一用于MongoDB复杂查询的框架-----聚合框架注意:文档和JSON对象基本上是一个意思,我会在解释的时候说是JSON对象,便于理解
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
想你想飞的树不如草
想你，空气中好像都是你的气息。一回头，都是虚无。。想你，在那孤寂的梦里，曾今的心动，变成了如今的心痛。想你，曾今的年少，不懂情的青涩，都化成了美好的回忆。想你，望望流云，聚合分离，。那不舍却必须舍的情绪。哦，原来你不在那里。哦，原来我们已经偏离了轨迹。哦，只是一起走过一段路，何必把怀念弄得比经过还长。哦，春雨淅沥沥。
HCIP第二次实验 fatsheep洋网络
实验拓扑图：实验要求：1、R1和R2使用PPP链路直连，R2和R3把2条PPP链路捆绑为PPPMP直连2、按照图示配置IP地址3、R2对R1的PPP进行单向chap验证4、R2和R3的PPP进行双向chap验证实验思路：1、先按照图示给R1、R2、R3配置好IP地址2、然后对R2、R3进行pppmp的聚合在一起，放在逻辑口3、实验步骤：先对R1、R2进行IP的配置[R1]ints3/0/0[R1-
Kotlin集合分组 Kiri霧 kotlin java 前端 android
集合的分组（Grouping）在之前的学习中，我们已经学会了如何对集合进行过滤、排序或执行聚合操作。在本节中，我们将学习如何对集合元素进行分组，以便以最适合我们任务的方式呈现信息。分组（Grouping）在Kotlin中，有一些扩展函数可以用来对集合元素进行分组，其中一个就是groupBy()。它接收一个lambda表达式，并返回一个Map，其中的键（key）是分组依据，值（value）则是对应的
NiFi Processors概述一个老冯
为了能够创建一个高效的NiFi数据数据流程，我们需要了解有哪些Processor类型可以使用。每个新的NiFi版本Processor数量都会增加，当前NiFi版本为1.12.1,内置了288个类型的Proccessor，这些Processor提供从多个不同系统接收数据、路由、转换、处理、拆分和聚合数据以及将数据分发到多个系统的功能。按照功能分类：image.png.procesor分类说明1.1数
影响APP广告变现收益的4个关键因素 AdSet聚合广告平台
APP的广告收入（IAA）=展示*eCPM/1000IAA收入其实是由广告总展示量和每次展示的平均收入共同决定的。所以，提高IAA收入，我们需要双管齐下：同时提高广告总展示量和平均每次展示的收入。app广告变现对接点击⬇️链接，了解对接流程AdSet官网|聚合SDK广告变现平台-上海神蓍信息科技有限公司（1）总展示量总展示量=请求＊填充率＊展示率总展示量是请求量、填充率和展示率三者相互作用的结果，
【SpringCloud微服务实战09】Elasticsearch 搜索引擎李维山 Java elasticsearch spring cloud 搜索引擎
一、Elasticsearch安装1、Docker安装ES#创建一个网络dockernetworkcreatees-net#拉取ES镜像（这里使用7.17.18版本）dockerpullelasticsearch:7.17.18#新建一个目录存放es数据mkdirescdes#docker运行单机启动esdockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-X
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
Elasticsearch数据库的数据同步机制数据库管理艺术 elasticsearch 数据库 jenkins ai
Elasticsearch数据库的数据同步机制关键词：Elasticsearch、数据同步、近实时搜索、倒排索引、translog、refresh、flush、副本同步摘要：本文深入探讨Elasticsearch数据库的数据同步机制，从底层原理到实际应用进行全面解析。文章首先介绍Elasticsearch的基本架构和数据模型，然后详细分析其近实时搜索的实现原理，包括索引刷新(Refresh)、事务
docker run elasticsearch 报错 EmpressBoost docker elasticsearch 容器
谷粒商城p103前提条件：下载镜像文件#存储和检索数据dockerpullelasticsearch:7.4.2#可视化检索数据dockerpullkibana:7.4.2创建挂载的文件和配置mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/dataecho"http.host:0.0.0.0">>/mydata/ela
外卖红包推广返利怎么操作？发美团饿了么外卖优惠券红包怎么赚钱？氧惠爱高省
大家好，我是氧恵汐儿，外卖会员卡项目到底怎么样？接下来我们介绍一下这个项目的盈利方式！**氧恵APP这个项目聚合了众多优惠【氧恵邀请码：000888】（手机应用商店搜索“氧恵”下载氧恵APP，登录填写氧恵邀请码：000888，注册即享超高返利佣金，自用省，分享赚！）**①美团饿了么领券，顾客每单点外卖可以省3-18元，而你可以从中赚取每单1元左右的收益②大牌美食五折起，顾客使用我们的小程序点肯德基
一夜卖货1.5亿的淘宝直播一姐，每月只休一天：努力，才是她的天分一阳归来
01：从6平米的小店起步三流九教聚合的北京动物园周边，每天都上演着鲜活的《北京商业图鉴》。2003年，24岁的饲养员孙越正在北京动物园养大象，结果，大象越养越瘦，孙越越来越胖。在大象饿死之前，孙越加入郭德纲的德云社，和岳云鹏搭档说起了相声；这一年，日后的淘宝直播一姐薇娅17岁，她有一个叫董海锋的大学生男朋友。图片发自App能歌善舞的董海锋，身体里永远骚动着做生意的心，他靠着给明星伴舞和接一些卖力气
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
CS144 lab2 tcp_receiver
1.实验目的lab2的目的是实现tcp的接收端。主要包括两方面（1）从发送端接收消息，使用Reassembler聚合字节流（Bytestream）（2）将确认号（ackno）和windowsize发回对端确认号，也就是first_unassemblerbyte;而Bytestream可写入的大小，也就是windowsize!ackno和windowsize两个共同描述了发送方能发送的数据范围。有时
对接拉卡拉聚合收银台支付指南一叶飘零_sweeeet 果酱紫 java java 支付支付宝支付微信支付拉卡拉支付
今天我将详细介绍如何对接拉卡拉聚合收银台支付，并指出其中应注意的点。我希望这篇文章能够帮助那些正在寻找如何实现这个功能的开发者。一、拉卡拉聚合收银台支付简介拉卡拉聚合收银台支付是一种整合了多种支付方式的支付服务，包括但不限于微信支付、支付宝支付、银联支付等。它为商户提供了一个统一的支付入口，使得商户无需分别接入各种支付方式，从而大大简化了支付过程。二、对接拉卡拉聚合收银台支付的步骤1.注册并配置拉
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache