ccddsdsdfsdf

Elasticserach基本概念-2

文章目录

13、单桶聚集

13.1、过滤聚集
13.2、global聚集
13.3、missing聚集

14、聚集组合

14.1、 composite 聚集

15、管道聚集

15.1、基于兄弟聚集
15.2、基于父聚集

滑动窗口聚集
单桶聚集

16、父子关系

16.1、join类型
16.2、has_child查询
16.3、has_parent查询
16.4、parent_id查询
16.5、children聚集
16.6、parent聚集

17、嵌套类型

17.1、嵌套类型
17.2、nested查询
17.3、nested 聚集
17.4、reverse_nested 聚集

18、sql语言
19、与spring集成

19.1、使用

13、单桶聚集

13.1、过滤聚集

过滤器聚集通过定义一个或多个过滤器来过滤分桶，满足过速器条件的文档将落入这个过滤器形成的桶中。过滤器聚集分为单桶和多桶两种，对应的聚集类型自然就是 filter 和 filters。

POST /kibana_sample_data_flights/_search?size=0&filter_path=aggregations
{ 
  "aggs" : {
    "origin_cn": { 
     # 过滤出发为CN的 航班 才落到桶中
      "filter": { 
        "term": {
          "OriginCountry":"CN" 
        } 
      },
      # 然后再 统计它们的平均票价
      "aggs": {
        "cn_ticket_price": {
          "avg": { 
            "field": "AvgTicketPrice" 
          } 
        } 
      } 
    },
    # 统计了所有航班 平均票
    "avg_price": { 
      "avg": { 
        "field": "AvgTicketPrice" 
      } 
    } 
  } 
}

结果为：

{
  "aggregations" : {
    # 平均票价
    "avg_price" : {
      "value" : 628.2536888148849
    },
    "origin_cn" : {
      #出现地为中国的 平均票价
      "doc_count" : 743,
      "cn_ticket_price" : {
        "value" : 601.1180918245585
      }
    }
  }
}

多桶过滤：

POST /kibana_sample_data_flights/_search?size=0&filter_path=aggregations 
{ 
  "aggs" :{ 
    "origin_cn_us":{ 
      "filters": {
        "filters":[
          { "term": {"OriginCountry": "CN"} },
          {"term": {"OriginCountry": "US " } } 
        ]
      },
      "aggs":{ 
        "avg_ price":{
          "avg": {
            "field": "AvgTicketPrice" 
          } 
        } 
      } 
    }
  } 
}

13.2、global聚集

忽略query的条件，统计所有

13.3、missing聚集

把缺失的字段规到某个桶

14、聚集组合

有两种比较特殊的多桶型聚集，它们是 composite 聚集和 adjacency_matrix 聚集。

14.1、 composite 聚集

集可以将不同类型的聚集组合到一一起，它会从不同的聚集中提取数据，并以笛卡尔乘积的形式组合它们，而每一个组合就会形成一个新桶。
查看平均票价与机场天气的对应关系：

POST /kibana_sample_data_flights/_search?filter_path=aggregations 
{ 
  "aggs" :{ 
    "price_weather" : { 
      "composite" : { 
        #用sources，定义2个需要组合的聚集
        "sources":[ 
          {
            "avg_price": {
              ##第一个聚集：针对 AvgTicketPrice 以 500 为间隔 分桶聚集
              "histogram":{
                "field": "AvgTicketPrice", 
                "interval":500,
                #按avg_price排序
                "order": "asc"
              }
            }
          }, 
          {
            ##第二聚集：个针对 OriginWeather 的 terms 聚集,按weather 排序
            "weather":{
              "terms": {"field": "OriginWeather","order":"asc"}
            }
          } 
        ] 
      }
    }
  } 
}

运行结果:

{
  "aggregations" : {
    "price_weather" : {
    #它包含自前聚集结果中最后一个结果的 key。所以请求下一页聚集结果就可 以通过 after 和 size 参数值定
      "after_key" : {
        "avg_price" : 500.0,
        "weather" : "Cloudy"
      },
      "buckets" : [
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Clear"
          },
          "doc_count" : 795
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Cloudy"
          },
          "doc_count" : 809
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Damaging Wind"
          },
          "doc_count" : 303
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Hail"
          },
          "doc_count" : 373
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Heavy Fog"
          },
          "doc_count" : 292
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Rain"
          },
          "doc_count" : 738
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Sunny"
          },
          "doc_count" : 744
        },
        {
          "key" : {
            "avg_price" : 0.0,
            "weather" : "Thunder & Lightning"
          },
          "doc_count" : 357
        },
        {
          "key" : {
            "avg_price" : 500.0,
            "weather" : "Clear"
          },
          "doc_count" : 1377
        },
        {
          "key" : {
            "avg_price" : 500.0,
            "weather" : "Cloudy"
          },
          "doc_count" : 1365
        }
      ]
    }
  }
}

15、管道聚集

管道聚集不是直接从索引中读取文档，而是在其他聚集的基础上再进行聚集运算。
管道聚集都会包含一个名为 buckets_path 的参数，用于指定访问其他桶中指标值的路径。

buckets_ path 参数的值由三部分组成，即聚集名称、指标名称和分隔符。

15.1、基于兄弟聚集

POST /kibana_sample_data_flights/_search?filter_path=aggregations 
{ 
  "aggs": { 
    "carriers": {
      #terms分桶， 按字段Carrier 分10个桶
      "terms":{ 
        "field": "Carrier", 
        "size": 10    
      },
      "aggs": {
        "carrier_stat": {
          # 将上面10个桶，按stats聚集
          "stats": { 
            "field": "AvgTicketPrice" 
          } 
        } 
      } 
    },
    "all_stat": { 
       # 对兄弟聚集carriers，基础上再聚集，对carrier_stat.avg 作avg_bucket平均值聚集
      "avg_bucket": {
        "buckets_path": "carriers>carrier_stat.avg" 
      }
    } 
  } 
}

结果：

{
  "aggregations" : {
    "carriers" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "Logstash Airways",
          "doc_count" : 3331,
          "carrier_stat" : {
            "count" : 3331,
            "min" : 100.37113189697266,
            "max" : 1199.72900390625,
            "avg" : 624.5819742276625,
            "sum" : 2080482.5561523438
          }
        },
        {
          "key" : "JetBeats",
          "doc_count" : 3274,
          "carrier_stat" : {
            "count" : 3274,
            "min" : 101.0330810546875,
            "max" : 1199.642822265625,
            "avg" : 627.4573726292857,
            "sum" : 2054295.4379882812
          }
        },
        {
          "key" : "Kibana Airlines",
          "doc_count" : 3234,
          "carrier_stat" : {
            "count" : 3234,
            "min" : 100.14596557617188,
            "max" : 1199.109130859375,
            "avg" : 630.8681507004435,
            "sum" : 2040227.5993652344
          }
        },
        {
          "key" : "ES-Air",
          "doc_count" : 3220,
          "carrier_stat" : {
            "count" : 3220,
            "min" : 100.0205307006836,
            "max" : 1199.5123291015625,
            "avg" : 630.235816375069,
            "sum" : 2029359.3287277222
          }
        }
      ]
    },
    "all_stat" : {
      "value" : 628.2858284831152
    }
  }
}

15.2、基于父聚集

滑动窗口聚集

把父聚集的结果作为输入，然后再聚集

滑动窗口有2个： moving_avg：平均值， moving_fn：自定义计算
只能用于间隔聚集

POST /kibana_sample_data_flights/_search?filter_path=aggregations 
{ 
  "aggs": { 
    "day_price": { 
      #timestamp 字段按天将文档分桶。
      "date_histogram": { 
        "field": "timestamp", 
        "interval": "day" 
      },
      "aggs": {
        "avg_price": { 
          #AvgTicketPrice 字段在 1 个桶内avg 聚集
          "avg": {
            "field": "AvgTicketPrice" 
          } 
        },
        #使用滑动窗口做平均值平滑的管道聚集，按滑动窗口聚集
        "smooth_price": { 
          #以对落在窗口内的父聚集结果做各种自定义的运算
          "moving_fn": { 
            "buckets_path": "avg_price",
            "window": 10, 
            # 无加权平均计算
            "script":"MovingFunctions.unweightedAvg(values)" 
          } 
        } 
      } 
    } 
  } 
}

单桶聚集

目前我们学习的管道聚集会对父聚集结果中落在窗口内的多个桶做聚集运算，而 bucket_script、 bucket_selector 、bucket_sort 这三个管道聚集则会针对
父聚集结果中的每一个桶做单独的运算。

bucket_script
会对每个桶执行一段脚本，运算结果会添加到父聚集的结果中
bucket_selector
执行一段脚本，但它执行的结果一定是布尔类型，并且决定当前桶是否出现在父聚集的结果中；
bucket_sort
每个桶中的具体指标值决定桶的次序

POST /kibana_sample_data_flights/_search?filter_path=aggregations 
{ 
  "aggs": { 
    "date_price_diff": { 
      #时间间隔分桶，按天分桶
      "date_histogram": { 
        "field": "timestamp", "fixed_interval": "1d" 
        
      },
      "aggs": { 
        "stat_price_day": { 
          #按字段 AvgTicketPrice 指数聚集
          "stats": {
            "field": "AvgTicketPrice"} 
          
        },
        #兄弟聚集
        "diff":{ 
          #管道聚集
          "bucket_script": { 
            #将上一个聚集 结果 ，取出最大值和最小值 
            "buckets_path": { 
              "max_price":"stat_price_day.max", 
              "min_price":"stat_price_day.min" 
              
            },
            #对最大值和最小值求相减
            "script": "params.max_price - params.min_price" 
          } 
        },
        "gt990": {
          #selector聚集，同样取最大值和最小值，然后相减去，如果差值大于990的才能出现，否则不能出现
          "bucket_selector": { 
            "buckets_path": { 
              "max_price":"stat_price_day.max", 
              "min_price":"stat_price_day.min" 
            },
            "script": "params.max_price - params.min_price > 990" 
          } 
          
        },
        "sort_by": {
          #排序
          "bucket_sort": { 
            "sort":[ 
              {
                #对diff结果排序--倒序
                "diff":{
                  "order":"desc"
                }
              } 
            ] 
          } 
        } 
      } 
    } 
  } 
}

过滤出最大值和最小值差值大于 990的聚集，然后按差值倒序排序。

16、父子关系

文档和文档间的关系。通过某个标识还标识文档间的父子关系。类似 mysql表中如下结构：
用parent_id字段来标识父部门Id,通过父部门Id可以找到子部门id,可以通过子部门Id ，找到它的父部门。

部门表： 
dept_id  dept_name  parent_id 
 1         研发一部    0
 2         研发二部    1
 3         研发三部    2

数据与数据间有父子关系，es间也有这种关系，就是父子关系。需要在索引中定义一个字段，来标识这种关系

16.1、join类型

定义文档父子关系

PUT employees 
{
  "mappings": {
    "properties": { 
      "management":{ 
        "type": "join",
        "relations":{ 
          "manager": "member" 
        } 
      } 
    } 
  } 
}


PUT /employees/_doc/1 
{ 
  "name" : "tom", 
  "management":{ "name" : "manager" } 
}

PUT /employees/_doc/2?routing=1 
{
  "name" : "smith", 
  "management":{ "name" : "member", "parent": "1" }
}


PUT /employees/_doc/3?routing=1 
{ 
  "name" : "john", 
  "management":{ "name" : "member", "parent": "1" } 
}

#如果再添加 文档1 的父文档好像添加不了
PUT /employees/_doc/4?routing=1 
{ 
  "name" : "tom_parent", 
  "management":{ "name":"manager","children":"1"} 
}

16.2、has_child查询

#查询，who has child, 根据子文档名字 smith，查看谁有这个child，即：根据子文档查询父文档
POST /employees/_search 
{ 
  "query": { 
    "has_child":{ 
      "type": "member", 
      "query":{ 
        "match":{ "name": "smith" }
      } 
    } 
  } 
}

16.3、has_parent查询

#查询，who has parent, 根据父文档名字查看 子文档
POST /employees/_search 
{ 
  "query": { 
    "has_parent":{ 
      "parent_type": "manager", 
      "query":{ 
        "match":{ "name": "tom" } 
      } 
    } 
  } 
}

16.4、parent_id查询

# 查看parent_id=1的子文档有哪些
POST /employees/_search 
{
  "query": { 
    "parent_id": { "type": "member", "id":1 } 
  } 
}

16.5、children聚集


POST /employees/_search?filter_path=aggregations 
{ 
  "query":{ 
    "term":{ "name":"tom" } 
  },
  "aggs":{ 
    "members":{ 
      #children聚集：查看集合中 parent=tom的子文档个数
      "children":{ 
        "type": "member" 
        
      },
      # 再次聚集，分别统计tom子文档
      "aggs": { 
        "member_name":{ 
          "terms":{ "field": "name.keyword", "size": 10 } 
        } 
      } 
    }
  } 
}

查询结果：

{
  "aggregations" : {
     #members 聚集结果：doc_cout=2,统计了name=tom的子文档个数
    "members" : {
      "doc_count" : 2,
      #member_name聚集结果： 分别统计了name=tom的子文档个数 
      "member_name" : {
        "doc_count_error_upper_bound" : 0,
        "sum_other_doc_count" : 0,
        "buckets" : [
          {
            #子文档john 的个数
            "key" : "john",
            "doc_count" : 1
          },
          {
           #子文档smith 的个数
            "key" : "smith",
            "doc_count" : 1
          }
        ]
      }
    }
  }
}

16.6、parent聚集

POST /employees/_search?filter_path=aggregations 
{ 
# 查询name = smith的文档
  "query": { 
    "match":{ "name": "smith" } 
  },
  "aggs": { 
  #parent聚集：根据子文档名字smith 找到父文档，统计它的个数
    "who_is_manager":{ 
      "parent":{ 
        "type": "member" 
      },
      #再次聚集，根据smith 找到父文档，根据父文档名字 分别统计 父文档个数
      "aggs":{ 
        "manager_name":{ 
          "terms":{ "field" :"name.keyword" , "size": 10 } 
        } 
      } 
    } 
  } 
}

查询结果：

{
  "aggregations" : {
    "who_is_manager" : {
      "doc_count" : 1,
      "manager_name" : {
        "doc_count_error_upper_bound" : 0,
        "sum_other_doc_count" : 0,
        "buckets" : [
          {
            "key" : "tom",
            "doc_count" : 1
          }
        ]
      }
    }
  }
}

17、嵌套类型

添加一个数组文档如下;


PUT colleges/_doc/2 
{ 
  "address":[ 
    { "country": "CN", "city":"BJ" },
    { "country" : "US", "city": "NY" } 
  ],
  "age":10 
}

colleges 文档在实际存储时，会被拆解为“ address. country": [“CN.US”]” 和 address. city":[“BJ” ,“NY”]” 两个数组字段。这样一来，单个对象内部，country 字段和 city 字段之间的匹配关系就丢失了。换句话说，使用 CN 与 NY 作为共同条件检索的文档时，上述文档也会被检索出来，这在逻辑上就出现了错误:

POST colleges/_search 
{ 
  "query": { 
    "bool": { 
      "must":[ 
        {"match": { "address.country": "CN"}},
        {"match": {"address.city": "NY"}}
      ] 
    }
  } 
}

在示例中使用了 bool 组合查询，要求 country 字段为 CN 而 city 字段为 NY。这样的文档显然并不存在，但由于数组中的对象被平铺为两个独立的数组字段，文档仍然会被检索出来。
所以定义文档时，address字段需要定义为嵌套类型。

17.1、嵌套类型

PUT colleges 
{ 
  "mappings": { 
    "properties": { 
      "address":{ "type": "nested" },
      "age":{ "type":"integer" } 
    } 
  } 
}

如果还是用上面那个查询语句查询，实际上还是有问题，条件正确不会被查询出来：

POST colleges/_search 
{ 
  "query": { 
    "bool": { 
      "must":[ 
        {"match": { "address.country": "CN"}},
        {"match": {"address.city": "BJ"}}
      ] 
    }
  } 
}

上面改成正确的条件也查不出来数据，
这是因为对 nested 类型字段的检索实际上是对隐式文档的检索，在检索时必须要将检索路由到隐式文档上，所以必须使用专门的检索方法。

17.2、nested查询

POST /colleges/_search 
{ 
  "query":{ 
    "nested":{ 
      "path": "address", 
      "query": { 
        "bool":{ 
          "must":[ 
            {"match": {"address.country": "CN"}},
            {"match": {"address.city": "BJ"}} 
          ] 
        } 
      } 
    } 
  }
}

17.3、nested 聚集

nested 聚集是一个单桶聚集，也是通过 path 参数指定 nested 字段的路径，包含在 path 指定路径中的隐式文档都将落入桶中。所以 nested 字段保存数组的长度就是单个文档落入桶中的文档数量，而整个文档落入桶中的数量就是所有文档 nested 字段数组长度的总和。有了 nested 聚集，就可以针对 nested 数组中的对象做各种聚集运算，例如:

POST /colleges/_search?filter_path=aggregations 
{ 
  "aggs": { 
    "nested_address":{ 
      "nested":{ "path": "address" },
      "aggs":{
        "city_names": { 
          "terms":{ "field": "address.city.keyword", "size": 10 } 
        } 
      } 
    } 
  } 
}

在示例中，nested_address 是一个 nested 聚集的名称，它会将 address 字段的隐式文档归入一个桶中。而嵌套在 nested_address 聚集中的 city_names 聚集则会在这个桶中再做 terms 聚集运算，这样就将对象中 city 字段所有的词项枚举出来了。

17.4、reverse_nested 聚集

reverse_nested 聚集用于在隐式文档中对父文档做聚集，所以这种聚集必须作为 nested 聚集的嵌套聚集使用。

POST /colleges/_search?filter_path=aggregations 
{ 
  "aggs": { 
    "nested address": { 
      "nested":{ "path": "address" },
      "aggs":{ 
        "city names":{ 
          "terms":{ "field": "address.city.keyword", "size": 10 },
          "aggs": { 
            "avg_age_in_city":{ 
              "reverse_nested": {},
              "aggs": {
                "avg_age": { 
                  "avg": {"field": "age"} 
                } 
              } 
            } 
          } 
        } 
      } 
    } 
  } 
}

18、sql语言

Elasticsearch 在 Basic 授权中支持以 SQL 语句的形式检索文档，SQL 语句在执行时会被翻译为 DSL 执行。从语法的角度来看，Elastisearch 中的 SQL 语句与 RDBMS 中的 SQL 语句基本一致

19、与spring集成

目前常见的 Elasticsearch Java API 有四类 client 连接方式：

一般4种，用简单的查询可以用spring data elasticsearch，但如果复杂就不用了，那么最终推荐使用 RestClient，那么ResttClient又2种。
Java REST Client 有 Low Level 和 High Level 两种：

Java Low Level REST Client：
使用该客户端需要将 HTTP 请求的 body 手动拼成 JSON 格式，HTTP 响应也必须将返回的 JSON 数据手动封装成对象，使用上更为原始。
Java High Level REST Client：
该客户端基于 Low Level 客户端实现，提供 API 解决 Low Level 客户端需要手动转换数据格式的问题。
官方使用手册：
https://www.elastic.co/guide/en/elasticsearch/client/java-rest/current/index.ht ml

因为 Low Level更基于原始，所以一般我们用 High Level 。

19.1、使用

maven依赖的版本最好和es的版本一致。
java low level 的maven依赖

<dependency>
  <groupId>org.elasticsearch.client</groupId>
  <artifactId>elasticsearch-rest-client</artifactId>
  <version>7.7.0</version>
</dependency>

java high level的maven的依赖

<dependency>
    <groupId>com.strapdata.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
    <version>7.7.0</version>
</dependency>

Elasticsearch 启动失败？从日志分析到最终解决（磁盘空间不足案例） Leaton Lee elasticsearch 大数据搜索引擎
问题背景最近在本地运行一个SpringBoot项目时，突然遇到Elasticsearch(ES)连接超时的问题：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'awardController':Unsatisfieddependencyexpressedthroug
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
Elasticsearch 查询统计 A 字段全部为空的 B 字段（qbit）
前言本文对Elasticsearch7.17适用问题是有两个字符串字段app_id和owner，怎么查询app_id全部为空字符串的owner有哪些？查询DSL语句{"size":0,"aggs":{"owners":{"terms":{"field":"owner",//取决于owner字段的基数"size":10000},"aggs":{"non_empty_app_id_docs":{"fi
【123揭秘】Elasticsearch内部数据结构大起底：行存、列存与倒排索引，你选对了吗？墨瑾轩 Java乐园 elasticsearch 数据结构 jenkins
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第一部分：理解基本概念——构建知识的基础首先，我们需要了解一些基础概念，这对于理解Elasticsearch如何处理和存储数据至关重要。1.1行存储vs列存储行存储：适用于频繁写入和读取整行数据的场景。例如，在关系型数据库中，每一行代表一条记录，所有列的数据都
ElasticSearch中的分片是什么? java1234_小锋 java elasticsearch 大数据搜索引擎
大家好，我是锋哥。今天分享关于【ElasticSearch中的分片是什么?】面试题。希望对大家有帮助；ElasticSearch中的分片是什么?超硬核AI学习资料，现在永久免费了！在Elasticsearch中，分片（Shard）是将数据拆分成更小的部分，允许在分布式环境中并行处理和存储数据的机制。它是Elasticsearch在水平扩展时用于管理大量数据的关键概念。主要概念：主分片（Primar
spring-ai-alibaba 1.0.0.2 学习（十二）——聊天记忆扩展包
学习spring-ai时提到过，spring-ai除了内置的InMemoryChatMemoryRepository，还提供jdbc、cassandra、neo4j三个扩展包。而spring-ai-alibaba则提供了jdbc、redis、elasticsearch三个扩展包。两者都提供了jdbc扩展包，有什么区别呢？spring-aijdbc和spring-ai-alibabajdbc对比sp
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
Docker三分钟部署ElasticSearch平替MeiliSearch轻量级搜索引擎
‍个人主页：阿木木AEcru(更多精彩内容可进入主页观看)系列专栏：《Docker容器化部署系列》《Java每日面筋》每一次技术突破，都是对自我能力的挑战和超越。目录一、什么是MeiliSearch？二、对比ElasticSearch有什么好处？三、使用场景有哪些？四、docker部署MeiliSearch4.1创建数据持久化文件夹4.2拉取镜像4.3运行容器五、访问测试5.1访问5.2下载测试文
meilisearch-轻量级搜索引擎 Leon.ENV 大数据搜索引擎
meilisearch是一款开源的轻量级搜索引擎，相比于elasticsearch等重量级搜索引擎，meilisearch注重数据搜索，从而而省去了其它不必要的功能（如支持聚合分析、分布式搜索等特性），以便于快速上手开发和构建应用。meilisearch有以下优点1）非常轻量级，只需500MB内存就可以运行2）支持多种接入方式：http、多种语言SDK3）无其它依赖环境，下载启动即可使用4）非常适
亿级电商搜索引擎基石：Elasticsearch分片、副本与性能调优实战 lingRJ777 Java技术栈应用 java backend elasticsearch springboot microservices searchengine
亿级电商搜索引擎基石：Elasticsearch分片、副本与性能调优实战引言每年的“双十一”大促，海量用户涌入电商平台，搜索请求量瞬时可达平时的数十甚至上百倍。同时，数百万商品的库存、价格、促销信息也在以极高的频率更新。这种“读写混合”的超高并发场景，对商品搜索引擎提出了两大核心挑战：高可用与可扩展性：如何在流量洪峰下保证搜索服务7x24小时不间断，并且能够随着业务增长而平滑扩容？极致的查询性能：
【ES】--Elasticsearch的高亮模式
目录一、高亮策略1、FastVectorHighlighter（快速向量高亮器）2、PostingHighlighter（帖子高亮器）3、UnifiedHighlighter（统一高亮器）4、PlainHighlighter（普通高亮器）5、总结二、高亮参数三、高亮案例解析1、words_one配置解析2、words_two配置解析3、words_three配置解析4、words_four配置解析
Elasticsearch检索高亮不正确，不精确问题
问题场景：搜索“a”高亮"A8A",,,,,分词器：IK分词器确认分词结果：下图说明已经正确分词！确认高亮效果：换一种高亮器查询效果：对应java代码：总结：当高亮显示不精确的时候，要从以下两方面找问题：1.分词器是否分词准确2.高亮器是否满足你的要求，不满足换一种高亮器查看效果我之前原默认的高亮器（plain）不能满足要求，后来使用unified高亮器解决了高亮不精确的问题。
【Elasticsearch】深度分页及其替代方案 G皮T #Elastic elasticsearch 大数据搜索引擎深度分页 search_after scroll 检索
深度分页及其替代方案1.深度分页2.为什么不推荐深度分页2.1性能问题（核心原因）2.2资源消耗对比2.3实际限制3.深度分页的替代方案3.1方案一：SearchAfter（推荐）3.1.1为什么SearchAfter性能更高3.1.2技术原理简化3.1.3关键区别3.1.4适用场景3.2方案二：ScrollAPI（适用于大批量导出）3.2.1详细解释3.2.2类比理解3.2.3注意事项3.3方案
docker安装单机nacos、rocketmq、reids、xxl-job、minio、elasticsearch、kibana、gogs、nginx、mongo 丶会武术的流氓丶 docker rocketmq redis elasticsearch
目录在右侧中部启动容器报错直接删除那个name后边的就可以安装nacos首先需要拉取对应的镜像文件：dockerpullnacos/nacos-server挂载目录：mkdir-p/mydata/nacos/logs/#新建logs目录mkdir-p/mydata/nacos/init.d/vim/mydata/nacos/init.d/custom.properties#修改配置文件修改cust
50个Java+SpringBoot+Vue毕业设计选题（含技术栈+核心功能） 21光年 java spring boot vue.js 毕业设计毕设
适合人群：计算机专业毕业设计/实战项目/求职作品技术亮点：前后端分离、主流技术栈、多领域覆盖一、电商与交易类智能推荐电商平台技术栈：SpringBoot+Vue+Redis+Elasticsearch核心功能：协同过滤推荐算法、秒杀系统、物流跟踪二手商品交易平台技术栈：SpringBoot+Vue+OSS存储核心功能：多维度检索、信用评分、实名认证社区团购管理系统技术栈：SpringBoot+Vu
canal实现Mysql数据同步 BUG指挥官 MySQL数据库相关讲解 mysql 数据库
在当今互联网行业尤其是现在分布式、微服务开发环境下，为了提高搜索效率，以及搜索的精准度，会大量使用Redis、Memcached等NoSQL数据库，也会使用大量的Solr、Elasticsearch等全文检索服务和搜索引擎。那么，这个时候，就会有一个问题需要我们来思考和解决：那就是数据同步的问题！如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsear
springCloud集成elasticsearch 月光一族吖 spring cloud elasticsearch spring
Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎，同时是可扩展的数据存储和矢量数据库，能够应对日益增多的各种用例。作为ElasticStack的核心，Elasticsearch能够集中存储您的数据，实现闪电般的搜索速度、精细的相关性调整以及强大的分析能力，并且能够轻松地进行规模扩展。废话少说，开干一、docker部署ES1、创建网络，让ES与Kibana容器互联doc
docker安装Elasticsearch Uluoyu docker elasticsearch
1.安装版本Elasticsearch（8.18.3）kibana（8.18.3）ik分词器（8.18.3）2.创建网络，让ES与Kibana容器互联dockernetworkcreatees-net3.加载镜像dockerpulldocker.elastic.co/elasticsearch/elasticsearch:8.18.3sudodockerpulldocker.elastic.co/
windows安装ELK
ELK是什么？ELK是Elasticsearch、Logstash和Kibana三款开源软件的组合，主要用于日志收集、存储、分析和可视化。三款软件版本必须保持一致三款软件下载地址通过网盘分享的文件：elasticsearch-9.0.3-windows-x86_64.zip等3个文件链接:https://pan.baidu.com/s/16Y7T6TYIZZ4uAou4ZeoQ4w?pwd=e8x
解决 Spring Boot 对 Elasticsearch 字段没有小驼峰映射的问题大只鹅 spring boot elasticsearch 后端
场景重现在使用MyBatis/Mybatis-Plus框架对MySQL操作时习惯了字段名小驼峰映射，然而在操作Elasticsearch时发现字段名没有小驼峰映射。解决方法1.使用`ObjectMapper`手动转换：这是最直接也最常用的方法。在SpringBoot应用中使用`ObjectMapper`将从Elasticsearch获取的数据进行转换，将下划线命名转换为小驼峰命名。importco
ELK日志分析系统搭建奔跑吧邓邓子高效运维 elk elasticsearch
目录一、ELK是什么？ElasticsearchLogstashKibana二、搭建ELK1.安装Elasticsearch2.安装Logstash3.安装Kibana三、配置实例1.将某个服务器某个目录下的日志收集到系统分析展示（1）修改logstash-sample.conf配置（2）配置Kibana一、ELK是什么？ELK是三个开源项目的首字母缩写，这三个项目分别是：Elasticsearc
按月设置索引名的完整指南：Elasticsearch日期索引实践少林码僧 elasticsearch jenkins 大数据
按月设置索引名的完整指南：Elasticsearch日期索引实践在时序数据场景中，按月设置索引名（如logs-2024-01）是优化查询效率、降低管理成本的关键策略。以下是三种实现方案及详细步骤：方案一：索引模板+日期数学表达式（推荐）原理：利用ES内置的日期数学表达式动态生成索引名，无需额外工具操作步骤：创建索引模板PUT_index_template/monthly_logs{"index_p
Elasticsearch索引模板：自动化索引管理搜索引擎技术搜索引擎实战 elasticsearch 自动化 jenkins ai
Elasticsearch索引模板：自动化索引管理关键词：Elasticsearch、索引模板、自动化管理、索引映射、索引设置、生命周期管理、数据建模摘要：本文深入解析Elasticsearch索引模板的核心原理与实践方法，通过系统化的步骤演示如何利用索引模板实现索引的自动化创建与统一管理。内容涵盖模板结构设计、映射与设置配置、动态字段处理、优先级策略、实战案例及最佳实践，帮助读者掌握高效管理大规
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台 lingRJ777 Java技术栈应用 java backend elasticsearch spring boot microservices elk
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台引言在当前的微服务架构体系中，一个复杂的业务流程往往会横跨数十甚至上百个服务。当线上出现问题时，如何从每天产生的TB级海量日志中快速定位根源，成为衡量系统可观测性的关键。传统的日志聚合方案在面对如此巨大的数据量时，普遍会遇到两大核心挑战：高并发写入瓶颈：数千个服务实例同时产生大量日志，要求日志系统具备极高的写入吞吐能力，
Elasticsearch分组后排序，并查询组数量 Gzzz__ Elasticsearch elasticsearch java 大数据
项目场景：Elasticsearch分组后，根据分组后的数量排序，并查询分组后的组数量，通过DSL和javaAPI两种方式解决方案：示例：在单据表中，查询2022-01-19当天每个人提交的单据数量，从高到低排序，并查询提交过单据的总人数。期望实现的SQLselectId,count(Id)ascfromuserbillwheretype='bill'andcreateTime>='2022-01
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
2023年JAVA面试题【Redis/Elasticsearch】 GJH-JAVA java redis elasticsearch
1.什么是Redis？Redis是一个使用C语言写成的，开源的高性能key-value非关系缓存数据库。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash（哈希类型）。Redis的数据都基于缓存的，所以很快，每秒可以处理超过10万次读写操作，是已知性能最快的Key-ValueDB。Redis也可以实
后端Spring Data Elasticsearch的集群故障恢复 AI大模型应用实战 spring elasticsearch java ai
后端SpringDataElasticsearch的集群故障恢复关键词：SpringDataElasticsearch、集群故障恢复、分布式系统、故障处理、数据一致性摘要：本文围绕后端SpringDataElasticsearch的集群故障恢复展开深入探讨。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述了核心概念与联系，详细讲解了核心算法原理及具体操作步骤，并结合数学模型和公式进行说明。通
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin