从零开始的JAVA世界

ES 数据聚合、数据同步、集群

文章目录

1.数据聚合
- 1.1.聚合的种类
- 1.2.DSL实现聚合
- - 1.2.1.Bucket聚合语法
  - 1.2.2.聚合结果排序
  - 1.2.3.限定聚合范围
  - 1.2.4.Metric聚合语法
  - 1.2.5.小结
- 1.3.RestAPI实现聚合
2.数据同步
- 2.1.思路分析
- - 2.1.1.同步调用
  - 2.1.2.异步通知
  - 2.1.3.监听binlog
  - 2.1.4.选择
3.集群
- 3.1.集群脑裂问题
- - 3.1.1.集群职责划分
  - 3.1.2.脑裂问题
  - 3.1.3.小结
- 3.2.集群分布式存储
- - 3.2.1.分片存储原理
- 3.3.集群分布式查询
- 3.4.集群故障转移

1.数据聚合

聚合（aggregations）可以让我们极其方便的实现对数据的统计、分析、运算。例如：

什么品牌的手机最受欢迎？
这些手机的平均价格、最高价格、最低价格？
这些手机每月的销售情况如何？

实现这些统计功能的比数据库的sql要方便的多，而且查询速度非常快，可以实现近实时搜索效果。

1.1.聚合的种类

聚合常见的有三类：

桶（Bucket）聚合：用来对文档做分组
- TermAggregation：按照文档字段值分组，例如按照品牌值分组、按照国家分组
- Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组
度量（Metric）聚合：用以计算一些值，比如：最大值、最小值、平均值等
- Avg：求平均值
- Max：求最大值
- Min：求最小值
- Stats：同时求max、min、avg、sum等
管道（pipeline）聚合：其它聚合的结果为基础做聚合

注意:参加聚合的字段必须是keyword、日期、数值、布尔类型，不做分词操作的字段。

1.2.DSL实现聚合

现在，我们要统计所有数据中的酒店品牌有几种，其实就是按照品牌对数据分组。此时可以根据酒店品牌的名称做聚合，也就是Bucket聚合。

1.2.1.Bucket聚合语法

语法如下：

GET /hotel/_search
{
  "aggs": { // 定义聚合
    "brandAgg": {  //给聚合起个名字
      "terms": {   // 聚合的类型，按照品牌值聚合，所以选择term
        "field": "brand", // 参与聚合的字段
        "size": 20 // 显示的聚合结果数量
      }
    }
  }
}

1.2.2.聚合结果排序

默认情况下，Bucket聚合会统计Bucket内的文档数量，记为_count，并且按照_count降序排序。

我们可以指定order属性，自定义聚合的排序方式：

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "order": {
          "_count": "asc" // 按照_count升序排列
        },
        "size": 20
      }
    }
  }
}

1.2.3.限定聚合范围

默认情况下，Bucket聚合是对索引库的所有文档做聚合，但真实场景下，用户会输入搜索条件，因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。

我们可以限定要聚合的文档范围，只要添加query条件即可：

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200 // 只对200元以下的文档聚合
      }
    }
  }, 
  "size": 0, 
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

1.2.4.Metric聚合语法

桶内聚合，使用聚合函数

语法如下：

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "brandAgg": { 
      "terms": { 
        "field": "brand", 
        "size": 20
      },
      "aggs": { // 是brands聚合的子聚合，也就是分组后对每组分别计算
        "score_stats": { // 聚合名称
          "stats": { // 聚合类型，这里stats可以计算min、max、avg等
            "field": "score" // 聚合字段，这里是score
          }
        }
      }
    }
  }
}

1.2.5.小结

aggs代表聚合，与query同级，此时query的作用是？

限定聚合的的文档范围

聚合必须的三要素：

聚合名称
聚合类型
聚合字段

聚合可配置属性有：

size：指定聚合结果数量
order：指定聚合结果排序方式
field：指定聚合字段

1.3.RestAPI实现聚合

    @Test
    public void testAggs() throws IOException {
        //创建搜索请求对象
        SearchRequest searchRequest = new SearchRequest("hotel");
        //查询条件
        searchRequest.source().query(QueryBuilders.matchAllQuery());
        //聚合条件
        searchRequest.source().aggregation(AggregationBuilders.terms("品牌聚合").field("brand").size(10));
        //发送搜索请求
        SearchResponse response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);

        //处理结果
        //获取品牌聚合结果
        Aggregation aggregation = response.getAggregations().get("品牌聚合");
        //类型强转，获取更多功能
        Terms terms = (Terms) aggregation;
        //获取桶
        List<? extends Terms.Bucket> buckets = terms.getBuckets();
        //循环桶，获取每个分组结果
        for (Terms.Bucket bucket : buckets) {
            String key = bucket.getKeyAsString();
            long count = bucket.getDocCount();
            System.out.println("品牌名:" + key + ",数量为" + count);
        }
    }

    @Test
    public void testAggs() throws IOException {
        //创建搜索请求对象
        SearchRequest searchRequest = new SearchRequest("hotel");
        //查询条件
        searchRequest.source().query(QueryBuilders.matchAllQuery());
        //聚合条件
        searchRequest.source().aggregation(AggregationBuilders.terms("品牌聚合").field("brand").size(10). //按照品牌字段进行聚合,显示10条
                subAggregation(AggregationBuilders.stats("stats").field("price"))); //子聚合 ,按照价格做聚合函数 min max avg count sum

        //发送查询请求
        SearchResponse response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);

        //处理结果
        //获取品牌聚合结果
        Aggregation aggregation = response.getAggregations().get("品牌聚合");
        //类型强转，获取更多功能
        Terms terms = (Terms) aggregation;
        //获取桶
        List<? extends Terms.Bucket> buckets = terms.getBuckets();
        //循环桶，获取每个分组结果
        for (Terms.Bucket bucket : buckets) {
            String key = bucket.getKeyAsString();
            long count = bucket.getDocCount();
            System.out.println("品牌名:" + key + ",数量为" + count);
            //子聚合结果
            Stats stats = bucket.getAggregations().get("stats");
            System.out.println("价格平均值:" + stats.getAvgAsString());
            System.out.println("价格总和:" + stats.getSumAsString());
            System.out.println("价格最大值:" + stats.getMaxAsString());
            System.out.println("价格最小值:" + stats.getMinAsString());
        }
    }

2.数据同步

elasticsearch中的酒店数据来自于mysql数据库，因此mysql数据发生改变时，elasticsearch也必须跟着改变，这个就是elasticsearch与mysql之间的数据同步。

2.1.思路分析

常见的数据同步方案有三种：

同步调用
异步通知
监听binlog

2.1.1.同步调用

方案一：同步调用

基本步骤如下：

hotel-demo对外提供接口，用来修改elasticsearch中的数据
酒店管理服务在完成数据库操作后，直接调用hotel-demo提供的接口，

2.1.2.异步通知

方案二：异步通知

流程如下：

hotel-admin对mysql数据库数据完成增、删、改后，发送MQ消息
hotel-demo监听MQ，接收到消息后完成elasticsearch数据修改

2.1.3.监听binlog

方案三：监听binlog

流程如下：

给mysql开启binlog功能
mysql完成增、删、改操作都会记录在binlog中
hotel-demo基于canal监听binlog变化，实时更新elasticsearch中的内容

2.1.4.选择

方式一：同步调用

优点：实现简单，粗暴
缺点：业务耦合度高

方式二：异步通知

优点：低耦合，实现难度一般
缺点：依赖MQ的可靠性

方式三：监听binlog

优点：完全解除服务间耦合
缺点：开启binlog增加数据库负担、实现复杂度高

3.集群

单机的elasticsearch做数据存储，必然面临两个问题：海量数据存储问题、单点故障问题。

海量数据存储问题：将索引库从逻辑上拆分为N个分片（shard），存储到多个节点
单点故障问题：将分片数据在不同节点备份（replica ）

ES集群相关概念:

集群（cluster）：一组拥有共同的 cluster name 的节点。
节点（node) ：集群中的一个 Elasticearch 实例
分片（shard）：索引可以被拆分为不同的部分进行存储，称为分片。在集群环境下，一个索引的不同分片可以拆分到不同的节点中

解决问题：数据量太大，单点存储量有限的问题。
主分片（Primary shard）：相对于副本分片的定义。
副本分片（Replica shard）每个主分片可以有一个或者多个副本，数据和主分片一样。

数据备份可以保证高可用，但是每个分片备份一份，所需要的节点数量就会翻一倍，成本实在是太高了！

为了在高可用和成本间寻求平衡，我们可以这样做：

首先对数据分片，存储到不同节点
然后对每个分片进行备份，放到对方节点，完成互相备份

这样可以大大减少所需要的服务节点数量，如图，我们以3分片，每个分片备份一份为例：

现在，每个分片都有1个备份，存储在3个节点：

node0：保存了分片0和1
node1：保存了分片0和2
node2：保存了分片1和2

3.1.集群脑裂问题

3.1.1.集群职责划分

elasticsearch中集群节点有不同的职责划分：

默认情况下，集群中的任何一个节点都同时具备上述四种角色。

但是真实的集群一定要将集群职责分离：

master节点：对CPU要求高，但是内存要求低
data节点：对CPU和内存要求都高
coordinating节点：对网络带宽、CPU要求高

职责分离可以让我们根据不同节点的需求分配不同的硬件去部署。而且避免业务之间的互相干扰。

一个典型的es集群职责划分如图：

3.1.2.脑裂问题

脑裂是因为集群中的节点失联导致的。

例如一个集群中，主节点与其它节点失联：

此时，node2和node3认为node1宕机，就会重新选主：

当node3当选后，集群继续对外提供服务，node2和node3自成集群，node1自成集群，两个集群数据不同步，出现数据差异。

当网络恢复后，因为集群中有两个master节点，集群状态的不一致，出现脑裂的情况：

解决脑裂的方案是，要求选票超过 ( eligible节点数量 + 1 ）/ 2 才能当选为主，因此eligible节点数量最好是奇数。对应配置项是discovery.zen.minimum_master_nodes，在es7.0以后，已经成为默认配置，因此一般不会发生脑裂问题

例如：3个节点形成的集群，选票必须超过（3 + 1） / 2 ，也就是2票。node3得到node2和node3的选票，当选为主。node1只有自己1票，没有当选。集群中依然只有1个主节点，没有出现脑裂。

3.1.3.小结

master eligible节点的作用是什么？

参与集群选主
主节点可以管理集群状态、管理分片信息、处理创建和删除索引库的请求

data节点的作用是什么？

数据的CRUD

coordinator节点的作用是什么？

路由请求到其它节点
合并查询到的结果，返回给用户

3.2.集群分布式存储

当新增文档时，应该保存到不同分片，保证数据均衡，那么coordinating node如何确定数据该存储到哪个分片呢？

3.2.1.分片存储原理

elasticsearch会通过hash算法来计算文档应该存储到哪个分片：

说明：

_routing默认是文档的id
算法与分片数量有关，因此索引库一旦创建，分片数量不能修改！

新增文档的流程如下：

解读：

1）新增一个id=1的文档
2）对id做hash运算，假如得到的是2，则应该存储到shard-2
3）shard-2的主分片在node3节点，将数据路由到node3
4）保存文档
5）同步给shard-2的副本replica-2，在node2节点
6）返回结果给coordinating-node节点

3.3.集群分布式查询

elasticsearch的查询分成两个阶段：

scatter phase：分散阶段，coordinating node会把请求分发到每一个分片
gather phase：聚集阶段，coordinating node汇总data node的搜索结果，并处理为最终结果集返回给用户

3.4.集群故障转移

集群的master节点会监控集群中的节点状态，如果发现有节点宕机，会立即将宕机节点的分片数据迁移到其它节点，确保数据安全，这个叫做故障转移。

1）例如一个集群结构如图：

现在，node1是主节点，其它两个节点是从节点。

2）突然，node1发生了故障：

宕机后的第一件事，需要重新选主，例如选中了node2：

node2成为主节点后，会检测集群监控状态，发现：shard-1、shard-0没有副本节点。因此需要将node1上的数据迁移到node2、node3：

法律案例图像检索的前沿探索：基于AI的多模态搜索引擎设计【附保姆级代码】一键难忘精通AI实战千例专栏合集人工智能搜索引擎法律案例图像检索
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中文章目录法律案例图像检索的前沿探索：基于AI的多模态搜索引擎设
java+jsp+sqlserver 2008+Tomcat实现一个简单的搜索引擎麦田上的字节高级java教程系列 Java 搜索引擎
导读：搜索引擎的定义就是指按照既定的策略与方法，采取相关的计算机程序，通过在互联网中进行寻找信息，并显示信息，最后把找到的信息进行整理和筛选，为搜索引擎的使用者提供检索信息的服务，终极目标是为了提供给使用者，他所搜索信息相关的资料的计算机系统。搜索引擎的种类繁多，既可以进行全文的索引，还可以进行目录的索引，不仅有集合式的搜索引擎，还有
jmeter 与大数据生态圈中的服务进行集成小赖同学啊 jmeter专栏 jmeter 大数据
以下为你详细介绍JMeter与大数据生态圈中几种常见服务（HadoopHDFS、Spark、Kafka、Elasticsearch）集成的方法：与HadoopHDFS集成实现思路HDFS是Hadoop的分布式文件系统，JMeter可模拟客户端对HDFS进行文件读写操作，通常借助HDFS的JavaAPI编写自定义JMeter采样器。步骤添加依赖：将Hadoop的客户端JAR包添加到JMeter的li
在线教育系统设计方案翱翔-蓝天 java
在线教育系统设计方案1.系统概述本系统是一个现代化的在线教育平台，采用前后端分离架构，提供课程管理、用户管理、视频点播、直播互动等功能。2.技术栈选型2.1后端技术栈核心框架：SpringBoot3.x数据库：MySQL8.x持久层框架：MyBatisPlus缓存：Redis消息队列：RabbitMQ搜索引擎：Elasticsearch文件存储：阿里云OSS视频点播：阿里云视频点播服务2.2前端技
掌握 ElasticSearch 组合查询：Bool Query 详解与实践全端工程师 elasticsearch elasticsearch jenkins 大数据
掌握ElasticSearch组合查询：BoolQuery详解与实践一、引言(Introduction)二、Bool查询基础2.1什么是Bool查询？2.2Bool查询的四种子句2.3语法结构三、Bool查询的四种子句详解与示例3.1`must`子句3.2`filter`子句3.3`should`子句3.4`must_not`子句四、`minimum_should_match`参数4.1什么是`m
30道你不得不会的Elasticsearch面试题【附答案解析】麒麟改bug Java面试 elasticsearch java big data
前言随着企业对近实时搜索的迫切需求，Elasticsearch受到越来越多的关注，无论是阿里、腾讯、京东等互联网企业，还是平安、顺丰等传统企业都对Elasticsearch有广泛的使用，但是在Elasticsearch6.8发布以前，大部分Elasticsearch功能都是付费的，开源版本的Elasticsearch在集群管控方面能力有限，鉴于此，通用的实施方案就是给Elasticsearch添加
ElasticSearch14-C#帮助类封装李宥小哥常用中间件 c#jenkins 开发语言
零、文章目录ElasticSearch14-C#帮助类封装1、封装帮助类（1）安装NuGet包本次net版本是net8Install-PackageElasticsearch.Net-Version7.15.0Install-PackageNEST-Version7.15.0（2）创建配置类//////Elasticsearch配置类///publicclassElasticsearchConfi
文档检索服务平台 liupan6889 产品设计全文检索 elasticsearch 全文检索开源软件
文档检索服务平台是基于Elasticsearch的全文检索，包含数据采集、数据清洗、数据转换、数据检索等模块。项目地址：Github、国内Gitee演示地址：http://silianpan.cn/gdss/以下是演示角色和账号（密码同账号）：测试用户：test超级管理员：admin系统架构部分截图登录全文检索文章详情
【Python爬虫(45)】Python爬虫新境界：分布式与大数据框架的融合之旅奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言大数据框架
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、大数据处理框架初印象1.1Hadoop：大数据处理的基石1.2
不得不学，从零到一搭建ELK日志，Docker环境下部署 logstash工具 Java佳佳程序员编程 java elk docker elasticsearch
前言大家好，我是佳佳，最近在玩ELK日志平台，它是Elastic公司推出的一整套日志收集、分析和展示的解决方案。只有学习了，操作了才能算真正的学会使用了，虽然看起来简单，但是里面的流程步骤还是很多的，将步骤和遇到的问题记录和总结下，今天主要分享下在Docker环境下部署logstash日志收集工具。#从零到一搭建ELK日志，在Docker环境下部署Elasticsearch数据库#从零到一搭建EL
使用容器部署ELK：适用于生产环境的架构 ExogFix elk 架构 jenkins
在当今的大数据时代，日志管理和实时监控对于企业的成功至关重要。Elasticsearch、Logstash和Kibana（通常被称为ELK堆栈）是一套流行的开源工具，用于实时日志聚合、分析和可视化。通过使用容器化技术，我们可以轻松地部署和管理ELK堆栈，并为生产环境提供可靠的日志分析解决方案。本文将详细介绍如何使用Docker容器部署ELK堆栈，并提供相应的源代码示例。架构概述我们的ELK堆栈部署
代理 Elasticsearch 服务：INFINI Gateway VS Nginx yangmf2040 INFINI Gateway elasticsearch 搜索引擎大数据 gateway
INFINIGateway简介INFINIGateway是一款面向Elasticsearch的高性能应用网关，专为提升Elasticsearch集群的性能、安全性和可管理性而设计。它作为Elasticsearch的前置网关，能够处理所有客户端请求，并将其转发到后端的Elasticsearch集群，同时提供丰富的功能来优化请求处理和管理。此外还支持代理Opensearch、Easysearch服务。
银行数据类系统建设奔跑的白鸥银行数据应用数据仓库 spark 大数据
数据仓库建设数据仓库的概念数据仓库是大批量数据的存储系统，在如今PB级数据量的大数据时代，传统数据库由于数据量的限制，无法存储如此庞大的数据量，因此对于需求海量数据的机构大都会将数据存储在数据仓库中，用以取数和分析。数据仓库的分层数据仓库一般会从业务源系统取数，存储在ODS层。这一层存储的都是颗粒度最细的明细数据，由于直接从源系统取数，所以这一层的数据大多是缺乏加工处理的脏数据。再上层是主题数据层
杰和推出面向人工智能应用的AI服务器 weixin_34211761
在这个数据爆炸的年代，我们获取数据的难度大大降低，但要获取数据的价值仅依靠简单的数据分析是不可行的。如果将大数据看作一个产业，那么数据深挖（挖掘）就是其中一项核心技术，数据深挖（挖掘）通常与计算机科学有关，如数据统计、数据检索、分析处理、机器学习等技术，而这些恰好是人工智能技术的优势。人工智能一直都是备受关注的热门领域，更是被认为是第四次工业革命。随着技术的不断开发及深入优化，人工智能以迅雷不及掩
大数据可视化设计实用技巧全攻略 UI设计兰亭妙微信息可视化数据分析数据挖掘
在大数据时代，数据可视化设计已成为将复杂数据转化为直观洞察的关键。下面就为大家分享一些实用技巧，助你打造出出色的数据可视化作品。一、选择合适的图表类型不同类型的图表适用于不同的数据展示需求。柱状图擅长比较数据大小，折线图则能清晰呈现数据随时间的变化趋势，而饼图用于展示各部分占比。例如，在展示不同产品的销量对比时，柱状图一目了然；分析股票价格的长期走势，折线图更为合适；呈现市场份额分布，饼图效果最佳
基于SpringBoot的大学生综合能力测评管理系统计算机学姐 Java精选实战项目源码 SpringBoot源码 Vue源码 spring boot 后端 java spring vue.js mysql java-ee
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Java+SpringBoot+Vu
杰和科技GAM-AI视觉识别管理系统，让AI走进零售营销 G***技人工智能大数据系统架构
在数字化浪潮席卷全球零售业的今天，如何精准触达顾客需求、优化运营效率、提升门店业绩，成为实体商业破局的关键。GAM-AI视觉识别管理系统杰和科技智能零售管理系统：GAM-AI视觉识别管理系统，以AI视觉识别+大数据分析+边缘计算为核心技术，打造集“精准营销、客流洞察、智能决策”于一体的全场景解决方案，助力零售门店实现从“人货场”到“智货场”的智慧升级。系统部署以杰和科技安卓媒体播放器作为核心硬件，
多档买卖盘逐笔委托逐笔成交进行大数据分析以及模型结果20250221 level2Tick A股level2历史数据金融数据库
多档买卖盘逐笔委托逐笔成交进行大数据分析以及模型结果20250221采用Level2逐笔成交与逐笔委托的详细记录，这种毫秒级别的数据能揭露众多关键信息，如庄家意图、虚假交易，使所有交易行为透明化。这对交易大师分析主力习性大有裨益，对人工智能进行机器学习也非常合适，数据量大且精确。以下是今日根据Level2逐笔成交与委托数据观察到的部分股票现象：level2逐笔成交逐笔委托数据下载链接:https:
物联网数据采集平台【物联网毕业论文】算法与数据物联网
物联网技术与数据分析|物联网系统设计|模型构建✨专业领域：物联网系统架构设计智能设备与传感器网络数据采集与处理物联网大数据分析智能家居与工业物联网边缘计算与云计算物联网安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模物联网平台与设备编程数据流与实时监控系统设计机器学习与预测模型应用物联网协议（MQTT,CoAP,HTTP）物联网数据可视化工具✅物联网专业题目与数据：物联网毕业论
大数据安全项目是小酒大数据 python pycharm sql mysql
1.项目详情用python写一个大数据安全项目（使用tk，页面布局使用盒子模型，页面中各个按钮，主题要美观，按扭间的距离不要太进），需要连接数据库连接名是root（数据库名为bigdata_security,数据库密码是123456。查询数据库中的student表（包括id，name,sex,school,height,weight这些字段））。包括管理员和学生两个功能。2.代码详
【ETL】从理论到实践的数据处理流程及其工具的应用絆人心 etl 数据仓库 python 数据分析数据挖掘数据库
目录引言一、ETL的基础与工作原理二、ETL过程中的工具选择与实际操作（1）提取（Extract）（2）转换（Transform）（3）加载（Load）三、常见的ETL工具四、ETL的未来发展趋势五、总结引言ETL（Extract,Transform,Load）是处理数据、实现数据整合、清洗和迁移的关键技术。在大数据时代，随着企业数据量的快速增长，ETL不仅要满足传统数据仓库的需求，还要应对实时数
AI人工智能带给企业什么影响雪叶雨林 AI 人工智能 ai
在科技日新月异的今天，人工智能(AI)正以前所未有的速度和广度渗透到各行各业，对企业运营产生了深远的影响。这种影响不仅体现在技术层面的革新，更在于企业组织结构、工作流程、决策模式等多个维度的深刻变革。一、优化决策过程，提升精准度人工智能通过大数据分析和机器学习技术，能够处理和分析海量信息，为企业提供更为精准、实时的决策支持。相较于传统的人工分析，AI能够识别出数据中的微妙模式和趋势，帮助企业预见市
掌握 ElasticSearch 精准查询：Term Query 与 Filter 详解全端工程师 elasticsearch elasticsearch 大数据搜索引擎
掌握ElasticSearch精准查询：TermQuery与Filter详解一、引言(Introduction)二、准备工作：创建索引和添加示例数据三、TermQuery：精准匹配3.1`term`查询：单个值的精准匹配3.2`terms`查询：多个值的精准匹配3.3`term`vs.`match_phrase`四、Filter：高效过滤4.1什么是Filter？4.2Queryvs.Filter
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
Linux云计算运维有前景吗? 老男孩IT教育 linux 服务器
伴随着云计算技术的发展，越来越多的企业和组织开始使用云服务来部署和运行他们的应用程序和服务，因此对云计算技术人才的需求量也持续增长，那么Linux云计算运维有前景吗?这应该是很多人关心的问题，我们来探讨一下。综合情况来讲，Linux云计算运维的前景非常广阔。随着云计算和大数据技术的快速发展，Linux作为云计算领域的主流操作系统，其重要性日益凸显，越来越多的企业和组织将其IT基础设施迁移上云，以提
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Linux在云计算和大数据的应用有哪些 coder_wwwdy Linux linux 云计算大数据
Linux在云计算和大数据领域的应用非常广泛，主要体现在以下几个方面：1.**云计算基础设施**：-Linux操作系统因其开源、稳定和高度可定制的特性，成为云计算平台的首选操作系统。例如，AmazonWebServices(AWS)、GoogleCloudPlatform(GCP)和MicrosoftAzure等主要云服务提供商都使用Linux作为其云基础设施的基础。-Linux提供了多种发行版，
电商搜索API的Elasticsearch优化策略 API_technology 开发后端 elasticsearch 大数据搜索引擎
在构建电商搜索API时，对Elasticsearch进行优化可以显著提升搜索性能和用户体验。以下是一些常见的优化策略：索引优化1.合理设计索引结构字段映射：根据数据类型和使用场景，为每个字段选择合适的映射类型。例如，对于需要精确匹配的字段（如商品ID），使用keyword类型；对于需要全文搜索的字段（如商品名称、描述），使用text类型。{"mappings":{"properties":{"pr
Linux 在云计算中的应用有哪些？我们的五年游戏实现 linux 云计算运维
目录Linux在云计算中的应用1.云计算基础设施的核心2.虚拟化技术的基础3.容器化与微服务4.大数据与人工智能5.开源生态与社区支持6.在GoogleCloud上运行Linux的优势7.边缘计算与物联网总结Linux在云计算中的应用Linux作为开源操作系统的代表，在云计算领域扮演着至关重要的角色。其灵活性、稳定性和强大的社区支持使其成为云计算基础设施的理想选择。以下是Linux在云计算中的主要
普通Java项目集成ElasticSearch全文搜索引擎 z_金粽子微服务技术栈储备搜索引擎 java elasticsearch
文章目录全文搜索概述文本数据集成ElasticSearch全文搜索引擎Java普通项目集成步骤依赖包ESClientUtil工具类文档CRUD添加文档获取文档更新文档批量操作练习自定义用户表查询需求：name包含：我在学Java需求：age在1~12之间需求：age=1需求：name包含：我在学Java和age在1~12之间三种不同类型的查询matchQueryrangeQuerytermQuer
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。