自东向西

Elasticsearch知识整理

一、基本概念和理念

1、索引结构

ES是面向文档的。各种文本内容以文档的形式存储到ES中，一般使用JSON作为文档的序列化格式。

在存储结构上，由_index、_type和_id唯一标识一个文档。

_index指向一个或多个物理分片的逻辑命令空间。

_type类型用于区分同一个集合中的不同细分，在不同的细分中，数据的整体模式是相同或相似的，不适合完全不同的类型数据。

_id文档标记符由系统自动生成或使用者提供。

不应该将_index理解成RDBMS中的数据库，_type理解成表。在ES 6.x版本中，一个索引已经只允许存在一个_type，在未来的版本还会移除_type概念。

2、分片

在分布式系统中，单机无法存储规模巨大的数据，都需要依靠集群处理和存储这些数据，一般通过加机器的方式来提高系统的水平拓展能力。这就需要将数据切分成N个小块，然后把这些小块均匀分布到集群中的所有机器，然后通过某种路由策略找到某个数据块所在的位置。这就是“分片”。

将数据分片能提高水平拓展能力，但除了拓展能力，还要考虑系统的可用性，即集群中的某个节点挂了，不会影响整个集群的运行。所以在分布式存储中，会把数据复制成多个副本，放置到不同的机器上。不过引入了副本的概念，也会带来一致性的问题：部分副本写成功，部分写失败。

ES将分片分为主分片和副分片。写过程先写主分片，成功后再写副分片，恢复阶段以主分片为准。

一个ES的分片就是一个luncene的索引，它本身就是一个完整的搜索引擎，可以独立执行建立索引和搜索任务。每个luncene索引够若干个分段组成，每个分段就是一个倒排索引，ES每次“refresh”都会产生一个新的分段。在每个分段内部，文档的不同字段（Field）被单独建立索引。每个字段的值由若干个词（Term）组成。

ES index->ES shard(luncene index)->luncene segment->luncene field->lucene term。

搜索1个有着50个分片的索引和搜索50个只有单分片的索引，效果相同。

3、数据更新

段在生成之后就是不可变的，这样设计有许多好处：对文件的访问不需要加锁，读取索引时可以被文件系统缓存等。

段不可变的话，更新和删除是怎么做的？

更新和删除等操作是将数据标记为删除，记录到单独的位置，这种方式称为标记删除。因此删除部分数据不会释放空间。

4、近实时搜索

ES执行写操作，会将数据在内存中缓存，到达一定的时间间隔—默认1秒或者一定数据量，才会把这些数据写入磁盘，每次写入硬盘的这批数据就是一个分段（Segment）。

一般情况下，通过操作系统write接口写到磁盘的数据先到达系统缓存，write函数返回成功时，数据未必刷到磁盘。不过数据进入系统缓存的时候，文件已经能像其他文件一样被打开和读取。

ES利用了这种特性实现了近实时搜索。每秒产生一个新分段，将新分段写入文件系统缓存。

不过这种方式，存在丢失数据的风险。所以ES引入了translo机制，每次对ES进行操作时都会记录事务日志，当ES启动的时候，重放translog中所有在最后一次提交后发生的变更操作。

5、段合并

ES每秒都会产生一个段，但是分段数量太多会带来性能问题，每个段都会消耗文件句柄、内存；每个搜索请求都需要轮流检查每个段，然后把结果合并；段越多，搜索越慢。所以会通过一定的策略，将小段合并为大段。合并的过程中，标记为删除的数据不会被写入新的分段中，即标记删除的数据，只有到了段合并的时候，才会释放磁盘空间。

二、集群节点角色

主节点

主节点负责集群层面的相关操作，管理集群变更。

通过配置node.master:true，默认为true使节点具有被选举为主节点的资格。主节点是唯一的，从所有具有被选举资格的节点中选举出来。

为避免网络分区时出现多主的情况，配置discovery.zen.minimum_master_nodes原则上最小值应该为（master_eligible_nodes/2）+1

数据节点

负责保存数据、执行数据相关操作：CRUD、搜索、聚合等。通过配置node.data:true，默认为true。

预处理节点

预处理操作允许在索引文档前，即写入文档之前，通过事先定义好的一系列processors和pipeline，对数据进行转换、富化。通过配置node.ingest:true，默认为true。

协调节点

客户端请求可以发送到集群的任意节点，每个节点都知道任意文档所在的位置，然后转发这些请求，收集数据并返回给客户端，处理客户端请求的节点称为协调节点。

三、集群健康状态

Green，所有的主分片和副分片都正常运行。

Yellow，所有的主分片都正常运行，但不是所有的副分片都正常运行。

Red，有主分片没能正常运行。

四、集群状态

集群状态元数据是全局信息，包括内容路由信息、配置信息等，其中最重要的是内容路由信息，描述了“哪个分片位于哪个节点”。

集群状态由主节点负责维护，如果主节点从数据节点接收更新，则将这些更新广播到集群的其他节点，让每个节点上的集群状态保持最新。

五、集群扩容

当扩容集群、添加节点时，分片会均衡地分配到集群的各个节点，从而对索引和搜索过程进行负载均衡，这些都是系统自动完成。

分片分配过程中出了让节点间均匀存储，还要保证不把主副分片分配到一个节点上，避免单个节点故障引起数据丢失。

六、集群启动流程

选举主节点 -> 选举集群元信息 -> allocation过程 -> index recovery

1、选举主节点

算法

ES的选主算法是基于Bully算法的改进，Bully算法的主要思路是对节点ID排序，取ID值最大的节点最为Master，每个节点都运行这个流程。这种做法选举出来的节点不一定持有最新的元数据信息，所以在选举出Master之后，还需要从其他机器上把最新的元数据信息同步过来。

基于节点ID排序的简单选举算法有三个附加条件：

参选人数需要过半，到达quorum（过半数节点）后就选出临时的Master。因为可能因为网络原因，每个节点观察到的节点列表都不一样，选出来的结果不一致，所以通过这种方式选举出来的只是临时Master。
当某个节点成为临时Master，并且加入它的节点数过半，则可以确认它的Master身份，成为正式的Master。
Master检测到节点离开时，必须判断当前节点数是否过半。如果达不到quorum，则放弃Master身份，重新加入集群，触发新的Master选举。目的是防止发生网络分区，然后原Master节点又是在少数的那一边，就可能产生双主——脑裂。

重要配置

ES集群并不知道自己一共有多少个节点，quorum（过半数节点）值从配置读取的discovery.zen.minimum_master_nodes——最小主节点数，这是防止脑裂、防止数据丢失的极其重要的参数。

该配置除了用于“多数”，还用于多处重要的判断，至少包含以下时机：

触发选主：进入选主的流程之前，参选的节点数需要达到法定人数。
决定Master：选出临时的Master之后，这个临时Master需要判断加入它的节点到达法定人数，才确认选主成功。
gateway选举元信息：向有Master资格的节点发起请求，获取元数据，获取的相应数量必须达到法定人数，也就是参与元信息选举的节点数。
Master发布集群状态：发布成功数量不许达到法定人数。

流程

先选举临时Master，如果本节点当选，则等待确立Master，如果其他节点当选，则尝试加入集群，然后启动节点失效探测器。

选举临时Master

“ping”所有节点，获取节点列表，ping结果不包含本节点，把本节点单独添加到列表中。
构建两个列表：存储集群当前活跃Master的列表——activeMasters、存储Master候选者的列表——masterCandidates。
优先从activeMasters选择合适的节点作为Master，如果activeMasters为空，再从masterCandidates选择。

投票与得票

发送投票就是向目标节点发送加入集群的请求。得票就是申请加入该节点的请求数量。

确立Master

等待足够多的具备Master资格的节点加入本节点，完成选举。
超时（默认30秒）后没有满足投票法定人数，则选举失败，需要重新进行选举。
成功选举后，发布新的集群状态。

加入集群

不再接受其他节点的加入集群请求。
向Master节点发送加入集群请求，并等待回复。超时时间默认为1分钟，如果遇到异常默认超时3次。
最终当选的Master会发布集群状态，才确认其他节点的加入集群请求。其他非Master节点收到集群状态，会检查集群状态中的Master节点，如果为空或者不是选择的节点，则重新选举。

节点失效检测

选举成功后，节点需要开启失效检测器：

在Master节点，启动NodesFaultDeletection，简称NodeFD。定期探测加入集群的节点是否活跃。
在非Master节点，启动MasterFaultDelection，简称MasterFD。定期探测Master节点是否活跃。

两种探测器都是通过定期（默认1秒）发送ping请求探测节点是否正常的，当失败一定次数（默认为3次），或者收到来自底层连接模块的节点离线通知时，处理节点离开事件。

2、选举集群元信息

从上一小节，我们能知道，选举出来的主节点元数据信息不一定是最新的，所以当Master被选举出来后，第一件事情就是让所有节点把各自存储的元信息发给它，进行元信息选举，选举的过程中，不接受新节点的加入请求。

主节点根据版本号确定最新的元信息，然后再把这个信息广播出去，让所有节点的元信息都变成最新的。

为了集群的一致性，参与选举的元信息数量需要过半，主节点发布集群状态成功的规则也是等待发布成功的节点数过半。

元数据信息只包含两个级别：集群级和索引级。不包含哪个分片存在于哪个节点这种信息。

3、allocation过程

集群级和索引级的元数据选举完成后，就开始选举分片级元信息，构建内容路由表，这是在allocation模块完成的。

在初始阶段，所有的分片都处于未分配状态。ES通过分配过程决定哪个分片位于哪个节点上，构建路由表信息。

选主分片

假设现在要选分片A的主分片，主节点会询问集群中的所有节点，让大家点把A分片的元信息发给它，主节点收到所有请求的返回后，根据一定策略，从中选择一个作为主分片。

这种方式效率比较低，询问量=分片数*节点数，所以分片的数量不适合太多。

如何选择合适的分片作为主分片呢？

ES会给每个分片都设置一个UUID，然后在集群的元信息中记录哪些分片是最新的。选主分片的时候，就选择汇报中存在于“最新分片列表”的分片。

选副分片

在选主分片的时候，已经收集了分片的所有副本信息。如果汇总信息中不存在，则分配一个全新副本——例如副本数目前是3，但是汇总中只拿到2个。

创建全新副本的操作不是马上执行的，而是根据延迟配置项：index.unassigned.node_left.delayed_timeout。

4、index recovery

分片分配成功后进入recovery流程。主分片的recovery不会等待其副本分片分配成功才开始。它们是独立的流程，只是副分片的recovery需要等它的主分片恢复完毕。

主分片

在节点意外挂掉的时候，可能有一些数据没来得及刷盘，主分片的recovery，就是为了恢复这部分未刷盘的数据。

ES的写操作都会记录事务日志（translog），事务日志记录了相关的数据变更。因此将最后一次提交（Lucene的一次提交就是一次fsync刷盘过程）之后的事务日志进行重放，建立Luncene索引，这样就完成了主分片的recovery。

副分片

在节点意外挂掉的时候，可能主分片已经写完数据，但是副分片没来得及同步，主副分片的数据不一致。

副分片需要恢复成与主分片一致，同时，恢复期间允许新的索引操作。恢复的过程分为两阶段：

阶段1：在主节点上获取事务日志保留锁，获取到锁之后，事务日志就不会因为刷盘而被清空。接着调用Luncene接口把分片数据做个快照，把生成的快照传给副分片节点。快照传输完成后，副分片就可以开始处理读写请求了。
阶段2：对事务日志做快照，传输给副分片节点，副分片节点把从阶段1获取锁开始，到分片快照数据传输完毕这段时间的操作进行重放。

阶段1完成，副分片就开始接受新请求，但是阶段2的时候，还需要重放操作，这两者不会有冲突么？

不会，ES中的数据是有版本号的概念，只要根据版本号进行过滤，只有最新一次操作生效。

第一阶段需要完整传输整个分片的数据，数据量大，恢复会变得很漫长，能避免这种全量同步么？

能，ES每个写入成功的操作，都会分配一个序号——SequenceNumber，通过比较主副分配的差异范围，如果差异范围目前还在事务日志中保留着，则可以通过主分片的事务日志增量恢复。或者主副分片的syncid和文档数都相同，可以直接跳过阶段1。

七、PacificA算法

ES的数据副本模型基于主从模式，在实现上参考了PacificA算法，该算法有几个特点：

设计了一个通用的、抽象的框架，而不是具体的、特定的算法。模型的正确性很容易验证。
配置管理和数据副本分离，paxos负责管理配置，数据副本策略采取主从模式。
将错误检测和配置更新放在数据副本的交互里实现，去中心化。

PacificA算法涉及的几个术语如下：

Relica Group：一个互为副本的数据集合称为副本组。其中只有一个副本是主数据（Primary），其他为从数据（Secondary）。
Configuration：配置信息中描述了一个副本组都有哪些副本，Primary是谁，以及它们位于哪个节点。
Configuration Version：配置信息的版本号，每次发生变更时递增。
Serial Number：代表每个写操作的顺序，每次写操作时递增，简称SN。每个主副本维护自己的递增SN。
Prepared List：写操作的准备序列。存储来自外部的请求列表，将请求按照SN排序，向列表中插入的序列号必须大于列表中最大的SN。每个副本上有自己的Prepared List。
Committed List：写操作的提交序列。

设计前提与假设：

节点可以失效，对消息延迟的上限不做假设。
消息可以丢失、乱序，但不能被篡改，即不存在拜占庭问题。
网络分区可以发生，系统时钟可以不同步，但漂移是有限度的。

整个系统框架主要由两部分组成：存储管理和配置管理

存储管理：负责数据的读取和更新，使用多副本方式保证数据的可靠性和可用性。
配置管理：对配置信息进行管理，维护所有配置信息的一致性。

存储管理

多个副本中存在一个主副本和多个从副本。所有写操作都进入主副本，当主副本出现故障，系统会从其他从副本选择合适的副本作为新的主副本。

数据的写入流程：

写请求进入主副本节点，节点为该操作分配SN，使用该SN创建UpdateRequest结构。然后将该UpdateRequest插入自己的prepare list。
主副本节点将携带SN的UpdateRequest发送给从副本节点，从节点接收到后也插入到prepare list，完成后给主副本节点回复一个ACK。
一旦主副本节点收到所有从副本节点的ACK，确定该数据已经被正确写入所有的从副本，此时认为可以提交了，将此UpdateRequest放入committed list，committed list前移。
主副本节点回复客户端更新成功。对每个Prepare消息，主副本节点向从副本节点发送一个commit通知，告诉它们自己的committed point位置，从副本节点收到通知后根据指示移动committed point到相同位置。

本质上就是一个两阶段提交，committed_R<=committed_P<=prepared_R。

配置管理

全局的配置管理器负责管理所有副本组的配置。节点可以向管理器提出添加/移除副本的请求，每次请求都会附带当前的配置版本号，只有这个版本号和管理器记录的版本号一致，请求才会被执行。如果请求成功，则版本号会被更新。

错误检测

PacificA算法使用租约（lease）机制来解决网络分区的问题：

如果主副本节点在一定时间（lease period）内未收到从副本节点的租约回复，则主副本节点认为从副本节点异常，向配置管理器汇报，将该异常从副本从副本组中移除，同时自己降级，不再作为主副本节点，触发选的主副本选举。
如果从副本节点在一定时间（grace period）内未收到主副本节点的租约请求，则任务主副本节点异常，向配置管理器汇报，将主副本从副本组移除，同时将自己提升为主副本。如果多个从副本同时执行该操作，则先到先得。

只要不发生时钟漂移，确保grace period>=lease period，则租约机制能保证主副本节点比其他从副本节点先感知到租约的失效。同时任何一个从副本只有在它租约失效时，才会去争取当主副本，因此保证了新主副本产生前，旧的主副本已经降级，不会产生两个主副本。

八、数据副本模型

ES中的每个索引都会拆分多个分片，并且每个分片都有多个副本。这些副本称为replication group（副本组，与PacificA的副本组概念一致）。保持副本之间的同步，以及从中读取的过程称为数据副本模型。

写入模型

写入流程：

请求到达协调节点，协调节点根据当前集群状态，将请求路由到对应主分片所在节点。
操作在主分片本地执行。
操作成功执行后，并行转发操作到当前in-sync副本组的所有副本分片。
一旦所有的副分片成功执行操作并回复主分片，主分片会把请求执行成功的信息返回给协调节点，协调节点返回给客户端。

每个分片副本都会被分配一个ID，集群元数据中会维护一个最新的分片副本的ID，成为in-sync allocation IDS。只有ID在该集合里的副本分片才可能被选择为主分片。

主分片出问题怎么办？

主分片所在节点会通知Master主节点，Master主节点会把一个副分片提升为主分片。

主分片所在节点挂了怎么办？

Master主节点会监控集群节点的健康状态，做故障转移。

哪些副本分片能被提升为主分片？

主节点回维护一个包含最新数据的副本子集（in-sync副本集合），存储在集群状态中，只有在该子集中的副本分片才会被提升为主分片（可人工干预）。

主分片转发操作到副分片的时候，转发失败或者没收到回复，怎么办？

主分片会通知Master主节点，将它认为有问题的副分片从in-sync副本集合中移除，主节点移除后，主分片才会这次操作成功，主节点也会指导另一个节点重新建立副分片。

脏读

主分片是先写本地，再同步到副分片，副分片写成功，才回复客户端成功。但是主分片写入后，从主分片就已经能读取到刚写入的数据。

某个分片慢，可能降低索引速度

有一个分片写入特别慢，写入操作都需要等这个分片，就会导致整个写入操作慢。

读取模型

读取流程：

协调节点把请求转发到相关分片。
从各个分片的副本组中选择一个活跃副本，可以是主分片或副分片。
发送分片级的读请求到被选中的副本。
合并结果并给客户端返回相应。

当选择的活跃副本不能响应，怎么办？

协调节点会从副本组中选择另一个副本，将请求转发新的副本。

九、关闭流程

关闭快照和HTTPServer，不再响应用户REST请求
关闭集群拓扑管理，不再响应ping请求
关闭网络模块，让节点离线
执行各个插件的关闭流程
关闭IndicesService

节点关闭对写入过程的影响

在写数据的时候，会对Engine加写锁。IndicesService的doStop方法最终会调用Engine的flushAndClose方法，该方法也会对Engine加写锁。由于写入操作已经获取了Engine的写锁，此时尝试获取写锁会等待，直到写操作完成。

但是由于网络模块被关闭，客户端的连接会被断开，客户端作为失败处理，而ES服务端的写流程还是在继续，直到完成。

节点关闭对读过程的影响

读数据的时候，会对Engine加读锁。同样道理，执行Engine的flushAndClose方法会一直等待，直到读操作完成。但是客户端因为连接断开，判定为读失败。

N、主要内部模块

1、Cluster

2、allocation

3、Discovery

4、gateway

5、Indices

6、HTTP

7、Transport

8、Engine

你可能感兴趣的:(Elasticsearch,知识整理,elasticsearch)

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
docker部署elasticsearch 大大陈· elasticsearch docker 大数据
docker部署es1.简单启动2.配置文件3.安装es步骤1.简单启动#"discovery.type=single-node"标识单机启动dockerrun-d--nameelasticsearch-p9200:9200-p9300:9300-e"discovery.type=single-node"elasticsearch:tag#如果没有上面的标识，是集群启动，不这样做会报错#但是这样启
Docker安装elasticsearch和kibana viego1999 elasticsearch docker 大数据
1、首先拉取elasticsearch镜像dockerpullelasticsearch:7.9.12、创建docker挂载的目录我这里将docker环境下挂在的目录统一放在了/dockerdata目录下mkdir-p/dockerdata/elasticsearch/configmkdir-p/dockerdata/elasticsearch/datamkdir-p/dockerdata/ela
Docker部署单点es Javaismymorning ES学习笔记 docker elasticsearch
前言该笔记是根据B站上黑马SpringCloud学习总结的一、ES是什么？Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值二、Docker部署ES步骤1.创建网络因为还要部署Kibana，实现es和Kibana关联，创建一个网络Kibana是为
MySQL同步数据到Elasticsearch 运维小雅 elasticsearch mysql 大数据
背景随着平台的业务日益增多，基于数据库的全文搜索查询速度较慢，已经无法满足需求。所以，决定基于Elasticsearch做一个全文搜索平台，支持业务相关的搜索需求。那么第一个问题就是：如何从MySQL同步数据到Elasticsearch？解决方案一：基于Logstash同步数据该方案上次有详细说明过，这里就简单描述一下。Logstash同步数据流程图：优点：1、组件少，只需要Logstash就可以
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
java实现es分页查询_elasticsearch high level rest api分页查询数据 weixin_42565971 java实现es分页查询
Transport方式查询数据，在今后的elasticsearch中将不在维护，官方推荐用用highlevelrestapi或者lowerlevelapi去操作elasticsearch中的数据。在elasticsearch的增删改查操作中，其实最复杂的也就是分页查询了，根据elasticsearch官方资料，做个简单的笔记.1.准备jar包,我用的elasticsearch7.3版本,各版本需要
Android电源管理基础知识整理轻口味 android
DozeMode模式由于Android的开放特性，加上国内app开发者的觉悟普遍不高的情况下，越来越多的app开始利用安卓的系统特性甚至可以称为漏洞，故意让app退出后仍然占用大量的硬件资源。越来越多的应用会在后台运行时“假死”，即不进入真正的Sleep，而是不断在后台轮询搜集用户行为或者保持某些长链接来保障数据的实时性。而Android系统自身并未出台对应的策略来约束或者限制这类应用行为，当这类
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
python 写入es_python-elasticsearch从创建索引到写入数据夙砂酒 python 写入es
创建索引fromelasticsearchimportElasticsearches=Elasticsearch('192.168.1.1:9200')mappings={"mappings":{"type_doc_test":{#type_doc_test为doc_type"properties":{"id":{"type":"long","index":"false"},"serial":{"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
Grafana仪表盘设计最佳实践：如何创建有效的监控面板范范0825 grafana 信息可视化
Grafana仪表盘设计最佳实践：如何创建有效的监控面板引言Grafana是一个开源的数据可视化和监控平台，它提供了丰富的仪表盘功能，用于展示和分析各种数据源（如Prometheus、InfluxDB、Elasticsearch等）。有效的仪表盘设计能够帮助团队迅速识别和解决问题，提高系统的可靠性和性能。本文将深入探讨如何设计高效的Grafana仪表盘，涵盖最佳实践和实际应用。1.了解需求和目标1
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d