solihawk

分布式搜索引擎Elasticsearch解析

Elasticsearch作为分布式开源的搜索引擎，广泛应用于搜索和实时分析场景。本文简要介绍ES的一些特性、索引执行的原理以及集群架构，以加深理解。

1、Elasticsearch基本概念

Elasticsearch是基于Apache Lucene的开源、分布式、可扩展、实时的数据搜索和分析引擎。ES不仅仅支持全文搜索，还是一个分布式文档数据库，每个字段都是被索引的数据并且可被搜索。总体来说有如下特性：

一个分布式的实时文档存储引擎，每个字段都可以被索引与搜索
一个分布式实时分析搜索引擎，支持各种查询和聚合操作
能胜任上百个服务节点的扩展，并可以支持PB级别的结构化或者非结构化数据

1.1 全文搜索

现实中的数据分为结构化数据和非结构化数据，结构化数据主要通过关系型数据库进行存储和管理；非结构化数据又称为全文数据，包括各类文本、文档或者图片等。非结构化数据的搜索有两种方式：

顺序扫描：按照顺序查找特定的关键字，这种方式是最低效的
全文搜索：将非结构化数据中的部分数据提取出来变成有结构的，然后按照一定结构的数据再进行搜索

因此，全文搜索可以对每个词建立一个索引，指明该词在文本中出现的次数和位置。当用户查询时，根据事先建立的索引进行查找，并返回查找到的结果。

1.1.1 什么是Lucene

Elasticsearch是以Lucene为底层基础建立的开源全文搜索引擎，Lucene是现在最好的开源全文检索引擎工具，但是Lucene只是一个工具包，并不是一个完整的全文搜索引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

1.1.2 倒排索引

Lucene能够实现全文搜索主要是因为实现了倒排索引的查询功能。倒排索引和正向索引不同，它不是由记录来确定属性的值而是由属性值来确定记录的位置。倒排索引包含两个部分：

单词词典（Term Dictionary），记录所有文档的单词，记录单词倒排列表的关联关系。
- 单词词典内每条索引项记载单词本身的信息以及指向“倒排列表”的指针
- 单词词典一般比较大，可以通过B+树或者哈希拉链法实现，以满足高性能的插入与查询
倒排列表（Posting List），记录了单词对应的文档结合，由倒排索引组成。倒排索引项包含：文档ID，词频TF（该单词在文档中出现的次数，用于相关性评分），位置（Position，单词在文档中分词的位置。用于语句搜索（phrase query）），偏移（Offset，记录单词的开始结束位置，实现高亮显示）

假如有以下两段文字，通过分词器将文档的内容拆分成单独的词，再创建倒排索引。

Java is the best programming language.
Python is the best programming language.

以上内容可以转换为以下的倒排索引信息

关键词	文章编号	出现频率	出现位置
Java	1	1	0
Python	2	1	0
is	1/2	1/1	5/7
the	1/2	1/1	8/10
best	1/2	1/1	12/14
programming	1/2	1/1	17/19
language	1/2	1/1	29/31

上表转换为倒排索引的图形结构信息

倒排索引有个很重要的特性是被写入磁盘后是不可改变的：它永远不会修改。不变性有重要的价值：

不需要锁。如果你从来不更新索引，你就不需要担心多进程同时修改数据的问题。
一旦索引被读入内核的文件系统缓存，便会留在那里，由于其不变性。只要文件系统缓存中还有足够的空间，那么大部分读请求会直接请求内存，而不会命中磁盘。这提供了很大的性能提升。
其它缓存(像filter缓存)，在索引的生命周期内始终有效。它们不需要在每次数据改变时被重建，因为数据不会变化。
写入单个大的倒排索引允许数据被压缩，减少磁盘I/O 和需要被缓存到内存的索引的使用量。

不变索引的缺点就是不可变的它是不可变的，你不能修改它。如果需要让一个新的文档可被搜索，你需要重建整个索引。

1.2 Elasticsearch核心概念

1.2.1 Index索引

ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合，相当于关系型数据库中的一个Database。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。

1.2.2 类型Type

类型是索引内部的逻辑分区，在一个索引内部可定义一个或多个类型(type)，类似于传统数据库中的表。一般来说，类型就是为那些拥有相同的域的文档做的预定义。例如，在索引中，可以定义一个用于存储用户数据的类型，一个存储日志数据的类型，以及一个存储评论数据的类型。

1.2.3 文档Document

文档是索引和搜索的原子单位，它是存储在ES中的一个JSON格式的字符串，其中包含了一个或多个域（Field）的容器。在ES中每个文档都有一个类型和ID，每个文档由一个或多个域组成，每个域拥有一个名字及一个或多个值，有多个值的域通常称为“多值域”。每个文档可以存储不同的域集，但同一类型下的文档至应该有某种程度上的相似之处。

1.2.4 集群Cluster

集群由一个或多个节点组成，对外提供索引和搜索功能。在一个集群中所有的节点都有一个唯一的名称默认为“Elasticsearch”，当某个节点被设置为相同的集群名称时，会自动加入到集群。如果有多个集群，需要设置不同的名称，否则节点可能会加入到错误的集群。需要注意的是一个节点只能加入一个集群。

1.2.5 节点Node

一个运行中的Elasticsearch实例称为一个节点，它是一个逻辑上独立的服务，可以存储数据，是ES集群的一部分。ES集群由一个或者多个拥有相同cluster.name配置的节点组成，它们共同承担数据和负载的压力。ES集群中的节点有三种不同的类型：

主节点：负责管理集群范围内的所有变更，例如增加、删除索引，或者增加、删除节点等，并决定哪些分片分配给相关的节点、追踪集群中节点的状态等。主节点并不需要涉及到文档级别的变更和搜索等操作，可以通过属性node.master进行设置。
数据节点：存储数据和其对应的倒排索引，同时对数据进行增删改查和聚合等操作。默认每一个节点都是数据节点（包括主节点），可以通过node.data属性进行设置。通常随着集群的扩大，需要增加更多的数据节点来提高性能和可用性。
协调节点：如果node.master和node.data属性均为false，则此节点称为协调节点，用来响应客户请求，均衡每个节点的负载。

在…/config/elasticsearch.yml配置文件中可以设置不同的节点类型

node.master: true //是否候选主节点
node.data: true //是否数据节点

在实际过程中，如果某个节点既是数据节的又是主节点，可能对主节点的性能产生影响。因此为了集群的健康性，需要对Elasticsearch集群中的角色进行划分和隔离，可以使用配置较低的机器作为主节点。

1.2.6 路由Routing

当存储一个文档的时候，它会存储在唯一的主分片中，具体哪个分片是通过散列值进行选择。默认情况下这个值由文档的ID生成，如果文档中指定了一个父文档，则从父文档ID中生成。注：Routing值和路由计算具体到哪个分片有关。

1.2.7 分片Sharding

ES中的索引数据量太大的时候，可以通过水平拆分的方式将一个索引上的数据拆分出来分配到不同的数据块上，这个数据块称为分片，相当于水平分表。一个分片便是一个Lucene的实例，ES中的index就是指向主分片和副本分片的逻辑空间。实际的文档数据被存储和索引到分片内，但是应用程序是直接与索引而不是与分片进行交互。

ES实际上就是利用分片来实现分布式，通过将索引分解成多个分片，分布在不同的节点上实现横向扩展。分片是数据的容器，文档保存在分片内，分片又被分配到集群内的各个节点里。当集群规模扩大或者缩小时，ES会自动的在各节点中迁移分片，使得数据仍然均匀分布在集群里。下图是一个3主分片，1副本分片的ES集群。

1）主分片

每个文档都存储在一个分片中，当存储一个文档的时候，ES首先将数据存储在主分片中，然后复制到不同的副本中。ES默认为一个索引创建 5 个主分片, 并分别为每个分片创建一个副本，通过参数可以指定。在索引建立的时候就已经确定了主分片数，但是副本分片数可以随时修改。

"number_of_shards" : 5,
"number_of_replicas" : 1

2）副本分片

副本分片是主分片的复制，每个主分片有0个或者多个副本。当主分片异常的时候，可以从副本分片中选择一个作为主分片，提高可用性。同时，查询可以在副本分片进行，减轻主分片的压力，提高性能。另外副本分片必须和主分片部署在不同的节点上，如果集群中只有一个节点，则副本分片将不会被分配，此时集群健康状态为yellow，存在丢失数据的风险。

1.2.8 与关系型数据库对比

与关系型数据库对比，在ElasticSearch中的索引=数据库，类型=表，文档=行数据，如下表所示。

Elasticsearch	关系型数据库
Index	Database
Type	Table
Document	Row
Field	Column
Mapping	Schema
Everything is indexed	Index
Query DSL	SQL
GET http://…	SELECT
PUT http://…	UPDATE

2、Elasticsearch索引原理

2.1 Elasticsearch读流程

分布式搜索的执行过程分为两个阶段：查询和取回。在搜索的API返回结果前，需要将多个分片的结果进行汇总放到一个有序列表中进行返回。

2.1.1 查询阶段

在初始化查询阶段，向索引中的每个分片副本进行广播，每个分片在本地执行搜索并且建立匹配document的优先队列。整个查询阶段包括以下步骤：

客户端发送一个search请求给Node 3，这个节点变成协调节点。Node 3创建一个长度为from+size（类似于{ “from”: 90, “size”: 10 } ）的空优先级队列
Node 3向节点里的每个分片副本广播搜索请求，每个分片在本地执行这个查询并将结果保存到本地大小为from+size的有序优先队列里。分片仅会返回一个轻量级的结果给协调节点，包含结果集中的每一个文档的ID和进行排序所需要的信息。
每个分片返回document的ID和优先队列里所有document的排序值给到协调节点Node 3。Node 3将这些值合并到自己的优先队列里并产生全局的排序结果。

在整个查询过程中，协调节点会将所有分片的结果汇总，并进行全局排序，得到最终的查询排序结果。

2.1.2 取回阶段

查询阶段得到哪些满足搜索请求的document，但是需要将这些document返回给客户端。取回阶段过程如下：

协调节点辨别出哪些document需要取回，并向相关分片发出Get请求
每个分片加载document并根据需要丰富这些文档，并将document返回给协调节点
当所有的document都被取回后，协调节点会将结果返回给客户端

为提高搜索效率，协调节点为每个持有相关document的分片建立并发的多点get请求然后发送请求到处理查询阶段的分片副本。

2.2 Elasticsearch更新流程

Elasticsearch更新document流程如图所示，主要分为几个阶段：

ES首先将Document写入到In-memory buffer（内存缓冲区），并将这一操作写入一个translog文件（transaction log）中。此时如果执行搜索操作，这个文档还不能被索引到
默认每隔1s时间进行一次刷新操作（refresh），此时在这1秒时间内写入内存的文档都会被写入一个文件系统缓存Cache中，并构成一个分段（segment）。此时这个segment里的文档可以被搜索到，但是尚未写入硬盘，即如果此时发生断电，则这些文档可能会丢失。在执行刷新后清空内存，文档写入文件系统缓存Cache中。
不断有新的文档写入，则这一过程将不断重复执行。每隔一秒将生成一个新的segment，而translog文件将越来越大。
每隔30分钟或者translog文件变得很大，则执行一次flush操作。此时所有在文件系统缓存中的segment将被写入磁盘，而translog将被删除（此后会生成新的translog）。

由上面的流程可以看出，在两次fsync操作之间，存储在内存和文件系统缓存中的文档是不安全的，一旦出现断电这些文档就会丢失。所以ES引入了translog来记录两次fsync之间所有的操作，这样机器从故障中恢复或者重新启动，ES便可以根据translog进行还原。

2.3 Translog事务日志

Elasticsearch中的Translog和MySQL中的binlog类似，用来记录数据的变化用于故障恢复。

Document不断写入到In-memory buffer，此时也会追加translog
当buffer中的数据每秒refresh到cache中时，translog并没有进入到刷新到磁盘，持续在追加的
translog每隔5s会fsync到磁盘
translog会继续累加变得越来越大，当translog大到一定程度或者每隔一段时间（默认30分钟），会执行flush

Flush操作会执行以下步骤：

In-memory buffer中的记录被清空
记录commit point
Cache内的segment会fsync刷新到磁盘
Translog被删除

注意到translog是每5s刷新一次磁盘，所以故障重启时可能会丢失5s的数据。

2.4 Segment合并

由于每一秒就会生成一个新的segment，很快将会有大量的segment，segment数目太多会消耗文件句柄、内存和cpu运行周期。对于一个分片进行查询请求，将会轮流查询分片中的所有segment，这将降低搜索的效率。因此ES会自动启动合并segment的工作，将一部分相似大小的segment合并成一个新的大segment。合并的过程实际上是创建了一个新的segment，当新segment被写入磁盘，所有被合并的旧segment被清除。

在ES后台会有一个线程进行segment合并：

refresh操作会创建新的segment并打开以供搜索使用
合并进程选择一小部分大小相似的segment，并且在后台将它们合并到更大的segment中。这个过程不会中断索引和搜索。
当合并结束，老的segment会被删除。

注：在segment merge这块，那些被逻辑删除的document才会被真正的物理删除。

3、Elasticsearch高可用架构

3.1 集群主从架构

一个Elasticsearch集群由一个或多个拥有相同cluster.name配置的节点组成，这些节点共同承担数据和负载的压力。如下图所示为三个节点的ES集群：

节点1选为主节点时，负责管理集群范围内的所有变更操作，其它数据节点负责对文档的变更和搜索等操作。对客户端来说，请求发送到集群中的任何节点，每个节点都知道文档所处的位置，并将请求转发到对应的分片，并最终将数据返回给客户端。

3.2 路由计算

当客户端请求某个文档时，Elasticsearch通过路由计算文档具体落在哪个分片上。路由到分片位置的算法由下面的公式计算得到：

shard = hash(routing) % number_of_primary_shards

routing值默认是document的ID值，也可以自行指定。先对routing信息求hash值，然后将hash结果对primary_shard的数量求模，比如说primary_shard是5，那么结果肯定落在[0,4]区间内，这个结果值就是该document的分片位置，如示意图所示：

这个求模公式间接的解释了为什么了索引创建时指定了主分片的值，后续就不让改了。因为主分片值作为模数修改了，之前路由的document再执行该公式时，值就可能跟改之前得到的值不一致，这样document就找不到了。

3.3 集群发现机制

在同一个网络环境下，当启动一个Elasticsearch实例并且cluster.name配置和ES集群一致，该实例就会自动加入到集群中。这依赖于Elasticsearch的自动发现机制Zen Discovery，Zen Discovery是Elasticsearch内置的发现模块，提供单播和基于文件的发现。Elasticsearch中默认使用单播模式，依赖Transport模块实现，节点使用Ping方式查找其它节点。

如果同一台机器上运行不同的节点，这些节点会自动加入到集群。如果集群的节点运行在不同的机器上，使用单播模式可以为Elasticsearch节点配置一个尝试连接的列表，用discovery.zen.ping.unicast.hosts指定。

discovery.zen.ping.unicast.hosts: ["host1", "host2","host3:port"]

当节点启动后，如果设置了discovery.zen.ping.unicast.hosts，会Ping其中的host，否则的话会ping本地的几个端口。当新的节点联系单播列表中的成员时，会得到整个集群所有节点的状态，然后联系Master节点，加入到集群中。

3.3.1 主节点选举

当主节点发生问题的时候，现有的节点会通过Ping的方式重新选举一个新的主节点。

选举开始时，从各节点认为的Master中选择，按照ID的字典顺序排序，取第一个
如果各节点没有认为的Master，则从所有节点中选择，规则同上
如果节点数达不到discovery.zen.minimum_master_nodes设定的最小值，则循环上述过程直到节点数足够开始选举
如果当前节点是Master，则等待节点数达到minimum_master_nodes，开始提供服务
为避免网络异常，配置discovery.zen.ping_timeout设置超时时间

需要注意的是Elasticsearch中支持任意数目的集群，没有限定节点数必须是奇数，而是通过一定的规则来约定。但是在分布式系统中，很容易出现脑裂，解决方案是设置一个Quorum值，并且要求可用节点数超过Quorum才能对外提供服务。

3.3.2 故障检测

Elasticsearch节点的故障检测有两种方式：第一种是Master节点到所有其它节点，证明它们还活着；另一种是每个节点Ping主节点进行验证，当主节点故障时会启动主节点重新选举过程。故障检测的频率由以下参数控制：

discovery.zen.fd.ping_interval：ping检查的频率，默认是1s
discovery.zen.fd.ping_timeout：ping的超时时间，默认是30s
discovery.zen.fd.ping_retries：ping失败或超时重试的次数，默认为3次

3.4 集群扩展

Elasticsearch集群的扩容分为垂直扩容和水平扩容，垂直扩容是增加单台服务器的CPU、内存和磁盘等资源；水平扩容即增加服务器数量，组成计算能力强大的分布式集群。水平扩容是最常用的方法，支撑PB级别的数据规模，当执行扩容操作后，新增加的节点会触发索引分片的重新分配。

每个索引的primary shard数量在索引创建的时候已经确定，如果想调整主分片需要重建索引，但是replica shard是可以动态调整的。如下图所示Elasticsearch集群有两个节点，primary shard设置为3，replica shard设置为1，这样1个索引就有3个primary shard，3个replica shard，P表示primary shard，R表示replica shard。

当加入新的节点Node 3时，触发分片的重新分配，P2和R2迁移到Node 3。如下图所示：

集群扩容时需要注意的是：

同一个index的primary shard和replica shard不能分配到一个节点上
尽量保证shard均匀分布在不同的节点上达到负载均衡

4、总结

Elasticsearch作为分布式架构下的搜索引擎已广泛应用到大数据分析、日志搜索等领域。本文中先介绍了ES中的基本概念，包括索引、文档、集群、路由和分片等；再从索引执行的流程角度，分析Elasticsearch读取和更新索引的流程，以及其中的Translog机制；最后解析ES的集群架构、集群的自动发现机制和水平扩容。

参考资料：

Elasticsearch权威指南，路小磊等译
Elasticsearch技术解析与实战，朱林编著
https://blog.csdn.net/weixin_43495317/article/details/104490129
https://blog.csdn.net/zkyfcx/article/details/79998197
https://blog.csdn.net/qq_29595629/article/details/114289509
Elasticsearch高级篇：核心概念和实现原理
十张图说清Elasticsearch原理

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Windows下的redis 517 redis 数据库缓存
1:在配置path后：redis-cli默认16个数据库2然后再验证set和get命令，如果一切正常便安装部署成功。一、键（Key）的增删改查操作命令示例说明增SETkeyvalueSETusername"john"设置字符串键值删DELkeyDELusername删除键（可多键：DELk1k2）改SETkeynew_valueSETusername"mike"覆盖原有值查GETke
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
分布式事务解决方案总结：本地消息异步确认、可靠消息最终一致性、最大努力通知码到三十五面试攻关分布式 spring cloud spring boot
❃博主首页：「码到三十五」，同名公众号:「码到三十五」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基分布式系统中事务是一个重要挑战，先从从实现原理、技术细节、适用场景三个维度，对三种主流分布式事务解决方案进行简单总结。一、本地消息异步确认方案实现原理该方案通过「本地事务+消息表」机制实现最终一致性，核心思想是将业务操作与消息发送
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖析）爱骑行的Coder 数据库 redis java基础面试分布式 java redis 后端
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖)你是不是也有这样的经历？简历上写着“精通Java，精通Redis，熟悉高并发场景”，结果一面下来，分布式锁怎么实现？Redisson是怎么加锁的？看门狗机制了解吗？锁丢失你知道怎么解决吗？全程“啊能能”，频频磕巴。本文不整虚的，带你从0到1，一步步真正搞懂分布式锁的原理与落地实践，面试高频，架构核心，不能不会。一、什
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
Spring Boot 在后端领域的微服务负载均衡实践 AI大模型应用实战 spring boot 微服务负载均衡 ai
SpringBoot在后端领域的微服务负载均衡实践关键词：SpringBoot、微服务、负载均衡、Ribbon、服务发现、高可用、分布式系统摘要：本文深入探讨了SpringBoot在微服务架构中实现负载均衡的实践方法。我们将从基础概念出发，详细分析负载均衡的核心原理，介绍SpringCloud生态中的关键组件（如Ribbon、Eureka等），并通过完整的代码示例展示如何在实际项目中实现高效的负载
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
如何通过YashanDB做到企业数据的透明化管理数据库
在当前数字化转型的背景下，企业面临的数据管理挑战愈发复杂，尤其是数据的透明化管理显得尤为重要。企业往往需要对海量数据进行实时分析和决策支持，而现有的传统管理方式难以满足高效和透明化的需求。YashanDB作为一款高效的分布式数据库，提供了多种支持透明化管理的特性，通过其独特的体系架构和技术手段，能够帮助企业实现数据的透明化管理。YashanDB的体系架构与透明化管理部署架构YashanDB支持多种
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
【大家的项目】helyim: 纯 Rust 实现的分布式对象存储系统
helyim是使用rust重写的seaweedfs，具体架构可以参考Facebook发表的haystack和f4论文。主要设计目标为：精简文件元数据信息，去掉对象存储不需要的POSIX语义（如文件权限）小文件合并成大文件，从而减小元数据数，使其完全存在内存中，以省去获取文件元数据的磁盘IO支持地域容灾，包括IDC容灾和机架容灾架构简单，易于实现和运维支持的特性：支持使用Http的文件上传，下载，删
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出