吉吉吉吉吉吉吉吉吉吉

ELK+Filebeat+zookeeper+Kafka原理和搭建

引言

一、ZooKeeper介绍

二、Kafka介绍

1、为什么需要消息队列（MQ）

2、消息队列的好处

3、Kafka的特性

4、Kafka作为存储系统

5、Kafka消费模式

一对一

一对多

三、Kafka的基础架构

1、Kafka架构

2、分区的原因

3、工作流程

四、ELK+Filebeat+ZooKeeper+Kafka搭建部署

1、zookeeper安装配置

2、Kafka安装配置

3、创建topic

4、测试topic

5、配置数据采集层filebeat

6、在kafka上创建一个话题nginx-es

7、查看网页认证

引言

ELK和Filebeat原理和搭建在前面已经说过了

ELK日志分析系统（一）之ELK原理_IT.cat的博客-CSDN博客ELK日志分析（二）之ELK搭建部署_IT.cat的博客-CSDN博客[ELFK]日志分析系统搭建---Filebeat_IT.cat的博客-CSDN博客

但是我这里是重新搭建，所以IP地址会有所改变

server  192.168.130.70     kibana elasticsearch node #es集群就省略了
server  192.168.130.60     logstash filebeat
#zookeeper+kafka集群
server 192.168.130.50      zookeeper+kafka
server 192.168.130.40      zookeeper+kafka
server 192.168.130.30      zookeeper+kafka

所以我们直接从zookeeper和kafka开始讲起

这里是elfk已经将nginx中的access日志获取到了

一、ZooKeeper介绍

Zookpper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务，它提供了一项基本服务：分布式锁服务。分布式应用开源基于它实现更高级的服务，实现诸如同步服务、配置维护和集群管理或者命名的服务。

Zookeeper服务自身组成一个集群，2n+1个（奇数）服务允许n个失效，集群内一半以上机器可用，Zookeeper就可用。

假设3台机器组成的集群，可用有允许一台失效，如果有2台失效，这个集群就不可用，1<1.5，一般的搭建zookeeper集群时，以奇数台机器来搭建。目的：是为了提高容错能允许多损失一台。

二、Kafka介绍

Kafka是一种消息队列，主要用来处理大量数据状态下的消息队列，一般用来做日志的处理。既然是消息队列，那么Kafka也就拥有消息队列的相应的特性了。可以在系统中起到“削峰填谷”的作用，也可以用于异构、分布式系统中海量数据的异步化处理。

1、为什么需要消息队列（MQ）

主要原因是由于在高并发环境下，同步请求来不及处理，请求往往会发生阻塞。比如大量的请求并发访问数据库，导致行锁表锁，最好请求线程会堆积过多，从而触发too mang connection错误，英法雪崩效应。

我们通过使用消息队列，通过以读处理请求，从而缓解系统的压力。消息队列常应用于异步处理，流量削峰，应用解耦，消息通讯等场景。

当前比较常见的MQ中间件有ActiveMQ、RabbitMQ、RocketMQ、Kafka等

2、消息队列的好处

解耦合：

耦合的状态表示当你实现某个功能的时候，是直接接入当前接口，而利用消息队列，可以将相应的消息发送到消息队列，这样的话，如果接口出了问题，将不会影响到当前的功能。

异步处理：

异步处理替代了之前的同步处理，以部处理不需要让流程走完就返回结果，可以将消息发送到消息队列中，然后返回结果，剩下让其他业务处理接口从消息队列中拉取消费处理即可

流量削峰：

高流量的时候，使用消息队列作为中间件可以将流量的高峰保存在消息队列中，从而防止系统的高请求，减轻服务器的请求处理压力

3、Kafka的特性

高吞吐量、低延迟 ： kafka 每秒可以处理几十万条消息，它的延迟最低只有几毫
秒
可扩展性 ： kafka 集群支持热扩展
持久性、可靠性 ：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失
容错性 ：允许集群中节点失败（若副本数量为 n, 则允许 n-1 个节点失败）
高并发 ：支持数千个客户端同时读写

4、Kafka作为存储系统

任何允许发布与消费它们分离的消息的消息队列实际上充当了正在进行的消息的存储系统。 Kafka 的不同之处在于它是一个非常好的存储系统。
写入 Kafka 的数据将写入磁盘并进行复制以实现容错。 Kafka 允许生产者等待确认，以便在完全复制之前写入不被认为是完整的，并且即使写入的服务器失败也保证写入仍然存在。
磁盘结构 Kafka 很好地使用了规模 - 无论服务器上有 50 KB 还是 50 TB 的持久数据，Kafka 都会执行相同的操作。

5、Kafka消费模式

Kafka的消费模式（两种）

一对一的消费，也即点对点的通信，即一个发送一个接收

一对多的消费，即一个消息发送到消息队列，消费者根据消息队列的订阅拉取消息消费

一对一

消息生产者发布消息到Queue队列中，通知消费者从队列中拉取消息进行消费。消息被消费之后则删除，Queue支持多个消费者，但对于一条消息而言，只有一个消费者可以消费，即一条消息只能被一个消费者消费

一对多

这种模式也成为发布/订阅模式，即利用Topic（一个消息集合）存储消息，消息生产者将消息发布到Topic中，同时有多个消费者订阅此Topic，消费者可以从中消费消息，注意发布到Topic中的消息会被多个消费者消费，消费者消费数据之后，数据不会被清楚，Kafka会默认保留一段时间，然后再删除。

三、Kafka的基础架构

Kafka 像其他 Mq 一样，也有自己的基础架构，主要存在生产者 Producer 、 Kafka集群 Broker 、消费者 Consumer 、注册消息 Zookeeper。

1、Kafka架构

Producer：Producer即生产者，消息的产生者，是消息的入口
Broker：Broker是kafka实例，每个服务器上有一个或多个kafka的实例，我们姑且认为每个 broker 对应一台服务器。每个 kafka 集群内的 broker 都有一个不重复的编号.
Topic：消息的主题，可以理解为消息的分类，kafka 的数据就保存在 topic。在每个broker上都可以创建多个 topic。
Partition：Topic 的分区，每个 topic 可以有多个分区，分区的作用是做负载，提高 kafka 的吞吐量。同一个 topic 在不同的分区的数据是不重复的，partition 的表现形式就是一个一个的文件夹！
Replication:每一个分区都有多个副本，副本的作用是做备胎。当主分区（Leader故障的时候会选择一个备胎（Follower）上位，成为 Leader。在 kafka 中默认副本的最大数量是 10 个，且副本的数量不能大于Broker 的数量，follower 和 leader绝对是在不同的机器，同一机器对同一个分区也只可能存放一个副本（包括自己）。
Message：每一条发送的消息主体。
Consumer：消费者，即消息的消费方，是消息的出口。
Consumer Group：我们可以将多个消费组组成一个消费者组，在 kafka 的设计中同一个分区的数据只能被消费者组中的某一个消费者消费。同一个消费者组的消费者可以消费同一个 topic 的不同分区的数据，这也是为了提高 kafka 的吞吐量！
Zookeeper：kafka 集群依赖 zookeeper 来保存集群的的元信息，来保证系统的可用性。
Leader：每个分区多个副本的主角色，生产者发送数据的对象，以及消费者消费数据的对象都是 Leader。
Follower：每个分区多个副本的从角色，实时的从 Leader 中同步数据，保持和Leader 数据的同步，Leader 发生故障的时候，某个 Follower 会成为新的 Leader。

上述一个 Topic 会产生多个分区 Partition ，分区中分为 Leader 和 Follower ，消息一般发送到 Leader ， Follower 通过数据的同步与 Leader 保持同步，消费的话也是在 Leader 中发生消费，如果多个消费者，则分别消费 Leader 和各个 Follower 中的消息，当 Leader 发生故障的时候，某个 Follower 会成为主节点，此时会对齐消息的偏移量。

2、分区的原因

便在集群中扩展，每个 Partition 可以通过调整以适应它所在的机器，而一个topic 又可以有多个 Partition 组成，因此整个集群就可以适应任意大小的数据了；

可以提高并发，因为可以以 Partition 为单位读写了。

3、工作流程

producer 就是生产者，是数据的入口。Producer 在写入数据的时候永远的找 leader，不会直接将数据写入 follower。

Producter 将消息发送给 leader
Leader 将消息写入本地文件
Followers 从 leader 同步消息
Follower 将消息写入本地后向 leader 发送 ACK 确认消息
Leader 收到所有副本的 ACK 后，向 producter 发送 ACK
 
 
注：消息写入 leader 后，follower 是主动的去 leader 进行同步的

producer 采用 push 模式将数据发布到 broker ，每条消息追加到分区中，顺序写入磁盘，所以保证同一分区内的数据是有序的。

数据会写入到不同的分区，分区的目的是：

方便扩展：因为一个 topic 可以有多个 partition，所以我们可以通过扩展机器去轻松的应对日益增长的数据量。
提高并发：以 partition 为读写单位，可以多个消费者同时消费数据，提高了消息的处理效率。

类似于负载均衡，当我们向某个服务器发送请求的时候，服务端可能会对请求做一个负载，将流量分发到不同的服务器，那在 kafka 中，如果某个 topic 有多个partition， producer 又怎么知道该将数据发往哪个 partition 呢？ kafka 中有几个原则：

partition 在写入的时候可以指定需要写入的 partition，如果有指定，则写入对应的partition。
如果没有指定 partition，但是设置了数据的 key，则会根据 key 的值 hash 出一个partition。
如果既没指定 partition，又没有设置 key，则会轮询选出一个 partition。

保证消息不丢失是一个消息队列中间件的基本保证 ，那 producer 在向 kafka 写入消息的时候，怎么保证消息不丢失呢？其实上面的写入流程图中有描述出来，那就是通过 ACK 应答机制！在生产者向队列写入数据的时候可以设置参数来确定是否确认 kafka 接收到数据，这个参数可设置的值为 0 、 1 、 all 。

0 代表 producer 往集群发送数据不需要等到集群的返回，不确保消息发送成功。安全性最低但是效率最高。

1 代表 producer 往集群发送数据只要 leader 应答就可以发送下一条，只确保leader 发送成功。

all 代表 producer 往集群发送数据需要所有的 follower 都完成从 leader 的同步才会发送下一条，确保 leader 发送成功和所有的副本都完成备份。安全性最高，但是效率最低。

四、ELK+Filebeat+ZooKeeper+Kafka搭建部署

这个架构图从左到右，总共分为 5 层，每层实现的功能和含义分别介绍如下：

第一层、数据采集层
数据采集层位于最左边的业务服务器集群上，在每个业务服务器上面安装了filebeat 做日志收集，然后把采集到的原始日志发送到 Kafka+zookeeper 集群上。
第二层、消息队列层
原始日志发送到 Kafka+zookeeper 集群上后，会进行集中存储，此时，filbeat 是消息的生产者，存储的消息可以随时被消费。
第三层、数据分析层
Logstash 作为消费者，会去 Kafka+zookeeper 集群节点实时拉取原始日志，然后将获取到的原始日志根据规则进行分析、清洗、过滤，最后将清洗好的日志转发至 Elasticsearch 集群
第四层、数据持久化存储
Elasticsearch 集群在接收到 logstash 发送过来的数据后，执行写磁盘，建索引库等操作，最后将结构化的数据存储到 Elasticsearch 集群上。
第五层、数据查询、展示层
Kibana 是一个可视化的数据展示平台，当有数据检索请求时，它从 Elasticsearch集群上读取数据，然后进行可视化出图和多维度分析。

由于条件限制，我们将logstash和Filebeat部署在一台服务器上，并且少一台es集群

server  192.168.130.70     kibana elasticsearch node #es集群就省略了
server  192.168.130.60     logstash filebeat
#zookeeper+kafka集群
server 192.168.130.50      zookeeper+kafka
server 192.168.130.40      zookeeper+kafka
server 192.168.130.30      zookeeper+kafka

前面的ELK已经搭好，Filebeat后续还要更改配置

1、zookeeper安装配置

下载，解压zookeeper安装包

#zookeep下载地址
wget https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz

#解压安装包
tar -zxf apache-zookeeper-3.8.0-bin.tar.gz
mv apache-zookeeper-3.8.0-bin /usr/local/zookeeper-3.8.0
cd /usr/local/zookeeper-3.8.0/conf/
cp zoo_sample.cfg zoo.cfg

修改配置文件

vim zoo.cfg

其他两台都执行以上的部署和修改文件，配置文件可以通过scp进行传输

 scp zoo.cfg 192.168.130.40:/usr/local/zookeeper-3.8.0/conf 192.168.130.30:/usr/local/zookeeper-3.8.0/conf

去另外两台看一下

都有了，并且内容一致

每台机器都指定对应的节点号

cd /usr/local/zookeeper-3.8.0
mkdir data logs
echo 1 > data/myid

启动zookeeper

cd /usr/local/zookeeper-3.8.0/bin

./zkServer.sh start  #启动
./zkServer.sh status #查看状态

2、Kafka安装配置

下载解压Kafka

#下载kafka
cd /opt
wget http://archive.apache.org/dist/kafka/2.7.1/kafka_2.13-2.7.1.tgz
 
tar zxf kafka_2.13-2.7.1.tgz
mv kafka_2.13-2.7.1 /usr/local/kafka

修改配置文件

cd /usr/local/kafka/config/
vim server.properties

三台相同设置，但是id号不能一样

添加系统环境变量

vim /etc/profile
export KAFKA_HOME=/usr/local/kafka
export PATH=$PATH:$KAFKA_HOME/bin
 
source /etc/profile

启动kafka

cd /usr/local/kafka/config/
kafka-server-start.sh -daemon server.properties
netstat -antp | grep 9092

Kafka命令行操作

创建topic
kafka-topics.sh --create --zookeeper 192.168.121.10:2181,192.168.121.12:2181,192.168.121.14:2181 --replication-factor 2 --partitions 3 --topic test
 
--zookeeper：定义 zookeeper 集群服务器地址，如果有多个 IP 地址使用逗号分割，一般使用一个 IP 即可
--replication-factor：定义分区副本数，1 代表单副本，建议为 2
--partitions：定义分区数
--topic：定义 topic 名称

查看当前服务器中的所有topic
kafka-topics.sh --list --zookeeper 192.168.121.10:2181,192.168.121.12:2181,192.168.121.14:2181

查看某个topic的详情
kafka-topics.sh --describe --zookeeper 192.168.121.10:2181,192.168.121.12:2181,192.168.121.14:2181

发布消息
kafka-console-producer.sh --broker-list 192.168.121.10:9092,192.168.121.12:9092,192.168.121.14:9092 --topic test

消费消息
kafka-console-consumer.sh --bootstrap-server 192.168.121.10:9092,192.168.121.12:9092,192.168.121.14:9092 --topic test --from-beginning
 
--from-beginning：会把主题中以往所有的数据都读取出来

修改分区数
kafka-topics.sh --zookeeper 192.168.80.10:2181,192.168.80.11:2181,192.168.80.12:2181 --alter --topic test --partitions 6

删除topic
kafka-topics.sh --delete --zookeeper 192.168.80.10:2181,192.168.80.11:2181,192.168.80.12:2181 --topic test

3、创建topic

cd /usr/local/kafka/bin
kafka-topics.sh --create --zookeeper \
192.168.130.50:2181,192.168.130.40:2181,192.168.130.30:2181 \
--partitions 3 \
--replication-factor 2 \
--topic test

kafka-topics.sh --describe --zookeeper 192.168.130.50:2181
#查看详情

4、测试topic

发布消息

kafka-console-producer.sh --broker-list 192.168.130.50:9092,192.168.130.40:9092,192.168.130.30:9092 --topic test

kafka-console-producer.sh --broker-list 192.168.130.40:9092 --topic test

消费消息

kafka-console-consumer.sh --bootstrap-server 192.168.130.30:9092 --topic test --from-beginning

5、配置数据采集层filebeat

定制nginx日志格式

vim /usr/local/nginx/conf/nginx.conf

log_format json '{"@timestamp":"$time_iso8601",'
'"@version":"1",'
'"client":"$remote_addr",'
'"url":"$uri",'
'"status":"$status",'
'"domain":"$host",'
'"host":"$server_addr",'
'"size":$body_bytes_sent,' 
'"responsetime":$request_time,'
'"referer": "$http_referer",'
'"ua": "$http_user_agent"'
'}';
access_log /usr/local/nginx/conf/access.log json;

再重启一下nginx

vim  /usr/local/filebeat/filebeat.yml

其他不变

这里的path指向位置一定要与上面nginx指定的日志路径一样

启动filebeat

./filebeat -c  filebeat.yml &

6、在kafka上创建一个话题nginx-es

kafka-topics.sh --create --zookeeper 192.168.130.50:2181,192.168.130.40:2181,192.168.130.30:2181 --replication-factor 1 --partitions 1 --topic nginx-es

修改logstash的配置文件

vim /etc/logstash/conf.d/logstash.conf
systemctl restart logstash

7、查看网页认证

后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
分布式推客系统全栈开发指南：SpringCloud+Neo4j+Redis实战解析 wx_ywyy6798 oracle 数据库推客系统推客小程序推客系统开发推客小程序开发推客分销系统
一、推客系统概述与市场背景推客系统（或称"推荐客"系统）是一种基于社交关系和内容分发的推荐营销平台，近年来在电商、内容平台和社交媒体领域迅速崛起。根据最新统计数据，2023年全球社交电商市场规模已达1.2万亿美元，其中推客模式的贡献率超过35%。1.1推客系统的核心价值推客系统通过以下机制创造商业价值：社交裂变：利用用户社交网络实现指数级传播精准推荐：基于用户行为和关系链的个性化内容分发激励机制：
RocketMQ 高可用集群架构与一致性机制解析乘风破浪~~ rocketmq 架构
分布式场景中一致性问题：1.服务器不稳定：随时泵机的可能2.网络问题：导致请求丢失3.网速问题：难以保证请求顺序性，最终结果数据一致性需要操作顺序性保证4.快速响应：不能因为一致性，导致响应以集群中最慢的为准。常见的算法弱一致性算法：DNS系统，Gossip协议（RedisCluster）强一致性算法：Basic-Paxos、Multi-Paxos包括Raft系列(Nacos的JRaft，Kafk
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Java高并发编程核心：并发集合与原子类详解 msbQQ java 开发语言后端并发编程
在当今高并发、高吞吐的分布式系统中，Java并发编程已成为开发者必备的核心能力。当线程如潮水般涌来，如何确保数据安全？如何避免死锁陷阱？如何实现无阻塞的高效运算？答案就隐藏在并发集合与原子类这两大基石之中。1.并发集合：线程安全的容器1.1ConcurrentHashMap我在最开始学习这个容器的时候当时会记住它的特点是：线程安全，允许多个线程进行读和写。null值和键：ConcurrentHas
STM32 CAN 通信
STM32CAN通信文章目录STM32CAN通信前言一、硬件连接二、软件配置三、CAN通信流程四、错误处理与调试总结前言控制器局域网（ControllerAreaNetwork,CAN）是一种应用广泛的串行通信协议，特别适用于工业控制和汽车电子领域。STM32微控制器内置了CAN控制器，支持CAN协议2.0A和2.0B，能够实现高效可靠的分布式通信。本文档旨在STM32平台上实现CAN通信功能，内
Java网络编程基础（TCP/IP协议、Socket编程）扬子鳄008 Java 网络 java tcp/ip
Java网络编程是现代软件开发中的一个重要组成部分，尤其是在构建分布式系统和网络服务时。Java提供了丰富的网络编程API，使得开发者能够轻松地实现各种网络通信功能。本文将详细介绍Java网络编程的基础知识，包括TCP/IP协议和Socket编程的基本概念和实现方法。TCP/IP协议简介TCP/IP（传输控制协议/互联网协议）是一组用于网络通信的标准协议集。它由多个层次组成，每个层次负责不同的功能
游戏行业中的恶梦：不断升级的DDoS攻击上海云盾第一敬业销售 ddos 网络安全 web安全
近年来，游戏行业快速发展，成为全球娱乐市场的重要组成部分。然而，伴随着这一行业的繁荣，网络安全问题也随之而来。游戏公司面临着一种特殊的威胁：分布式拒绝服务（DDoS）攻击。这种攻击不仅对公司的声誉造成严重损害，也对其财务状况构成了威胁。本文将探讨游戏行业面临的DDoS攻击挑战，并提供有效的应对策略。具体内容如下：一、攻击者的动机DDoS攻击之所以在游戏行业中如此猖獗，与其背后多元化的攻击动机密切相
防范DDoS攻击，服务器稳定性崩溃的根源与高效防御对策上海云盾第一敬业销售 ddos 服务器运维
DDoS攻击（分布式拒绝服务攻击）已成为危害服务器稳定性和业务连续性的主要因素之一。本文将深入探讨为什么服务器一遇到DDoS攻击就崩溃，以及如何从根本上实现有效防御和应对这一威胁，帮助企业提升网络安全水平。具体内容如下：随着互联网业务的不断扩展，企业服务器面临的安全威胁日益严峻，DDoS攻击（分布式拒绝服务攻击）已成为危害服务器稳定性和业务连续性的主要因素之一。本文将深入探讨为什么服务器一遇到DD
数据并表技术全面指南：从基础JOIN到分布式数据融合熊猫钓鱼>_> 分布式
引言在现代数据处理和分析领域，数据并表（TableJoin）技术是连接不同数据源、整合分散信息的核心技术。随着企业数据规模的爆炸式增长和数据源的日益多样化，传统的数据并表方法面临着前所未有的挑战：性能瓶颈、内存限制、数据倾斜、一致性问题等。如何高效、准确地进行大规模数据并表，已成为数据工程师和架构师必须掌握的关键技能。数据并表不仅仅是简单的SQLJOIN操作，它涉及数据建模、算法优化、分布式计算、
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
Git remote 远程仓库链接管理迹忆客 Linux 服务端 git
SVN使用单个集中仓库作为开发人员的通信枢纽，通过在开发人员的工作副本和中央仓库之间传递变更集来进行协作。这与Git的分布式协作模型不同，后者为每个开发人员提供了自己的仓库副本，并具有自己的本地历史记录和分支结构。用户通常需要共享一系列提交而不是单个变更集。Git允许我们在仓库之间共享整个分支，而不是将变更集从工作副本提交到中央仓库。gitremote命令是负责同步更改的更广泛系统的一部分。通过g
【im】如何解决消息的实时到达问题？ Bogon
TCP长连接的方式是怎么实现“当有消息需要发送给某个用户时，能够准确找到这个用户对应的网络连接”？首先用户有一个登陆的过程：(1)tcp客户端与服务端通过三次握手建立tcp连接；(2)基于该连接客户端发送登陆请求；(3)服务端对登陆请求进行解析和判断，如果合法，就将当前用户的uid和标识当前tcp连接的socket描述符(也就是fd)建立映射关系；(4)这个映射关系一般是保存在本地缓存或分布式缓存
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
前端面试专栏-工程化：28.团队协作与版本控制（Git）爱分享的程序员前端面试通关指南 node.js 前端 javascript
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情项目实战与工程化模块-团队协作与版本控制（Git）在多人协作的项目中，代码的版本管理是保障开发效率与代码质量的核心环节。Git作为目前最流行的分布式版本控制系统，不仅能追踪代码变更历史，更能通过分支策略、协作流程规范团队工作方式。本文从实战角
Windows平台下的Git版本控制实践：msysGit安装与使用
本文还有配套的精品资源，点击获取简介：msysGit是为Windows系统打造的Git版本控制系统，它允许用户在本地环境中方便地使用Git进行源代码管理和版本控制。Git是一个分布式版本控制系统，以其快速、高效和灵活性著称。msysGit通过模拟Unix-like环境来兼容Git命令，并提供图形界面工具和与Windows集成的特性，极大地提升了Windows用户的操作体验。本文将详细介绍msysG
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
Kafka 集群架构与高可用方案设计（二）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案的优化策略合理配置参数在Kafka集群的配置中，参数的合理设置对于系统的高可用性和性能表现起着关键作用。例如，min.insync.replicas参数定义了ISR（In-SyncReplicas，同步副本）集合中的最少副本数，它直接关系到数据的持久性和一致性。当acks设置为all或-1时，生产者需要等待ISR中的所有副本都确认写操作后才认为成功，此时min.ins
2024 年度分布式电力推进（DEP）系统发展探究北京航通天下科技有限公司无人机测试教学培训分布式电推进(DEP)动力系统无人机动力测试系统分布式电推进技术分布式动力系统测试平台 DEP
分布式电力推进（DEP）的发明是为了尝试和改进现代飞机：我们如何提高飞机的效率？提高它的机动性？缩短它的起飞和着陆距离？DEP概念有望在提高性能的同时减少燃料消耗，在我们孜孜不倦地努力使航空业更具可持续性的时代，这是一个有吸引力的前景。在本文中，我们将介绍DEP的工作原理、优缺点以及值得关注的DEP飞机。此外，我们还提供用于测试DEP系统的解决方案。所有内容都包括在下面。目录什么是分布式电力推进（
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
eVTOL分布式电推进(DEP)适航审定探究北京航通天下科技有限公司低空经济 eVTOL测试配套分布式
从适航认证的角度来看，eVTOL动力系统采用分布式电推进(DEP)技术进行测试具有以下显著优势：一、提升系统冗余性与故障容限分布式电推进系统通过多个独立电机协同工作，即使部分电机失效，剩余电机仍能维持推力，保障飞行安全。这种冗余设计是适航认证中对关键系统可靠性要求的核心指标之一。例如，测试平台可模拟单个或多个电机故障场景，验证系统能否通过动态推力分配维持稳定飞行，从而满足适航对“故障安全”原则的要
灰度发布实战：在生产环境中安全迭代功能荣华富贵8 程序员的知识储备2 程序员的知识储备3 consul 服务发现算法网络 wpf
摘要随着互联网服务规模的不断扩大，如何在保证系统稳定性和用户体验的前提下快速迭代新功能，已经成为大型分布式系统运维和开发团队面临的核心挑战。灰度发布（GreyRelease或CanaryRelease）作为一种渐进式发布策略，通过对少量用户或流量进行新版本试运行，实时监控关键指标、收集用户反馈，从而在生产环境中实现安全的功能迭代和风险管控。本文以某大型电商平台灰度发布实战为例，深入探讨技术原理、系
《[系统底层攻坚] 张冬〈大话存储终极版〉精读计划启动——存储架构原理深度拆解之旅》-系统性学习笔记（适合小白与IT工作人员）谢郎Kobe 大活存储学习架构云计算硬件架构大数据
致所有存储技术探索者笔者近期将系统攻克存储领域经典巨作——张冬老师编著的《大话存储终极版》。这部近千页的存储系统圣经，以庖丁解牛的方式剖析了：存储硬件底层架构、分布式存储核心算法、超融合系统设计哲学等等。喜欢研究数据存储或者工作应用到存储的小伙伴，可以学习这本书。如果想利用碎片时间学习，也可以持续关注一下笔者不定期的章节解析。现在本人将此书的目录结构整理如下，未来笔者将按照顺序不定期更新【学习笔记
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

ELK+Filebeat+zookeeper+Kafka原理和搭建

引言

一、ZooKeeper介绍

二、Kafka介绍

1、为什么需要消息队列（MQ）

2、消息队列的好处

3、Kafka的特性

4、Kafka作为存储系统

5、Kafka消费模式

一对一

一对多

三、Kafka的基础架构

1、Kafka架构

2、分区的原因

3、工作流程

四、ELK+Filebeat+ZooKeeper+Kafka搭建部署

1、zookeeper安装配置

2、Kafka安装配置

3、创建topic

4、测试topic

5、配置数据采集层filebeat

6、在kafka上创建一个话题nginx-es

7、查看网页认证

你可能感兴趣的:(kafka,elk,分布式)