目录
一、Zookeeper 概述
1.Zookeeper 定义
2.Zookeeper 工作机制
3.Zookeeper 特点
4.Zookeeper 应用场景
4.1 统一命名服务
4.2 统一配置管理
4.3 服务器动态上下线
4.4 软负载均衡
二、Zookeeper 选举机制
1.第一次启动选举机制
2. 非第一次启动选举机制
2.1 当ZooKeeper 集群中的一台服务器出现以下两种情况之一时,就会开始进入Leader选举:
2.2 而当一台机器进入Leader选举流程时,当前集群也可能会处于以下两种状态:
2.3 选举Leader规则
三、部署 Zookeeper 集群
1.安装前准备
2.安装 Zookeeper
3.创建数据目录和日志目录
4.拷贝配置好的 Zookeeper 配置文件到其他机器上
4. 修改其他节点myid文件
5. 启动zookeeper服务
四、 消息队列 概述
1.为什么需要消息队列(MQ)
2. 使用消息队列的好处
3. 消息队列的两种模式
3.1点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)
3.2发布/订阅模式(一对多,又叫观察者模式,消费者消费数据之后不会清除消息)
五、kafka 概述
1. Kafka 定义
2.Kafka 简介
3. Kafka 的特性
4.Kafka 系统架构
4.1 Broker
4.2 Topic
4.3 Partition
4.4 Replica
4.5 Leader
4.6 Follower
4.7 Producer
4.8 Consumer
4.9 Consumer Group(CG)
4.10 offset 偏移量
4.11 Zookeeper
六、部署 kafka 集群
1.下载安装包
2.安装 Kafka
2.1修改配置文件
2.2修改环境变量
2.3启动kafka
3.Kafka 命令行操作
3.1创建topic
3.2 查看当前服务器中的所有 topic
3.3 查看某个 topic 的详情
3.4 发布消息
3.5 消费消息
3.6 修改分区数
3.7 删除 topic
七、kafka 架构深入
1.Kafka 工作流程及文件存储机制
2. 数据可靠性保证
3.数据一致性问题
3.1 follower 故障
3.2 leader 故障
4.ack 应答机制
八、部署 Filebeat+Kafka+ELK
1.部署 Zookeeper+Kafka 集群
2.部署 Filebeat
3.部署 ELK,在 Logstash 组件所在节点上新建一个 Logstash 配置文件
4.验证
Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。
用于注册各种分布式应用,存储和管理各种分布式应用服务的元数据,如果应用服务状态发生改变会通知客户端。
Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。也就是说 Zookeeper = 文件系统 + 通知机制。
提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。
在分布式环境下,经常需要对应用/服务进行统一命名,便于识别。例如:IP不容易记住,而域名容易记住。
客户端能实时洞察到服务器上下线的变化。
在Zookeeper中记录每台服务器的访问数,让访问数最少的服务器去处理最新的客户端请求。
准备 3 台服务器做 Zookeeper 集群
192.168.88.50
192.168.88.60
192.168.88.70
#关闭防火墙
systemctl stop firewalld
systemctl disable firewalld
setenforce 0
#安装 JDK
yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel
java -version
#下载安装包
官方下载地址:https://archive.apache.org/dist/zookeeper/
cd /opt
wget https://archive.apache.org/dist/zookeeper/zookeeper-3.5.7/apache-zookeeper-3.5.7-bin.tar.gz
cd /opt
tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz
mv apache-zookeeper-3.5.7-bin /usr/local/zookeeper-3.5.7
#修改配置文件
cd /usr/local/zookeeper-3.5.7/conf/
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg
tickTime=2000 #通信心跳时间,Zookeeper服务器与客户端心跳时间,单位毫秒
initLimit=10 #Leader和Follower初始连接时能容忍的最多心跳数(tickTime的数量),这里表示为10*2s
syncLimit=5 #Leader和Follower之间同步通信的超时时间,这里表示如果超过5*2s,Leader认为Follwer死掉,并从服务器列表中删除Follwer
dataDir=/usr/local/zookeeper-3.5.7/data ●修改,指定保存Zookeeper中的数据的目录,目录需要单独创建
dataLogDir=/usr/local/zookeeper-3.5.7/logs ●添加,指定存放日志的目录,目录需要单独创建
clientPort=2181 #客户端连接端口
#添加集群信息
server.1=192.168.88.50:3188:3288
server.2=192.168.88.60:3188:3288
server.3=192.168.88.70:3188:3288
server.A=B:C:D
●A是一个数字,表示这个是第几号服务器。集群模式下需要在zoo.cfg中dataDir指定的目录下创建一个文件myid,这个文件里面有一个数据就是A的值,Zookeeper启动时读取此文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。
●B是这个服务器的地址。
●C是这个服务器Follower与集群中的Leader服务器交换信息的端口。
●D是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。
#在每个节点上创建数据目录和日志目录
mkdir /usr/local/zookeeper-3.5.7/data
mkdir /usr/local/zookeeper-3.5.7/logs
#在每个节点的dataDir指定的目录下创建一个 myid 的文件
echo 1 > /usr/local/zookeeper-3.5.7/data/myid
cd /usr/local
scp -r zookeeper-3.6.3/ 192.168.88.60:`pwd`
scp -r zookeeper-3.6.3/ 192.168.88.70:`pwd`
#修改192.168.88.60节点上的myid文件
echo 2 > /usr/local/zookeeper-3.5.7/data/myid
#修改192.168.88.70节点上的myid文件
echo 3 > /usr/local/zookeeper-3.5.7/data/myid
cd /usr/local/zookeeper-3.5.7/bin
#开启服务
./zkServer.sh start
netstat -lntp | grep 2181
#查看服务状态
./zkServer.sh status
当前比较常见的 MQ 中间件有 ActiveMQ、RabbitMQ、RocketMQ、Kafka、pulsar 等。
消息生产者生产消息发送到消息队列中,然后消息消费者从消息队列中取出并且消费消息。消息被消费以后,消息队列中不再有存储,所以消息消费者不可能消费到已经被消费的消息。消息队列支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。
消息生产者(发布)将消息发布到 topic 中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到 topic 的消息会被所有订阅者消费。
发布/订阅模式是定义对象间一种一对多的依赖关系,使得每当一个对象(目标对象)的状态发生改变,则所有依赖于它的对象(观察者对象)都会得到通知并自动更新。
Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据领域的实时计算以及日志收集。
Kafka 是最初由 Linkedin 公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于 Zookeeper 协调的分布式消息中间件系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景,比如基于 hadoop 的批处理系统、低延迟的实时系统、Spark/Flink 流式处理引擎,nginx 访问日志,消息服务等等,用 scala 语言编写,
Linkedin 于 2010 年贡献给了 Apache 基金会并成为顶级开源项目。
一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。
可以理解为一个队列,生产者和消费者面向的都是一个 topic。类似于数据库的表名或者 ES 的 index。物理上不同 topic 的消息分开存储。
为了实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上,一个 topic 可以分割为一个或多个 partition,每个 partition 是一个有序的队列。Kafka 只保证 partition 内的记录是有序的,而不保证 topic 中不同 partition 的顺序。
每个 topic 至少有一个 partition,当生产者产生数据的时候,会根据分配策略选择分区,然后将消息追加到指定的分区的队列末尾。
Partation 数据路由规则:
每条消息都会有一个自增的编号,用于标识消息的偏移量,标识顺序从 0 开始。
每个 partition 中的数据使用多个 segment 文件存储。
如果 topic 有多个 partition,消费数据时就不能保证数据的顺序。严格保证消息的消费顺序的场景下(例如商品秒杀、 抢红包),需要将 partition 数目设为 1。
分区的原因:
副本,为保证集群中的某个节点发生故障时,该节点上的 partition 数据不丢失,且 kafka 仍然能够继续工作,kafka 提供了副本机制,一个 topic 的每个分区都有若干个副本,一个 leader 和若干个 follower。
每个 partition 有多个副本,其中有且仅有一个作为 Leader,Leader 是当前负责数据的读写的 partition。
Follower 跟随 Leader,所有写请求都通过 Leader 路由,数据变更会广播给所有 Follower,Follower 与 Leader 保持数据同步。Follower 只负责备份,不负责数据的读写。
如果 Leader 故障,则从 Follower 中选举出一个新的 Leader。
当 Follower 挂掉、卡住或者同步太慢,Leader 会把这个 Follower 从 ISR(Leader 维护的一个和 Leader 保持同步的 Follower 集合) 列表中删除,重新创建一个 Follower。
生产者即数据的发布者,该角色将消息 push 发布到 Kafka 的 topic 中。
broker 接收到生产者发送的消息后,broker 将该消息追加到当前用于追加数据的 segment 文件中。
生产者发送的消息,存储到一个 partition 中,生产者也可以指定数据存储的 partition。
消费者可以从 broker 中 pull 拉取数据。消费者可以消费多个 topic 中的数据。
Kafka 通过 Zookeeper 来存储集群的 meta 信息。
由于 consumer 在消费过程中可能会出现断电宕机等故障,consumer 恢复后,需要从故障前的位置的继续消费,所以 consumer 需要实时记录自己消费到了哪个 offset,以便故障恢复后继续消费。
Kafka 0.9 版本之前,consumer 默认将 offset 保存在 Zookeeper 中;从 0.9 版本开始,consumer 默认将 offset 保存在 Kafka 一个内置的 topic 中,该 topic 为 __consumer_offsets。
也就是说,zookeeper的作用就是,生产者push数据到kafka集群,就必须要找到kafka集群的节点在哪里,这些都是通过zookeeper去寻找的。消费者消费哪一条数据,也需要zookeeper的支持,从zookeeper获得offset,offset记录上一次消费的数据消费到哪里,这样就可以接着下一条数据进行消费。
官方下载地址:http://kafka.apache.org/downloads.html
cd /opt
wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.7.1/kafka_2.13-2.7.1.tgz
cd /opt/
tar zxvf kafka_2.13-2.7.1.tgz
mv kafka_2.13-2.7.1 /usr/local/kafka
cd /usr/local/kafka/config/
cp server.properties{,.bak}
vim server.properties
broker.id=0 ●21行,broker的全局唯一编号,每个broker不能重复,因此要在其他机器上配置 broker.id=1、broker.id=2
listeners=PLAINTEXT://192.168.88.70:9092 ●31行,指定监听的IP和端口,如果修改每个broker的IP需区分开来,也可保持默认配置不用修改
num.network.threads=3 #42行,broker 处理网络请求的线程数量,一般情况下不需要去修改
num.io.threads=8 #45行,用来处理磁盘IO的线程数量,数值应该大于硬盘数
socket.send.buffer.bytes=102400 #48行,发送套接字的缓冲区大小
socket.receive.buffer.bytes=102400 #51行,接收套接字的缓冲区大小
socket.request.max.bytes=104857600 #54行,请求套接字的缓冲区大小
log.dirs=/usr/local/kafka/logs #60行,kafka运行日志存放的路径,也是数据存放的路径
num.partitions=1 #65行,topic在当前broker上的默认分区个数,会被topic创建时的指定参数覆盖
num.recovery.threads.per.data.dir=1 #69行,用来恢复和清理data下数据的线程数量
log.retention.hours=168 #103行,segment文件(数据文件)保留的最长时间,单位为小时,默认为7天,超时将被删除
log.segment.bytes=1073741824 #110行,一个segment文件最大的大小,默认为 1G,超出将新建一个新的segment文件
zookeeper.connect=192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181 ●123行,配置连接Zookeeper集群地址
vim /etc/profile
export KAFKA_HOME=/usr/local/kafka
export PATH=$PATH:$KAFKA_HOME/bin
source /etc/profile
cd /usr/local/kafka/bin
./kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties
kafka-topics.sh --create --zookeeper 192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181 --replication-factor 2 --partitions 3 --topic test
--zookeeper:定义 zookeeper 集群服务器地址,如果有多个 IP 地址使用逗号分割,一般使用一个 IP 即可
--replication-factor:定义分区副本数,1 代表单副本,建议为 2
--partitions:定义分区数
--topic:定义 topic 名称
kafka-topics.sh --list --zookeeper 192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181
kafka-topics.sh --describe --zookeeper 192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181
kafka-console-producer.sh --broker-list 192.168.88.50:9092,192.168.88.60:9092,192.168.88.70:9092 --topic test
kafka-console-consumer.sh --bootstrap-server 192.168.88.50:9092,192.168.88.60:9092,192.168.88.70:9092 --topic test --from-beginning
--from-beginning:会把主题中以往所有的数据都读取出来
kafka-topics.sh --zookeeper 192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181 --alter --topic test --partitions 8
kafka-topics.sh --delete --zookeeper 192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181 --topic test
为保证 producer 发送的数据,能可靠的发送到指定的 topic,topic 的每个 partition 收到 producer 发送的数据后, 都需要向 producer 发送 ack(acknowledgement 确认收到),如果 producer 收到 ack,就会进行下一轮的发送,否则重新发送数据。
follower 发生故障后会被临时踢出 ISR(Leader 维护的一个和 Leader 保持同步的 Follower 集合),待该 follower 恢复后,follower 会读取本地磁盘记录的上次的 HW,并将 log 文件高于 HW 的部分截取掉,从 HW 开始向 leader 进行同步。等该 follower 的 LEO 大于等于该 Partition 的 HW,即 follower 追上 leader 之后,就可以重新加入 ISR 了。
leader 发生故障之后,会从 ISR 中选出一个新的 leader, 之后,为保证多个副本之间的数据一致性,其余的 follower 会先将各自的 log 文件高于 HW 的部分截掉,然后从新的 leader 同步数据。
注:这只能保证副本之间的数据一致性,并不能保证数据不丢失或者不重复。
对于某些不太重要的数据,对数据的可靠性要求不是很高,能够容忍数据的少量丢失,所以没必要等 ISR 中的 follower 全部接收成功。所以 Kafka 为用户提供了三种可靠性级别,用户根据对可靠性和延迟的要求进行权衡选择。
当 producer 向 leader 发送数据时,可以通过 request.required.acks 参数来设置数据可靠性的级别:
三种机制性能依次递减,数据可靠性依次递增。
注:在 0.11 版本以前的Kafka,对此是无能为力的,只能保证数据不丢失,再在下游消费者对数据做全局去重。在 0.11 及以后版本的 Kafka,引入了一项重大特性:幂等性。所谓的幂等性就是指 Producer 不论向 Server 发送多少次重复数据, Server 端都只会持久化一条。
cd /usr/local/filebeat
vim filebeat.yml
filebeat.prospectors:
- type: log
enabled: true
paths:
- /var/log/httpd/access_log
tags: ["httpd_access"]
- type: log
enabled: true
paths:
- /var/log/httpd/error_log
tags: ["httpd_error"]
......
#添加输出到 Kafka 的配置
output.kafka:
enabled: true
hosts: ["192.168.88.50:9092","192.168.88.60:9092","192.168.88.70:9092"] #指定 Kafka 集群配置
topic: "httpd" #指定 Kafka 的 topic
#启动 filebeat
./filebeat -e -c filebeat.yml
#在kafka集群中查看topic
cd /usr/local/kafka/bin
./kafka-topics.sh --list --zookeeper 192.168.88.50:2181,192.168.88.60:2181,192.168.88.70:2181
cd /etc/logstash/conf.d/
vim kafka.conf
input {
kafka {
bootstrap_servers => "192.168.88.50:9092,192.168.88.60:9092,192.168.88.70:9092" #kafka集群地址
topics => "httpd" #拉取的kafka的指定topic
type => "httpd_kafka" #指定 type 字段
codec => "json" #解析json格式的日志数据
auto_offset_reset => "latest" #拉取最近数据,earliest为从头开始拉取
decorate_events => false #不传递给elasticsearch的数据额外增加kafka的属性数据
}
}
output {
if "httpd_access" in [tags] {
elasticsearch {
hosts => ["192.168.88.10:9200","192.168.88.20:9200"]
index => "httpd_access-%{+YYYY.MM.dd}"
}
}
if "httpd_error" in [tags] {
elasticsearch {
hosts => ["192.168.88.10:9200","192.168.88.20:9200"]
index => "httpd_error-%{+YYYY.MM.dd}"
}
}
stdout { codec => rubydebug } #数据输出到屏幕上
}
#检测kafka.conf文件是否有误
logstash -f kafka.conf -t
#启动 logstash
logstash -f kafka.conf
4.浏览器访问 http://192.168.88.30:5601 登录 Kibana,单击“Create Index Pattern”按钮添加索引“httpd_access-*”,“httpd_error-*”。单击 “create” 按钮创建,单击 “Discover” 按钮可查看图表信息及日志信息。