Kafka是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据实时处理领域
Kafka是最初由 Linkedin 公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于Zookeeper协调的分布式消息中间件系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景,比如基于 hadoop 的批处理系统、低延迟的实时系统、Spark/Flink 流式处理引擎,nginx 访问日志,消息服务等等,用 scala 语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目
官方下载地址:http://kafka.apache.org/downloads.html
cd /opt
wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.7.1/kafka_2.13-2.7.1.tgz
cd /opt/
tar zxvf kafka_2.13-2.7.1.tgz
mv kafka_2.13-2.7.1 /usr/local/kafka
cd /usr/local/kafka/config/
cp server.properties{,.bak}
vim server.properties
broker.id=0 #21行,broker的全局唯一编号,每个broker不能重复,因此要在其他机器上配置 broker.id=1、broker.id=2
listeners=PLAINTEXT://192.168.80.14:9092 #31行,指定监听的IP和端口,如果修改每个broker的IP需区分开来,也可保持默认配置不用修改
num.network.threads=3 #42行,broker 处理网络请求的线程数量,一般情况下不需要去修改
num.io.threads=8 #45行,用来处理磁盘IO的线程数量,数值应该大于硬盘数
socket.send.buffer.bytes=102400 #48行,发送套接字的缓冲区大小
socket.receive.buffer.bytes=102400 #51行,接收套接字的缓冲区大小
socket.request.max.bytes=104857600 #54行,请求套接字的缓冲区大小
log.dirs=/usr/local/kafka/logs #60行,kafka运行日志存放的路径,也是数据存放的路径
num.partitions=1 #65行,topic在当前broker上的默认分区个数,会被topic创建时的指定参数覆盖
num.recovery.threads.per.data.dir=1 #69行,用来恢复和清理data下数据的线程数量
log.retention.hours=168 #103行,segment文件(数据文件)保留的最长时间,单位为小时,默认为7天,超时将被删除
log.segment.bytes=1073741824 #110行,一个segment文件最大的大小,默认为 1G,超出将新建一个新的segment文件
zookeeper.connect=192.168.80.14:2181,192.168.80.15:2181,192.168.80.16:2181 #123行,配置连接Zookeeper集群地址
vim /etc/profile
export KAFKA_HOME=/usr/local/kafka
export PATH=$PATH:$KAFKA_HOME/bin
source /etc/profile
echo $PATH
vim /etc/init.d/kafka
#!/bin/bash
#chkconfig:2345 22 88
#description:Kafka Service Control Script
KAFKA_HOME='/usr/local/kafka'
case $1 in
start)
echo "---------- Kafka 启动 ------------"
${KAFKA_HOME}/bin/kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties
;;
stop)
echo "---------- Kafka 停止 ------------"
${KAFKA_HOME}/bin/kafka-server-stop.sh
;;
restart)
$0 stop
$0 start
;;
status)
echo "---------- Kafka 状态 ------------"
count=$(ps -ef | grep kafka | egrep -cv "grep|$$")
if [ "$count" -eq 0 ];then
echo "kafka is not running"
else
echo "kafka is running"
fi
;;
*)
echo "Usage: $0 {start|stop|restart|status}"
esac
设置开机自启
chmod +x /etc/init.d/kafka
chkconfig --add kafka
分别启动 Kafka
service kafka start
kafka-topics.sh --create --zookeeper 192.168.80.14:2181,192.168.80.15:2181,192.168.80.16:2181 --replication-factor 2 --partitions 3 --topic test (zk集群的ip)
----------------------------------------------------------
(1)zookeeper:定义zookeeper集群服务器地址,如果有多个IP地址使用逗号分割,一般使用一个IP即可
(2)replication-factor:定义分区副本数,1代表单副本,建议为2
(3)partitions:定义分区数
(4)topic:定义topic名称
----------------------------------------------------------
kafka-topics.sh --list --zookeeper 192.168.80.14:2181,192.168.80.15:2181,192.168.80.16:2181
kafka-topics.sh --describe --zookeeper 192.168.80.14:2181,192.168.80.15:2181,192.168.80.16:2181
kafka-console-producer.sh --broker-list 192.168.80.14:9092,192.168.80.15:9092,192.168.80.16:9092 --topic test
kafka-console-consumer.sh --bootstrap-server 192.168.80.14:9092,192.168.80.15:9092,192.168.80.16:9092 --topic test --from-beginning
注:--from-beginning:会把主题中以往所有的数据都读取出来
kafka-topics.sh --zookeeper 192.168.80.14:2181,192.168.80.15:2181,192.168.80.16:2181 --alter --topic test --partitions 6 #指定topic名称修改分区数
kafka-topics.sh --delete --zookeeper 192.168.80.14:2181,192.168.80.15:2181,192.168.80.16:2181 --topic test
主机ip | 服务 |
---|---|
192.168.80.11 | Elasticsearch 、Kibana、Filebeat |
192.168.80.12 | Elasticsearch |
192.168.80.13 | Logstash、Apache |
192.168.80.14 | Zookeeper、Kafka |
192.168.80.15 | Zookeeper、Kafka |
192.168.80.16 | Zookeeper、Kafka |
之前部署完了,这边就不再阐述了
cd /usr/local/filebeat
vim filebeat.yml
filebeat.prospectors:
- type: log
enabled: true
paths:
- /var/log/messages
- /var/log/*.log
......
#添加输出到Kafka的配置
output.kafka:
enabled: true
hosts: ["192.168.80.14:9092","192.168.80.15:9092","192.168.80.16:9092"] #指定 Kafka 集群配置
topic: "kafka_test" #指定 Kafka 的 topic
#启动 filebeat
./filebeat -e -c filebeat.yml
在Logstash组件所在节点上新建一个Logstash配置文件
cd /etc/logstash/conf.d/
vim filebeat.conf
input {
kafka {
bootstrap_servers => "192.168.80.14:9092,192.168.80.15:9092,192.168.80.16:9092"
topics => "kafka_test"
group_id => "test123"
auto_offset_reset => "earliest"
}
}
output {
elasticsearch {
hosts => ["192.168.80.11:9200"]
index => "kafka_test-%{+YYYY.MM.dd}"
}
stdout {
codec => rubydebug
}
}
#启动 logstash
logstash -f filebeat.conf
http://192.168.80.11:5601
登录Kibana,单击“Managerment”按钮对index索引标题进行增删,然后单击“Create Index Pattern”按钮添加索引“kafaka_test-*”,单击 “create” 按钮创建,单击 “Discover” 按钮可查看图表信息及日志信息