Kafka快速入门------kafka的基础知识

Kafka快速入门

Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。

Kafka的使用场景

  • 日志收集:一个公司可以用Kafka收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、Hbase、Solr等。
  • 消息系统:解耦和生产者和消费者、缓存消息等。
  • 用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。
  • 运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。

Kafka基本概念

kafka是一个分布式的,分区的消息(官方称之为commit log)服务。它提供一个消息系统应该具备的功能,但是确有着独特的设计。可以这样来说,Kafka借鉴了JMS规范的思想,但是确并没有完全遵循JMS规范。

首先,让我们来看一下基础的消息(Message)相关术语:

Kafka快速入门------kafka的基础知识_第1张图片
因此,从一个较高的层面上来看,producer通过网络发送消息到Kafka集群,然后consumer来进行消费,如下图:
Kafka快速入门------kafka的基础知识_第2张图片
服务端(brokers)和客户端(producer、consumer)之间通信通过TCP协议来完成。

为什么使⽤消息队列

使⽤同步的通信⽅式来解决多个服务之间的通信

Kafka快速入门------kafka的基础知识_第3张图片
存在的问题:

  • 造成的系统开销,响应的时间比较大的,2–5秒,用户体验感差
  • 在同步的过程中要保证每个服务都顺利完成,整个链路才执行完,因为网络等其他问题,整个链路执行完成的成功率会受到影响,导致用户体验感差
  • 同步的通信⽅式会存在性能和稳定性的问题。

使⽤异步的通信⽅式

Kafka快速入门------kafka的基础知识_第4张图片
针对于同步的通信⽅式来说,异步的⽅式,可以让上游快速成功,极⼤提⾼了系统的吞吐
量。⽽且在分布式系统中,通过下游多个服务的分布式事务的保障,也能保障业务执⾏之后
的最终⼀致性。消息队列解决具体的是什么问题——通信问题。即便下游有任务失败也不影响最终是成功的。

消息队列的流派

⽬前消息队列的中间件选型有很多种:

  • rabbitMQ:内部的可玩性(功能性)是非常强的

  • rocketMQ: 阿里内部一个大神,根据kafka的内部执行原理,手写的一个消息队列中间件。性能是与Kafka相比肩,除此之外,在功能上封装了更多的功能。

  • kafka:全球消息处理性能最快的一款MQ

  • zeroMQ

这些消息队列中间件有什么区别?

有broker

  • 重topic:Kafka、RocketMQ、ActiveMQ

    整个broker,依据topic来进行消息的中转。在重topic的消息队列里必然需要topic的存在

  • 轻topic:RabbitMQ

    topic只是一种中转模式。

无broker

在生产者和消费者之间没有使用broker,例如zeroMQ,直接使用socket进行通信。

Kafka的安装

  • 部署一台zookeeper服务器
  • 安装jdk
  • 下载kafka的安装包:http://kafka.apache.org/downloads
  • 上传到kafka服务器上:/usr/local/kafka
  • 解压缩压缩包
  • 进入到config目录内,修改server.properties
#broker.id属性在kafka集群中必须要是唯一
broker.id=0
#kafka部署的机器ip和提供服务的端口号
listeners=PLAINTEXT://192.168.65.60:9092   
#kafka的消息存储文件
log.dir=/usr/local/data/kafka-logs
#kafka连接zookeeper的地址
zookeeper.connect=192.168.65.60:2181
  • 进入到bin目录内,执行以下命令来启动kafka服务器(带着配置文件)
./kafka-server-start.sh -daemon ../config/server.properties 
  • 校验kafka是否启动成功:

进入到zookeeper内用ls指令查看是否有kafka的节点:/brokers/ids/0

kafka中的一些基本概念

kafka中有这么些复杂的概念
Kafka快速入门------kafka的基础知识_第5张图片

创建topic

  • 通过kafka命令向zk中创建一个主题
./kafka-topics.sh --create --zookeeper 172.16.253.35:2181 --replication-factor 1 --partitions 1 --topic test
  • 查看当前zk中所有的主题
./kafka-topics.sh --list --zookeeper 172.16.253.35:2181
test

发送消息

把消息发送给broker中的某个topic,打开一个kafka发送消息的客户端,然后开始用客户端向kafka服务器发送消息

./kafka-console-consumer.sh --bootstrap-server 172.16.253.38:9092 --topic test

消费消息

打开一个消费消息的客户端,向kafka服务器的某个主题消费消息

  • 方式一:从当前主题中的最后一条消息的offset(偏移量位置)+1开始消费
./kafka-console-consumer.sh --bootstrap-server 172.16.253.38:9092 --topic test
  • 方式二:从当前主题中的第一条消息开始消费
./kafka-console-consumer.sh --bootstrap-server 172.16.253.38:9092 --from-beginning --topic test

关于消息的细节

Kafka快速入门------kafka的基础知识_第6张图片

  • 生产者将消息发送给broker,broker会将消息保存在本地的日志文件中
/usr/local/kafka/data/kafka-logs/主题-分区/00000000.log
  • 消息的保存是有序的,通过offset偏移量来描述消息的有序性
  • 消费者消费消息时也是通过offset来描述当前要消费的那条消息的位置

单播消息

在一个kafka的topic中,启动两个消费者,一个生产者,问:生产者发送消息,这条消息是否同时会被两个消费者消费?

如果多个消费者在同一个消费组,那么只有一个消费者可以收到订阅的topic中的消息。换言之,同一个消费组中只能有一个消费者收到一个topic中的消息。

./kafka-console-consumer.sh --bootstrap-server 172.16.253.38:9092  --consumer-property group.id=testGroup --topic test

多播消息

不同的消费组订阅同一个topic,那么不同的消费组中只有一个消费者能收到消息。实际上也是多个消费组中的多个消费者收到了同一个消息。

./kafka-console-consumer.sh --bootstrap-server 172.16.253.38:9092  --consumer-property group.id=testGroup1 --topic test
./kafka-console-consumer.sh --bootstrap-server 172.16.253.38:9092  --consumer-property group.id=testGroup2 --topic test

下图就是描述多播和单播消息的区别

Kafka快速入门------kafka的基础知识_第7张图片

查看消费组的详细信息

通过以下命令可以查看到消费组的相信信息:

./kafka-consumer-groups.sh --bootstrap-server 172.16.253.38:9092 --describe --group testGroup

在这里插入图片描述

重点关注以下几个信息:

  • current-offset: 最后被消费的消息的偏移量
  • Log-end-offset: 消息总量(最后一条消息的偏移量)
  • Lag:积压了多少条消息

ref

千峰教育

你可能感兴趣的:(java学习,kafka,kafka,大数据,分布式)