Kafka - 一个分布式流处理平台

Kafka的简介, 安装配置

  • 今天给简单介绍下Kafka的安装过程
    • 先看看Kafka能干什么
      • 概念
    • Kafka可以使用在这些方面
      • 具体表现
    • Kafka的安装过程
        • 环境
        • 简单命令

新年过去了, 亲戚串完了, 好吃的也吃完了, 该收心了。。。 O(∩_∩)O哈哈~

今天给简单介绍下Kafka的安装过程

先看看Kafka能干什么

  1. 消息系统
  2. 存储系统

概念

  • topic: 数据主题,是数据记录发布的地方,可以用来区分业务系统。Kafka中的Topics总是多订阅者模式,一个topic可以拥有一个或者多个消费者来订阅它的数据

首先作为消息系统

  • 传统消息系统包含: ‘队列’ 和 ‘发布-订阅’ 两个模块, 消费者池从server读取数据,每条记录被池子中的一个消费者消费; 在发布订阅中,记录被广播到所有的消费者。两者均有优缺点。
    • 队列的优点在于它允许你将处理数据的过程分给多个消费者实例,使你可以扩展处理过程。
    • 不好的是,队列不是多订阅者模式的—一旦一个进程读取了数据,数据就会被丢弃。
    • 而发布-订阅系统允许你广播数据到多个进程,但是无法进行扩展处理,因为每条消息都会发送给所有的订阅者。
  • Kafka 在作为消息系统的优势在于
    • 每个topic都可以扩展处理并且允许多订阅者模式—不需要只选择其中一个.
    • 相比于传统消息队列还具有更严格的顺序保证
    • topic中的partition是一个并行的概念。 Kafka能够为一个消费者池提供顺序保证和负载平衡,是通过将topic中的partition分配给消费者组中的消费者来实现的, 以便每个分区由消费组中的一个消费者消耗。通过这样,我们能够确保消费者是该分区的唯一读者,并按顺序消费数据。 众多分区保证了多个消费者实例间的负载均衡。但请注意,消费者组中的消费者实例个数不能超过分区的数量

作为存储系统

  • 数据写入Kafka后被写到磁盘,并且进行备份以便容错
  • Kafka使用磁盘结构,具有很好的扩展性—50kb和50TB的数据在server上表现一致。
  • 可认为Kafka是一种高性能、低延迟、具备日志存储、备份和传播功能的分布式文件系统

Kafka可以使用在这些方面

  1. 构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。 (相当于message queue)
  2. 构建实时流式应用程序,对这些流数据进行转换或者影响。 (就是流处理,通过kafka stream topic和topic之间内部进行变化)

具体表现

  1. 消息
  2. 跟踪网站活动
  3. 度量
  4. 日志聚合
  5. 流处理
  6. 采集日志

针对Kafka更加详细的信息, 可以去Kafka中文文档 查看

Kafka的安装过程

环境

CentOS
kafka_2.11
zookeeper (也可以使用Kafka自带的zookeeper), zookeeper安装
jdk1.8

  1. 下载
wget http://archive.apache.org/dist/kafka/1.0.0/kafka_2.11-1.0.0.tgz
  1. 解压并重新命名
tar -zxvf kafka_2.11-1.0.0.tgz 
mv kafka_2.11-1.0.0 kafka
  1. 添加环境变量
vim /etc/profile

export KAFKA_HOME=/usr/local/opt/kafka
export PATH=$PATH:$KAFKA_HOME/bin

source /etc/profile  # 使环境变量生效
  1. 文件配置
- vim server.properties
	broker.id=1												# 标识 集群需要更改
	host.name=sanq1.com.cn   			 					# sanq1.com.cn是在host中配置的ip映射
	listeners=PLAINTEXT://sanq1.com.cn:9092    				# 最好不要以IP的形式来设置
	log.dirs=/usr/local/opt/kafka/kaf_logs					# 日志目录, 方便出错查看信息, 集群必须
	zookeeper.connect=sanq1.com.cn:2181						# 如果zookeeper集群的话 用 , 分割
	num.partitions=1  										# 默认分片为1 一般用于集群, 单机可不设置
  1. 启动
# 启动zookeeper (已经加入环境变量)
zkServer.sh start
# 启动kafka
nohup kafka-server-start.sh /usr/local/opt/kafka/config/server.properties >/dev/null 2>&1 &

说明:
让kafka在后台启动并且不会因为关闭客户端(xshell) 而停止kafka

到这里kafka就已经安装完成并且已经启动完成, 我们来简单试验一下

简单命令

  • 创建topic, 创建一个名为“topic_test”的topic,它有一个分区和一个副本:
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topic_test

您也可将代理配置为:在发布的topic不存在时,自动创建topic,而不是手动创建

  • 查看topic的列表
kafka-topics.sh --list --zookeeper localhost:2181
  • 使用kafka自带的命令行客户端向topic_test发送消息
kafka-console-producer.sh --broker-list localhost:9092 --topic topic_test
  • 启动一个consumer(消费者) 接收消息
# from-beginning 从第一行接收
kafka-console-consumer.sh --bootstrap-server localhost:9092 --from-beginning --topic topic_test

到此有关kafka的简介就全部完成。

你可能感兴趣的:(java,kafka)