Kafka原理分析(一):初识Kafka

1、什么是kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。它以可水平扩展和高吞吐率而被广泛使用,其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”。

2、基本概念
  • Broker
    Kafka集群包含一个或多个服务器,这种服务器被称为broker。
  • Topic(主题)
    每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)。
  • Partition(分区)
    Partition是物理上的概念,每个Topic包含一个或多个Partition。
  • Offset (偏移量)
    一个主题下的每个分区中的消息是顺序写入磁盘的,而偏移量是一个连续的用于定位被追加到分区的每一个消息的序列号,最大值为64位的long大小,它是唯一标记一条消息。
  • Producer(生产者)
    发布消息的对象称之为主题生产者,负责发布消息到Kafka broker。
  • Consumer(消费者)
    订阅消息并处理发布的消息的对象称之为主题消费者,向Kafka broker读取消息的客户端。
  • Consumer Group(消费者组)
    每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)。既然是一个组,那么组内必然可以有多个消费者或消费者实例,它们共享一个公共的ID,即group ID。组内的所有消费者协调在一起来消费订阅主题的所有分区。

3、kafka拓扑结构

Kafka原理分析(一):初识Kafka_第1张图片

一个典型的Kafka集群中包含若干Producer,若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及一个Zookeeper集群。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。

4、kafka主题和日志

每个partition在存储层面是append log文件,任何发布到此partition的消息都会被直接追加到log文件的尾部。如下图所示。

Kafka原理分析(一):初识Kafka_第2张图片

5、Kafka常用操作命令

  • 启动kafka
    bin/kafka-server-start.sh config/server.properties &
  • 停止kafka
    bin/kafka-server-stop.sh
  • 创建topic
    bin/kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 3 --topic test
  • 查看当前服务器中的所有topic
    bin/kafka-topics.sh --list --zookeeper 127.0.0.1:2181
  • 查看某个Topic的详情
    bin/kafka-topics.sh --topic test --describe --zookeeper 127.0.0.1:2181
  • 删除topic
    bin/kafka-topics.sh --delete --zookeeper 127.0.0.1:2181 --topic test
    需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。
  • 生产消息
    bin/kafka-console-producer.sh --broker-list 127.0.0.1:9092 --topic test
  • 消费消息
    bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --topic test --from-beginnin
6、常用Message Queue对比

  • RabbitMQ
    RabbitMQ是使用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正因如此,它非常重量级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息在发送给客户端时先在中心队列排队。对路由,负载均衡或者数据持久化都有很好的支持。
  • Redis
    Redis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃。虽然它是一个Key-Value数据库存储系统,但它本身支持MQ功能,所以完全可以当做一个轻量级的队列服务来使用。对于RabbitMQ和Redis的入队和出队操作,各执行100万次,每10万次记录一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。实验表明:入队时,当数据比较小时Redis的性能要高于RabbitMQ,而如果数据大小超过了10K,Redis则慢的无法忍受;出队时,无论数据大小,Redis都表现出非常好的性能,而RabbitMQ的出队性能则远低于Redis。
  • ZeroMQ
    ZeroMQ号称最快的消息队列系统,尤其针对大吞吐量的需求场景。ZeroMQ能够实现RabbitMQ不擅长的高级/复杂的队列,但是开发人员需要自己组合多种技术框架,技术上的复杂度是对这MQ能够应用成功的挑战。ZeroMQ具有一个独特的非中间件的模式,你不需要安装和运行一个消息服务器或中间件,因为你的应用程序将扮演这个服务器角色。你只需要简单的引用ZeroMQ程序库,可以使用NuGet安装,然后你就可以愉快的在应用程序之间发送消息了。但是ZeroMQ仅提供非持久性的队列,也就是说如果宕机,数据将会丢失。其中,Twitter的Storm 0.9.0以前的版本中默认使用ZeroMQ作为数据流的传输(Storm从0.9版本开始同时支持ZeroMQ和Netty作为传输模块)。
  • ActiveMQ
    ActiveMQ是Apache下的一个子项目。 类似于ZeroMQ,它能够以代理人和点对点的技术实现队列。同时类似于RabbitMQ,它少量代码就可以高效地实现高级应用场景。
  • Kafka/Jafka
    Kafka是Apache下的一个子项目,是一个高性能跨语言分布式发布/订阅消息队列系统,而Jafka是在Kafka之上孵化而来的,即Kafka的一个升级版。具有以下特性:快速持久化,可以在O(1)的系统开销下进行消息持久化;高吞吐,在一台普通的服务器上既可以达到10W/s的吞吐速率;完全的分布式系统,Broker、Producer、Consumer都原生自动支持分布式,自动实现负载均衡;支持Hadoop数据并行加载,对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka通过Hadoop的并行加载机制统一了在线和离线的消息处理。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息系统,除了性能非常好之外,还是一个工作良好的分布式系统。

你可能感兴趣的:(技术)