【Pulsar 精选】从架构角度对比 Pulsar 和 Kafka

1 总体架构

1.1 Pulsar 总体架构

Pulsar 采用分层架构,主要组件组成:BrokerApache BookKeeperApache ZooKeeper。Broker 是无状态服务,客户端需要连接到 Broker 进行消息传递。而 BookKeeper 和 ZooKeeper 是有状态服务。BookKeeper 节点(Bookie)存储消息和游标,ZooKeeper 则只用于为 Broker 和 Bookie 存储元数据。另外,BookKeeper 使用 RocksDB 作为内嵌数据库,用于存储内部索引,但 RocksDB 的管理不独立于 BookKeeper。

image.png

1.2 Kafka 总体架构

Kafka 采用分区架构,多个 Partition 及其副本组成 Topic。

image.png

1.3 Pulsar 和 Kafka 总体架构的对比结论

① Kafka 的分区架构模型,将服务与存储相结合,而 Pulsar 则采用了分层架构,可以在单独的分层内进行管理。
② 尽管 Pulsar 的分层架构比较复杂,但实际上 Broker 和 BookKeeper 不但可以实现计算与存储分离,还更具可伸缩性、操作负担更低、性能更高、强一致。

2 存储架构

2.1 Pulsar 存储架构

在分层架构的基础上,Pulsar 在存储上实现了分片,首先 Pulsar 将 Topic 的 Partition 划分为分片,然后将这些分片存储到 BookKeeper 的 Bookies 上。Pulsar 的无分区存储架构,也没有重平衡,保证了性能、及时可伸缩性和高可用性。

Pulsar 的无限分布式日志以分片为中心,通过 BookKeeper 实现日志存储的扩展,同时分片可以均匀地分布在 Bookies 存储节点上。

说明:利用性能强大的 Netty 架构,数据从 Producer 到 Broker,再到 Bookie 的转移都是零拷贝,都不会生成副本。因为数据直接通过网络或磁盘进行传输,没有任何性能损失。

image.png

2.2 Kafka 存储架构

Partiton 分区是 Kafka 数据存储的基本单元。

说明:1 个 Topic 分别存储在不同的 Partition 中,而 1 个 Partition 有多个 Replica

image.png

2.3 Pulsar 和 Kafka 存储架构的对比结论

Pulsar 采用分片的存储架构,并利用 BookKeeper 持久化消息,具备高性能、弹性扩缩容和强一致的特点。然而 Kafka 直接采用 Topic 分区架构,扩容场景需要重平衡。

image.png

3 多租户架构

Kafka 不支持多租户,而 Pulsar 原生支持多租户{projecId}/{namespace}/{topicName} 的 topic 全名体现了多租户特性,如下所示。

persistent://9d2416900bf4420db96a939cc1bd161c/default/DEVICE
# 说明:
# persistent:// 表示持久化
# projecId 是 9d2416900bf4420db96a939cc1bd161c
# namespace 是 default
# topicName 是 DEVICE

说明:租户和命名空间 (Namaspace) 是 Pulsar 支持多租户的两个核心概念。在租户方面,Pulsar 为特定的租户预留合适的存储空间应用授权认证机制。在命名空间方面, Pulsar 有一系列的配置策略,包括存储配额流控消息过期策略命名空间之间的隔离策略

Property/Tenant 代表一个租户。假设部署了一个 Pulsar 集群来支持多个应用程序,在企业中每个 property 都可以代表一个团队、一个核心的功能等;
Namespace 代表 Pulsar 基本管理单元。在 namaspace 级别可以设置权限、备份 fine-tune、跨集群管理消息数据的地理复制 geo-replication 等;
TopicName 代表一个通道,producer 和 consumer 可以通过它生产或者消费消息;

image.png

你可能感兴趣的:(【Pulsar 精选】从架构角度对比 Pulsar 和 Kafka)