本系列文章为对《Kafka:The Definitive Guide》的学习整理,希望能够帮助到大家
在之前系列文章中,我们讨论了一个Kafka集群的搭建、维护和使用,而在实际情况中我们往往拥有多个Kafka集群,而且这些Kafka集群很可能是相互隔离的。一般来说,这些集群之间不需要进行数据交流,但如果在某些情况下这些集群之间存在数据依赖,那么我们可能需要持续的将数据从一个集群复制到另一个集群。而由于“复制”这个术语已经被用于描述同一集群内的副本冗余,因此我们将跨集群的数据复制称为数据镜像(Mirroring)。另外,Kafka中内置的跨集群数据复制器称为MirrorMaker。
以下为跨集群数据镜像的一些典型用户场景:
上面列举了多集群的用户场景,现在来看下多集群的常见架构。但在讨论架构前,先来了解跨集群通信的一些现实因素。
Kafka的broker和生产者/消费者客户端都是基于一个集群来进行性能调优的,也就是说在低延迟和高吞吐的假设前提下,经过测试与验证从而得到了Kafka的超时和缓冲区默认值。因此,一般我们不推荐同一个集群的不同broker处于多个数据中心。大多数情况下,由于高延迟和网络错误,最好避免生产数据到另一个集群。当然,我们可以通过提高重试次数、增加缓冲区大小等手段来处理这些问题。
这么看,broker跨集群、生产者-broker跨集群这两种方案都被否决了,那么对于跨集群数据镜像,我们只剩下一种方案:broker-消费者跨集群。这种方案是最安全的,因为即便存在网络分区导致消费者不能消费数据,这些数据仍然保留在broker中,当网络恢复后消费者仍然可以读取。也就是说,无论网络状况如何,都不会造成数据丢失。另外,如果存在多个应用需要读取另一个集群的数据,我们可以在每个数据中心都搭建一个Kafka集群,使用集群数据镜像来只同步一次数据,然后应用从本地集群中消费数据,避免重复读取数据浪费广域网带宽。
下面是跨集群架构设计的一些准则:
下面是多个本地集群和一个中心集群的架构:
简单情况下只存在两个集群,即主集群和副本集群:
这种架构适用于,数据分布在多个数据中心而某些应用需要访问整体数据集。另外每个数据中心的应用可以处理本地数据,但无法访问全量数据。这种架构的主要优点在于,数据生产到本地,而且跨集群只复制一次数据(到中心集群)。只依赖本地数据的应用可以部署在本地集群,而依赖多数据中心的应用则部署在中心集群。这种架构也非常简单,因为数据流向是单向的,这使得部署、运维和监控非常容易。
它的主要缺点在于,区域的集群不能访问另一个集群的数据。比如,我们在每个城市维护一个Kafka集群来保存银行的用户信息和账户历史,并且将这些数据同步到中心集群以便做银行的商业分析。当用户访问本地的银行分支网站时,这些请求可以被分发到本地集群处理;但如果用户访问异地的银行分支网站时,要么该异地集群跟中心集群通信(此种方式不建议),要么直接拒绝请求(是的非常尴尬)。
这种架构适用于多个集群共享数据,如下所示:
此架构主要优点在于,每个集群都可以处理用户的任何请求并且不阉割产品功能(与前一种架构对比),而且就近处理用户请求,响应时间可以大大降低。其次,由于数据冗余与弹性控制,一个集群出现故障,可以把用户请求导流到别的集群进行处理。
此架构主要缺点在于,由于多个集群都可以处理用户请求,异步的数据读取和更新无法保证全局数据一致性。下面列举一些可能会遇到的挑战:
如果我们找到多集群异步读写的数据一致性问题,那么这种架构是最好的,因为它是可扩展的、弹性的,并且相对于冷热互备来说性价比也不错。
多活架构的另一个挑战是,如果存在多个数据中心,那么每一对中心都需要通信链路。也就是说,如果有5个数据中心,那么总共需要部署20个镜像进程来处理数据复制;如果考虑高可用,那么可能需要40个。
另外,我们需要避免事件被循环复制和处理。对于这个问题,我们可以将一个逻辑概念的主题拆分成多个物理主题,并且一个物理主题与一个数据中心对应。比如,users这个逻辑主题可以拆分成SF.users和NYC.users这两个物理主题,每个主题对应一个数据中心;NYC的镜像进程从SF的SF.users读取数据到本地,SF的镜像进程从NYC的NYC.users读取数据到本地。因此每个事件都只会被复制一次,而且每个数据中心都包含SF.users和NYC.users主题,并且包含全量的users数据。消费者如果需要获取全量的users数据,那么需要消费所有本地.users主题的数据。
需要提醒的是,Kafka正在计划添加记录头部,允许我们添加标记信息。我们在生产消息时可以加上数据中心的标记,这样也可以避免循环数据复制。当然,我们也可以自己在消息体中增加标记信息进行过滤,但缺点是当前的镜像工具并不支持,我们得自己开发复制逻辑。
有时候,多集群是为了防止单点故障。比如说,我们可能有两个集群,其中集群A处于服务状态,另一个集群B通过数据镜像来接收集群A所有的事件,当集群A不可用时,B可以启动服务。在这种场景中,集群B包含了数据的冷备份。架构如下所示:
这种架构的优点在于搭建简单并且适用于多种场景。我们只需搭建第二个集群,设置一个镜像进程来将源集群的所有事件同步到该集群即可,并且不用担心发生数据冲突。缺点在于,我们浪费了一个集群资源,因为集群故障通常很少发生。一些公司会选择搭建低配的备份集群,但这样会存在一个风险,那就是无法保证出现紧急情况时该备份集群是否能支撑所有服务;另一些公司则选择适当利用备份集群,那就是把一些读取操作转移到备份集群。
集群故障转移也具有一些挑战性。但无论我们选择何种故障转移方案,SRE团队都需要进行日常的故障演练。因为,即便今天故障转移是有效的,在进行系统升级之后很可能失效了。一个季度进行一次故障转移演练是最低限度,强大的SRE团队会演练更频繁,Netflix著名的Chaos Monkey玩的更溜,它会随机制造故障,也就是说故障每天都可能发生。
下面来看下故障转移比较具有挑战性的地方。
数据损失与不一致
很多Kafka的数据镜像解决方案都是异步的,也就是说备份集群不会包含主集群最新的消息。在一个高并发的系统中,备份集群可能落后主集群几百甚至上千条消息。假如集群每秒处理100万条消息,备份集群与主集群之间有5ms的落后,那么在理想情况下备份集群也落后将近5000条消息。因此,我们需要对故障转移时的数据丢失做好准备。当然在故障演练时,我们停止主集群之后,可以等待数据镜像进程接收完剩余的消息,再进行故障转移,避免数据丢失。另外,Kafka不支持事务,如果多个主题的数据存在关联性,那么在数据丢失的情况下可能会导致不一致,因此应用需要注意处理这种情况。
故障转移的开始消费位移
在故障转移中,其中一个挑战就是如何决定应用在备份集群的开始消费位移。下面来讨论几个可选的方案。
故障转移之后
假如故障顺利转移到备份集群,并且备份集群正常工作,那么原主集群应该怎么处理呢?可能需要将其转化为备份集群。你可能会想,能不能简单修改数据镜像工具,让其换个同步方向,从新的主集群同步数据到老的主集群?这样会导致两个问题:
因此,最简单的解决方案是,清除老主集群的所有状态和数据,然后重新与新主集群进行数据镜像,这样可以保证这两个集群的状态是一致的。
其他事项
故障转移还有一个需要注意的地方是,应用如何切换与备份集群进行通信?如果我们在代码中直接硬编码主集群的broker,那么故障转移比较麻烦。因此,很多公司会创建一个DNS名称来解析到主集群的broker,当故障转移时将DNS解析到备份集群的broker。由于Kafka客户端只需要成功连接到集群的一个broker便可通过该broker发现整个集群,因此我们创建3个左右的DNS解析到broker即可。
延伸集群主要用来防止单个数据中心故障导致Kafka服务不可用,其解决方案为:将一个Kafka集群分布在多个数据中心。因此延伸集群与其他集群方案有本质的区别,它就是一个Kafka集群。在这种方案中,我们不需要数据镜像来同步,因为Kafka本身就有复制机制,并且是同步复制的。在生产者发送消息时,我们可以通过配置分区机架信息、min.isr、acks=all来使得数据写入到至少两个数据中心副本后,才返回成功。
这种方案的优点是,多个数据中心的数据是实时同步的,而且不存在资源浪费问题。由于集群跨数据中心,为了得到最好的服务性能,数据中心间需要搭建高质量的通信设施以便得到低延迟和高吞吐,部分公司可能无法提供。
另外需要注意的是,一般需要3个数据中心,因为Kafka依赖的Zookeeper需要奇数的节点来保证服务可用性,只要有超过一半的节点存活,服务即可用。如果我们只有两个数据中心,那么肯定其中一个数据中心拥有多数的Zookeeper节点,那么该数据中心发生故障的话服务便不可用;如果拥有三个数据中心并且Zookeeper节点均匀分布,那么其中一个数据中心发生故障,服务仍然可用。
Kafka内置了一个用于集群间做数据镜像的简单工具–MirrorMaker,它的核心是一个包含若干个消费者的消费组,该消费组从指定的主题中读取数据,然后使用生产者把这些消息推送到另一个集群。每个消费者负责一部分主题和分区,而生产者则只需要一个,被这些消费者共享;每隔60秒消费者会通知生产者发送消息数据,然后等待另一个集群的Kafka接收写入这些数据;最后这些消费者提交已写入消息的位移。MirrorMaker保证数据不丢失,而且在发生故障时不超过60秒的数据重复。内部架构如下所示:
首先,MirrorMaker依赖消费者和生产者,因此消费者和生产者的配置属性对MirrorMaker也适用。另外,MirrorMaker也有自身的属性需要配置。先来看一个配置的代码样例:
bin/kafka-mirror-maker --consumer.config etc/kafka/consumer.properties --producer.config etc/kafka/producer.properties --new.consumer --num.streams=2 --whitelist ".\*"
上面的例子展示了如何使用命令行启动MirrorMaker,当在生产环境中部署MirrorMaker时,你可能会使用nohub和输出重定向来将使得它在后台运行,不过MirrorMaker已经包含-daemon参数来指定后台运行模式。很多公司都有自己的部署运维系统,比如Ansible,Puppet,Chef,Salt等等。一个更为高级的部署方案是使用Docker来运行MirrorMaker,而且越来越流行。MirrorMaker本身是无状态的,不需要任何磁盘存储,并且这种方案可以使一台机器运行多个MirrorMaker(也就是说运行多个Docker)。对于一个MirrorMaker来说,它的吞吐瓶颈在于只有一个生产者,因此使用多个MirrorMaker可以提高吞吐,而使用Docker部署多个MirrorMaker尤其方便。另外,Docker也可以支持业务洪峰低谷的弹性伸缩。
如果允许的话,建议将MirrorMaker部署在目标集群内,这是因为如果一旦发生网络分区,消费者与源集群断开连接比生产者与目标集群断开连接要安全。如果消费者断开连接,那么只是当前读取不到数据,但是数据仍然在源集群内,并不会丢失;而生产者断开连接,MirrorMaker便生产不了数据,如果MirrorMaker本身处理不当,可能会丢失数据。
但对于在集群间需要加密传输数据的场景来说,将MirrorMaker部署在源集群也是个可以考虑的方案。这是因为在Kafka中使用SSL进行加密传输时,消费者相比生产者来说性能受影响更大。因此我们可以在源集群内部broker到MirrorMaker的消费者间不使用SSL加密,而在MirrorMaker跨集群生产数据时使用SSL加密,这样可以将SSL的性能影响降到最低。另外,尽量配置acks=all和足够的重试次数来降低数据丢失的风险,而且如果MirrorMaker一旦发送消息失败最好让其暂时退出,避免丢失数据。
为了降低目标集群和源集群的消息延迟,建议将MirrorMaker部署在两台不同的机器上并且使用相同的消费组,这样一台发生故障另外一台仍然可以保证服务正常。
在生产环境中部署MirrorMaker时,监控是很重要的,下面是一些重要的监控指标:
延迟监控
延迟是指目标集群与源集群的消息落后间隔,间隔值通过计算源集群最新的消息与目标集群最新的消息来得到。下图中源集群最新的消息位移是7,目标集群最新的消息位移是5,延迟间隔为2。
有两种方式来监控此指标,但各有优缺点:
指标监控
MirrorMaker中包含消费者和生产者,它们都有许多指标,建议在生产环境中收集跟踪这些指标。 Kafka文档列举了所有可用的指标,下面是一些比较重要的指标:
Canary
如果你已经监控了所有的指标,那么Canary不是必须的。但我们仍然推荐在生产环境中使用Canary,因为它能提供整体的监控。Canary每分钟发送一个事件到源集群,然后尝试从目标集群读取该事件,如果时间间隔超过阈值就会发出报警信息,因为这意味着MirrorMaker数据镜像存在问题。
首先MirrorMaker的集群大小需要依赖所需要满足的吞吐量和延迟。如果不能忍受延迟,那么你可能需要尽可能部署多的MirrorMaker以便处理流量洪峰;如果能忍受一定的延迟,那么MirrorMaker处理洪峰的75%-80%或者95%-99%就可以了,洪峰的延迟会在低谷时慢慢降低。
现在我们来评估MirrorMaker的消费者线程数,也就是num.streams所指定的值。LinkedIn的经验值是8个消费者线程可以达到6MB/s的处理速度,16个消费者线程可以达到12MB/s的速度,但这个经验值不是通用的,因为它受硬件配置影响。因此我们需要自己做压力测试,Kafka中内置有kafka-performance-producer,可以使用它作为生产者来发送压测事件到源集群,然后测试MirrorMaker在1,2,4,8,16,24,32个线程下的性能,当增加线程数不能提高性能时即取得极值,配置的线程数需要小于这个极值即可。如果我们发送的消息是经过压缩的,那么MirrorMaker的消费者需要解压然后生产者重新压缩,这个过程会消耗CPU,因此在测试过程中也需要关注CPU负载情况。这个过程可以测试单个MirrorMaker的性能,如果以集群形态部署,那么我们需要对多个MirrorMaker的集群进行性能压测。
另外,核心的主题可能需要尽可能降低延迟,对于这种情况建议在部署MirrorMaker时进行隔离,防止别的大流量主题影响到核心主题。
上面是基本的性能调优,一般能满足业务需求了。但我们其实还可以进一步提高MirrorMaker的性能。在使用MirrorMaker做跨集群数据镜像时,我们可以对网络参数进行性能调优:
网络性能调优是一个复杂的过程,感兴趣的可以参考《Performance Tuning for Linux Servers》这本书。
另外,如果需要对MirrorMaker的生产者和消费者进行性能调优的话,我们得首先了解性能瓶颈究竟是在于生产者还是消费者。一个方法是监控生产者和消费者指标,如果发现一个空闲而另一个负载非常高,那么就知道瓶颈在哪了。或者我们可以使用jstack来对线程栈进行多次采样,看MirrorMaker究竟主要耗费时间在poll消息还是send消息,然后再进行优化。
如果想优化生产者,那么下面是一些比较重要的属性配置:
如果想优化消费者,下面是一些比较重要的属性配置:
上面深入讨论了MirrorMaker的方案,但如前所述MirrorMaker有自身的局限性和缺点,下面来看下MirrorMaker的替代方案以及它们是如何解决MirrorMaker所遇到的问题的。
Uber大规模使用MirrorMaker,随着主题增多和集群规模增长,他们遇到了一些问题:
基于上述的问题,Uber开发了uReplicator来替代MirrorMaker,他们使用Apache Helix来管理分配到uReplicator的主题和分区,并且使用REST API来在Helix中新增主题。Uber使用自身研发的Helix消费者来替代MirrorMaker中的消费者,Helix消费者从Helix中获取分区,并且监听Helix的分区改动事件,以此来避免原生的消费者重平衡。
Uber写了一篇 博客来描述这个架构,并且详细说明了这种方案的改进之处。
在Uber开发uReplicator的同时,Confluent公司也在开发Replicator。虽然这两者名称基本相同,但是它们的侧重点却是不一样的。Confluent公司的Replicator主要是解决商业上遇到的多集群部署维护问题:
为了降低运维复杂性,Confluent公司研发了Replicator,它是Kafka Connect的一种connector,与从数据库读取的connector不同的是,Replicator从Kafka集群中读取数据。Kafka Connect框架中的connector会将整体工作拆分成多个task,其中每个任务是一对