大数据面试重点之kafka(六)
Kafka分区分配算法
可回答:Kafka的partition分区策略问过的一些公司:阿里云,小米参考答案:
1、生产者分区分配策略
生产者在将消息发送到某个Topic ,需要经过拦截器、序列化器和分区器( Partitioner )的一系列作用之后才能发送到对应的Broker,在发往Broker之前是需要确定它所发往的分区。
如果消息如果消息
指定了partition字段,那么就不需要分区器。
没有指定partition字段,那么就需要依赖分区器,根据key这个字段来
ProducerRecord
ProducerRecord
计算partition的值。分区器的作用就是为消息分配分区。
1 public class DefaultPartitioner implements Partitioner { 2
3 private final ConcurrentMap
4
43 if (currentCounter != null) {
44 // 之后把这个随机数返回
45 counter = currentCounter;
46 }
47 }
48 // 一旦存入了随机数之后,后续的请求均在该随机数的基础上+1之后进行返回
2、消费者分区分配策略
32
a. public Map
b. // 主题与消费者的映射
a. Map
b. Map
c. for (String memberId : subscriptions.keySet())
d. assignment.put(memberId, new ArrayList()); 7
276
82 RoundRobin策略
RoundRobin基于轮询算法,对应的实现类是
org.apache.kafka.clients.consumer.RoundRobinAssignor
首先,将所有主题的分区组成 TopicAndPartition 列表。
然后对TopicAndPartition列表按照hashCode进行排序某个topic。
假设,有两个消费者C0和C1,两个主题T0和T1,每个主题有3个分区,分配结果是:
C0将消费T0主题的0、2分区,以及T1主题的1分区。C1将消费T0主题的1分区,以及T1主题的0、2分区。
Kafka蓄水池机制
问过的一些公司:深信服参考答案:
Kafka中如何保证数据一致性?
可回答:Kafka的一致性
问过的一些公司:字节,美团参考答案:
不论是旧的Leader还是新选举产生的Leader,Consumer都能读到一样的数据,Kafka是通过引入
HW(High Water Mark)机制来保证数据一致性。
假设分区的副本为3,其中副本0是Leader,副本1和副本2是follower,并且在ISR列表里面,虽然副本0已 经写入了Message4,但是Consumer只能卖取到Message2。因为所有的ISR都同步了Message2,只有High Water Mark以上的消息才支持Consumer读取,而High Water Mark取决于ISR列表里面偏移量最小的分
区,对应于上图的副本2,这个很类似于木桶原理。
这样做的原因是还没有被足够多副本复制的消息被认为是“不安全”的,如果 Leader 发生崩溃,另一个副本成为新Leader,那么这些消息很可能丢失了。如果我们允许消费者读取这些消息,可能就会破坏一致 性。试想,一个消费者从当前Leader(副本0)读取并处理了Message4,这个时候Leader挂掉了,选举了 副本1为新的Leader,这时候另一个消费者再去从新的Leader读取消息,发现这个消息其实并不存在,这 就导致了数据不一致性的问题。
当然,引入了High Water Mark 机制,会导数Broker间的消息复制因为某些原因变慢,那么消息到达消费者的时间也会随之变长(因为我们会先等待消息复制完毕),延迟时间可以通过参数replica.lag.time.max.ms参数配置,它指定了副本在复制消息时可被允许的最大延迟时间。
Kafka新旧API区别
问过的一些公司:腾讯参考答案:
1、高级API
优点:
高级API写起来简单
不需要去自行去管理offset,系统通过zookeeper自行管理不需要管理分区,副本等情况,系统自动管理
消费者断线会自动根据上一次记录在zookeeper中的offset去接着获取数据
可以使用group来区分对访问同一个topic的不同程序访问分离开来(不同的group记录不同的
offset,这样不同程序读取同一个topic才不会因为offset互相影响)
缺点:
不能自行控制offset(对于某些特殊需求来说) 不能细化控制如分区、副本、zk 等
2、低级API
优点:
能够开发者自己控制offset,想从哪里读取就从哪里读取自行控制连接分区,对分区自定义进行负载均衡
对zookeeper 的依赖性降低(如:offset 不一定非要靠zk 存储,自行存储offset 即可,比如存在文件或者内存中)
缺点:
太过复杂,需要自行控制offset,连接哪个分区,找到分区leader等
Kafka消息在磁盘上的组织方式
问过的一些公司:字节参考答案:
Kafka中的消息是以主题为基本单位进行归类的,各个主题在逻辑上相互独立。每个主题又可以分为一 个或多个分区,分区的数量可以在主题创建的时候指定,也可以在之后修改。每条消息在发送的时候会 根据分区规则被追加到指定的分区中,分区中的每条消息都会被分配一个唯一的序列号,也就是通常所 说的偏移量(oGset),具有4个分区的主题的逻辑结构
如果分区规则设置得合理,那么所有的消息可以均匀地分布到不同的分区中,这样就可以实现水平扩 展。不考虑多副本的情况,一个分区对应一个日志(Log)。为了防止Log过大,Kafka又引入了日志分 段(LogSegment)的概念,将Log切分为多个LogSegment,相当于一个巨型文件被平均分配为多个相对 较小的文件,这样也便于消息的维护和清理。
事实上,Log和LogSegment也不是纯粹物理意义上的概念,Log在物理上只以文件夹的形式存储,而每个LogSegment对应于磁盘上的一个日志文件和两个索引文件,以及可能的其他文件(比如以“.txnindex”为 后缀的事务索引文件)。
Kafka在哪些地方会有选举过程,使用什么工具支持选举?
问过的一些公司:字节参考答案:
Kafka中的选举大致可以分为三大类:控制器的选举(先到先得)、分区leader的选举(ISR)以及消费 者相关的选举
1、控制器的选举
在Kafka集群中会有一个或多个broker,其中有一个broker会被选举为控制器(Kafka Controller),它负责管理整个集群中所有分区和副本的状态等工作。比如当某个分区的leader副本出现故障时,由控制器 负责为该分区选举新的leader副本。再比如当检测到某个分区的ISR集合发生变化时,由控制器负责通知 所有broker更新其元数据信息。
Kafka Controller的选举是依赖Zookeeper来实现的,在Kafka集群中哪个broker能够成功创建/controller这个临时(EPHEMERAL)节点他就可以成为Kafka Controller。
2、分区Leader的选举
分区leader副本的选举由Kafka Controller负责具体实施。当创建分区(创建主题或增加分区都有创建分区的动作)或分区上线(比如分区中原先的leader副本下线,此时分区需要选举一个新的leader上线来对 外提供服务)的时候都需要执行leader的选举动作。
基本思路是按照AR(Assigned Repllicas:分区中的所有副本)集合中副本的顺序查找第一个存活的副本,并且这个副本在ISR集合中。一个分区的AR集合在分配的时候就被指定,并且只要不发生重分配的 情况,集合内部副本的顺序是保持不变的,而分区的ISR集合中副本的顺序可能会改变。注意这里是根 据AR的顺序而不是ISR的顺序进行选举的。这个说起来比较抽象,有兴趣的读者可以手动关闭/开启某个 集群中的broker来观察一下具体的变化。
还有一些情况也会发生分区leader的选举,比如当分区进行重分配(reassign)的时候也需要执行leader 的选举动作。这个思路比较简单:从重分配的AR列表中找到第一个存活的副本,且这个副本在目前的 ISR列表中。
再比如当发生优先副本(preferred replica partition leader election)的选举时,直接将优先副本设置为leader即可,AR集合中的第一个副本即为优先副本。
还有一种情况就是当某节点被优雅地关闭(也就是执行ControlledShutdown)时,位于这个节点上的leader副本都会下线,所以与此对应的分区需要执行leader的选举。这里的具体思路为:从AR列表中找 到第一个存活的副本,且这个副本在目前的ISR列表中,与此同时还要确保这个副本不处于正在被关闭 的节点上。
3、消费者相关的选举
组协调器GroupCoordinator需要为消费组内的消费者选举出一个消费组的leader,这个选举的算法也很简 单,分两种情况分析。如果消费组内还没有leader,那么第一个加入消费组的消费者即为消费组的leader。如果某一时刻leader消费者由于某些原因退出了消费组,那么会重新选举一个新的leader,这个 重新选举leader的过程又更“随意”了,相关代码如下:
Kafka搭建过程要配置什么参数?
问过的一些公司:Bigo 参考答案:
Kafka的重要配置是在server.propertis文件中,具体如下:
1 #broker的全局唯一编号,不能重复
290
advertised.host.name:如果设置,则就作为broker 的hostname发往producer、consumers以及其他
brokers
advertised.port:此端口将给与producers、consumers、以及其他brokers,它会在建立连接时用到; 它仅在实际端口和server需要绑定的端口不一样时才需要设置。
socket.send.buffer.bytes:SO_SNDBUFF 缓存大小,server进行socket 连接所用,默认1001024。
socket.receive.buffer.bytes:SO_RCVBUFF缓存大小,server进行socket连接时所用。默认100 * 1024。
socket.request.max.bytes:server允许的最大请求尺寸;这将避免server溢出,它应该小于Java heap size。
num.partitions:如果创建topic时没有给出划分partitions个数,这个数字将是topic下partitions数目的默 认数值。默认1。
log.segment.bytes:topic partition的日志存放在某个目录下诸多文件中,这些文件将partition的日志切分成一段一段的;这个属性就是每个文件的最大尺寸;当尺寸达到这个数值时,就会创建新文件。此设 置可以由每个topic基础设置时进行覆盖。默认1014 1024 1024
log.roll.hours:即使文件没有到达log.segment.bytes,只要文件创建时间到达此属性,就会创建新文件。 这个设置也可以有topic层面的设置进行覆盖。默认247
log.cleanup.policy:log清除策略。默认delete。
log.retention.minutes和log.retention.hours:每个日志文件删除之前保存的时间。默认数据保存时间对所 有topic都一样。
log.retention.minutes 和 log.retention.bytes 都是用来设置删除日志文件的,无论哪个属性已经溢出。这个属性设置可以在topic基本设置时进行覆盖。
log.retention.bytes:每个topic下每个partition保存数据的总量。
注意,这是每个partitions的上限,因此这个数值乘以partitions的个数就是每个topic保存的数据总量。如 果log.retention.hours和log.retention.bytes都设置了,则超过了任何一个限制都会造成删除一个段文件。
注意,这项设置可以由每个topic设置时进行覆盖。
log.retention.check.interval.ms:检查日志分段文件的间隔时间,以确定是否文件属性是否到达删除要 求。默认5min。
log.cleaner.enable:当这个属性设置为false时,一旦日志的保存时间或者大小达到上限时,就会被删 除;如果设置为true,则当保存属性达到上限时,就会进行log compaction。默认false。
log.cleaner.threads:进行日志压缩的线程数。默认1。
log.cleaner.io.max.bytes.per.second:进行log compaction时,log cleaner可以拥有的最大I/O数目。这项设置限制了cleaner,以避免干扰活动的请求服务。
log.cleaner.io.buffer.size:log cleaner清除过程中针对日志进行索引化以及精简化所用到的缓存大小。最好设置大点,以提供充足的内存。默认500 1024 1024。
log.cleaner.io.buffer.load.factor:进行log cleaning时所需要的I/O chunk尺寸。你不需要更改这项设置。默认512*1024。
log.cleaner.io.buffer.load.factor:log cleaning中所使用的hash表的负载因子;你不需要更改这个选项。默认0.9
log.cleaner.backoff.ms:进行日志是否清理检查的时间间隔,默认15000。log.cleaner.min.cleanable.ratio:这项配置控制log compactor试图清理日志的频率(假定log compaction
是打开的)。
默认避免清理压缩超过50%的日志。这个比率绑定了备份日志所消耗的最大空间(50%的日志备份时压 缩率为50%)。更高的比率则意味着浪费消耗更少,也就可以更有效的清理更多的空间。这项设置在每 个topic设置中可以覆盖。
log.cleaner.delete.retention.ms:保存时间;保存压缩日志的最长时间;也是客户端消费消息的最长时 间,与log.retention.minutes的区别在于一个控制未压缩数据,一个控制压缩后的数据;会被topic创建时 的指定时间覆盖。
log.index.size.max.bytes:每个log segment的最大尺寸。注意,如果log尺寸达到这个数值,即使尺寸没有超过log.segment.bytes限制,也需要产生新的log segment。默认10 1024 1024。
log.index.interval.bytes:当执行一次fetch后,需要一定的空间扫描最近的offset,设置的越大越好,一般 使用默认值就可以。默认4096。
log.flush.interval.messages:log文件“sync”到磁盘之前累积的消息条数。
因为磁盘IO操作是一个慢操作,但又是一个“数据可靠性”的必要手段,所以检查是否需要固化到硬盘的 时间间隔。需要在“数据可靠性”与“性能”之间做必要的权衡,如果此值过大,将会导致每次“发sync”的 时间过长(IO阻塞),如果此值过小,将会导致“fsync”的时间较长(IO阻塞),导致”发sync“的次数较 多,这也就意味着整体的client请求有一定的延迟,物理server故障,将会导致没有fsync的消息丢失。
log.flush.scheduler.interval.ms:检查是否需要fsync的时间间隔。默认Long.MaxValue
log.flush.interval.ms:仅仅通过interval来控制消息的磁盘写入时机,是不足的,这个数用来控制” fsync“的时间间隔,如果消息量始终没有达到固化到磁盘的消息数,但是离上次磁盘同步的时间间隔达 到阈值,也将触发磁盘同步。
log.delete.delay.ms:文件在索引中清除后的保留时间,一般不需要修改。默认60000。
auto.create.topics.enable:是否允许自动创建topic。如果是true,则produce或者fetch 不存在的topic 时,会自动创建这个topic。否则需要使用命令行创建topic。默认true。
controller.socket.timeout.ms:partition管理控制器进行备份时,socket的超时时间。默认30000。controller.message.queue.size:controller-to-broker-channles的buffer尺寸,默认Int.MaxValue。default.replication.factor:默认备份份数,仅指自动创建的topics。默认1。
replica.lag.time.max.ms:如果一个follower在这个时间内没有发送fetch请求,leader将从ISR重移除这个follower,并认为这个follower已经挂了,默认10000。
replica.lag.max.messages:如果一个replica没有备份的条数超过这个数值,则leader将移除这个follower,并认为这个follower已经挂了,默认4000。
replica.socket.timeout.ms:leader 备份数据时的socket网络请求的超时时间,默认301000
replica.socket.receive.buffer.bytes:备份时向leader发送网络请求时的socket receive buffer。默认641024。
replica.fetch.max.bytes:备份时每次fetch的最大值。默认1024*1024。replica.fetch.max.bytes:leader发出备份请求时,数据到达leader的最长等待时间。默认500。replica.fetch.min.bytes:备份时每次fetch之后回应的最小尺寸。默认1。num.replica.fetchers:从leader备份数据的线程数。默认1。
replica.high.watermark.checkpoint.interval.ms:每个replica检查是否将最高水位进行固化的频率。默认5000.
fetch.purgatory.purge.interval.requests:fetch 请求清除时的清除间隔,默认1000 producer.purgatory.purge.interval.requests:producer请求清除时的清除间隔,默认1000
zookeeper.session.timeout.ms:zookeeper 会 话 超 时 时 间 。 默 认 6000 zookeeper.connection.timeout.ms:客户端等待和zookeeper建立连接的最大时间。默认6000 zookeeper.sync.time.ms:zk follower落后于zk leader的最长时间。默认2000
controlled.shutdown.enable:是否能够控制broker的关闭。如果能够,broker将可以移动所有leaders到 其他的broker上,在关闭之前。这减少了不可用性在关机过程中。默认true。
controlled.shutdown.max.retries:在执行不彻底的关机之前,可以成功执行关机的命令数。默认3. controlled.shutdown.retry.backoff.ms:在关机之间的backoff时间。默认5000
auto.leader.rebalance.enable:如果这是true,控制者将会自动平衡brokers对于partitions的leadership。 默认true。
leader.imbalance.per.broker.percentage:每个broker所允许的leader最大不平衡比率,默认10。leader.imbalance.check.interval.seconds: 检 查 leader 不 平 衡 的 频 率 , 默 认 300 offset.metadata.max.bytes: 允 许 客 户 端 保 存 他 们 offsets 的 最 大 个 数 。 默 认 4096 max.connections.per.ip:每个ip地址上每个broker可以被连接的最大数目。默认Int.MaxValue。max.connections.per.ip.overrides:每个ip或者hostname默认的连接的最大覆盖。connections.max.idle.ms: 空 连 接 的 超 时 限 制 , 默 认 600000 log.roll.jitter.{ms,hours}: 从 logRollTimeMillis 抽 离 的 jitter 最 大 数 目 。 默 认 0 num.recovery.threads.per.data.dir:每个数据目录用来日志恢复的线程数目。默认1。unclean.leader.election.enable:指明了是否能够使不在ISR中replicas设置用来作为leader。默认true delete.topic.enable:能够删除topic,默认false。
offsets.topic.num.partitions:默认50。由于部署后更改不受支持,因此建议使用更高的设置来进行生产
(例如100-200)。
offsets.topic.retention.minutes:存在时间超过这个时间限制的offsets都将被标记为待删除。默认1440。offsets.retention.check.interval.ms:offset管理器检查陈旧offsets的频率。默认600000。
offsets.topic.replication.factor:topic的offset的备份份数。建议设置更高的数字保证更高的可用性。默认 3
offset.topic.segment.bytes:offsets topic的segment尺寸。默认104857600
offsets.load.buffer.size:这项设置与批量尺寸相关,当从offsets segment中读取时使用。默认5242880
offsets.commit.required.acks:在offset commit可以接受之前,需要设置确认的数目,一般不需要更改。默认-1。
2、Kafka生产者配置参数
boostrap.servers:用于建立与kafka集群连接的host/port组。
数据将会在所有servers上均衡加载,不管哪些server是指定用于bootstrapping。 这 个 列 表 格 式 :host1:port1,host2:port2,… acks:此配置实际上代表了数据备份的可用性。
acks=0: 设置为0表示producer不需要等待任何确认收到的信息。副本将立即加到socket buffer并认为已经发送。没有任何保障可以保证此种情况下server已经成功接收数据,同时重试配置不会发生作用
acks=1: 这意味着至少要等待leader已经成功将数据写入本地log,但是并没有等待所有follower是否成功写入。这种情况下,如果follower没有成功备份数据,而此时leader又挂掉,则消息会丢失。
acks=all: 这意味着leader需要等待所有备份都成功写入日志,这种策略会保证只要有一个备份存活就不会丢失数据。这是最强的保证。
buffer.memory:producer可以用来缓存数据的内存大小。如果数据产生速度大于向broker发送的速度, producer会阻塞或者抛出异常,以“block.on.buffer.full”来表明。
compression.type:producer用于压缩数据的压缩类型。默认是无压缩。正确的选项值是none、gzip、snappy。压缩最好用于批量处理,批量处理消息越多,压缩性能越好。
retries:设置大于0的值将使客户端重新发送任何数据,一旦这些数据发送失败。注意,这些重试与客户 端接收到发送错误时的重试没有什么不同。
允许重试将潜在的改变数据的顺序,如果这两个消息记录都是发送到同一个partition,则第一个消息失 败第二个发送成功,则第二条消息会比第一条消息出现要早。
batch.size:producer将试图批处理消息记录,以减少请求次数。这将改善client与server之间的性能。这 项配置控制默认的批量处理消息字节数。
client.id:当向server发出请求时,这个字符串会发送给server。目的是能够追踪请求源头,以此来允许ip/port许可列表之外的一些应用可以发送信息。这项应用可以设置任意字符串,因为没有任何功能性的 目的,除了记录和跟踪。
linger.ms:producer组将会汇总任何在请求与发送之间到达的消息记录一个单独批量的请求。通常来 说,这只有在记录产生速度大于发送速度的时候才能发生。
max.request.size:请求的最大字节数。这也是对最大记录尺寸的有效覆盖。注意:server具有自己对消 息记录尺寸的覆盖,这些尺寸和这个设置不同。此项设置将会限制producer每次批量发送请求的数目, 以防发出巨量的请求。
receive.buffer.bytes:TCP receive缓存大小,当阅读数据时使用。send.buffer.bytes:TCP send缓存大小,当发送数据时使用。
timeout.ms:此配置选项控制server等待来自followers的确认的最大时间。如果确认的请求数目在此时间 内没有实现,则会返回一个错误。这个超时限制是以server端度量的,没有包含请求的网络延迟。
block.on.buffer.full:当我们内存缓存用尽时,必须停止接收新消息记录或者抛出错误。
默认情况下,这个设置为真,然而某些阻塞可能不值得期待,因此立即抛出错误更好。设置为false则会 这样:producer会抛出一个异常错误:BufferExhaustedException, 如果记录已经发送同时缓存已满。
metadata.fetch.timeout.ms:是指我们所获取的一些元素据的第一个时间数据。元素据包含:topic, host,partitions。此项配置是指当等待元素据fetch成功完成所需要的时间,否则会抛出异常给客户端。
metadata.max.age.ms:以微秒为单位的时间,是在我们强制更新metadata的时间间隔。即使我们没有看 到任何partition leadership改变。
metric.reporters:类的列表,用于衡量指标。实现MetricReporter接口,将允许增加一些类,这些类在新 的衡量指标产生时就会改变。JmxReporter总会包含用于注册JMX统计
metrics.num.samples:用于维护metrics的样本数。
metrics.sample.window.ms:metrics系统维护可配置的样本数量,在一个可修正的window size。这项配置配置了窗口大小,例如。我们可能在30s的期间维护两个样本。当一个窗口推出后,我们会擦除并重 写最老的窗口。
recoonect.backoff.ms:连接失败时,当我们重新连接时的等待时间。这避免了客户端反复重连。retry.backoff.ms:在试图重试失败的produce请求之前的等待时间。避免陷入发送-失败的死循环中。
3、Kafka消费者配置参数
group.id:用来唯一标识consumer进程所在组的字符串,如果设置同样的group id,表示这些processes
都是属于同一个consumer group。
zookeeper.connect:指定zookeeper的连接的字符串,格式是hostname:port, hostname:port… consumer.id:不需要设置,一般自动产生
socket.timeout.ms:网络请求的超时限制。真实的超时限制是max.fetch.wait+socket.timeout.ms。默认3000
socket.receive.buffer.bytes:socket用于接收网络请求的缓存大小。默认641024。fetch.message.max.bytes:每次fetch请求中,针对每次fetch消息的最大字节数。默认10241024
这些字节将会督导用于每个partition的内存中,因此,此设置将会控制consumer所使用的memory大 小。
这个fetch请求尺寸必须至少和server允许的最大消息尺寸相等,否则,producer可能发送的消息尺寸大 于consumer所能消耗的尺寸。
num.consumer.fetchers:用于fetch数据的fetcher线程数。默认1
auto.commit.enable:如果为真,consumer所fetch的消息的offset将会自动的同步到zookeeper。这项提 交的offset将在进程挂掉时,由新的consumer使用。默认true。
auto.commit.interval.ms:consumer向zookeeper提交offset的频率,单位是秒。默认60*1000。
queued.max.message.chunks:用于缓存消息的最大数目,每个chunk必须和fetch.message.max.bytes相 同。默认2。
rebalance.max.retries:当新的consumer加入到consumer group时,consumers集合试图重新平衡分配到每个consumer的partitions数目。如果consumers集合改变了,当分配正在执行时,这个重新平衡会失败 并重入。默认4
fetch.min.bytes:每次fetch请求时,server应该返回的最小字节数。如果没有足够的数据返回,请求会等 待,直到足够的数据才会返回。
fetch.wait.max.ms:如果没有足够的数据能够满足fetch.min.bytes,则此项配置是指在应答fetch请求之 前,server会阻塞的最大时间。默认100
rebalance.backoff.ms:在重试reblance之前backoff时间。默认2000
refresh.leader.backoff.ms:在试图确定某个partition的leader是否失去他的leader地位之前,需要等待的backoff时间。默认200
auto.offset.reset:zookeeper中没有初始化的offset时,如果offset是以下值的回应: lastest:自动复位offset为lastest的offset
earliest:自动复位offset为earliest的offset none:向consumer抛出异常
consumer.timeout.ms:如果没有消息可用,即使等待特定的时间之后也没有,则抛出超时异常
exclude.internal.topics:是否将内部topics的消息暴露给consumer。默认true。
paritition.assignment.strategy:选择向consumer 流分配partitions的策略,可选值:range,roundrobin。默认range。
client.id:是用户特定的字符串,用来在每次请求中帮助跟踪调用。它应该可以逻辑上确认产生这个请 求的应用。
zookeeper.session.timeout.ms:zookeeper 会话的超时限制。默认6000
如果consumer在这段时间内没有向zookeeper发送心跳信息,则它会被认为挂掉了,并且reblance将会产 生
zookeeper.connection.timeout.ms:客户端在建立通zookeeper连接中的最大等待时间。默认6000 zookeeper.sync.time.ms:ZK follower 可 以 落 后 ZK leader 的 最 大 时 间 。 默 认 1000 offsets.storage:用于存放offsets的地点: zookeeper或者kafka。默认zookeeper。
offset.channel.backoff.ms:重新连接offsets channel或者是重试失败的offset的fetch/commit请求的backoff
时间。默认1000
offsets.channel.socket.timeout.ms:当读取offset的fetch/commit请求回应的socket 超时限制。此超时限制是被consumerMetadata请求用来请求offset管理。默认10000。
offsets.commit.max.retries:重试offset commit的次数。这个重试只应用于offset commits在shut-down之间。默认5。
dual.commit.enabled:如果使用“kafka”作为offsets.storage,你可以二次提交offset到zookeeper(还有一次 是提交到kafka)。
在zookeeper-based的offset storage到kafka-based的offset storage迁移时,这是必须的。对任意给定的consumer group来说,比较安全的建议是当完成迁移之后就关闭这个选项
partition.assignment.strategy:在“range”和“roundrobin”策略之间选择一种作为分配partitions给consumer 数据流的策略。
循环的partition分配器分配所有可用的partitions以及所有可用consumer线程。它会将partition循环的分 配到consumer线程上。如果所有consumer实例的订阅都是确定的,则partitions的划分是确定的分布。
循环分配策略只有在以下条件满足时才可以
Kafka的单播和多播
问过的一些公司:猿辅导参考答案:
1、单播
一条消息只能被某一个消费者消费的模式称为单播。要实现消息单播,只要让这些消费者属于同一个消 费者组即可。当生产者发送一条消息时,两个消费者中只有一个能收到消息。
2、多播
一条消息能够被多个消费者消费的模式称为多播。之所以不称之为广播,是因为一条消息只能被Kafka 同一个分组下某一个消费者消费,而不是所有消费者都能消费,所以从严格意义上来讲并不能算是广播 模式,当然如果希望实现广播模式只要保证每个消费者均属于不同的消费者组。针对Kafka同一条消息 只能被同一个消费者组下的某一个消费者消费的特性,要实现多播只要保证这些消费者属于不同的消费 者组即可。然后通过生产者发送几条消息,可以看到不同消费者组的消费者同时能消费到消息,然而同 一个消费者组下的消费者却只能有一个消费者能消费到消息。
Kafka的高水位和Leader Epoch
问过的一些公司:ebay 参考答案:
高水位(High Watermark),通常被用在流式处理领域(比如Apache Flink、Apache Spark等),以表征元素或事件在基于时间层面上的进度。一个比较经典的表述为:流式系统保证在水位t时刻,创建时间
(event time) = t’且t’ ≤ t的所有事件都已经到达或被观测到。在Kafka中,水位的概念反而与时间无关,而是与位置信息相关。严格来说,它表示的就是位置信息,即位移(oGset)。通俗的说下HW作 用:Kafka使用HW值来决定副本备份的进度
Kafka分区下有可能有很多个副本(replica)用于实现冗余,从而进一步实现高可用。副本根据角色的不同 可分为3类:
leader副本:响应clients端读写请求的副本
follower副本:被动地备份leader副本中的数据,不能响应clients端读写请求。
ISR副本:包含了leader副本和所有与leader副本保持同步的follower副本——如何判定是否与leader
同步后面会提到
每个Kafka副本对象都有两个重要的属性:LEO和HW。注意是所有的副本,而不只是leader副本。
LEO:即日志末端位移(log end offset),记录了该副本底层日志(log)中下一条消息的位移值。注意是下一条消息!也就是说,如果LEO=10,那么表示该副本保存了10条消息,位移值范围是[0, 9]。另外,leader LEO和follower LEO的更新是有区别的。
HW:即上面提到的水位值。对于同一个副本对象而言,其HW值不会大于LEO值。小于等于HW值的 所有消息都被认为是“已备份”的(replicated)。同理,leader副本和follower副本的HW更新也是有 区别的。
通过下图我们来了解下LEO和HW两者的关系:
上图中,HW值是7,表示位移是0 ~ 7的所有消息都已经处于“已备份状态”(committed),而LEO值是15,那么8~14的消息就是尚未完全备份(fully replicated)——为什么没有15?因为刚才说过了,LEO指向的是下一条消息到来时的位移,故上图使用虚线框表示。我们总说consumer无法消费未提交消息。这 句话如果用以上名词来解读的话,应该表述为:consumer无法消费分区下leader副本中位移值大于分区 HW的任何消息。这里需要特别注意分区HW就是leader副本的HW值。
1、follower副本何时更新LEO?
如前所述,follower副本只是被动地向leader副本请求数据,具体表现为follower副本不停地向leader副本 所在的broker发送FETCH请求,一旦获取消息后写入自己的日志中进行备份。那么follower副本的LEO是 何时更新的呢?Kafka有两套follower副本LEO:1. 一套LEO保存在follower副本所在broker的副本管理机中;2. 另一套LEO保存在leader副本所在broker的副本管理机中——换句话说,leader副本机器上保存了所有的follower副本的LEO。
为什么要保存两套?这是因为Kafka使用前者帮助follower副本更新其HW值;而利用后者帮助leader副本 更新其HW使用。下面我们分别看下它们被更新的时机。
83 follower副本端的follower副本LEO何时更新?
follower副本端的LEO值就是其底层日志的LEO值,也就是说每当新写入一条消息,其LEO值就会被更新 (类似于LEO += 1)。当follower发送FETCH请求后,leader将数据返回给follower,此时follower开始向底层log写数据,从而自动地更新LEO值。
84 leader副本端的follower副本LEO何时更新?
leader副本端的follower副本LEO的更新发生在leader在处理follower FETCH请求时。一旦leader接收到follower发送的FETCH请求,它首先会从自己的log中读取相应的数据,但是在给follower返回数据之前它 先去更新follower的LEO(即上面所说的第二套LEO)。
2、follower副本何时更新HW?
follower更新HW发生在其更新LEO之后,一旦follower向log写完数据,它会尝试更新它自己的HW值。具 体算法就是比较当前LEO值与FETCH响应中leader的HW值,取两者的小者作为新的HW值。这告诉我们一 个事实:如果follower的LEO值超过了leader的HW值,那么follower HW值是不会越过leader HW值的。
3、leader副本何时更新LEO?
和follower更新LEO道理相同,leader写log时就会自动地更新它自己的LEO值。
4、leader副本何时更新HW值?
前面说过了,leader的HW值就是分区HW值,因此何时更新这个值是我们最关心的,因为它直接影响了 分区数据对于consumer的可见性 。以下4种情况下leader会尝试去更新分区HW——切记是尝试,有可能因为不满足条件而不做任何更新:
副本成为leader副本时:当某个副本成为了分区的leader副本,Kafka会尝试去更新分区HW。这是 显而易见的道理,毕竟分区leader发生了变更,这个副本的状态是一定要检查的!不过,本文讨论 的是当系统稳定后且正常工作时备份机制可能出现的问题,故这个条件不在我们的讨论之列。broker出现崩溃导致副本被踢出ISR时:若有broker崩溃则必须查看下是否会波及此分区,因此检查 下分区HW值是否需要更新是有必要的。本文不对这种情况做深入讨论
producer向leader副本写入消息时:因为写入消息会更新leader的LEO,故有必要再查看下HW值是 否也需要修改
leader处理follower FETCH请求时:当leader处理follower的FETCH请求时首先会从底层的log读取数据,之后会尝试更新分区HW值
特别注意上面4个条件中的最后两个。它揭示了一个事实——当Kafka broker都正常工作时,分区HW值的更新时机有两个:leader处理PRODUCE请求时和leader处理FETCH请求时。另外,leader是如何更新它的 HW值的呢?前面说过了,leader broker上保存了一套follower副本的LEO以及它自己的LEO。当尝试确定分区HW时,它会选出所有满足条件的副本,比较它们的LEO(当然也包括leader自己的LEO),并选择最小 的LEO值作为HW值。这里的满足条件主要是指副本要满足以下两个条件之一:
处于ISR中
副本LEO落后于leader LEO的时长不大于replica.lag.time.max.ms参数值(默认是10s)
乍看上去好像这两个条件说得是一回事,毕竟ISR的定义就是第二个条件描述的那样。但某些情况下
Kafka的确可能出现副本已经“追上”了leader的进度,但却不在ISR中——比如某个从failure中恢复的副
本。如果Kafka只判断第一个条件的话,确定分区HW值时就不会考虑这些未在ISR中的副本,但这些副本 已经具备了“立刻进入ISR”的资格,因此就可能出现分区HW值越过ISR中副本LEO的情况——这肯定是不允 许的,因为分区HW实际上就是ISR中所有副本LEO的最小值。
下面举个实际的例子。我们假设有一个topic,单分区,副本因子是2,即一个leader副本和一个follower 副本。我们看下当producer发送一条消息时,broker端的副本到底会发生什么事情以及分区HW是如何被 更新的。
下图是初始状态,稍微解释一下:初始时leader和follower的HW和LEO都是0(严格来说源代码会初始化 LEO为-1,不过这不影响之后的讨论)。leader中的remote LEO指的就是leader端保存的follower LEO,也被初始化成0。此时,producer没有发送任何消息给leader,而follower已经开始不断地给leader发送FETCH请求了,但因为没有数据因此什么都不会发生。值得一提的是,follower发送过来的FETCH请求因
为无数据而暂时会被寄存到leader端的purgatory中,待500ms(replica.fetch.wait.max.ms参数)超时后会强 制完成。倘若在寄存期间producer端发送过来数据,那么会Kafka会自动唤醒该FETCH请求,让leader继 续处理之。
因为FETCH请求发送和PRODUCE请求处理的时机会影响后面的一些内容。因此后续我们也将分两种情况 来讨论分区HW的更新。
第一种情况:follower发送FETCH请求在leader处理完PRODUCE请求之后
producer给该topic分区发送了一条消息。此时的状态如下图所示:
如图所示,leader接收到PRODUCE请求主要做两件事情:
把消息写入写底层log(同时也就自动地更新了leader的LEO)
尝试更新leader HW值(前面leader副本何时更新HW值一节中的第三个条件触发)。我们已经假设此时follower尚未发送FETCH请求,那么leader端保存的remote LEO依然是0,因此leader会比较它自己的LEO值和remote LEO值,发现最小值是0,与当前HW值相同,故不会更新分区HW值
所以,PRODUCE请求处理完成后leader端的HW值依然是0,而LEO是1,remote LEO是1。假设此时follower发送了FETCH请求(或者说follower早已发送了FETCH请求,只不过在broker的请求队列中排队), 那么状态变更如下图所示:
本例中当follower发送FETCH请求时,leader端的处理依次是:
a. 读取底层log数据
b. 更新remote LEO = 0(为什么是0? 因为此时follower还没有写入这条消息。leader如何确认follower 还未写入呢?这是通过follower发来的FETCH请求中的fetch offset来确定的)
c. 尝试更新分区HW——此时leader LEO = 1,remote LEO = 0,故分区HW值= min(leader LEO, follower
remote LEO) = 0
a. 把数据和当前分区HW值(依然是0)发送给follower副本而follower副本接收到FETCH response后依次执行下列操作:
当leader写底层log时它会尝试更新整个缓存——如果这个leader首次写消息,则会在缓存中增加一个条 目;否则就不做更新。而每次副本重新成为leader时会查询这部分缓存,获取出对应leader版本的位移, 这就不会发生数据不一致和丢失的情况。
下面使用图的方式来说明下利用leader epoch如何规避上述两种情况
88 规避数据丢失
上图左半边已经给出了简要的流程描述,这里不详细展开具体的leader epoch实现细节(比如OffsetsForLeaderEpochRequest的实现),我们只需要知道每个副本都引入了新的状态来保存自己当leader时开始写入的第一条消息的offset以及leader版本。这样在恢复的时候完全使用这些信息而非水位 来判断是否需要截断日志。
89 规避数据不一致