kafka高性能详解

  • 高效使用磁盘
  • 零拷贝
  • 批处理和压缩
  • Partition
  • ISR
     
  1. .高效使用磁盘

      1.1. 顺序写磁盘 顺序写磁盘性能高于随机写内存
      1.2.Append Only 数据不更新,无记录级的数据删除(只会整个segment删除)
      1.3.充分利用Page Cache
             I/O Scheduler将连续的小块写组装成大块的物理写从而提高性能
             I/O Scheduler会尝试将一些写操作重新按顺序排好,从而减少磁盘头的移动时间
            充分利用所有空闲内存(非JVM内存)
                  应用层cache也会有对应的page cache与之对应,直接使用page cache可增大可用cache
                  如使用heap内的cache,会增加GC负担
            读操作可直接在page cache内进行。如果进程重启,JVM内的cache会失效,但page cache仍然可用
            可通过如下参数强制flush,但并不建议这么做
                   log.flush.interval.messages=10000
                   log.flush.interval.ms=1000
      1.4.支持多Directory(可使用多Drive)

     2. 零拷贝

         2.1. 传统模式下数据从文件传输到网络需要4次数据拷贝,4次上下文切换和2次系统调用
               File.read(fileDesc, buf, len);
               Socket.send(socket, buf, len);

           kafka高性能详解_第1张图片

2.2.通过NIO的transferTo/transferFrom调用操作系统的sendfile实现零拷贝。总共发生2次内
核数据拷贝,2次上下文切换和1次系统调用,消除了CPU数据拷贝.

public void transferTo(long position, long count, WritableByteChannel target);
kafka高性能详解_第2张图片

3.批处理和压缩

    Producer和Consumer均支持批量处理数据,从而减少了网络传输的开销
    Producer可将数据压缩后发送给broker,从而减少网络传输代价。目前支持Snappy, Gzip和LZ4压缩

4.Partition

     通过Partition实现了并行处理和水平扩展
     Partition是Kafka(包括Kafka Stream)并行处理的最小单位
    不同Partition可处于不同的Broker(节点),充分利用多机资源
     同一Broker(节点)上的不同Partition可置于不同的Directory,如果节点上有多个Disk Drive,可将不同的Drive对应不同的     Directory,从而使Kafka充分利用多Disk Drive的磁盘优势

5.ISR
5.1.ISR实现了可用性和一致性的动态平衡
      replica.lag.time.max.ms=10000
      replica.lag.max.messages=4000(新版本已经去除,只用时间控制)

5.2.ISR可容忍更多的节点失败
     Majority Quorum如果要容忍f个节点失败,则至少需要2f+1个节点
     ISR如果要容忍f个节点失败,至少需要f+1个节点

5.3.如何处理Replica Crash
     Leader crash后,ISR中的任何replica皆可竞选成为Leader
    如果所有replica都crash,可选择让第一个recover的replica或者第一个在ISR中的replica成为leader
    unclean.leader.election.enable=true(选择让第一个启动的replica成为leader不管是不是isr中的)

 

 

你可能感兴趣的:(消息中间件,kafka)