kafka系列详解-性能与存储篇(持续更新完善中)

存储
  • 在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1
  • 在一个可配置的时间段内,Kafka集群保留所有发布的消息,不管这些消息有没有被消费。比如,如果消息的保存策略被设置为2天,那么在一个消息被发布的两天时间内,它都是可以被消费的。之后它将被丢弃以释放空间。Kafka的性能是和数据量无关的常量级的,所以保留太多的数据并不是问题。
  • Kafka直接将数据写到了文件系统的日志中。
  • Kafka高效文件存储设计特点
    • Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。
    • 通过索引信息可以快速定位message和确定response的最大大小。
    • 通过index元数据全部映射到memory,可以避免segment file的IO磁盘操作。

    • 通过索引文件稀疏存储,可以大幅降低index文件元数据占用空间大小。
性能
  • 消息集(message set)
    • Kafka建立了“消息集(message set)”的概念,将消息组织到一起,作为处理的单位。以消息集为单位处理消息,比以单个的消息为单位处理,会提升不少性能
    • Producer把消息集一块发送给服务端,而不是一条条的发送;服务端把消息集一次性的追加到日志文件中,这样减少了琐碎的I/O操作
    • consumer也可以一次性的请求一个消息集
    • Kafka使用了标准的二进制消息格式
  • zero copy
    • 在一个多consumers的场景里,数据仅仅被拷贝到页面缓存一次而不是每次消费消息的时候都重复的进行拷贝。这使得消息以近乎网络带宽的速率发送出去。这样在磁盘层面你几乎看不到任何的读操作,因为数据都是从页面缓存中直接发送到网络上去了
  • 数据压缩
    • 因为有“消息集”的概念,客户端的消息可以一起被压缩后送到服务端,并以压缩后的格式写入日志文件,以压缩的格式发送到consumer,消息从producer发出到consumer拿到都被是压缩的,只有在consumer使用的时候才被解压缩,所以叫做“端到端的压缩”。
    • Kafka支持GZIP和Snappy压缩协议
同步
  • Kafka判断一个节点是否活着有两个条件:
    • 节点必须可以维护和ZooKeeper的连接,Zookeeper通过心跳机制检查每个节点的连接。
    • 如果节点是个follower,他必须能及时的同步leader的写操作,延时不能太久
    • 至于延时多久算是“太久”,是由参数replica.lag.max.messages决定的,怎样算是卡住了,怎是由参数replica.lag.time.max.ms决定的
  • 只有当消息被所有的副本加入到日志中时,才算是“committed”,只有committed的消息才会发送给consumer,这样就不用担心一旦leader down掉了消息会丢失
  • Producer也可以选择是否等待消息被提交的通知,这个是由参数request.required.acks决定的
  • Kafka保证只要有一个“同步中”的节点,“committed”的消息就不会丢失。
  • Kafka的核心是日志文件,日志文件在集群中的同步是分布式数据系统最基础的要素

你可能感兴趣的:(Kafka,大数据,Zookeeper)