《Kafka权威指南》阅读小记


《Kafka权威指南》阅读小记_第1张图片

  • cat > test.txt << EOF:往test.txt写入内容,EOF表示结束。



    《Kafka权威指南》阅读小记_第2张图片

  • 不要让消费者的数量超过分区的数量,会导致一部分消费者闲置。

  • 为每一个需要获取一个或多个主题全部消息的应用程序创建一个消费者群组,然后往群组里添加消费者来伸缩读取能力和处理能力,群组里的每个消费者只处理一部分消息。

  • 一个消费者使用一个线程。

  • 消费者需要通过轮询发送心跳,如果一次性处理太多消息,消费者需要很多时间来处理消息,可能导致无法及时轮询避免会话过期。
    《Kafka权威指南》阅读小记_第3张图片

  • 如果是持续运行的消费者,偏移量提交一次失败没有太大的关系,但是如果要关闭消费者或者要进行再均衡,就要保证最后一次偏移量的提交要成功。

  • Kafka使用主题来组织数据,每个主题被分成若干个分区,每个分区有多个副本。

  • 每个分区都有一个首领副本,为了保证一致性,所有生产者和消费者的请求都会经过这个副本;首领副本以外的副本都是跟随者副本,跟随者副本不处理来自客户端的请求,它们唯一的任务就是从首领那里复制消息,保持与首领一致的状态,如果首领发生崩溃,其中的一个跟随者会被提升为新首领。

  • Kafka使用零复制技术向客户端发送消息,kafka直接把消息从文件里发送到网络通道,而不需要经过任何中间缓冲区,这是kafka与其他大部分数据库系统不一样的地方,其他数据库在将数据发送给客户端之前会先把它们保存在本地缓存里。

  • Kafka可以保证分区消息的顺序;只有当被写入分区的所有同步副本时,它才被认为是“已提交”的。消费者只能读取已经提交的消息。

  • 流式处理是指实时地处理一个或多个事件流(有序的无边界的不可变的数据流)。

你可能感兴趣的:(大数据)