关于2017-06-16 kafka集群异常问题定位

问题定位

查看监控后,发现kafka集群在2017-06-16 16:50分发现 java_log_topic和php_log_topic出现异常
定位后发现今天的数据量涨幅比较大

  1. kafka集群相关指标
  • 条数平均在11k+/s
  • 集群的输入在45M/s每台机器
  • 集群的输出在55M/s每台机器
  1. 服务器相关指标
  • 千兆网卡100+M/s,峰值200+M/s

1.kafka集群相关指标图

每秒的条数

关于2017-06-16 kafka集群异常问题定位_第1张图片
image.png

每秒的输入(单位M)

关于2017-06-16 kafka集群异常问题定位_第2张图片
image.png

每秒的输出(单位M)

关于2017-06-16 kafka集群异常问题定位_第3张图片
image.png

2.服务器带宽指标

10.10.16.18

关于2017-06-16 kafka集群异常问题定位_第4张图片
image.png

10.10.16.19

关于2017-06-16 kafka集群异常问题定位_第5张图片
image.png

10.10.16.20

关于2017-06-16 kafka集群异常问题定位_第6张图片
image.png

问题总结

kafka集群的千兆网卡带宽已经对集群造成瓶颈,带宽的瓶颈导致replication同步以及kafka与ZK通信异常等问题。
需要计划改用万兆网卡

你可能感兴趣的:(关于2017-06-16 kafka集群异常问题定位)