flume数据采集的负载均衡问题

flume分层:第一层,每台服务器一个flume采集日志,为多个第一层代理配置一个avro接收器,它们均指向单个代理的avro源。第二层,代理上的此源将接收到的事件合并到一个通道中,再由此flume上传到hdfs、hive、hbase、jms等,进行日志分析

flume负载均衡:在这里插入图片描述

source里的event流经channel,进入sink组,在sink组内部根据负载算法选择sink,后续可以选择不同机器上的agent实现负载均衡。

flume故障转移:

flume数据采集的负载均衡问题_第1张图片

配置一组sink,当有一个sink处理失败,Flume将这个sink放到一个地方,等待冷却时间,可以正常处理event时再拿回来。

event通过通过一个channel流向一个sink组,在sink组内部根据优先级选择具体的sink,一个失败后再转向另一个sink

你可能感兴趣的:(flume数据采集的负载均衡问题)