Flume 整合 Kafka

1.背景

先说一下,为什么要使用 Flume + Kafka?

以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中,可能就会超过集群的处理能力,这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计,具有高吞吐的特性,能很好地抗住峰值数据的冲击。

Flume 整合 Kafka_第1张图片

2.整合流程

Flume 发送数据到 Kafka 上主要是通过 `KafkaSink` 来实现的,主要步骤如下:

你可能感兴趣的:(大数据ETL实战,flume,kafka,大数据)