数据采集阶段技术对比(flume,kafka,sqoop)

数据采集技术

数据采集阶段技术对比(flume,kafka,sqoop)_第1张图片 

数据收集架构

 数据采集阶段技术对比(flume,kafka,sqoop)_第2张图片

Kafka架构图

集群由zookeeper管理

Kafka的特点:

1. 磁盘存储

2. 高吞吐率(每秒几十万条消息)

3. 分布式架构,能对消息进行分析

4. 将数据并行加载到hadoop分区

 数据采集阶段技术对比(flume,kafka,sqoop)_第3张图片

Flume 架构图

1. agent:就是将数据源的数据发送给collector

2. Collector:将数据源汇总给storage

3. Storage :存储数据

4. Master管理整个集群

 数据采集阶段技术对比(flume,kafka,sqoop)_第4张图片

数据采集阶段技术对比(flume,kafka,sqoop)_第5张图片 

Flume设计目标

可靠性:就是发生故障自动转移,当发生节点故障了,会传到其他节点,日志数据不会丢失

End-to-endagent数据,当我们的数据传送成功后,就删除。如果传送是失败了,就重新发送

Store on failure

Best effort

 数据采集阶段技术对比(flume,kafka,sqoop)_第6张图片

Sqoop 架构图

 数据采集阶段技术对比(flume,kafka,sqoop)_第7张图片

常见日志收集系统对比

 数据采集阶段技术对比(flume,kafka,sqoop)_第8张图片

数据采集阶段技术对比(flume,kafka,sqoop)_第9张图片 

你可能感兴趣的:(flume数据数据,kafka数据数据,sqoop数据数据,大数据~Flume,大数据~Kafka,大数据~Sqoop)