Flume 学习笔记(2) 基本概念

data flow:data flow描述了数据从产生,传输、处理并最终写入目标的一条路径。多个数据流被组合成logical node用来传输或聚合他们收到的数据。logical node又组合链来填充数据流。逻辑节点通过配置文件组织。下图中实线为数据流。

Flume 学习笔记(2) 基本概念_第1张图片

Agent:从数据源收集数据和生成日志,并传输给下一层的collector。例如,监听系统日志,监控一个web服务器的日志或者hadoop jobtracker的日志,agent 生成数据流并发送到collector,collector聚合成一个更大的数据流从而更有效的写入HDFS。

collector:收集从agent发送过来的数据并聚合成更大的数据流。

storage:数据存储层,可以保存在HDFS上。


每个logical node(agent 和 collector)都包括source和sink。source 指明logical node从哪收集数据。sink指明logical node将数据发送到哪。两个logical node的唯一不同之处就是source和sink的配置。source和sink都可以增加decorators在传输过程中进行处理。


参考:http://dongxicheng.org/search-engine/log-systems/

http://smartmessage.iteye.com/blog/1464075

http://www.db2china.net/?action-viewnews-itemid-8846


你可能感兴趣的:(hadoop,存储,web服务)