前言

几乎任何规模的公司,每时每刻都在产生大量的数据,收集业务日志数据,供离线和在线的分析系统使用。处理这些日志需要特定的日志系统,一般而言,这些系统需要具有高可用性、高可靠性和可扩展性。

Flume是一个分布式、可靠的和高可用的海量日志采集,聚合和传输的系统。支持在系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume 初始的发行版本目前被统称为Flume OG(original generation) ,属于Cloudera.但随着Flume功能的扩展,Flume OG代码工程臃肿,核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在Flume OG的最后一个发行版本0.94.0中,日志传输不稳定的现象尤为严重。为了解决这些问题,2011 年10月22日,Cloudera完成了Flume-728,对Flume进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为Flume NG (next generation) ;改动的另一原因是将Flume纳入Apache旗下,Cloudera Flume改名为Apache Flume。

Flume构建高可用、可扩展的海量日志采集系统

第1章给出了Apache Hadoop. Apache HBase的基本介绍。本章只是为了向读者介绍Hadoop. HBase 和它们内部的一些细节。 如果读者已经熟悉Hadoop和HBase,这章可以跳过。

大厂架构师倾心之作:Flume构建高可用、可扩展的海量日志采集系统_第1张图片


第2章介绍了Flume主要的组件和配置,也解释了如何部署Flume以从数据生成服务器推送数据到存储和索引系统。

大厂架构师倾心之作:Flume构建高可用、可扩展的海量日志采集系统_第2张图片


第3章、第4章、第5章和第6章解释了Flume内置的不同种类的Source,Channel 和Sink以及编写自定义插件以定制Flume接收、修改、格式化和写数据的方式。

大厂架构师倾心之作:Flume构建高可用、可扩展的海量日志采集系统_第3张图片



第7章讨论从你的应用程序发送数据到Flume Agent的不同方式。本章主要是为了写推送数据到FlumeAgent的应用程序的开发人员。

大厂架构师倾心之作:Flume构建高可用、可扩展的海量日志采集系统_第4张图片


第8章讨论如何设计、部署和监控Flume部署。

大厂架构师倾心之作:Flume构建高可用、可扩展的海量日志采集系统_第5张图片


限于平台篇幅原因,同时也为了大家更好的阅读,小编把Flume相关的资料都打包整理好了,有感兴趣的程序员朋友可以帮忙转发文章后,关注私信回复【学习】来获取

大厂架构师倾心之作:Flume构建高可用、可扩展的海量日志采集系统_第6张图片