flume1.8.0用户指南

以下内容翻译自http://flume.apache.org/FlumeUserGuide.html

一、引入

1、概览

Apache Flume是一个分布式、可靠的、可用的系统,高效地从不同的源收集、聚集和移动大量的日志数据到一个中心化的数据中心。
Apache Flume的使用不局限于日志归集。由于数据源是可以定制的,Flume可以用来传送大量的事件数据包括但不限于网络交通数据、社会媒体产生的数据、邮件信息和很多可能的任何数据源。

2、系统需求

2.1 JRE-Java1.8或者更新
2.2 内存 - 用于sources、channels和sinks配置的足够内存
2.3 硬盘空间 - channel和sinks配置使用的足够硬盘空间
2.4 目录权限 - agent使用的目录的读写权限

3、结构

3.1、数据流模型

data flow model一个Flume event定义为一组有一个字节有效载荷和可选的字符串属性集的数据流。一个Flume agent是一个JVM 进程,负责将events从一个外部源流动到下一站(hop)。
一个Flume源消费由一个外部源像web server传递给它的events。外部源使用一种可以被目标Flume source识别的格式将events发送给Flume。比如,一个Avro Flume源可以用来接收来自Avro客户端或者一个由Avro sink发送events的流中的其他Flume客户端发送的Avro events。可以使用一个Thrift Flume源来接收来自使用任何语言生成、采用Flume Thrift协议的Thrift sink或者Flume Thrift RPC客户端或者Thrift客户端的events,来定义一个相似的流。当一个Flume source收到一个event时,Flume将event保存到一个或更多channels中。channel是一个event的被动商店,channel保存event直到event被一个Flume sink消费掉。the file channel是这样一个例子,它由本地文件系统支撑。sink从channel中将event去除,将event(通过Flume HDFS sink)放到一个像HDFS的外部仓库,或者推送event到流中下一个Flume客户端(next hop下一跳)的Flume source。给定客户端中的source和sink与channel中的呈现的event异步地运行。

3.2、复杂流

3.3、可靠性

3.4、恢复

4、设置

4.1、设置客户端

4.2、配置独立的组件

4.3、把条串在一起

4.4、启动客户端

4.5、一个简单的例子

4.6、在配置文件中使用环境变量

4.7、记录原始数据

4.8、zookeeper为基础的配置

4.9、安装第三方插件

4.10、plugins.d目录

4.11、插件的目录结构

5、数据摄入

5.1、RPC

5.2、执行命令

5.3、网络流

5.4、设置多客户端流

5.5、整合

5.6、流的多路复用

6、配置

6.1、定义流

6.2、配置独立的组件

6.3、在客户端中增加多个流

6.4、配置一个多客户端流

6.5、扇出流

7、Flume源

7.1、Avro源

7.2、Thrift源

7.3、Exec源

7.4、JMS源

7.5、转换

7.6、池化目录源

8、event反序列器

8.1、线

8.2、AVRO

8.3、BlobDeserializer

8.4、Taildir源

8.5、Twitter 1% firehose源(实验性的)

8.6、Kafka源

8.7、Netcat TCP源

8.8、Netcat UDP源

8.9、Sequence Generator源

8.10、Syslog源

8.11、Syslog TCP源

8.12、多端口Syslog TCP源

8.13、Syslog UDP源

8.14、HTTP源

8.15、JsonHandler

8.16、BlobHandler

8.17、Stress源

8.18、Legacy源

8.19、Avro Legacy源

8.20、Thrift Legacy源

8.21、Custom源

8.22、Scribe源

9、Flume sinks

你可能感兴趣的:(flume)