flume--入门概念与配置详解

目录

Flume概述

安装教程

配置文件解析

------------声明部分

------------定义sources部分

------------定义channels部分

------------定义sinks部分

------------绑定部分

Flume概述

Flume定义
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
flume--入门概念与配置详解_第1张图片

2 Flume的优点

  • 可以和任意存储进程集成。
  • 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。
  • flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。
    Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。一旦事务中所有的数据全部成功提交到channel,那么source才认为该数据读取完成。同理,只有成功被sink写出去的数据,才会从channel中移除。

3 Flume组成架构
Flume组成架构如图1-1,图1-2所示:
flume--入门概念与配置详解_第2张图片
flume--入门概念与配置详解_第3张图片

下面我们来详细介绍一下Flume架构中的组件。

Agent

Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成,Source、Channel、Sink。

Source

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

Channel

Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel:Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么Memory Channel就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

Sink

Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

Event

传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。
在这里插入图片描述

Flume拓扑结构

-串联模式

这种模式是将多个flume给顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。

flume--入门概念与配置详解_第4张图片

.- 单source多源

flume--入门概念与配置详解_第5张图片

  • 负载

Flume支持使用将多个sink逻辑上分到一个sink组,flume将数据发送到不同的sink,主要解决负载均衡和故障转移问题。

flume--入门概念与配置详解_第6张图片

  • Agent聚合

种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase、jms等,进行日志分析。

flume--入门概念与配置详解_第7张图片

Flume Agent内部原理

flume--入门概念与配置详解_第8张图片

安装步骤(基于linux)

  • 下载安装包
    http://archive.apache.org/dist/flume/
  • 安装部署
    1)将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下
    2)解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下
    [@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/
    3)修改apache-flume-1.7.0-bin的名称为flume
    [@hadoop102 module]$ mv apache-flume-1.7.0-bin flume
    4)将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置flume-env.sh文件
    [@hadoop102 conf]$ mv flume-env.sh.template flume-env.sh
    [@hadoop102 conf]$ vi flume-env.sh
    export JAVA_HOME=/opt/module/jdk1.8.0_144

配置文件详解

flume配置文件整体分为五个部分,

  • 声明sources,sinks,channels
  • 定义sources
  • 定义sinks
  • 定义channels
  • 绑定sources,sinks,channels

举例:(监听44444端口)

看不懂?没关系,后面会分五个部分进行解析,看完了再回来看这个案列

# 声明
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 定义 source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#定义 sink
a1.sinks.k1.type = logger

#定义 channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 绑定
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

声明

这里声明一个agent叫a1,并为a1声明了sources,sinks,channels

a1.sources = r1
a1.sinks = k1
a1.channels = c1

定义sources

  • Flume中常用的Source有NetCat,Avro,Exec,Spooling Directory,Taildir,也可以根据业务场景的需要自定义Source,具体介绍如下。

NetCat Source

  • 用于监听端口数据
type@              –          类型指定为:netcat
bind@              –          绑定机器名或IP地址
port@              –          端口号
max-line-length   512         一行的最大字节数
ack-every-event   true        对成功接受的Event返回OK
selector.type   replicating   选择器类型replicating or multiplexing
selector.*                    选择器相关参数
interceptors       –          拦截器列表,多个以空格分隔
interceptors.*                拦截器相关参数

Avro Source

  • 用于不同主机的两个flume Agent的互相绑定
type@                        –              类型指定为:avro
bind@                        –              监听的主机名或IP地址
port@                        –              端口号
threads                      –              传输可使用的最大线程数
selector.type        
selector.*       
interceptors                 –              拦截器列表
interceptors.*       
compression-type            none            可设置为“none” 或 “deflate”. 压缩类型需要和AvroSource匹配

Exec Source

  • 用于监听文件,通过执行给定的Unix命令处理传输结果数据,如,cat,tail -F等,
type@                       –                    类型指定为:exec
command@                    –                    需要去执行的命令
shell                       –                    运行命令的shell脚本文件
restartThrottle           10000                  尝试重启的超时时间
restart                   false                  如果命令执行失败,是否重启
logStdErr                 false                  是否记录错误日志
batchSize                  20                    批次写入channel的最大日志数量
batchTimeout              3000                   批次写入数据的最大等待时间(毫秒)
selector.type          replicating               选择器类型replicating or multiplexing
selector.*                                       选择器其他参数
interceptors                –                    拦截器列表,多个空格分隔
interceptors.*       

如:

a1.sources.r1.type = exec
#指定监听的文件
a1.sources.r1.command = tail -F /opt/module/hive/logs/hive.log
a1.sources.r1.shell = /bin/bash -c

Spooling Directory Source

  • 用于监听整个目录的文件变化
  • 使用Spooling Directory Source需要注意的两点是:
  • 1)不能对被监控的文件夹下的新增的文件做出任何更改,
  • 2)新增到监控文件夹的文件名称必须是唯一的。由于是对整个新增文件的监控,Spooling Directory Source的实时性相对较低,不过可以采用对文件高粒度分割达到近似实时。
type@                            –                类型指定:spooldir.
spoolDir@                        –                被监控的文件夹目录
fileSuffix                  .COMPLETED            完成数据传输的文件后缀标志
deletePolicy                   never              删除已经完成数据传输的文件时间:never or immediate
fileHeader                     false              是否在header中添加文件的完整路径信息
fileHeaderKey                   file              如果header中添加文件的完整路径信息时key的名称
basenameHeader                 false              是否在header中添加文件的基本名称信息
basenameHeaderKey             basename            如果header中添加文件的基本名称信息时key的名称
includePattern                 ^.*$               使用正则来匹配新增文件需要被传输数据的文件
ignorePattern                   ^$                使用正则来忽略新增的文件
trackerDir                  .flumespool           存储元数据信息目录
consumeOrder                  oldest              文件消费顺序:oldest, youngest and random.
maxBackoff                     4000               如果channel容量不足,尝试写入的超时时间,如果仍然不能写入,则会抛出ChannelException
batchSize                      100                批次处理粒度
inputCharset                  UTF-8               输入码表格式
decodeErrorPolicy              FAIL               遇到不可解码字符后的处理方式:FAIL,REPLACE,IGNORE
selector.type               replicating           选择器类型:replicating or multiplexing
selector.*                                        选择器其他参数
interceptors                    –                 拦截器列表,空格分隔
interceptors.*  

如:

a3.sources.r3.type = spooldir

a3.sources.r3.spoolDir = /opt/module/flume/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true

定义Channels

  • 官网提供的Channel有多种类型可供选择,这里介绍Memory Channel和File Channel。

Memory Channel

  • Memory Channel是使用内存来存储Event,使用内存的意味着数据传输速率会很快,但是当Agent挂掉后,存储在Channel中的数据将会丢失。
Property Name                 Default                Description
type@                            –                   类型指定为:memory
capacity                        100                  存储在channel中的最大容量
transactionCapacity             100                  从一个source中去或者给一个sink,每个事务中最大的事件数
keep-alive                       3                   对于添加或者删除一个事件的超时的秒钟
byteCapacityBufferPercentage    20                   定义缓存百分比
byteCapacity              see description            Channel中允许存储的最大字节总数

如:

a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

File Channel
File Channel使用磁盘来存储Event,速率相对于Memory Channel较慢,但数据不会丢失。

Property Name            Default                  Description    
type@                      –                      类型指定:file.
checkpointDir   ~/.flume/file-channel/checkpoint  checkpoint目录
useDualCheckpoints       false                    备份checkpoint,为True,backupCheckpointDir必须设置
backupCheckpointDir        –                      备份checkpoint目录
dataDirs    ~/.flume/file-channel/data           数据存储所在的目录设置
transactionCapacity      10000                    Event存储最大值
checkpointInterval       30000                    checkpoint间隔时间
maxFileSize            2146435071                 单一日志最大设置字节数
minimumRequiredSpace    524288000                 最小的请求闲置空间(以字节为单位)
capacity                 1000000                  Channel最大容量
keep-alive                 3                      一个存放操作的等待时间值(秒)
use-log-replay-v1         false                   Expert: 使用老的回复逻辑
use-fast-replay           false                   Expert: 回复不需要队列
checkpointOnClose         true         

定义Sinks

  • Flume常用Sinks有Log Sink,HDFS Sink,Avro Sink,Kafka Sink,当然也可以自定义Sink。

Logger Sink

  • Logger Sink以INFO 级别的日志记录到log日志中,这种方式通常用于测试。
type@                   –               类型指定:logger
maxBytesToLog           16               能够记录的最大Event Body字节数  

HDFS Sink

  • Sink数据到HDFS,目前支持text 和 sequence files两种文件格式,支持压缩,并可以对数据进行分区,分桶存储。
type@                     –                  指定类型:hdfs
hdfs.path@                –                  HDFS的路径,eg hdfs://namenode/flume/webdata/
hdfs.filePrefix        FlumeData             保存数据文件的前缀名
hdfs.fileSuffix           –                  保存数据文件的后缀名
hdfs.inUsePrefix          –                  临时写入的文件前缀名
hdfs.inUseSuffix         .tmp                临时写入的文件后缀名
hdfs.rollInterval         30                 间隔多长将临时文件滚动成最终目标文件,单位:秒,
                                             如果设置成0,则表示不根据时间来滚动文件
hdfs.rollSize            1024                当临时文件达到多少(单位:bytes)时,滚动成目标文件,
                                             如果设置成0,则表示不根据临时文件大小来滚动文件
hdfs.rollCount            10                 当 events 数据达到该数量时候,将临时文件滚动成目标文件,
                                             如果设置成0,则表示不根据events数据来滚动文件
hdfs.idleTimeout          0                  当目前被打开的临时文件在该参数指定的时间(秒)内,
                                             没有任何数据写入,则将该临时文件关闭并重命名成目标文件
hdfs.batchSize           100                 每个批次刷新到 HDFS 上的 events 数量
hdfs.codeC                –                  文件压缩格式,包括:gzip, bzip2, lzo, lzop, snappy
hdfs.fileType         SequenceFile           文件格式,包括:SequenceFile, DataStream,CompressedStre,
                                             当使用DataStream时候,文件不会被压缩,不需要设置hdfs.codeC;
                                             当使用CompressedStream时候,必须设置一个正确的hdfs.codeC值;
hdfs.maxOpenFiles        5000                最大允许打开的HDFS文件数,当打开的文件数达到该值,
                                             最早打开的文件将会被关闭
hdfs.minBlockReplicas     –                  HDFS副本数,写入 HDFS 文件块的最小副本数。
                                             该参数会影响文件的滚动配置,一般将该参数配置成1,才可以按照配置正确滚动文件
hdfs.writeFormat        Writable             写 sequence 文件的格式。包含:Text, Writable(默认)
hdfs.callTimeout         10000               执行HDFS操作的超时时间(单位:毫秒)
hdfs.threadsPoolSize      10                 hdfs sink 启动的操作HDFS的线程数
hdfs.rollTimerPoolSize    1                  hdfs sink 启动的根据时间滚动文件的线程数
hdfs.kerberosPrincipal    –                  HDFS安全认证kerberos配置
hdfs.kerberosKeytab       –                  HDFS安全认证kerberos配置
hdfs.proxyUser                               代理用户
hdfs.round              false                是否启用时间上的”舍弃”
hdfs.roundValue           1                  时间上进行“舍弃”的值
hdfs.roundUnit          second               时间上进行”舍弃”的单位,包含:second,minute,hour
hdfs.timeZone         Local Time             时区。
hdfs.useLocalTimeStamp  false                是否使用当地时间
hdfs.closeTries 0       Number               hdfs sink 关闭文件的尝试次数;
                                             如果设置为1,当一次关闭文件失败后,hdfs sink将不会再次尝试关闭文件,
                                             这个未关闭的文件将会一直留在那,并且是打开状态;
                                             设置为0,当一次关闭失败后,hdfs sink会继续尝试下一次关闭,直到成功
hdfs.retryInterval        180                hdfs sink 尝试关闭文件的时间间隔,
                                             如果设置为0,表示不尝试,相当于于将hdfs.closeTries设置成1
serializer               TEXT                序列化类型
serializer.*                 

如:


# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9000/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型,可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k2.hdfs.rollCount = 0

Avro Sink

  • 同source avro ,用于与不同主机的flume Agent连接
    type@                        –                  指定类型:avro.
    hostname@                    –                  主机名或IP
    port@                        –                  端口号
    batch-size                  100                 批次处理Event数
    connect-timeout            20000                连接超时时间
    request-timeout            20000                请求超时时间
    compression-type            none                压缩类型,“none” or “deflate”.
    compression-level            6                  压缩级别,0表示不压缩,1-9数字越大,压缩比越高
    ssl                        false                使用ssl加密

Kafka Sink

  • 传输数据到Kafka中,需要注意的是Flume版本和Kafka版本的兼容性
Property Name              Default             Description
type                         –                 指定类型:org.apache.flume.sink.kafka.KafkaSink
kafka.bootstrap.servers      –                 kafka服务地址
kafka.topic          default-flume-topic       kafka Topic
flumeBatchSize              100                批次写入kafka Event数
kafka.producer.acks          1                 多少个副本确认后才能确定消息传递成功,0表示不需要确认
                                               1表示只需要首要的副本得到确认,-1表示等待所有确认。

绑定

这里为Agent(a1)的sources绑定了一个channel c1,
为sinks帮定channels c1

# 绑定
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

最后,知道了配置文件如何配置,该怎么启动服务呢?详情请看下一篇文章

flume六大实战案列(待更新)

你可能感兴趣的:(flume)