flume是高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统。
用户行为日志通过前端平台存储到logservice中,通过flume的实时采集发过来的信息,然后发送到大数据平台上
日志源-->source-->channel-->sink-->HDFS
agent:就是一个JVM的进程,里面包含source,channel,sink
source:采集或读取日志的组件,不同的数据源使用不同的source
channel:缓冲区,让source和sink可以在不同速率上运行
sink:负责日志的写出的组件
event:在flume里面传输的是event传输单元,header和body组成,body 里面存放数据的字节数组,header里面默认空,需要手动添加
1.配置环境变量的作用
2.flume运行agent的命令
两种写法
- flume-ng agent --name agent 的名字 --conf 配置文件的目录 --conf-file 配置文件(自己手动写)
- flume-ng agent -c conf -f 配置文件 -n agent名字
flume-ng agent: 表示启动agent--conf | -c : 表示指定flume的conf目录
--conf-file | -f : 表示指定我们自己编写的flume的配置文件
--name | -n : 表示指定agent的名字
-Dflume.root.logger=INFO,console : 传入参数打印到控制台
3.通用写法:
flume-ng agent -c $FLUME_HOME/conf -f $FLUME_HOME/datas/netcat-flume-logger.conf -n a1 -Dflume.root.logger=INFO,console
4.agent 的配置文件
1.需要定义agent的名字,还需要定义source,channel,sink(名字,有几个)
2.需要对source,channel,sink指明具体的类型和配置
3.需要指明source,channel,sink三者之间的一个关系
注意:一个sink只能对应一个channel,一个channel可以对应多个sink
#1. 监控端口数据:netcat-flume-logger
#source组件:netcat tcp source
#channel组件:memory channel
#sink组件: logger sink
# Named
a1.sources = r1
a1.channels = c1
a1.sinks = k1
#Source
a1.sources.r1.type = netcat
a1.sources.r1.bind = loacathost
a1.sources.r1.port = 6666
#Channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity=100
#Sink
a1.sinks.k1.type = logger
#Bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
5.各种组件的介绍
source:
- netcat:监听本机端口
- exec:监控一条linux的命令,监听一个文件的目录,如果挂掉,重新从头开始读
- spooldir:监控目录是否新增文件,监控不到文件的内容
- talldir 监听一个目录的文件,记录好位置,重新读取的话从上次读的地方开始续读
- avro: 监听端口,接收avrosink发送到的数据
- kafka:作为消费者消费kafka中的数据
sink :
- avro 把内容写到哪个机器上面
- logger:把数据写到logger上
- HDFSsink:写到HDFS上
- Ffile_roll : 写到本地目录里面
- kafka:作为生产者向kafka发送数据
channel:
- Memory Channel:以内存作为缓冲区
- File Channel:以磁盘作为缓冲区
- Kafka channel :以kafka作为缓冲区
1.flume事务
退避的概念:当服务器断开后,以指数的时间间隔进行尝试连接,到达一定时间间隔后则以此时间间隔来尝试连接
保证了数据不丢失的关键
2.flume agent内部原理
重要组件:
1)ChannelSelector
ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。
ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。
2)SinkProcessor
SinkProcessor共有三种类型,分别是DefaultSinkProcessor、LoadBalancingSinkProcessor和FailoverSinkProcessor
DefaultSinkProcessor对应的是单个的Sink,LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group,LoadBalancingSinkProcessor可以实现负载均衡的功能,FailoverSinkProcessor可以错误恢复的功能。
3.1 简单串联
这种模式是将多个flume顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。
3.2 复制和多路复用
Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。
3.3 负载均衡和故障转移
Flume支持使用将多个sink逻辑上分到一个sink组,sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能。
3.4 聚合
这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase等,进行日志分析。