flume事务和进阶

1.概述

flume是高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统。

2.flume的作用

flume事务和进阶_第1张图片

用户行为日志通过前端平台存储到logservice中,通过flume的实时采集发过来的信息,然后发送到大数据平台上


3.flume架构

flume事务和进阶_第2张图片

日志源-->source-->channel-->sink-->HDFS

agent:就是一个JVM的进程,里面包含source,channel,sink

source:采集或读取日志的组件,不同的数据源使用不同的source

channel:缓冲区,让source和sink可以在不同速率上运行

sink:负责日志的写出的组件

event:在flume里面传输的是event传输单元,header和body组成,body 里面存放数据的字节数组,header里面默认空,需要手动添加

二、配置和使用

1.配置环境变量的作用

  • 方便使用命令
  • 方便别的框架使用

2.flume运行agent的命令
两种写法

 - flume-ng  agent --name  agent 的名字  --conf 配置文件的目录  --conf-file 配置文件(自己手动写)
 - flume-ng   agent  -c conf  -f 配置文件 -n agent名字
flume-ng agent: 表示启动agent

--conf | -c : 表示指定flume的conf目录

--conf-file | -f : 表示指定我们自己编写的flume的配置文件

--name | -n : 表示指定agent的名字

-Dflume.root.logger=INFO,console : 传入参数打印到控制台

3.通用写法:

 flume-ng agent -c $FLUME_HOME/conf -f $FLUME_HOME/datas/netcat-flume-logger.conf -n a1 -Dflume.root.logger=INFO,console

4.agent 的配置文件
1.需要定义agent的名字,还需要定义source,channel,sink(名字,有几个)

2.需要对source,channel,sink指明具体的类型和配置

3.需要指明source,channel,sink三者之间的一个关系

注意:一个sink只能对应一个channel,一个channel可以对应多个sink

 #1. 监控端口数据:netcat-flume-logger

 #source组件:netcat tcp source
 #channel组件:memory channel
 #sink组件: logger sink
 ​
 # Named
 a1.sources = r1 
 a1.channels = c1
 a1.sinks = k1
 ​
 #Source
 a1.sources.r1.type = netcat
 a1.sources.r1.bind = loacathost
 a1.sources.r1.port = 6666
 ​
 #Channel
 a1.channels.c1.type = memory
 a1.channels.c1.capacity = 10000
 a1.channels.c1.transactionCapacity=100
 ​
 #Sink
 a1.sinks.k1.type = logger
 ​
 #Bind
 a1.sources.r1.channels = c1
 a1.sinks.k1.channel = c1


5.各种组件的介绍
 

source:

  • netcat:监听本机端口
  • exec:监控一条linux的命令,监听一个文件的目录,如果挂掉,重新从头开始读
  • spooldir:监控目录是否新增文件,监控不到文件的内容
  • talldir 监听一个目录的文件,记录好位置,重新读取的话从上次读的地方开始续读
  • avro: 监听端口,接收avrosink发送到的数据
  • kafka:作为消费者消费kafka中的数据

sink :

  • avro 把内容写到哪个机器上面
  • logger:把数据写到logger上
  • HDFSsink:写到HDFS上
  • Ffile_roll : 写到本地目录里面
  • kafka:作为生产者向kafka发送数据

channel:

  • Memory Channel:以内存作为缓冲区
  • File Channel:以磁盘作为缓冲区
  • Kafka channel :以kafka作为缓冲区


三、flume进阶


1.flume事务
退避的概念:当服务器断开后,以指数的时间间隔进行尝试连接,到达一定时间间隔后则以此时间间隔来尝试连接

保证了数据不丢失的关键

  • put 事务流程:首先source先安照batch大小,将数据写入导putlist中,当putlist放满时则开启一个put事物,将putlist中的数据放入channel,如果放入失败,则清空putlist,同时告知source,这时source则会把指针重写指向这个put前的数据开始重新读取,这样就保证的数据不丢失
  1. doput: 将批量数据先写入临时缓冲区putlist
  2. docommit:检查channel内存队列是否足够合并
  3. dorollback:channel内存不足,滚回数据
  • take事务:
  1. dotake:将数据取到临时缓冲区takelist,并将数据发送到HDFS
  2. docommit:如果数据发送成功,则清空临时缓冲区takelist
  3. dorolback:如果数据发送出现异常,则rollback将临时缓冲区takelist中的数据归还给channel内存队列

flume事务和进阶_第3张图片

2.flume agent内部原理

flume事务和进阶_第4张图片

重要组件:

1)ChannelSelector

ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。

ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。

2)SinkProcessor

SinkProcessor共有三种类型,分别是DefaultSinkProcessor、LoadBalancingSinkProcessor和FailoverSinkProcessor

DefaultSinkProcessor对应的是单个的Sink,LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group,LoadBalancingSinkProcessor可以实现负载均衡的功能,FailoverSinkProcessor可以错误恢复的功能。

3 Flume拓扑结构


3.1 简单串联

flume事务和进阶_第5张图片

这种模式是将多个flume顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。

3.2 复制和多路复用

flume事务和进阶_第6张图片

Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。

3.3 负载均衡和故障转移

flume事务和进阶_第7张图片

Flume支持使用将多个sink逻辑上分到一个sink组,sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能。

3.4 聚合

flume事务和进阶_第8张图片

这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase等,进行日志分析。
 

你可能感兴趣的:(flume,flume,进阶,事务,保证数据不丢失)