大数据之Flume数据采集框架

目录

    • 一、Flume概述
      • 1.1 Flume定义
      • 1.2 Flume基础架构
    • 二、相关原理
      • 2.1 Flume事务
      • 2.2 Flume Agent内部原理
      • 2.3 Flume拓扑结构
        • 2.3.1 简单串联
        • 2.3.2 复制和多路复用
        • 2.3.3 负载均衡和故障转移
        • 2.3.4 聚合

一、Flume概述

1.1 Flume定义

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

大数据之Flume数据采集框架_第1张图片

Flume最主要的作用就是,实时读取服务器本地磁盘数据,将数据写入到HDFS,也可以将数据传送给Kafuka、spark等框架进行数据分析处理。

1.2 Flume基础架构

Flume组成架构如下图所示。
大数据之Flume数据采集框架_第2张图片

1.2.1 Agent

Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,启动flume采集数据的时候启动的就是agent进程。
Agent主要有3个部分组成,Source、Channel、Sink

1.2.2 Source

定义从哪里采集数据:负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directorynetcattaildir、sequence generator、syslog、http、legacy。

1.2.3 Sink

定义数据保存到哪里:Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink组件目的地包括hdfsloggeravro、thrift、ipc、fileHBase、solr、自定义。

1.2.4 Channel

Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel:Memory ChannelFile Channel
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么Memory Channel就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.5 Event

传输单元,Flume数据传输的基本单元,source采集数据之后会封装成Event,将数据从源头送至目的地。Event由HeaderBody两部分组成,Header用来存放该event的一些属性,为K-V结构,Body用来存放该条数据,形式为字节数组。
在这里插入图片描述

二、相关原理

2.1 Flume事务

flume的source采集数据之后,如果不做控制,在source->channel以及channel->sink这中间是有可能出现数据丢失的。所以需要用事务进行控制
flume的事务分为两种: source->channel的put事务,channel->sink的take事务
大数据之Flume数据采集框架_第3张图片

Put事务流程:

  1. Source采集一个批次的数据
  2. 通过doPut方法将批次的数据放入putList[putList的大小=事务容量大小]中
  3. putList有容量限制不能无限存放数据,所以当putList满了之后会将putList里面的所有数据通过doCommit保存到channel里面
  4. 如果channel中空间不足,此时会保存失败,失败的时候事务会回滚[会清空putList里面的所有数据,然后抛出异常,source捕获到异常之后会重新采集]

Take事务流程:

  1. sink从channel中拉取一个批次的数据【拉取的是数据的引用】
  2. 通过doTake方法将批次的数据写入takeList[takeList的大小=事务容量大小]里面
  3. 通过doCommit方法将takeList里面的数据写入存储介质
  4. 如果写入报错,此时会回滚[清空takeList里面的数据],如果写入成功,清空takeList里面的数据,同时也会清除channel里面的已经写入成功数据

注意:一个批次采集数据量batchSize <= channel的事务容量transactionCapacity <= channel的容量capacity

2.2 Flume Agent内部原理

大数据之Flume数据采集框架_第4张图片
流程:

Source->
	Channel processor->
	    			拦截器->
						通过channel selector确定数据应该发到哪个channel里面->
		     					channel->
									通过sink processor确定数据应该发到哪个sink里面->
										sink

重要组件:
1)Channel Selector
ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。

  • Replicating Channel Selector: 将Source中的每个数据都向所有的channel都发送一份
  • Multiplexing Channel Selector: 将source中的数据指定发到哪个或者那几个channel中

2)Sink Processor
SinkProcessor共有三种类型,分别是DefaultSinkProcessorLoadBalancingSinkProcessorFailoverSinkProcessor
DefaultSinkProcessor对应的是单个的Sink,LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group,LoadBalancingSinkProcessor可以实现负载均衡的功能,FailoverSinkProcessor可以错误恢复的功能。
一个channel对应一个sink的时候使用
1、Default Sink Processor:
一个channel对应一个sinkd的时候使用
2、Failover Sink Processor: 故障转移,channel中的数据首先向某一个sink写入,直到该sink宕机才会想第二个sink写入
3、Load balancing Sink Processor: 负载均衡, 数据均衡的写入不同的sink

2.3 Flume拓扑结构

2.3.1 简单串联

大数据之Flume数据采集框架_第5张图片

图 Flume Agent连接

这种模式是将多个flume顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。

2.3.2 复制和多路复用

大数据之Flume数据采集框架_第6张图片

图 单source,多channel、sink

Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。

2.3.3 负载均衡和故障转移

大数据之Flume数据采集框架_第7张图片

图 Flume负载均衡或故障转移

Flume支持使用将多个sink逻辑上分到一个sink组,sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能。

2.3.4 聚合

大数据之Flume数据采集框架_第8张图片

图 Flume Agent聚合

这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到hdfs、hive、hbase等,进行日志分析。

你可能感兴趣的:(flume,大数据,flume)