flume配置文件(跟踪文件夹)

 配置文件:配置文件的在文章中说明

配置三大组件:sources、sinks、channels

sources:

sinks:

channels:

其中ag1为整体配置信息的名字,可以配置多个如:ag2.sources ag3.....

#spooldir:flume中自带的读取目录的source,只要出现新文件就会被读走
#定义三大组件的名称
ag1.sources = source1
ag1.sinks = sink1
ag1.channels = channel1

# 配置source组件
ag1.sources.source1.type = spooldir    #官网flume.apache.org
ag1.sources.source1.spoolDir = /root/log/ #具体的目录
ag1.sources.source1.fileSuffix=.FINISHED   #文件后缀,文件内容被读走了就改成这样了


# 配置sink组件
ag1.sinks.sink1.type = hdfs
ag1.sinks.sink1.hdfs.path =hdfs://hdp-1:9000/access_log/%y-%m-%d/%H-%M
ag1.sinks.sink1.hdfs.filePrefix = app_log
ag1.sinks.sink1.hdfs.fileSuffix = .log
ag1.sinks.sink1.hdfs.batchSize= 100
ag1.sinks.sink1.hdfs.fileType = DataStream
ag1.sinks.sink1.hdfs.writeFormat =Text

## roll:滚动切换:控制写文件的切换规则
ag1.sinks.sink1.hdfs.rollSize = 512000    ## 按文件体积(字节)来切   500k
							#需要讲的:hdfs.rollInterval  hdfs.rollCount   hdfs.writeFormat  hdfs.fileType
ag1.sinks.sink1.hdfs.rollCount = 1000000  ## 按event条数切
ag1.sinks.sink1.hdfs.rollInterval = 60    ## 按时间间隔切换文件     三个,哪个满足就用哪个

## 控制生成目录的规则    目录多久切一次
ag1.sinks.sink1.hdfs.round = true
ag1.sinks.sink1.hdfs.roundValue = 10    #多久切一次  10分钟
ag1.sinks.sink1.hdfs.roundUnit = minute   #单位

ag1.sinks.sink1.hdfs.useLocalTimeStamp = true

# channel组件配置
ag1.channels.channel1.type = memory
ag1.channels.channel1.capacity = 500000   ## event条数  在通道中暂存的最大数量  数量要大于sink的batchSize的100条
ag1.channels.channel1.transactionCapacity = 600  ##flume事务控制所需要的缓存容量600条event   多少条记录归拢到一个事务中

# 绑定source、channel和sink之间的连接
ag1.sources.source1.channels = channel1
ag1.sinks.sink1.channel = channel1

sources的说明及配置方法在官方文档

flume.apache.org

flume配置文件(跟踪文件夹)_第1张图片

 

在User Guide中有配置说明flume配置文件(跟踪文件夹)_第2张图片

 flume配置文件(跟踪文件夹)_第3张图片

必须配置的是:

flume配置文件(跟踪文件夹)_第4张图片

 通过将要摄取的文件放置到磁盘上的一个假脱机目录中,该源允许您摄取数据。这个源代码将监视新文件的指定目录,并在新文件出现时解析它们。事件解析逻辑是可插拔的。将给定的文件完全读入通道后,默认情况下通过重命名该文件来表示完成,或者可以删除该文件,或者使用trackerDir跟踪已处理的文件。

sinks

flume配置文件(跟踪文件夹)_第5张图片

 flume配置文件(跟踪文件夹)_第6张图片

 rollInterval:  间隔时间30秒

rollSize: 按文件大小切割,默认1024byte为1k,有点小 ,一般修改为512M切一次,切出4个block

rollCount:  

batchSize: 一个event是一条数据,默认100个event(条)往hdfs中写一次,一般一次写个十几兆写一次

fileType: 往hdfs中写成什么文件类型,默认是SequenceFile,序列化文件。DataStream:读文件的时候是什么类型,保存就保存什么类型。CompressedStream:压缩格式的文件,将来读文件就要用对应压缩的解压方法(codeC压缩算法)

File format: currently SequenceFile, DataStream or CompressedStream (1)DataStream will not compress output file and please don’t set codeC (2)CompressedStream requires set hdfs.codeC with an available codeC

 writeFormat

 

a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S:  目录可以是活的

 

channel:

flume配置文件(跟踪文件夹)_第7张图片

flume配置文件(跟踪文件夹)_第8张图片

 capacity: 容量,默认100条

transactionCapacity:  事务容量, 默认100条(为什么要用事务,如从event中取数据,如果失败,可以回滚)

启动方式:

启动一个agent程序  -C 自己的配置文件在哪里  -f  采集配置 -n agent的名字 -Dflume.root.logger=INFO.console JVM的环境参数 INFO.console控制台
启动命令:./flume-ng agent -C ../conf/ -f ../dir-hdfs.conf -n ag1 -Dflume.root.logger=INFO,console

 -Dflume.root.logger=INFO,console:打印到控制台
 
 -C ../conf/  :   配置信息
 
 -f ../dir-hdfs.conf   :配置文件的位置
 
 -n ag1   :    agent的名字

 

注意:INFO,console:之间为逗号

你可能感兴趣的:(hadoop)