Flume的架构基本agent-->collect-->storage的架构,agent主要负责日志的产生,并把日志传给collector端,collect负责把agent发送的日志收集起来,发送给storage存储,storage负责的存储;其中agent和collect本身都是source,sink架构,所谓source、sink,类似生成者和消费者的架构,他们之间通过queue传输,解耦。
实际环境中有这样的需求,通过在多个agent端tail日志,发送给collector,collector再把数据收集,统一发送给HDFS存储起来,当HDFS文件大小超过一定的大小或者超过在规定的时间间隔会生成一个文件。
Flume 实现了两个Trigger,分别为SizeTriger(在调用HDFS输出流写的同时,count该流已经写入的大小总和,若超过一定大小,则创建新的文件和输出流,写入操作指向新的输出流,同时close以前的输出流)和TimeTriger(开启定时器,当到达该点时,自动创建新的文件和输出流,新的写入重定向到该流中,同时close以前的输出流)。
目前在Flume的配置中只支持TimeTrigger,
collectorSink( "fsdir","fsfileprefix",rollmillis),但是在代码中已经实现了按照文件大小进行回滚,同时也实现了OrTrigger实现多个trigger的混合机制。
对collectot定义如下格式
collectorSink( "fsdir","fsfileprefix",rollmillis,maxsize),其中maxsize是HDFS文件的最大大小(M)
如 exec config collector 'collectorSource(35862)' 'collectorSink("hdfs://hostname:9100/syslog","log",300000,200)'
CollectorSink
修改 public static SinkBuilder hdfsBuilder(),
支持对maxsize文件大小参数的校验。
增加构造函数,在构造函数中,创建OrTrigger并传入RollSink支持对文件大小和时间间隔Trigger的支持。
CollectorSink(Context ctx, final String snkSpec, final long millis,
final long size, final Tagger tagger, long checkmillis,
AckListener ackDest)