flume 自定义正则过滤器

本文实现:flume 读取日志信息时,通过正则匹配过滤,将匹配到的结果存放在指定文件目录。

本文结构:

  1. 编写自定义过滤器
  2. 编写flume配置文件
  3. 运行测试

#日志信息
##过滤前:

2017-01-06T11:32:48: Debug: D-UNK-000-000: Rules file processing took 332 usec.
2017-01-06T11:32:48: Debug: D-UNK-000-000: Flushing events to object servers
2017-01-06T11:32:48: Debug: D-UNK-000-000: 1 buffered alerts
2017-01-06T11:33:18: Debug: D-JPR-000-000: Parsing events: Omegamon_Base;cms_hostname='itmserver';cms_port='37076';integration_type='U';master_reset_flag='';appl_label='';situation_name='disk';situation_type='S';situation_origin='itmserver:LZ';situation_time='01/06/2017 11:33:23.000';situation_status='N';situation_thrunode='TEMS_TEST';situation_fullname='home_disk_error';situation_displayitem='';source='ITM';sub_source='itmserver:LZ';hostname='itmserver';origin='192.168.100.50';adapter_host='itmserver';date='01/06/2017';severity='CRITICAL';msg='itm server home directory > 80%';situation_eventdata='~';END
2017-01-06T11:33:18: Debug: D-UNK-000-000: [Event Processor] EventString:	Omegamon_Base;
2017-01-06T11:33:18: Debug: D-UNK-000-000: [Event Processor] ClassName:	Omegamon_Base
2017-01-06T11:33:18: Debug: D-UNK-000-000: [Event Processor] adapter_host:	itmserver

只是提取其中 以Parsing events:为开头关键字,以END为结尾的日志信息内容。

##过滤后

Parsing events: Omegamon_Base;cms_hostname='itmserver';cms_port='37076';integration_type='U';master_reset_flag='';appl_label='';situation_name='disk';situation_type='S';situation_origin='itmserver:LZ';situation_time='01/06/2017 11:33:23.000';situation_status='N';situation_thrunode='TEMS_TEST';situation_fullname='home_disk_error';situation_displayitem='';source='ITM';sub_source='itmserver:LZ';hostname='itmserver';origin='192.168.100.50';adapter_host='itmserver';date='01/06/2017';severity='CRITICAL';msg='itm server home directory > 80%';situation_eventdata='~';END

#1. 自定义过滤器
新建maven 项目,pom.xml 文件如下:



    4.0.0

    com.us
    flumeInterceptor
    1.0-SNAPSHOT
    

        1.8
        1.8
        1.7.0
    

    
        
            org.apache.flume
            flume-ng-core
            ${version.flume}
        
        
            org.apache.flume
            flume-ng-configuration
            ${version.flume}
        

    



新建自定义过滤器类MyInterceptor 继承Interceptor 类

package com.us;

import com.google.common.base.Charsets;
import com.google.common.collect.Lists;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import static org.apache.flume.interceptor.RegexFilteringInterceptor.Constants.DEFAULT_REGEX;
import static org.apache.flume.interceptor.RegexFilteringInterceptor.Constants.REGEX;

/**
 * Created by yangyibo on 17/1/6.
 */
public class MyInterceptor  implements Interceptor {
    private final Pattern regex;

    private MyInterceptor(Pattern regex) {
        this.regex = regex;
    }

    @Override
    public void initialize() {
        // NO-OP...
    }

    @Override
    public void close() {
        // NO-OP...
    }
    //    JAVA中用于处理字符串常用的有三个类:
//
//    java.lang.String、
//
//    java.lang.StringBuffer、
//
//    java.lang.StringBuilder,
//
//    这三者的共同之处都是 final 类,不允许被继承,这主要是从性能和安全性上考虑的,因为这几个类都是经常被使用着的,且考虑到防止其中的参数被修改影响到其它的应用。
//
//    StringBuffer 与 StringBuilder 两个基本上差不多,只是 StringBuffer 是线程安全,可以不需要额外的同步用于多线程中;
//
//    StringBuilder 是非同步,运行于多线程中就需要使用着单独同步处理,但是速度就比 StringBuffer 快多了;二者之间的共同点都可以通过append、insert进行字符串的操作。
//
//    String 实现了三个接口:Serializable、Comparable、CharSequence,
//
//    而 StringBuffer 及 StringBuilder 只实现了两个接口 Serializable、CharSequence,相比之下 String 的实例可以通过 compareTo 方法进行比较,而其它两个就不可以。
    @Override
    public Event intercept(Event event) {
        String body = new String(event.getBody(), Charsets.UTF_8);


        //匹配日志信息中以 Parsing events: 为开头关键字,以END 为结尾关键字 的日志信息段
        String pattern= "(Parsing events)(.*)(END)";
        // 创建 Pattern 对象
        Pattern r= Pattern.compile(pattern);
        // 现在创建 matcher 对象
      Matcher m= r.matcher(body);
        StringBuffer bodyoutput = new StringBuffer();
        if(m.find())//此处可以用多个正则进行匹配,多条件可以用&& 或者|| 的方式约束连接。
        {
            //多个正则匹配后可以将多个匹配的结果append 到bodyoutput
            bodyoutput=bodyoutput.append(m.group(0));
            event.setBody(bodyoutput.toString().getBytes());
        }else{
            event=null;
        }
        return event;
    }

    @Override
    public List intercept(List events) {
        List intercepted = Lists.newArrayListWithCapacity(events.size());
        for (Event event : events) {
            Event interceptedEvent = intercept(event);
            if (interceptedEvent != null) {
                intercepted.add(interceptedEvent);
            }
        }
        return intercepted;
    }

    public static class Builder implements Interceptor.Builder {
        private Pattern regex;
        //使用Builder初始化Interceptor
        @Override
        public Interceptor build() {
            return new MyInterceptor(regex);
        }

        @Override
        public void configure(Context context) {
            String regexString = context.getString(REGEX, DEFAULT_REGEX);
            regex = Pattern.compile(regexString);
        }
    }
}

##1.3 打包

将此maven项目打成jar包,将jar 包放到flume的lib 目录下。

关于jar 包管理请看 flume自定义组件的 jar 包管理


#2. 编写flume配置文件
在flume的conf 文件夹下新建exec.conf 配置文件内容如下:

注意:(读取/opt/apps/logs/tail.log 文件中的内容,并将过滤结果输出到/opt/apps/tmp/ 目录下);
  com.us.MyInterceptor 为我门自定义过滤器类的全称限定名
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
#a1.sources.r1.shell = /bin/bash -c
a1.sources.r1.channels = c1
a1.sources.r1.command = tail -F /opt/apps/logs/tail.log

#filter
a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=regex_filter
#a1.sources.r1.interceptors.i1.type= com.us.MyInterceptor$Builder
a1.sources.r1.interceptors.i1.regex=(Parsing events)(.*)(END)


# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# sink
a1.sinks.k1.type = file_roll
a1.sinks.k1.channel = c1
#a1.sinks.k1.sink.rollInterval=0
a1.sinks.k1.sink.directory = /opt/apps/tmp

#3. 运行测试

在flume 的bin目录下执行启动命令

注意:/opt/apps/flume/ 是flume的位置,应替换为你flume的位置
./flume-ng agent -c /opt/apps/flume/conf -f /opt/apps/flume/conf/exec.conf -n a1 -Dflume.root.logger=INFO,console

在监控目录下心间tail.log 文件,并放入过滤前的日志原信息,保存文件。到结果目录(/opt/apps/tmp)下查看生成的结果文件。查看过滤结果是否正确。

注意:如果tail.log 被监控文件存在,那么启动flume以后 应当修改一下tail.log 文件,使其发生变化,这样才会被flume监控到。

结果如下:

flume 自定义正则过滤器_第1张图片

源码位置:https://github.com/527515025/bigdata/tree/master/flume/flumeInterceptor

你可能感兴趣的:(5.4,flume,flume)