叮咚菜鸟许某人

flume篇1：flume把json数据写入kudu(flume-kudu-sink)

flume篇1：flume把json数据写入kudu(flume-kudu-sink)
对应非json数据同样适用，可以把非json数据通过拦截器拼接成一个json send出去，这样也是ok的
废话不多说，直接上干货

一、自定义拦截器：
1 拦截器要求：新建一个新的工程，单独打包，保证每个flume的的拦截器都是单独的一个工程打的包，这样保证每次对拦截器修改的时候不影响其他flume业务，当然你也可以把string或者csv格式的数据split成数组，然后再拼成一个json send出去，这样也是ok的
（个人习惯，喜欢用拦截器，其实可以可下面自定义JsonKuduOperationsProducer两个是冗余的，可以去掉）
拦截器pom如下（pom包多了，可以自己去掉）：

<properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <scala.version>2.10.4</scala.version>
        <flume.version>1.8.0</flume.version>
    </properties>

     <dependencies>
            <dependency>
            <groupId>org.apache.flume</groupId>
            <artifactId>flume-ng-core</artifactId>
            <version>${flume.version}</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>commons-net</groupId>
            <artifactId>commons-net</artifactId>
            <version>3.3</version>
        </dependency>
        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.4</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.testng</groupId>
            <artifactId>testng</artifactId>
            <version>6.1.1</version>
            <scope>test</scope>
        </dependency>
       <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbondata-store-sdk</artifactId>
            <version>1.5.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbondata-core</artifactId>
            <version>1.5.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbondata-common</artifactId>
            <version>1.5.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbondata-format</artifactId>
            <version>1.5.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbondata-hadoop</artifactId>
            <version>1.5.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbondata-processing</artifactId>
            <version>1.5.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.carbondata</groupId>
            <artifactId>carbonata</artifactId>
            <version>1.5.3</version>
            <scope>system</scope>
            <systemPath>${project.basedir}/lib/apache-carbondata-1.5.3-bin-spark2.3.2-hadoop2.6.0-cdh5.16.1.jar</systemPath>
        </dependency>
     <dependency>
            <groupId>org.apache.mina</groupId>
            <artifactId>mina-core</artifactId>
            <version>2.0.9</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.mockito</groupId>
            <artifactId>mockito-all</artifactId>
            <version>1.9.5</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.sshd</groupId>
            <artifactId>sshd-core</artifactId>
            <version>0.14.0</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>com.jcraft</groupId>
            <artifactId>jsch</artifactId>
            <version>0.1.54</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-api</artifactId>
            <version>1.7.12</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.47</version>
        </dependency>
        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-lang3</artifactId>
            <version>3.5</version>
        </dependency>
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>16.0.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.11.0.0</version>
            <scope>compile</scope>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.46</version>
            <scope>compile</scope>
        </dependency>
    </dependencies>

2 拦截器代码如下：
（以下拦截器主要目的是：把一个嵌套2层的body Json中的各个字段取出来，并对字段进行重命名）

package com.iflytek.extracting.flume.interceptor;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.google.common.collect.Lists;
import com.google.common.collect.Maps;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.text.SimpleDateFormat;
import java.util.List;
import java.util.Map;

public class XyJsonInterceptorTC implements Interceptor {
    private static final Logger logger = LoggerFactory.getLogger(XyJsonInterceptorTC .class);
    private SimpleDateFormat dataFormat;
    @Override
    public void initialize() {
        dataFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
    }
    @Override
    public Event intercept(Event event) {
        String body = new String(event.getBody());
        try {
            JSONObject jsonObject = JSON.parseObject(body);  //把string转成json
            JSONObject bodyObject1 = jsonObject.getJSONObject("body"); //获取第一层body
            JSONObject bodyObject2 = bodyObject1.getJSONObject("body");//获取第二层body
            JSONObject resObject = new JSONObject();//new 一个新的json，用于存放前面json body中取出来的各个字段
            getPut(resObject, bodyObject2, "id", "newId");//取出json 中的id,放到新的json中，并重命名为newid
            getPut(resObject, bodyObject2, "name", "newName");
            getPut(resObject, bodyObject2, "age", "newAge");
            getPutDate(resObject, bodyObject2, "time", "newTime", dataFormat);//把Long类型时间戳转成date类型
            logger.info("拦截器最hou输出结果为resObject:" + resObject.toString());
            event.setBody(resObject.toString().getBytes());
            return event;
        } catch (Exception e) {
            logger.info("ERROR格式数据" + body.toString());//对于不符合约定的数据用日志抛出来，有需要的时候可以从日志中回滚，这里加了try catch十分必要，不然flume处理的错误数据多了，容易挂
            return null;
        }
    }

    @Override
    public List<Event> intercept(List<Event> events) {
        List<Event> resultList = Lists.newArrayList();
        for (Event event : events) {
            Event result = intercept(event);
            if (result != null) {
                resultList.add(result);
            }
        }
        return resultList;
    }

    @Override
    public void close() {

    }
    public static class Builder implements Interceptor.Builder {
        @Override
        public Interceptor build() {
            return new XyJsonInterceptorTC ();
        }
        @Override
        public void configure(Context context) {
        }
    }

    public static void getPut(JSONObject resObject, JSONObject jsonObject, String oldName, String newName) {
        Object value = jsonObject.get(oldName);
        if (value !=null){
            resObject.put(newName, value.toString());
        }
    }
    public static void getPutDate(JSONObject resObject,JSONObject jsonObject,String oldName,String newName,SimpleDateFormat dataFormat) {
        Object value = jsonObject.get(oldName);
        if (value !=null){
            Long valuelong=  Long.parseLong(value.toString());
            resObject.put(newName, dataFormat.format(valuelong).toString());
        }
    }

    public static void getPutLong(JSONObject resObject,JSONObject jsonObject,String oldName,String newName) {
        Object value = jsonObject.get(oldName);
        if (value !=null){
            Long valuelong=  Long.parseLong(value.toString());
            resObject.put(newName, valuelong);
        }
    }
}

3 打包上传，到flume的lib位置，cdh位置如下：/opt/cloudera/parcels/CDH/lib/flume-ng/lib/

二、上传kudu sink包相关jar包

 /opt/cloudera/parcels/CDH/lib/flume-ng/lib/ 目录
kudu-client-1.7.0-cdh5.16.1.jar
kudu-flume-sink-1.7.0-cdh5.16.1.jar
如果你的是cdh版本，并且flume已经和kudu关联了，那么这2个包都是自动生成的，就在kudu的lib目录下，不需要重新编译，直接分发到flume 的lib下就好了

三、自定义kudu_json解析器，这是一个通用包，其实打过一次包上传后每个kudu sink都可以使用
1 json解析器要求如下：需要单独新建一个工程，然后单独打包上传即可

2 pom 如下：

 <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <scala.version>2.10.4</scala.version>
        <flume.version>1.8.0</flume.version>
        <kudu.version>1.7.1</kudu.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.kudu</groupId>
            <artifactId>kudu-client</artifactId>
            <version>${kudu.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flume</groupId>
            <artifactId>flume-ng-core</artifactId>
            <version>${flume.version}</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.flume</groupId>
            <artifactId>flume-ng-configuration</artifactId>
            <version>${flume.version}</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro</artifactId>
            <version>1.8.1</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-api</artifactId>
            <version>1.7.12</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.47</version>
        </dependency>
        <dependency>
            <groupId>org.apache.kudu</groupId>
            <artifactId>kudu-flume-sink</artifactId>
            <version>1.7.0</version>
        </dependency>
    </dependencies>

3 代码如下：不用考虑其原理，这个一个通用包，可以直接打包上传就完事了

package com.iflytek;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.google.common.base.Preconditions;
import com.google.common.collect.Lists;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.FlumeException;
import org.apache.flume.annotations.InterfaceAudience;
import org.apache.flume.annotations.InterfaceStability;
import org.apache.kudu.ColumnSchema;
import org.apache.kudu.Schema;
import org.apache.kudu.Type;
import org.apache.kudu.client.KuduTable;
import org.apache.kudu.client.Operation;
import org.apache.kudu.client.PartialRow;
import org.apache.kudu.flume.sink.KuduOperationsProducer;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import java.nio.charset.Charset;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

@InterfaceAudience.Public
@InterfaceStability.Evolving
public class XyJsonKuduOperationsProducer implements KuduOperationsProducer {
    private static final Logger logger = LoggerFactory.getLogger(XyJsonKuduOperationsProducer.class);
    private static final String INSERT = "insert";
    private static final String UPSERT = "upsert";
    private static final List<String> validOperations = Lists.newArrayList(UPSERT, INSERT);
    public static final String ENCODING_PROP = "encoding";
    public static final String DEFAULT_ENCODING = "utf-8";
    public static final String OPERATION_PROP = "operation";
    public static final String DEFAULT_OPERATION = UPSERT;
    public static final String SKIP_MISSING_COLUMN_PROP = "skipMissingColumn";
    public static final boolean DEFAULT_SKIP_MISSING_COLUMN = false;
    public static final String SKIP_BAD_COLUMN_VALUE_PROP = "skipBadColumnValue";
    public static final boolean DEFAULT_SKIP_BAD_COLUMN_VALUE = false;
    public static final String WARN_UNMATCHED_ROWS_PROP = "skipUnmatchedRows";
    public static final boolean DEFAULT_WARN_UNMATCHED_ROWS = true;
    private KuduTable table;
    private Charset charset;
    private String operation;
    private boolean skipMissingColumn;
    private boolean skipBadColumnValue;
    private boolean warnUnmatchedRows;
    public XyJsonKuduOperationsProducer() {
    }
    @Override
    public void configure(Context context) {
        String charsetName = context.getString(ENCODING_PROP, DEFAULT_ENCODING);
        try {
            charset = Charset.forName(charsetName);
        } catch (IllegalArgumentException e) {
            throw new FlumeException(
                    String.format("Invalid or unsupported charset %s", charsetName), e);
        }
        operation = context.getString(OPERATION_PROP, DEFAULT_OPERATION).toLowerCase();
        Preconditions.checkArgument(
                validOperations.contains(operation),
                "Unrecognized operation '%s'",
                operation);
        skipMissingColumn = context.getBoolean(SKIP_MISSING_COLUMN_PROP,
                DEFAULT_SKIP_MISSING_COLUMN);
        skipBadColumnValue = context.getBoolean(SKIP_BAD_COLUMN_VALUE_PROP,
                DEFAULT_SKIP_BAD_COLUMN_VALUE);
        warnUnmatchedRows = context.getBoolean(WARN_UNMATCHED_ROWS_PROP,
                DEFAULT_WARN_UNMATCHED_ROWS);
    }
    @Override
    public void initialize(KuduTable table) {
        this.table = table;
    }
    @Override
    public List<Operation> getOperations(Event event) throws FlumeException {
        String s = new String(event.getBody(), charset);
        Map<String, Object> rawMap = jsonStr2Map(s);
        logger.info("sink数据为"+rawMap.toString());
        Schema schema = table.getSchema();
        List<Operation> ops = Lists.newArrayList();
        if(s != null && !s.isEmpty()) {
            Operation op;
            switch (operation) {
                case UPSERT:
                    op = table.newUpsert();
                    break;
                case INSERT:
                    op = table.newInsert();
                    break;
                default:
                    throw new FlumeException(
                            String.format("Unrecognized operation type '%s' in getOperations(): " +
                                    "this should never happen!", operation));
            }
            PartialRow row = op.getRow();
            for (ColumnSchema col : schema.getColumns()) {
//                logger.info("Column:" + col.getName() + "----" + rawMap.get(col.getName()));
                try {
                    Object mpaValue = rawMap.get(col.getName());
                    if (mpaValue!=null){
                        coerceAndSet(mpaValue.toString(), col.getName(), col.getType(), row);
                    }

                } catch (NumberFormatException e) {
                    String msg = String.format(
                            "Raw value '%s' couldn't be parsed to type %s for column '%s'",
                            s, col.getType(), col.getName());
                    logOrThrow(skipBadColumnValue, msg, e);
                } catch (IllegalArgumentException e) {
                    String msg = String.format(
                            "Column '%s' has no matching group in '%s'",
                            col.getName(), s);
                    logOrThrow(skipMissingColumn, msg, e);
                } catch (Exception e) {
                    throw new FlumeException("Failed to create Kudu operation", e);
                }
            }
            ops.add(op);
        }
        return ops;
    }
    /**
     * Coerces the string `rawVal` to the type `type` and sets the resulting
     * value for column `colName` in `row`.
     *
     * @param rawVal the raw string column value
     * @param colName the name of the column
     * @param type the Kudu type to convert `rawVal` to
     * @param row the row to set the value in
     * @throws NumberFormatException if `rawVal` cannot be cast as `type`.
     */
    private void coerceAndSet(String rawVal, String colName, Type type, PartialRow row)
            throws NumberFormatException {
        switch (type) {
            case INT8:
                row.addByte(colName, Byte.parseByte(rawVal));
                break;
            case INT16:
                row.addShort(colName, Short.parseShort(rawVal));
                break;
            case INT32:
                row.addInt(colName, Integer.parseInt(rawVal));
                break;
            case INT64:
                row.addLong(colName, Long.parseLong(rawVal));
                break;
            case BINARY:
                row.addBinary(colName, rawVal.getBytes(charset));
                break;
            case STRING:
                row.addString(colName, rawVal==null?"":rawVal);
                break;
            case BOOL:
                row.addBoolean(colName, Boolean.parseBoolean(rawVal));
                break;
            case FLOAT:
                row.addFloat(colName, Float.parseFloat(rawVal));
                break;
            case DOUBLE:
                row.addDouble(colName, Double.parseDouble(rawVal));
                break;
            case UNIXTIME_MICROS:
                row.addLong(colName, Long.parseLong(rawVal));
                break;
            default:
                logger.warn("got unknown type {} for column '{}'-- ignoring this column", type, colName);
        }
    }
    private void logOrThrow(boolean log, String msg, Exception e)
            throws FlumeException {
        if (log) {
            logger.warn(msg, e);
        } else {
            throw new FlumeException(msg, e);
        }
    }
    @Override
    public void close() {
    }

    public static Map<String, Object> jsonStr2Map(String jsonStr) {
        Map<String, Object> resultMap = new HashMap<>();
        JSONObject jsonObject = JSON.parseObject(jsonStr);
        resultMap=JSON.parseObject(jsonObject.toString(), Map.class);
        return resultMap;
    }
}

4 打包上传至 /opt/cloudera/parcels/CDH/lib/flume-ng/lib/ 目录

四、配置flume的conf
1 在 /opt/cloudera/parcels/CDH/lib/flume-ng/conf目录下，
vi kudu.conf
输入以下内容：

ng.sources = kafkaSource
ng.channels = memorychannel
ng.sinks =  kudusink
ng.sources.kafkaSource.type= org.apache.flume.source.kafka.KafkaSource
ng.sources.kafkaSource.kafka.bootstrap.servers=cdh01:9092,cdh02:9092,cdh03:9092
ng.sources.kafkaSource.kafka.consumer.group.id=xytest1
ng.sources.kafkaSource.kafka.topics=pd_ry_txjl 
ng.sources.kafkaSource.batchSize=1000
ng.sources.kafkaSource.channels= memorychannel
ng.sources.kafkaSource.kafka.consumer.auto.offset.reset=latest
ng.sources.kafkaSource.interceptors= i1
ng.sources.kafkaSource.interceptors.i1.type=com.iflytek.extracting.flume.interceptor.XyJsonInterceptorTC$Builder
#自定义的拦截器类，对于kudu其他表的接入，其实后面kudu 的配置都已经固定了，不需要更改，你只需要重新写一个拦截器，并把下面的kudu表名更改即可

ng.channels.memorychannel.type = memory
ng.channels.memorychannel.keep-alive = 3
ng.channels.memorychannel.byteCapacityBufferPercentage = 20
ng.channels.memorychannel.transactionCapacity = 10000
ng.channels.memorychannel.capacity = 100000

ng.sinks.kudusink.type = org.apache.kudu.flume.sink.KuduSink
ng.sinks.kudusink.masterAddresses = cdh01:7051  # kudu 的ip
ng.sinks.kudusink.tableName = rytx_kudu   # kudu 表名，这里没有写impapa表名，直接写kudu表名就行了
ng.sinks.kudusink.operation = insert
ng.sinks.kudusink.batchSize = 50
ng.sinks.kudusink.producer = com.iflytek.XyJsonKuduOperationsProducer  #自定义的json解析类

ng.sinks.kudusink.channel = memorychannel

2 启动flume:

bin/flume-ng agent -n ng -c conf -f conf/kudu.conf
cdh版本的flume默认的日志打在 /var/log/flume/flume.log里面
查看数据已经接入kudu，并确定没问题可以使用后台提交：
nohup bin/flume-ng agent -n ng -c conf -f conf/kudu.conf &
任务停止：
jcmd | grep kudu.conf   # 找到含有 kudu.conf的任务
然后kill 任务id即可

本文借鉴：
https://kudu.apache.org/2016/08/31/intro-flume-kudu-sink.html
https://cloud.tencent.com/developer/article/1158194

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark) weixin_39793638 pyspark kafka mysql
蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据基础之Flume——Flume基础及Flume agent配置以及自定义拦截器 Clozzz Flume 大数据 flume hadoop
Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其他目的地 -一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对
Flume介绍及调优桓桓桓桓分布式大数据日志搜集
一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flu
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty 小波2200013045 flume 大数据
[root@master~]#flume-ngversion[root@master~]#cd/usr/local/flume/bin[root@masterbin]#vimflume-ng配置文件中加入红框代码#determineHBASEjava.library.pathandusethatforflumelocalHBASE_CLASSPATH=""localHBASE_JAVA_LIBRA
flume系列之：批量并行启动、停止、重启flume agent组快乐骑行^_^ flume flume系列批量并行启动停止重启 flume agent组
Flume系列之：批量并行启动、停止、重启flumeagent组批量启动flumeagent组批量启动flumeagent组importsubprocessimportthreadingdefrun_command(command):process=subprocess.Popen(command,shell=True)process
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储我非夏日大数据开发---电信项目大数据大数据技术开发 hadoop
任务描述“数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据
flume集成kafka weixin_34112181 大数据 python java
2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf目录下新建kafka.propertiesagent.sources=s1agent.channels=c1agent.sinks=k1agent.sources.s1.type=execage
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
Flume总结我是嘻哈大哥
1.概述2.角色（source、Channel、sink、event)3.使用（1）监控端口（2）实时读取本地文件到HDFS（3）实时读取目录文件到HDFS（4）Flume与Flume之间数据传递：单Flume多Channel、Sink（5）Flume与Flume之间数据传递，多Flume汇总数据到单Flume
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
大数据技术之 Flume 骚戴大数据大数据 Flume
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。骚戴理解：注意这里是日志采集，也就是只能采集文本类型的数据！Flume的作用的特点就是可以实时采集！1.2Flume基础架构Flume组成架构如下图所示1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送
FLUME-NG 使用总结 .道不虚行 hadoop flume 大数据数据收集
FLUME-NG使用总结1、Flume-NG概述2、Flume-NG架构设计要点3、FlowPipeline4、FlumeNG三个组件概要4.1、FlumeSource4.2、FlumeChannel4.3、FlumeSink5、入门应用5.1、flume-ng通过网络端口采集数据5.2、flume-ng通过Exectail采集数据5.3、可能遇到的问题1、Flume-NG概述Flume-NG是一
【大数据】Flume-1.9.0安装➕入门案例欧叶冲冲冲 flume 大数据 flume 学习分布式
目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件（hive.log）到HDFS案例4.实时读取目录文件到HDFS案例5.实时监控目录下多个追加文件总结前言大数据解决的无非是海量数据的采集、存储、计算，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。
大数据入门--Flume（一）安装教程与案例许中宝大数据 flume 大数据
Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件（spooldir-hdfs）安装教程下载安装apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEviconf/flume-env.sh.templat
大数据Flume--入门泛黄的咖啡店大数据 flume
文章目录FlumeFlume定义Flume基础架构AgentSourceSinkChannelEventFlume安装部署安装地址安装部署Flume入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件FlumeFlume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简
Flume安装部署在下区区俗物 flume 大数据
安装部署安装包连接：链接：https://pan.baidu.com/s/1m0d5O3Q2eH14BpWsGGfbLw?pwd=6666（1）将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下tar-zxf/opt/software/
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
java基础：System.getenv() VS System.getProperty() CarsonCao
在阅读flume源码的时候发下如下函数：privatestaticvoidinitSysPropFromEnvVar(StringsysPropName,StringenvVarName,Stringdescription){if(System.getProperty(sysPropName)!=null){LOGGER.debug("GlobalSSL"+description+"hasbeen
flume：(conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks WSQ(E) flume
flume启动失败(conf-file-poller-0)[ERROR-org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)]Sinkk1hasbeenremovedduetoanerrorduringconfigurationorg.apache.
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

flume篇1：flume把json数据写入kudu(flume-kudu-sink)

你可能感兴趣的:(flume)