zsdnr

Flume - 快速入门

关于Flume，官方定义如下:

Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data store.

The use of Apache Flume is not only restricted to log data aggregation. Since data sources are customizable, Flume can be used to transport massive quantities of event data including but not limited to network traffic data, social-media-generated data, email messages and pretty much any data source possible.

Flume是分布式海量日志收集工具，根据不同的数据来源，Flume并不局限于对日志的收集。

flume有如下特性:

内置对多种source和目标类型的支持
支持水平扩展
支持多种传输方式，例如:multi-hop flows, fan-in fan-out flows, ****...
支持contextual routing
支持拦截器
可靠传递。在flume中每个事件有两个事务，分别在send和receive阶段。 sender发送事件给receiver。接收到数据后，receiver提交自己的事务并发送一个成功信号给sender。sender收到该信号后提交自己的事务。

话说Flume最初是为了从多个web服务把数据流复制到HDFS而设计的，那为什么不直接用put把数据放到HDFS? 假如我们有对快速增长的数据进行实时分析的需求，put过来的数据已经不是实时的了。
同样的，rsync、scp这样的工具也是一样的道理，并不适合实时分析的场景。

下图是比较常见的部署方式，以此说明Flume的相关概念:

                    +--------------------------------------------+
                    |                                            |
                    |  +---------------+                         |
                    |  |               |                         |
          +----------> |    agent1     +-------------+           |
          |         |  |               |             |           |
          |         |  +---------------+             |           |
          |         |                                |           |
+---------+----+    |  +---------------+     +-------v-------+   |    +--------------+|              |    |  |               |     |               |   |    |              |
|  generators  +-----> |    agent2     +---> |   collector   +------> | centrialized ||              |    |  |               |     |               |   |    |    store     |
+---------+----+    |  +---------------+     +-------^-------+   |    +--------------+
          |         |                                |           |
          |         |  +---------------+             |           |
          |         |  |               |             |           |
          +----------> |    agent3     +-------------+           |
                    |  |               |                         |
                    |  +---------------+                         |
                    |                                            |
                    +--------------------------------------------+

图中data generator为数据源，它可以是一个接口、队列、文件等。
Flume的agent做为一个独立的进程，从数据源收集数据。
后面的collector事实上也是一个agent，只是将前面agent的输出做为数据源，并对数据进行聚合，最后发送到一个中心存储，比如HDFS。

event在Flume中是数据传输的基本单位，由header和byte payload组成，agent之间传递的就是一个个event。

一个agent包含3个组件，分别为source、channel、sink，一个agent可以有多个source、sink、channel:

+----------+|  source  |
+-------+--+
        |
     +--v----+
     |   C   |
     |   H   |
     |   A   |
     |   N   |
     |   N   |
     |   E   |
     |   L   |
     +-----+-+
           |
        +--v-----+
        |  sink  |
        +--------+

Source: 用于从数据源接收数据，并将数据传给至少一个channel。Flume支持多种source类型。
Channel: 可以把channel理解为一个buffer，或者也可以把channel理解为source和sink之间的一座桥。channel也有多种类型，例如JDBC、file、memory...
Sink: sink从channel获取数据并发送到目标，目标也可以是一个agent。

通常来说，source,channel,sink可以满足大多数需求，此外还有一些组件用于应付特殊场景。

Interceptor: 可以在source和channel之间进行拦截。
Selector: 当一个source关联了两个channel，同一份event应该同时发给两个channel，还是有针对性的发给其中一个channel，selector可以做到这一点。
Sink Processor: 当配置了一个sink group，我们可以用sink processor进行故障转移和负载均衡。

基本用法

安装没什么特别的操作，参考:

cd /usr/local
wget http://www-us.apache.org/dist/flume/1.7.0/apache-flume-1.7.0-bin.tar.gztar xzvf apache-flume-1.7.0-bin.tar.gz
mv apache-flume-1.7.0-bin flume
cd flume
cp flume-conf.properties.template flume-conf.properties
cp flume-env.sh.template flume-env.sh

如果已经安装过Java则再好不过，但要记得export JAVA_HOME:

export JAVA_HOME=/usr/local/jdk1.7.0_75

Flume的配置会根据source和sink的类型会稍有不同，总体而言，无非以下几项:

为agent和其各个组件命名
配置source
配置sink
配置channel
给channel绑定source和sink

下面是Flume支持的source、channel、sink类型:

source	channel	sink
Avro Source	Memory Channel	HDFS Sink
Thrift Source	JDBC Channel	Hive Sink
Exec Source	Kafka Channel	Logger Sink
JMS Source	File Channel	Avro Sink
Spooling Directory Source	Spillable Memory Channel	Thrift Sink
Twitter 1% firehose Source	Pseudo Transaction Channel	IRC Sink
Kafka Source		File Roll Sink
NetCat Source		Null Sink
Sequence Generator Source		HBaseSink
Syslog Sources		AsyncHBaseSink
Syslog TCP Source		MorphlineSolrSink
Multiport Syslog TCP Source		ElasticSearchSink
Syslog UDP Source		Kite Dataset Sink
HTTP Source		Kafka Sink
Stress Source
Legacy Sources
Thrift Legacy Source
Custom Source
Scribe Source

不同的类型可能会有一些特殊的选项，比如Kafka Source需要指定broker地址、topics等。
这里找一个易上手的source类型，运行看看效果。

以netcat为例，在conf中加入netcat2logger.conf，内容如下:

# namingnc.sources = s_netcat
nc.channels = c_mem
nc.sinks = k_logger# sourcenc.sources.s_netcat.type = netcat
nc.sources.s_netcat.bind = localhost
nc.sources.s_netcat.port = 6666# sinknc.sinks.k_logger.type = logger# channelnc.channels.c_mem.type = memory
nc.channels.c_mem.capacity = 1000nc.channels.c_mem.transactionCapacity = 100# bindnc.sources.s_netcat.channels = c_mem
nc.sinks.k_logger.channel = c_mem

启动flume-ng，参考:

bin/flume-ng agent -n nc -f conf/netcat2logger.conf -Dflume.root.logger=INFO,console

打开telnet，试试输入一些内容:

curl telnet://localhost:6666

上面的例子比较容易上手，但看起来并没有什么用处。
下面再贴出一个比较有用例子，假如我有多个nginx实例在分别不同的机器上，我打算把access log的内容实时传给Kafka。
这样我可以给每台机器配置一个agent，并且将本地日志文件作为source，Kafka作为sink。

配置参考:

t2k.sources=s1
t2k.channels=c1
t2k.sinks=k1

t2k.sources.s1.type=exect2k.sources.s1.command=tail -f /usr/local/openresty/nginx/logs/access.logt2k.channels.c1.type=memory
t2k.channels.c1.capacity=10000t2k.channels.c1.transactionCapacity=1000t2k.sinks.k1.type=org.apache.flume.sink.kafka.KafkaSink
t2k.sinks.k1.kafka.topic=my-topic
t2k.sinks.k1.kafka.bootstrap.servers=localhost:9092t2k.sinks.k1.flumeBatchSize=20t2k.sources.s1.channels=c1
t2k.sinks.k1.channel=c1

启动命令参考:

bin/flume-ng agent -n t2k -f conf/tail2Kafka.conf

Flow与Selector

"在一个agent中定义flow"，换句话说就是"将source和sink用channel连接起来"。
所以说，虽然在上面的例子中没有做flow相关的配置，但事实上我们用的是default flow。

Flow表达的是event的流向，例如:

从一个source流向多个agent，agent的sink各不相同。
从一个agent流向另一个agent。
从一个source流向多个channel，e.g. fanout、fanin...

这里我们以fanout为例，从一个source流向多个channel。
但是需要考虑一个问题，这几个channel应该作为worker分摊从同一个source过来的event，还是说作为subscriber监听到相同的event?
这就需要用到另外一个概念——selector

所以，selector只有两种类型:

multiplexer
replicating(default)

两种类型的功能顾名思义，下面举例说明一下。
假设我对一个source配置了replicating selector，该source关联了两个channel，两个channel分别关联两个sink，两个sink输出到不同的目标。
但这样做的效果并不明显，从结果来看，和将两个sink关联到同一个channel没什么区别。

所以我需要一个机制让来自同一个source的event分开流向不同的channel，但这里就需要考虑一个问题——根据什么决定event的流向?

答案是根据header中的属性，为channel设置相关属性值，匹配则流向对应的channel。

参考格式如下:

.sources..selector.type = multiplexing.sources..selector.header = .sources..selector.mapping. = .sources..selector.mapping. =  .sources..selector.mapping. = .sources..selector.default =

所谓optional，就是说selector先试图写到相关的channel，如果事务失败则写入optional channel，如果optional也失败，则忽略。

下面继续用http source写一个例子，根据header流向两个不同的channel，两个channel分别对应两个file sink。

http2logger.conf，参考如下:

HttpAgent.sources = HttpSource
HttpAgent.channels = AChannel BChannel
HttpAgent.sinks = ASink BSink

HttpAgent.sources.HttpSource.type = http
HttpAgent.sources.HttpSource.port = 6666HttpAgent.sources.HttpSource.selector.type = multiplexing
HttpAgent.sources.HttpSource.selector.header = Host

HttpAgent.sources.HttpSource.selector.mapping.A = AChannel
HttpAgent.sources.HttpSource.selector.mapping.B = BChannel
HttpAgent.sources.HttpSource.selector.mapping.C = AChannel BChannel

HttpAgent.sources.HttpSource.channels = AChannel BChannel

HttpAgent.channels.AChannel.type = memory
HttpAgent.channels.BChannel.type = memory

HttpAgent.sinks.ASink.type = logger
HttpAgent.sinks.ASink.channel = AChannel

HttpAgent.sinks.BSink.type = file_roll
HttpAgent.sinks.BSink.channel = BChannel
HttpAgent.sinks.BSink.sink.directory = /var/b

启动:

bin/flume-ng agent -n HttpAgent --conf conf -f conf/http2logger.conf -Dflume.root.logger=INFO,console

测试:

curl -X post localhost:6666 -d '[{"headers": {"Host": "A"}, "body": "this is for A"}]'curl -X post localhost:6666 -d '[{"headers": {"Host": "B"}, "body": "this is for B"}]'curl -X post localhost:6666 -d '[{"headers": {"Host": "C"}, "body": "this is for C"}]'

Interceptor

假如我希望event header的符合某个条件时丢弃该event，可能我还需要设置一个selector，并让该event流向一个null sink?
甚至，如果想修改某个event...这时需要用到interceptor。
Flume为我们提供了几种常见的interceptor实现，不同的interceptor会有一些额外的参数，如下:

implement	desc
Timestamp Interceptor	将timestamp写入header
Host Interceptor	将ip地址或host写入header
Static Interceptor	定义一个常量写入header
UUID Interceptor	将UUID写入header
Morphline Interceptor	根据声明的morphline配置文件进行基本的ETL
Search and Replace Interceptor	根据声明的regex替换内容
Regex Filtering Interceptor	根据声明的regex过滤event
Regex Extractor Interceptor	将匹配regex的group写入header

配置interceptor和配置channel一样，多个interceptor需要用空格隔开。
但需要注意，interceptor的声明顺序即执行顺序。
比如配置一个HostInterceptor，参考:

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.interceptors = i1 i2
a1.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.HostInterceptor$Buildera1.sources.r1.interceptors.i1.preserveExisting = false
a1.sources.r1.interceptors.i1.hostHeader = hostname
a1.sources.r1.interceptors.i2.type = org.apache.flume.interceptor.TimestampInterceptor$Buildera1.sinks.k1.filePrefix = FlumeData.%{CollectorHost}.%Y-%m-%da1.sinks.k1.channel = c1

虽然Flume提供了几种Interceptor实现，但偶尔也需要根据自己的需求实现，接口为org.apache.flume.interceptor.Interceptor。

依赖:
compile group: 'org.apache.flume', name: 'flume-ng-core', version: '1.7.0'

这里写一个没什么用的例子，但可以说明相关方法和读取选项的问题:

package com.kavlez.flume.interceptor;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.List;public class IllusionInterceptor implements Interceptor{

    public static class Builder implements Interceptor.Builder{

        private boolean isAllIllusion = false;        @Override
        public Interceptor build() {            return new IllusionInterceptor(isAllIllusion);
        }        @Override
        public void configure(Context context) {            this.isAllIllusion = context.getBoolean("illusion");
        }
    }    private boolean isAllIllusion;    public IllusionInterceptor(boolean isAllIllusion) {        this.isAllIllusion = isAllIllusion;
    }    @Override
    public void initialize() {
    }    @Override
    public Event intercept(Event event) {        byte[] modifiedEvent = "Everything is an Illusion".getBytes();
        event.setBody(modifiedEvent);        return event;
    }    @Override
    public List intercept(List list) {        for (Event event : list) {            this.intercept(event);
        }        return list;
    }    @Override
    public void close() {
    }
}

编译后的jar需要放到/path/to/flume/lib/.下即可。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark) weixin_39793638 pyspark kafka mysql
蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据基础之Flume——Flume基础及Flume agent配置以及自定义拦截器 Clozzz Flume 大数据 flume hadoop
Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其他目的地 -一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对
Flume介绍及调优桓桓桓桓分布式大数据日志搜集
一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flu
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty 小波2200013045 flume 大数据
[root@master~]#flume-ngversion[root@master~]#cd/usr/local/flume/bin[root@masterbin]#vimflume-ng配置文件中加入红框代码#determineHBASEjava.library.pathandusethatforflumelocalHBASE_CLASSPATH=""localHBASE_JAVA_LIBRA
flume系列之：批量并行启动、停止、重启flume agent组快乐骑行^_^ flume flume系列批量并行启动停止重启 flume agent组
Flume系列之：批量并行启动、停止、重启flumeagent组批量启动flumeagent组批量启动flumeagent组importsubprocessimportthreadingdefrun_command(command):process=subprocess.Popen(command,shell=True)process
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储我非夏日大数据开发---电信项目大数据大数据技术开发 hadoop
任务描述“数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据
flume集成kafka weixin_34112181 大数据 python java
2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf目录下新建kafka.propertiesagent.sources=s1agent.channels=c1agent.sinks=k1agent.sources.s1.type=execage
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
Flume总结我是嘻哈大哥
1.概述2.角色（source、Channel、sink、event)3.使用（1）监控端口（2）实时读取本地文件到HDFS（3）实时读取目录文件到HDFS（4）Flume与Flume之间数据传递：单Flume多Channel、Sink（5）Flume与Flume之间数据传递，多Flume汇总数据到单Flume
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
大数据技术之 Flume 骚戴大数据大数据 Flume
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。骚戴理解：注意这里是日志采集，也就是只能采集文本类型的数据！Flume的作用的特点就是可以实时采集！1.2Flume基础架构Flume组成架构如下图所示1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送
FLUME-NG 使用总结 .道不虚行 hadoop flume 大数据数据收集
FLUME-NG使用总结1、Flume-NG概述2、Flume-NG架构设计要点3、FlowPipeline4、FlumeNG三个组件概要4.1、FlumeSource4.2、FlumeChannel4.3、FlumeSink5、入门应用5.1、flume-ng通过网络端口采集数据5.2、flume-ng通过Exectail采集数据5.3、可能遇到的问题1、Flume-NG概述Flume-NG是一
【大数据】Flume-1.9.0安装➕入门案例欧叶冲冲冲 flume 大数据 flume 学习分布式
目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件（hive.log）到HDFS案例4.实时读取目录文件到HDFS案例5.实时监控目录下多个追加文件总结前言大数据解决的无非是海量数据的采集、存储、计算，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。
大数据入门--Flume（一）安装教程与案例许中宝大数据 flume 大数据
Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件（spooldir-hdfs）安装教程下载安装apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEviconf/flume-env.sh.templat
大数据Flume--入门泛黄的咖啡店大数据 flume
文章目录FlumeFlume定义Flume基础架构AgentSourceSinkChannelEventFlume安装部署安装地址安装部署Flume入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件FlumeFlume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简
Flume安装部署在下区区俗物 flume 大数据
安装部署安装包连接：链接：https://pan.baidu.com/s/1m0d5O3Q2eH14BpWsGGfbLw?pwd=6666（1）将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下tar-zxf/opt/software/
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
java基础：System.getenv() VS System.getProperty() CarsonCao
在阅读flume源码的时候发下如下函数：privatestaticvoidinitSysPropFromEnvVar(StringsysPropName,StringenvVarName,Stringdescription){if(System.getProperty(sysPropName)!=null){LOGGER.debug("GlobalSSL"+description+"hasbeen
flume：(conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks WSQ(E) flume
flume启动失败(conf-file-poller-0)[ERROR-org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)]Sinkk1hasbeenremovedduetoanerrorduringconfigurationorg.apache.
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

Flume - 快速入门

基本用法

Flow与Selector

Interceptor

你可能感兴趣的:(flume)