心猿意码~~

六阶段大数据--day06--Apache Flume/ Source案例练习/ 集群部署

一 Apache Flume

1．概述

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。

Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume再删除自己缓存的数据。

Flume支持定制各类数据发送方，用于收集各类型数据；同时，Flume支持定制各种数据接受方，用于最终存储数据。一般的采集需求，通过对flume的简单配置即可实现。针对特殊场景也具备良好的自定义扩展能力。因此，flume可以适用于大部分的日常数据采集场景。

当前Flume有两个版本。Flume 0.9X版本的统称Flume OG（original generation），Flume1.X版本的统称Flume NG（next generation）。由于Flume NG经过核心组件、核心配置以及代码架构重构，与Flume OG有很大不同，使用时请注意区分。改动的另一原因是将Flume纳入 apache 旗下，Cloudera Flume 改名为 Apache Flume。

2．运行机制

Flume系统中核心的角色是agent，agent本身是一个Java进程，一般运行在日志收集节点。

Agent：代理，flume集群中，每个节点都是一个agent，包含了flume单节点：接受、封装、承载、传输event到目的地的过程。这个过程中包含三部分（source、channel、sink）。

每一个agent相当于一个数据传递员，内部有三个组件：

Source：采集源，用于跟数据源对接，以获取数据；

Sink：下沉地，采集数据的传送目的地，用于往下一级agent传递数据或者往最终存储系统传递数据；

Channel：agent内部的数据传输通道，用于从source将数据传递到sink；

在整个数据的传输的过程中，流动的是event，它是Flume内部数据传输的最基本单元。event将传输的数据进行封装。如果是文本文件，通常是一行记录，event也是事务的基本单位。event从source，流向channel，再到sink，本身为一个字节数组，并可携带headers(头信息)信息。event代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。

一个完整的event包括：event headers、event body、event信息，其中event信息就是flume收集到的日记记录。

2.1 简单结构

单个agent采集数据

2.2 复杂结构

多级agent之间串联

3. Flume安装部署

上传安装包到数据源所在节点上

然后解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz

然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME

#解压缩到servers目录下
tar -xvzf apache-flume-1.9.0-bin.tar.gz -C ../servers/

保存并退出即可

4.flume初体验

进入conf目录下，创建该文件,配置内容

vim http_logger.properties

配置如下内容：

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 
a1.sources.r1.type  =  http
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
a1.sinks.k1.type  =  logger
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

启动服务

在/opt/servers/flume-1.9.0/目录下执行

bin/flume-ng agent -c conf -f conf/http_logger.properties -n a1 -Dflume.root.logger=INFO,console

注：

-c conf 指定flume自身的配置文件所在目录

-f conf/netcat-logger.con 指定我们所描述的采集方案

-n a1 指定我们这个agent的名字

flume启动后占用当前窗口，复制一个新的窗口在任意目录下执行以下

curl -X POST -d '[{"headers":{"tester":"tony"},"body":"hello http flume"}]' http://hadoop01:22222

配置文件详解

#a1为自定义的agent名字，与启动命令中的-n属性对应
 
a1.sources  =  r1     #定义agent的数据源source，可以有多个。
a1.sinks  =  k1       #定义agent的数据出处，可以有多个。
a1.channels  =  c1    #定义agent的通道，一般有多少个sink就有多少个channel
 
 
a1.sources.r1.type  =  http   #指定source的类型http
a1.sources.r1.bind  =  0.0.0.0  #指定source的来源。一般为本机，被动接收
a1.sources.r1.port  =  22222    #指定端口
 
a1.sinks.k1.type  =  logger  //前端日志打印输出
 

  
a1.channels.c1.type  =  memory       #指定channel的类型为 内存
a1.channels.c1.capacity  =  1000     #指定存储容量，避免强制抢占内存影响其他进程的正常运行
a1.channels.c1.transactionCapacity  =  100  #指定事务容量
 
a1.sources.r1.channels  =  c1    #r1源指定哪一个管道channels,即c1来绑定传输source
a1.sinks.k1.channel  =  c1       #指定的管道要传递哪个下沉点,即c1管道绑定sink

正式操作:

保存并退出

flume启动后占用当前窗口，需要在一个新的窗口的任意目录下执行以下命令

查看占用的窗口下接受的源数据信息

二 Source数据源练习案例

1.avro

源的传输,对象都需要序列化才能转移发送和传输,数据的传输都需要序列化和反序列化

vim avro_logger.conf

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 
a1.sources.r1.type  =  avro
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
a1.sinks.k1.type  =  logger

#管道选择memory,它可以把event内的数据放到内存当中进行数据传递
#如果选择File channel,它会把event内数据保存到本地磁盘,再从本地磁盘发送给sink
#传递速度memory快,但在传递过程中机器断电等问题,会造成数据的丢失,所以要客观选择
a1.channels.c1.type  =  memory   
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

1.在/opt/data/flumedata下创建文件log.txt并编辑添加数据

2.在flume安装目录下的conf目录下执行命令启动agent

bin/flume-ng agent -c conf -f conf/avro_logger.conf -n a1 -Dflume.root.logger=INFO,console

3.模拟发送avro在flume的bin目录下执行：

bin/flume-ng avro-client -c conf -H hadoop01 -p 22222 -F /opt/data/flumedata/log.txt

正式操作:

注意:2222端口号前面那个一定要先关掉,否则会被占用,然后保存并退出

接着第一步:在01新窗口下创建新文件目录并 cd /opt/data/flumedata下创建文件log.txt并编辑添加数据

回到原来01的窗口,启动agent服务

模拟发送avro在flume的bin目录下执行

发送的信息以logger日志的形式展示在控制台

2.Spooldir

spooldir：source源，用于监控文件目录,收集文件目录数据

注意：

1）对于文件中要源源不断写入的这情况，不适合使用spooldir。看似控制台收集了数据,实际这个服务已经宕掉了,不会再变成.completed文件

2）对于已经监控的文件，如果有相同文件名再次放入到监控目录中，此时服务会报错，并不再进行监控。

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 
a1.sources.r1.type  =  spooldir 
a1.sources.r1.spoolDir = /opt/data/spooldir
 
a1.sinks.k1.type  =  logger
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

在/home/data目录下创建文件夹spooldir
启动
在spooldir中vim文件并添加内容并保存。发现flume日志中打印编辑内容。

打开01新窗口创建文件:

回到原来的01窗口启动服务:

收集的文件内容会在控制台展示

为什么没有显示完全?因为下沉点默认最多显示15个字节,可以设置更多以供显示收集的数据内容

3.采集目录到HDFS

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
##注意：不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /opt/data/spooldir
#a1.sources.r1.fileHeader = true

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
#获取时间
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

参数解析：

· rollInterval

默认值：30

hdfs sink间隔多长将临时文件滚动成最终目标文件，单位：秒；

如果设置成0，则表示不根据时间来滚动文件；

注：滚动（roll）指的是，hdfs sink将临时文件重命名成最终目标文件，并新打开一个临时文件来写入数据；

· rollSize

默认值：1024

当临时文件达到该大小（单位：bytes）时，滚动成目标文件；

如果设置成0，则表示不根据临时文件大小来滚动文件；

· rollCount

默认值：10

当events数据达到该数量时候，将临时文件滚动成目标文件；

如果设置成0，则表示不根据events数据来滚动文件；

· round

默认值：false

对文件目录进行滚动。

是否启用时间上的“舍弃”，这里的“舍弃”，类似于“四舍五入”。

· roundValue

默认值：1

时间上进行“舍弃”的值；

· roundUnit

默认值：seconds

时间上进行“舍弃”的单位，包含：second,minute,hour

开始--编辑配置文件:

启动服务时自动收集数据并上传到hdfs上去:因为这是在hadoop的环境下启动的所以自动会上传

4.采集文件到HDFS

exec只能指定一个文件进行监控，监控的是源源不断写入的文件。

# Name the components on this agent
a1.sources = r1 r2 r3
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/data/exec/test.log

a1.sources.r2.type = exec
a1.sources.r2.command = tail -F /opt/data/exec/test1.log

a1.sources.r3.type = exec
a1.sources.r3.command = tail -F /opt/data/exec/test2.log

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/exec/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sources.r2.channels = c1
a1.sources.r3.channels = c1
a1.sinks.k1.channel = c1

开发shell脚本定时追加文件内容

mkdir -p /opt/servers/shells/

cd  /opt/servers/shells/

vim exec.sh

#!/bin/bash

while true

do

 date >> /opt/data/exec/test.log;

  sleep 0.5;

done

启动脚本

sh /opt/servers/shells/exec.sh

5.TailDir的使用

同时监控多个文件的持续写入

固定文件：1.txt 2.txt

持续写入文件：test.log 3.txt

source:taildir

sink:hdfs

channel:memory

#source channel sink
# 定义核心组件
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#定义source
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 = /opt/data/taildir/log1/.*txt.*
a1.sources.r1.filegroups.f2 = /opt/data/taildir/log2/.*log.*
a1.sources.r1.positionFile = /opt/data/taildir/taildir_position.json
a1.sources.r1.fileHeader = true
a1.sources.r1.headers.f1.key1 = value1

#定义sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/taildir/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.useLocalTimeStamp = false
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.fileType = DataStream

#定义channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#将channel和source、sink关联起来
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

三集群部署

Hadoop01：JDK、Hadoop、Flume

Hadoop02：JDK、Flume

Hadoop03：JDK、Flume

只需要将hadoop01安装好的Flume文件夹发送到02 03两个节点相应的位置即可。

案例练习

多级

Hadoop01

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 
a1.sources.r1.type  =  http
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
a1.sinks.k1.type  =  avro
a1.sinks.k1.hostname  =  hadoop02
a1.sinks.k1.port  =  22222
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

hadoop02

a1.sources  =  r1
a1.sinks  =  k1 
a1.channels  =  c1
 
a1.sources.r1.type  =  avro
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222

a1.sinks.k1.type  =  avro
a1.sinks.k1.hostname  =  hadoop03
a1.sinks.k1.port  =  22222

 
a1.channels.c1.type  =  memory 
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100

 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

hadoop03

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1

a1.sources.r1.type  =  avro
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222

a1.sinks.k1.type  =  logger

a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

按照顺序从hadoop03启动节点

扇入(fan-in)

Hadoop01

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 

a1.sources.r1.type  =  http
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
  
a1.sinks.k1.type  =  avro
a1.sinks.k1.hostname  =  hadoop03
a1.sinks.k1.port  =  22222

a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100

a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

Hadoop02

a1.sources  =  r1
 
a1.sinks  =  k1
 
a1.channels  =  c1
 
 
 
a1.sources.r1.type  =  http
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
a1.sinks.k1.type  =  avro
a1.sinks.k1.hostname  =  hadoop03
a1.sinks.k1.port  =  22222
 
 
 
a1.channels.c1.type  =  memory
 
a1.channels.c1.capacity  =  1000
 
a1.channels.c1.transactionCapacity  =  100
 
 
 
a1.sources.r1.channels  =  c1
 
a1.sinks.k1.channel  =  c1

Hadoop03

a1.sources  =  r1 
a1.sinks  =  k1 
a1.channels  =  c1
 

a1.sources.r1.type  =  avro
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
a1.sinks.k1.type  =  logger
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

扇出(fanout)

Hadoop01

a1.sources  =  r1
a1.sinks  =  k1 k2
a1.channels  =  c1 c2
 
a1.sources.r1.type  =  http
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222

a1.sinks.k1.type  =  avro
a1.sinks.k1.hostname  =  hadoop02
a1.sinks.k1.port  =  22222
 
a1.sinks.k2.type  =  avro
a1.sinks.k2.hostname  =  hadoop03
a1.sinks.k2.port  =  22222
 
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
a1.channels.c2.type  =  memory
a1.channels.c2.capacity  =  1000
a1.channels.c2.transactionCapacity  =  100
 
 
 
a1.sources.r1.channels  =  c1 c2
a1.sinks.k1.channel  =  c1
a1.sinks.k2.channel  =  c2

Hadoop02

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 
 
 
a1.sources.r1.type  =  avro
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
 
a1.sinks.k1.type  =  logger
 
 
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
 
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

Hadoop03

a1.sources  =  r1
a1.sinks  =  k1
a1.channels  =  c1
 
 
 
a1.sources.r1.type  =  avro
a1.sources.r1.bind  =  0.0.0.0
a1.sources.r1.port  =  22222
 
 
 
a1.sinks.k1.type  =  logger
 
 
 
a1.channels.c1.type  =  memory
a1.channels.c1.capacity  =  1000
a1.channels.c1.transactionCapacity  =  100
 
 
 
a1.sources.r1.channels  =  c1
a1.sinks.k1.channel  =  c1

你可能感兴趣的:(flume)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark) weixin_39793638 pyspark kafka mysql
蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据基础之Flume——Flume基础及Flume agent配置以及自定义拦截器 Clozzz Flume 大数据 flume hadoop
Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其他目的地 -一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对
Flume介绍及调优桓桓桓桓分布式大数据日志搜集
一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flu
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty 小波2200013045 flume 大数据
[root@master~]#flume-ngversion[root@master~]#cd/usr/local/flume/bin[root@masterbin]#vimflume-ng配置文件中加入红框代码#determineHBASEjava.library.pathandusethatforflumelocalHBASE_CLASSPATH=""localHBASE_JAVA_LIBRA
flume系列之：批量并行启动、停止、重启flume agent组快乐骑行^_^ flume flume系列批量并行启动停止重启 flume agent组
Flume系列之：批量并行启动、停止、重启flumeagent组批量启动flumeagent组批量启动flumeagent组importsubprocessimportthreadingdefrun_command(command):process=subprocess.Popen(command,shell=True)process
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储我非夏日大数据开发---电信项目大数据大数据技术开发 hadoop
任务描述“数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据
flume集成kafka weixin_34112181 大数据 python java
2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf目录下新建kafka.propertiesagent.sources=s1agent.channels=c1agent.sinks=k1agent.sources.s1.type=execage
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
Flume总结我是嘻哈大哥
1.概述2.角色（source、Channel、sink、event)3.使用（1）监控端口（2）实时读取本地文件到HDFS（3）实时读取目录文件到HDFS（4）Flume与Flume之间数据传递：单Flume多Channel、Sink（5）Flume与Flume之间数据传递，多Flume汇总数据到单Flume
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
大数据技术之 Flume 骚戴大数据大数据 Flume
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。骚戴理解：注意这里是日志采集，也就是只能采集文本类型的数据！Flume的作用的特点就是可以实时采集！1.2Flume基础架构Flume组成架构如下图所示1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送
FLUME-NG 使用总结 .道不虚行 hadoop flume 大数据数据收集
FLUME-NG使用总结1、Flume-NG概述2、Flume-NG架构设计要点3、FlowPipeline4、FlumeNG三个组件概要4.1、FlumeSource4.2、FlumeChannel4.3、FlumeSink5、入门应用5.1、flume-ng通过网络端口采集数据5.2、flume-ng通过Exectail采集数据5.3、可能遇到的问题1、Flume-NG概述Flume-NG是一
【大数据】Flume-1.9.0安装➕入门案例欧叶冲冲冲 flume 大数据 flume 学习分布式
目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件（hive.log）到HDFS案例4.实时读取目录文件到HDFS案例5.实时监控目录下多个追加文件总结前言大数据解决的无非是海量数据的采集、存储、计算，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。
大数据入门--Flume（一）安装教程与案例许中宝大数据 flume 大数据
Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件（spooldir-hdfs）安装教程下载安装apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEviconf/flume-env.sh.templat
大数据Flume--入门泛黄的咖啡店大数据 flume
文章目录FlumeFlume定义Flume基础架构AgentSourceSinkChannelEventFlume安装部署安装地址安装部署Flume入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件FlumeFlume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简
Flume安装部署在下区区俗物 flume 大数据
安装部署安装包连接：链接：https://pan.baidu.com/s/1m0d5O3Q2eH14BpWsGGfbLw?pwd=6666（1）将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下tar-zxf/opt/software/
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
java基础：System.getenv() VS System.getProperty() CarsonCao
在阅读flume源码的时候发下如下函数：privatestaticvoidinitSysPropFromEnvVar(StringsysPropName,StringenvVarName,Stringdescription){if(System.getProperty(sysPropName)!=null){LOGGER.debug("GlobalSSL"+description+"hasbeen
flume：(conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks WSQ(E) flume
flume启动失败(conf-file-poller-0)[ERROR-org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)]Sinkk1hasbeenremovedduetoanerrorduringconfigurationorg.apache.
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

六阶段大数据--day06--Apache Flume/ Source案例练习/ 集群部署

一 Apache Flume

1． 概述

2．运行机制

2.1 简单结构

2.2 复杂结构

3. Flume安装部署

4.flume初体验

二 Source数据源 练习案例

1.avro

2.Spooldir

3.采集目录到HDFS

4.采集文件到HDFS

5.TailDir的使用

三 集群部署

案例练习

多级

扇入(fan-in)

扇出(fanout)

你可能感兴趣的:(flume)

1．概述

二 Source数据源练习案例

三集群部署