热心市民爱抽烟屁

Flume

面试题

4.1 你是如何实现 Flume 数据传输的监控的

使用第三方框架 Ganglia 实时监控 Flume。

4.2 Flume 的 Source**，Sink，**Channel 的作用？你们 Source 是什么类

型？

1、作用

（1）Source 组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，

包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、

http、legacy

（2）Channel 组件对采集到的数据进行缓存，可以存放在 Memory 或 File 中。

（3）Sink 组件是用于把数据发送到目的地的组件，目的地包括 HDFS、Logger、avro、

thrift、ipc、file、Hbase、solr、自定义。

2、我公司采用的 Source 类型为

（1）监控后台日志：exec

（2）监控后台产生日志的端口：netcat

Exec spooldir

4.3 Flume 的 Channel Selectors

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KRiaRum5-1621439935092)(…/TypoarWrokPath/images/1619288682479.png)]

Channel Selectors，可以让不同的项目日志通过不同的Channel到不同的Sink中去。

官方文档上Channel Selectors 有两种类型:Replicating Channel Selector (default)和

Multiplexing Channel Selector

这两种Selector的区别是:Replicating 会将source过来的events发往所有channel,而

Multiplexing可以选择该发往哪些Channel。

4.4 Flume 参数调优

\1. Source

增加 Source 个（使用 Tair Dir Source 时可增加 FileGroups 个数）可以增大 Source 的读

取数据的能力。例如：当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件

目录，同时配置好多个 Source 以保证 Source 有足够的能力获取到新产生的数据。

batchSize 参数决定 Source 一次批量运输到 Channel 的 event 条数，适当调大这个参数

可以提高 Source 搬运 Event 到 Channel 时的性能。

\2. Channel

type 选择 memory 时 Channel 的性能最好，但是如果 Flume 进程意外挂掉可能会丢失

数据。type 选择 file 时 Channel 的容错性更好，但是性能上会比 memory channel 差。

使用 file Channel 时 dataDirs 配置多个不同盘下的目录可以提高性能。

Capacity 参数决定 Channel 可容纳最大的 event 条数。transactionCapacity 参数决定每

次 Source 往 channel 里面写的最大 event 条数和每次 Sink 从 channel 里面读的最大 event

条数。transactionCapacity 需要大于 Source 和 Sink 的 batchSize 参数。

\3. Sink

增加 Sink 的个数可以增加 Sink 消费 event 的能力。Sink 也不是越多越好够用就行，过

多的 Sink 会占用系统资源，造成系统资源不必要的浪费。

batchSize 参数决定 Sink 一次批量从 Channel 读取的 event 条数，适当调大这个参数可

以提高 Sink 从 Channel 搬出 event 的性能。

4.5 Flume 的事务机制

Flume 的事务机制（类似数据库的事务机制）：Flume 使用两个独立的事务分别负责从

Soucrce 到 Channel，以及从 Channel 到 Sink 的事件传递。比如 spooling directory source

为文件的每一行创建一个事件，一旦事务中所有的事件全部传递到 Channel 且提交成功，那

么 Soucrce 就将该文件标记为完成。同理，事务以类似的方式处理从 Channel 到 Sink 的传

递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会保持

到 Channel 中，等待重新传递

4.6 Flume 采集数据会丢失吗**?**

根据 Flume 的架构原理，Flume 是不可能丢失数据的，其内部有完善的事务机制，

Source 到 Channel 是事务性的，Channel 到 Sink 是事务性的，因此这两个环节不会出现数

据的丢失，唯一可能丢失数据的情况是 Channel 采用 memoryChannel，agent 宕机导致数据

丢失，或者 Channel 存储数据已满，导致 Source 不再写入，未写入的数据丢失。

Flume 不会丢失数据，但是有可能造成数据的重复，例如数据已经成功由 Sink 发出，

但是没有接收到响应，Sink 会再次发送数据，此时可能会导致数据的重复。

1.安装 netcat 工具**

sudo yum install -y nc

2.互相通信

-- hadoop102 服务器
nc -lk 44444  --开启服务端 444444是服务器的端口号
--hadooop103 客户端
nc hadoop102 44444 --启动客户端

1.可有多个客户端向服务器发送信息,只有服务器可以收到,其他客户端互不干扰

3.flume 启动命令

 1.第一种
 bin/flume-ng agent --conf conf/ --name  a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console
 
 2.第二种(推荐使用)
 bin/flume-ng agent -c conf/ -n a1 -f 
job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

--参数解释
1.--conf/-c：表示配置文件存储在 conf/目录
2.--name/-n：表示给 agent 起名为 a1
3.--conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的 flume-telnet.conf文件
4.-Dflume.root.logger=INFO,console ：-D 表示 flume 运行时动态修改 flume.root.logger
参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、
error。

4.动态监控日志

--语法:tail -f /路径
--如果监控任务失败了,那就直接失败了,不会重新在去监控
--读日志的时候会先默认读后面十行记录
tail -f /opt/module/hive/hive.log

--语法:tail -F /路径
--如果监控任务失败了,它会重试,去尝试重新开始监控
tail -F /opt/module/hive/hive.log

5.flume的定义

1.Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。

6.为什么要使用flume

1.Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS

6.flume的组件

1.2.1 Agent

Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。是flume存储数据流的地方

Agent 主要有 3 个部分组成，Source、Channel、Sink。

1.2.2 Source

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种

格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence

generator、syslog、http、legacy。

1.2.3日志输出的最大长度为16,如果长度大于16后面的就不输出

maxBytesToLog 16 Maximum number of bytes of the Event body to log

avro: 把多台服务器(flume generator)上面的日志汇总到一台或者几台服务器上面（flume collector），然后对接到kafka或者HDFS上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Lp9WI21C-1621439935095)(…/TypoarWrokPath/images/1619106756731.png)]

Thrift:

侦听Thrift端口并从外部Thrift客户端流接收事件。当与另一（前一跳）Flume agent上的内置ThriftSink配对时，它可以创建分层集合拓扑。 Thrift源可以配置为通过启用kerberos身份验证在安全模式下启动。 agent-principal和agent-keytab是Thrift源用来向Kerberos KDC进行身份验证的属性。

1.2.3 Sink

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储

或索引系统、或者被发送到另一个 Flume Agent。

Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、 taildir .自定 义。

1.2.4 Channel

Channel 是位于 Source 和 Sink 之间的缓冲区。因此，Channel 允许 Source 和 Sink 运

作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个

Sink 的读取操作。

Flume 自带两种 Channel：Memory Channel 和 File Channel 以及 Kafka Channel。

Memory Channel 是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适

用。如果需要关心数据丢失，那么 Memory Channel 就不应该使用，因为程序死亡、机器宕

机或者重启都会导致数据丢失。

File Channel 将所有事件写到磁盘.因此在程序关闭或机器宕机的情况下不会丢失数据。
首先是flume中三个组件的单词的意思，flume：水道；笕槽；引水槽，source：水源，channel：水渠，sink：水槽。见文知意，就是水从源头流出来，经过水渠或者管道，最终流到终点，也就是水槽了。之前总是flume的叫着，也不知道是啥意思，今天查了一下，再看其他几个组件的意思，这个工具的功能不言而喻了，就是针对像水一样的数据流处理的。
--flume channel selectors允许给一个source可以配置多个channel的能力。这种模式有两种方式，一种是用来复制（Replication），这也是默认配置，另一种是用来分流（Multiplexing）。
Flume中channel选择器（selector.type配置）必须实现ChannelSelector接口，实现了该接口的类主要作用是告诉Source中接收到的Event应该发送到哪些Channel，在Flume中主要由两个实现方式：
--1，复用，实现类：MultiplexingChannelSelector （Multiplexing n. 多路技术 多路复用）
--2，复制，实现类：ReplicatingChannelSelector   (Replicate  n. 复制品)
--如果没有手动配置，source的默认channel选择器类型是replicating（复制），当然这个选择器只针对source配置了多个channel的时候。
一个souce可以向多个channel同时写数据，所以也就产生了以何种方式向多个channel写的问题（比如自带的复制选择器，会把数据完整地发送到每一个channel，而多路分发选择器就可以通过配置来按照一定的规则进行分发，听起来很像负载均衡），channel选择器也就应运而生。
1.2.5 Event

传输单元，Flume 数据传输的基本单元，以 Event 的形式将数据从源头送至目的地。

Event 由 Header 和 Body 两部分组成，Header 用来存放该 event 的一些属性，为 K-V 结构，

Body 用来存放该条数据，形式为字节数组。

sources 的avro类型监听Avro端口来接受外部avro客户端的事件流，和netcat不同的是，avro-source接收到的是经过avro序列化之后的数据，然后反序列化数据继续传输，所以，如果avro-source的话，源数据必须是经过avro序列化之后的数据。而netcat接收的是字符串格式的数据。

sources 的natcet类型

1.0,文件类型匹配

1.1配置文件 a1 a2 a3

2.如果在a1 使用sources netcat 接收数据,sink 使用avro类型,如果需要把数据传输给a2,那么a2的sources 就需要使用 avro类型接收数据, 建议也使用sink ,如果a2的数据还需要传给a3 ,都建议使用avro

7.安装详见山硅谷flume ppt 第四页

监控端口数据官方案例

1）案例需求：

使用 Flume 监听一个端口，收集该端口数据，并打印到控制台

2)需求分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eg6pa45G-1621439935097)(…/TypoarWrokPath/images/1618849609781.png)]

3.创建flume-netcat-logger.conf文件
# agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#  source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#  sink 日志级别
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind  source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

8.实时监控单个追加文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SZJvK3L5-1621439935100)(…/TypoarWrokPath/images/1618849109512.png)]

1.1.Flume 要想将数据输出到 HDFS，须持有 Hadoop 相关 jar 包

commons-configuration-1.6.jar、
hadoop-auth-2.7.2.jar、
hadoop-common-2.7.2.jar、
hadoop-hdfs-2.7.2.jar、
commons-io-2.4.jar、
htrace-core-3.1.0-incubating.jar

2.创建 flume-file-hdfs.conf 文件

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

#  source
使用exec source type属性为exec
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log

#  sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:8020/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs- #是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件(单位秒)
a2.sinks.k2.hdfs.rollInterval = 30
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

9.实时监控目录下多个新文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tA7WCYDk-1621439935102)(…/TypoarWrokPath/images/1618849206288.png)]

1．创建配置文件 flume-dir-hdfs.conf

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source 
a2.sources.r2.type = spooldir
a2.sources.r2.spoolDir = /opt/module/flume/upload
a2.sources.r2.fileHeader = true


# Describe the sink
a2.sinks.k2.type = hdfs
#上传到hdfs上的路径按年月日以分一级文件夹按日分二级文件夹
a2.sinks.k2.hdfs.path = hdfs://hadoop102:8020/flume/%Y%m%d/%H
#忽略所有以.tmp 结尾的文件，不上传
a2.sources.r2.ignorePattern = ([^ ]*\.tmp)
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs- #是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件(单位秒)
a2.sinks.k2.hdfs.rollInterval = 30
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0


# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100


# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

10.实时监控目录下的多个追加文件

Exec source 适用于监控一个实时追加的文件，但不能保证数据不丢失；Spooldir

Source 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控；而 Taildir

Source 既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TVqRy0Sp-1621439935103)(…/TypoarWrokPath/images/1618849411526.png)]

1.创建flume-files-logger.conf
# Name the components on this agent
--定义
a1.sources = r1
a1.sinks = k1
a1.channels = c1


# source
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 =/opt/module/flume/files/files1.txt  --监控哪个文件
a1.sources.r1.filegroups.f2 =/opt/module/flume/files/files2.txt
a1.sources.r1.positionFile = /opt/module/flume/position/position.json --最终输出在本地路径

#  sink
a1.sinks.k1.type = logger

#  channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100


# Bind the source and sink to the channel
--将source sink 与channel绑定
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
Taildir 说明：

Taildir Source 维护了一个 json 格式的 position File，其会定期的往 position File

中更新每个文件读取到的最新的位置，因此能够实现断点续传。

Position File 的格式如下：

{“inode”:2496272,“pos”:12,“file”:"/opt/module/flume/files/file1.t

xt"}

{“inode”:2496275,“pos”:12,“file”:"/opt/module/flume/files/file2.t

xt"}

注：Linux 中储存文件元数据的区域就叫做 inode，每个 inode 都有一个号码，操作系统

用 inode 号码来识别不同的文件，Unix/Linux 系统内部不使用文件名，而使用 inode 号码来

11.实时读取目录文件到HDFS案例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y9vevOAL-1621439935104)(…/TypoarWrokPath/images/1618850653510.png)]

1．创建配置文件 flume-dir-hdfs.conf

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source
a2.sources.r2.type = 
a2.sources.r2.type = spooldir
a2.sources.r2.spoolDir = /opt/module/flume/upload
a2.sources.r2.fileHeader = true


# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:8020/flume/%Y%m%d/%H
#忽略所有以.tmp 结尾的文件，不上传
a2.sources.r2.ignorePattern = ([^ ]*\.tmp)


#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs- #是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件(单位秒)
a2.sinks.k2.hdfs.rollInterval = 30
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

12Flume事务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ehh7U9QE-1621439935104)(…/TypoarWrokPath/images/1618936762325.png)]

1.Put事务流程

-doPut:将数据先写入临时缓冲区purlist

-doCommit:检查channel内存队列是否足够合并

-doPollback:channel内存队列空间不足,回滚数据

2.Take事务

-doTake :将数据拉取到临时缓冲区take List,并将数据发送到HDFS

-doCommit:如果数据全部发送成功,则清除缓冲区TakeList的数据

-doRollback:数据发送过程中如果出现异常,rollack将临时缓冲区TakeList的数据还给channel

13.Flume Agent的内部原理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KqcU0G7h-1621439935105)(…/TypoarWrokPath/images/1618937587240.png)]

1.重要组件

1.ChannelSelector

ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型，

分别是 Replicating（复制）和 Multiplexing（多路复用）。

ReplicatingSelector 会将同一个 Event 发往所有的 Channel，Multiplexing 会根据相

应的原则，将不同的 Event 发往不同的 Channel。

2.SinkProcessor

SinkProcessor 共有三种类型，分别是

DefaultSinkProcessor 、 LoadBalancingSinkProcessor 和 FailoverSinkProcessor

DefaultSinkProcessor 对应的是单个的 Sink ，

LoadBalancingSinkProcessor 和 FailoverSinkProcessor 对应的是 Sink Group, LoadBalancingSinkProcessor 可以实现负 载均衡的功能，

FailoverSinkProcessor 可以实现故障转移的功能。

14.Flume 拓扑结构

1.简单串联

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UGEa3wCL-1621439935106)(…/TypoarWrokPath/images/1618938451676.png)]

这种模式是将多个 flume 顺序连接起来了，从最初的 source 开始到最终 sink 传送的

目的存储系统。此模式不建议桥接过多的 flume 数量，flume 数量过多不仅会影响传输速率，

而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。

2.复制和多路复用

1.解释:单source 多个channel,Slnk

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IhjmQLII-1621439935108)(…/TypoarWrokPath/images/1618938523806.png)]

2.Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个

channel 中，或者将不同数据分发到不同的 channel 中，sink 可以选择传送到不同的目的

地。

3.负载均衡和故障转移

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yCBXDvpY-1621439935109)(…/TypoarWrokPath/images/1618938734581.png)]

1.Flume支持使用将多个sink逻辑上分到一个sink组，sink组配合不同的SinkProcessor

可以实现负载均衡和错误恢复的功能。

4.聚合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hi6F1fzM-1621439935109)(…/TypoarWrokPath/images/1618938970389.png)]

1.这种模式是我们最常见的，也非常实用，日常 web 应用通常分布在上百个服务器，大者

甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用 flume 的这种组合方式

能很好的解决这一问题，每台服务器部署一个 flume 采集日志，传送到一个集中收集日志的

flume，再由此 flume 上传到 hdfs、hive、hbase 等，进行日志分析。

15.Fumle企业案例

1）案例需求

使用 Flume-1 监控文件变动，Flume-1 将变动内容传递给 Flume-2，Flume-2 负责存储

到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3，

Flume-3 负责输出到 Local FileSystem。

2.需求分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kKk440EQ-1621439935110)(…/TypoarWrokPath/images/1619073372383.png)]

flume1

#监控日志将日志发送发到flume2 和flume3
#names
a1.sources = r1
a1.channels = c1 c2  #因为是发送到两个flume 所以需要两个 
a1.sinks = k1 k2  #因为是发送到两个flume 所以需要两个 

#sources
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 =/opt/module/data/hive.log  #监控的日志路径
a1.sources.r1.positionFile = /opt/module/flume/position/psoitionflume1.json  # JSON格式的文件，以记录每个尾随文件的偏移量，支持断点续传

#将数据流复制给所有的channel
a1.sources.r1.selector.type = replicating

# channel 
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100


#sinks
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142


#bind
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1 
a1.sinks.k2.channel = c2

flume2

#将监控到的日志文件保存到HDFS上
#name
a2.sources = r1
a2.channels = c1 
a2.sinks = k1 

#sources
a2.sources.r1.type = avro  #使用avro 类型
a2.sources.r1.bind = hadoop102  #主机ip
a2.sources.r1.port = 4141   #端口号

#channel
a2.channels.c1.type = memory   #使用avro 类型
a2.channels.c1.capacity = 1000  #主机ip
a2.channels.c1.transactionCapacity = 100   #端口号

#sinks
a2.sinks.k1.type = hdfs
a2.sinks.k1.hdfs.path = hdfs://hadoop102:8020/flume/group1/%Y%m%d/%H   #HDFS的路径
#上传文件的前缀
a2.sinks.k1.hdfs.filePrefix = logs- #是否按照时间滚动文件夹
a2.sinks.k1.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k1.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k1.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k1.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k1.hdfs.fileType = DataStream
#多久生成一个新的文件(单位秒)
a2.sinks.k1.hdfs.rollInterval = 30
#设置每个文件的滚动大小
a2.sinks.k1.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k1.hdfs.rollCount = 0


#bind
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

flume3

#保存到本地
#name
a3.sources = r1
a3.channels = c1 
a3.sinks = k1 

#sources
a3.sources.r1.type = avro  #使用avro
a3.sources.r1.bind = hadoop102  #主机ip
a3.sources.r1.port = 4142   #端口号  

#channel
a3.channels.c1.type = memory   #使用avro
a3.channels.c1.capacity = 1000   #主机ip
a3.channels.c1.transactionCapacity = 100   #端口号  

#sinks
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/module/data/group1   #保存到本地路径


#bind
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

16.故障转移

1.使用 Flume1 监控一个端口，其 sink 组中的 sink 分别对接 Flume2 和 Flume3，采用

FailoverSinkProcessor，实现故障转移的功能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tVHAnSsQ-1621439935111)(…/TypoarWrokPath/images/1619093912648.png)]

flume1

#使用一个channel和sink组
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1
a1.sinkgroups = g1   #定义


#source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#channels
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#sinks
a1.sinks.k1.type = avro  
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141     

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142


#sink group   #sink组

a1.sinkgroups.g1.sinks = k1 k2  #组内有哪些sink
a1.sinkgroups.g1.processor.type = failover  
#优先级数字越大优先级越高
a1.sinkgroups.g1.processor.priority.k1 = 0    
a1.sinkgroups.g1.processor.priority.k2 = 10
a1.sinkgroups.g1.processor.maxpenalty = 10000


#bind
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1 
a1.sinks.k2.channel = c1

flume2

#sink组的其中一个端口号为4141
#name
a2.sources = r1
a2.channels = c1 
a2.sinks = k1 

#sources
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

#channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#sinks
a2.sinks.k1.type =logger

#bind
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

flume3

#sink组的第二个端口号为4142
#name
a3.sources = r1
a3.channels = c1 
a3.sinks = k1 

#sources
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142

#channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

#sinks
a3.sinks.k1.type =logger


#bind
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

测试

开启多个窗口进入到 cd /opt/module/flume/

**开启命令:**bin/flume-ng agent -c conf/ -f job/group1 -n a1

bin/flume-ng agent -c conf/ -f job/group1 -n a1

连接客户端:

nc localhost 44444

17.负载均衡

1.使用 Flume1 监控一个端口，其 sink 组中的 sink 分别对接 Flume2 和 Flume3，采用**

，load_balance实现负载均衡的功能

flume1

a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1
a1.sinkgroups = g1


#source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#channels
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#sinks
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142


#sink group 
a1.sinkgroups.g1.sinks = k1 k2
#load_balance类型
a1.sinkgroups.g1.processor.type = load_balance
#开启推递
a1.sinkgroups.g1.processor.backoff = true
#随机
a1.sinkgroups.g1.processor.selector = random


#bind
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1 
a1.sinks.k2.channel = c1

flume2

#name
a2.sources = r1
a2.channels = c1 
a2.sinks = k1 

#sources
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

#channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#sinks
a2.sinks.k1.type =logger

#bind
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

flume3

#name
a3.sources = r1
a3.channels = c1 
a3.sinks = k1 

#sources
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142

#channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

#sinks
a3.sinks.k1.type =logger


#bind
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

测试

开启多个窗口进入到 cd /opt/module/flume/

**开启命令:**bin/flume-ng agent -c conf/ -f job/group2 -n a1

bin/flume-ng agent -c conf/ -f job/group2 -n a1

连接客户端:

nc localhost 44444

18.聚合–分布式

1.hadoop102 上的 Flume-1 监控文件/opt/module/data/group.log，

hadoop103 上的 Flume-2 监控某一个端口的数据流，

Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3，Flume-3 将最终数据打印到控

制台。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ubvpvssc-1621439935112)(…/TypoarWrokPath/images/1619109565678.png)]

方法一单sources

1.单source解释:由图知 ,就是flume 1 flume 2,发送数据只发送到4141端口,最后flume 3 监听一个端口号4141

flume102–文件追加放在hadoop102主机上

# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

#source
a2.sources.r1.type = TAILDIR
a2.sources.r1.filegroups = f1
a2.sources.r1.filegroups.f1 =/opt/module/data/flume.log
a2.sources.r1.positionFile = /opt/module/flume/position/position2.json


#channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#sinks
a2.sinks.k1.type = avro
a2.sinks.k1.hostname = hadoop104
a2.sinks.k1.port = 4141

#bind
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

flume103–数据流,放在hadoop103主机上

使用 nv localhost 44444 发送数据

# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c1

#source
a3.sources.r1.type = netcat
a3.sources.r1.bind = localhost
a3.sources.r1.port = 44444 

#channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

#sinks
a3.sinks.k1.type = avro
a3.sinks.k1.hostname = hadoop104
a3.sinks.k1.port = 4141

#bind
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

flume104–聚合数据,放在hadoop104主机上

# Name the components on this agent
a4.sources = r1 
a4.sinks = k1
a4.channels = c1

#source
a4.sources.r1.type = avro
a4.sources.r1.bind = hadoop104
a4.sources.r1.port = 4141



#channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 1000
a4.channels.c1.transactionCapacity = 100

#sinks
a4.sinks.k1.type = logger

#bind
a4.sources.r1.channels = c1
a4.sinks.k1.channel = c1

方式二多sources

1.多source解释:由图知 ,就是flume 1 发送数据到4141,flume 2 发送数据到4142 ,最后flume 3 监听两个端口号4141 和 4142

flume102

# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

#source
a2.sources.r1.type = TAILDIR
a2.sources.r1.filegroups = f1
a2.sources.r1.filegroups.f1 =/opt/module/data/flume.log
a2.sources.r1.positionFile = /opt/module/flume/position/position2.json


#channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#sinks
a2.sinks.k1.type = avro
a2.sinks.k1.hostname = hadoop104
a2.sinks.k1.port = 4141

#bind
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

flume103

# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c1

#source
a3.sources.r1.type = netcat
a3.sources.r1.bind = localhost
a3.sources.r1.port = 44444 

#channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

#sinks
a3.sinks.k1.type = avro
a3.sinks.k1.hostname = hadoop104
a3.sinks.k1.port = 4142

#bind
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

flume104

# Name the components on this agent
a4.sources = r1 r2
a4.sinks = k1
a4.channels = c1

#source
a4.sources.r1.type = avro
a4.sources.r1.bind = hadoop104
a4.sources.r1.port = 4141

a4.sources.r2.type = avro
a4.sources.r2.bind = hadoop104
a4.sources.r2.port = 4142

#channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 1000
a4.channels.c1.transactionCapacity = 100

#sinks
a4.sinks.k1.type = logger

#bind
a4.sources.r1.channels = c1
a4.sources.r2.channels = c1
a4.sinks.k1.channel = c1

19.自定义Interceptor拦截器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dlJuQzKv-1621439935113)(…/TypoarWrokPath/images/1619273212959.png)]

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不

同的分析系统。

1.项目需求**

在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要

发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Multiplexing

的原理是，根据 event 中 Header 的某个 key 的值，将不同的 event 发送到不同的 Channel

中，所以我们需要自定义一个 Interceptor，为不同类型的 event 的 Header 中的 key 赋予

不同的值。

在该案例中，我们以端口数据模拟日志，以数字（单个）和字母（单个）模拟不同类型

的日志，我们需要自定义 interceptor 区分数字和字母，将其分别发往不同的分析系统

（Channel）

2.自定义interceptor

在该案例中，我们以端口数据模拟日志，以字符串中包含hello和字符串不包含hello模拟不同类

的日志，我们需要自定义 interceptor 区分字符串，将其分别发往不同的分析系统（Channel）

3.自定义Interceptorjava代码


		<dependency>
           <groupId>org.apache.flumegroupId>
           <artifactId>flume-ng-coreartifactId>
           <version>1.7.0version>
       dependency>

package com.lhh.Interceptor;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.ArrayList;
import java.util.List;
import java.util.Map;

/**
* @program: lhh
* @description:
* @author: 华仔
* @create: 2021-04-24 14:44
* com\lhh\Interceptor\TypeInterceptor
*/
//自定义拦截器
public class TypeInterceptor implements Interceptor {
  //声明一个存放事件的集合
   private List<Event> addHeaderEvents;
   public void initialize() {
       //初始化集合
       addHeaderEvents=new ArrayList<Event>();
   }

   //单个事件拦截
   public Event intercept(Event event) {
       //1.获取事件中的头信息
       Map<java.lang.String, java.lang.String> headers = event.getHeaders();
       //2.获取事件中的body信息
       String body = new String(event.getBody());
       //3.根据body中是否有hello,来决定头信息
       if (body.contains("hello")) {
           //添加头信息
           headers.put("type","lhh");
       }else{
           //添加头信息
           headers.put("type","lmh");
       }
       return event;
   }
   //多个事件拦截
   public List<Event> intercept(List<Event> list) {
       //清空全局的集合
       addHeaderEvents.clear();
       for (Event event : list) {
           //添加头信息
           Event intercept = intercept(event);
           //将头信息添加到集合
           addHeaderEvents.add(intercept);
       }
       return addHeaderEvents;
   }

   //资源释放
   public void close() {

   }

   //自定义静态类,实现Builder
   public static class Builder implements Interceptor.Builder{

       public Interceptor build() {
           //返回一个Interceptor对象,直接调用上面的类
           return new TypeInterceptor();
       }

       public void configure(Context context) {

       }
   }
}

4.flume中创建配置文件–分布式–hadoop102 hadoop103 hadoop104

1.hadoop102-flume2

# Name the components on this agent
a2.sources = r1
a2.sinks = k1 k2
a2.channels = c1 c2

#sources 使用netcat模式,使用客户端发送信息
a2.sources.r1.type = netcat  
a2.sources.r1.bind = localhost
a2.sources.r1.port = 44444

#interceptors 使用拦截器
a2.sources.r1.interceptors = i1
#自定义的类全路径
a2.sources.r1.interceptors.i1.type = com.lhh.Interceptor.TypeInterceptor$Builder


#channle selector   
a2.sources.r1.selector.type = multiplexing
a2.sources.r1.selector.header = type
a2.sources.r1.selector.mapping.lhh = c1
a2.sources.r1.selector.mapping.lmh = c2 

#channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

#sink
a2.sinks.k1.type = avro
a2.sinks.k1.hostname = hadoop103
a2.sinks.k1.port = 4142

a2.sinks.k2.type = avro
a2.sinks.k2.hostname = hadoop104
a2.sinks.k2.port = 4142


#bind
a2.sources.r1.channels = c1 c2
a2.sinks.k1.channel = c1
a2.sinks.k2.channel = c2

2.hadoop103-flume2.conf

#name
a3.sources = r1
a3.channels = c1 
a3.sinks = k1 

#sources
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop103
a3.sources.r1.port = 4142

#channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

#sinks
a3.sinks.k1.type =logger


#bind
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

20.自定义Sources

1.1)介绍

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种

格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence

generator、syslog、http、legacy。官方提供的 source 类型已经很多，但是有时候并不能

满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些 source。

官方也提供了自定义 source 的接口：

https://flume.apache.org/FlumeDeveloperGuide.html#source 根据官方说明自定义

MySource 需要继承 AbstractSource 类并实现 Configurable 和 PollableSource 接口。

实现相应方法：

getBackOffSleepIncrement()//暂不用

getMaxBackOffSleepInterval()//暂不用

configure(Context context)//初始化 context（读取配置文件内容）

process()//获取数据封装成 event 并写入 channel，这个方法将被循环调用。

使用场景：读取 MySQL 数据或者其他文件系统。

2)需求

使用 flume 接收数据，并给每条数据添加前缀，输出到控制台。前缀可从 flume 配置文

件中配置。

1.自定义soource的需求

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dqD98Sif-1621439935114)(…/TypoarWrokPath/images/1619273308150.png)]

2.自定义需求分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aaBcTFj4-1621439935115)(…/TypoarWrokPath/images/1619273359621.png)]

3.自定义source java代码

1.xml文件

<dependency>
           <groupId>org.apache.flumegroupId>
           <artifactId>flume-ng-coreartifactId>
           <version>1.7.0version>
       dependency>

2.代码

package com.lhh.source;

import org.apache.flume.Context;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.PollableSource;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.SimpleEvent;
import org.apache.flume.source.AbstractSource;

/**
* @program: lhh
* @description:
* @author: 华仔
* @create: 2021-04-24 22:06
* com.lhh.source.Mysource
*/
public class Mysource extends AbstractSource implements Configurable, PollableSource {

   //定义全局前缀和后缀
   private String prefix;
   private String subfix;

   public void configure(Context context) {
       //读取信息给前后缀赋值
       prefix = context.getString("prefix");
       //默认在每一条数据后面加一个后缀
       subfix = context.getString("subfix", "LHH");
   }

   /**
    * 1.接收数据(自己伪造数据使用for循环造数据)
    * 2.封装为事件
    * 3.将事件传给channel
    *
    * @return
    * @throws EventDeliveryException
    */
   public Status process() throws EventDeliveryException {
       //定义状态
       Status status = null;
       try {
           //1.接收数据
           for (int i = 0; i < 5; i++) {
               //2.构建数据
               SimpleEvent simpleEvent = new SimpleEvent();
               //4.给时间设置值
               simpleEvent.setBody((prefix + "--" + i + "--" + subfix).getBytes());
               //将事件传给channel
               getChannelProcessor().processEvent(simpleEvent);
               //事件完成就重新赋值
               status = Status.READY;
           }
       } catch (Exception e) {
           e.printStackTrace();
           status = Status.BACKOFF;
       }
       try {
           Thread.sleep(2000);
       } catch (InterruptedException e) {
           e.printStackTrace();
       }
       return status;
   }
	//不用
   public long getBackOffSleepIncrement() {
       return 0;
   }
	//不用
   public long getMaxBackOffSleepInterval() {
       return 0;
   }


}

4.flume文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1


# Describe/configure the source
#自定义source类的全路径
a1.sources.r1.type = com.lhh.source.Mysource
#自定义的前缀 prefix要和java代码中的变量名一样
a1.sources.r1.prefix = feiji
#自定义的后缀 subfix要和java代码中的变量名一样
#a1.sources.r1.subfix = xiaxian


# Describe the sink
a1.sinks.k1.type = logger


# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

5.测试代码,输出到日志

bin/flume-ng agent -c conf/ -f job/mysource.conf -n a1 -Dflume.root.logger=INFO,console

21.自定义Sink

1.1）介绍

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储

或索引系统、或者被发送到另一个 Flume Agent。

Sink 是完全事务性的。在从 Channel 批量删除数据之前，每个 Sink 用 Channel 启动一

个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent，Sink 就利用 Channel 提

交事务。事务一旦被提交，该 Channel 从自己的内部缓冲区删除事件。

Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、

自定义。官方提供的 Sink 类型已经很多，但是有时候并不能满足实际开发当中的需求，此

时我们就需要根据实际需求自定义某些 Sink。

官方也提供了自定义 sink 的接口：

https://flume.apache.org/FlumeDeveloperGuide.html#sink 根据官方说明自定义

MySink 需要继承 AbstractSink 类并实现 Configurable 接口。

实现相应方法：

configure(Context context)//初始化 context（读取配置文件内容）

process()//从 Channel 读取获取数据（event），这个方法将被循环调用。

使用场景：读取 Channel 数据写入 MySQL 或者其他文件系统。

2）需求

使用 flume 接收数据，并在 Sink 端给每条数据添加前缀和后缀，输出到控制台。前后

缀可在 flume 任务配置文件中配置。

流程分析：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2xxeD5G7-1621439935116)(…/TypoarWrokPath/images/1619278575258.png)]

3.自定义sink java代码

1.xml文件

<dependency>
           <groupId>org.apache.flumegroupId>
           <artifactId>flume-ng-coreartifactId>
           <version>1.7.0version>
       dependency>

package com.lhh.sink;

import org.apache.flume.*;
import org.apache.flume.conf.Configurable;
import org.apache.flume.sink.AbstractSink;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
* @program: lhh
* @description:
* @author: 华仔
* @create: 2021-04-24 23:47
*/
public class Mysink extends AbstractSink implements Configurable {

   //获取logger对象
   private Logger logger = LoggerFactory.getLogger(Mysink.class);


   //定义前后缀
   private String prefix;
   private String subfix;

   public void configure(Context context) {
       //读取配置文件给亲后缀赋值
       prefix = context.getString("prefix");
       subfix = context.getString("subfix", "LHH");
   }

   /**
    * 1.获取channel
    * 2.从channel事务以及数据
    * 3.发送数据
    *
    * @return
    * @throws EventDeliveryException
    */
   public Status process() throws EventDeliveryException {
       //1.定义返回值
       Status status = null;
       //2. 获取channel
       Channel channel = getChannel();
       //3.从channel中获取事务
       Transaction transaction = channel.getTransaction();
       //4.开启事务
       transaction.begin();
       try {
           //5.从channel获取数据
           Event event = channel.take();
           if (event != null) {
               //6.处理事件
               String body = new String(event.getBody());
               //info日志级别
              //logger.info(prefix + body + subfix);
               //error日志级别
              logger.error(prefix + body + subfix);
               //8.成功提交,修改状态信息
               status = Status.READY;
           } else {
               //10.修改状态
               status = Status.BACKOFF;
           }
           //7.提交事务
           transaction.commit();

       } catch (ChannelException e) {
           e.printStackTrace();
           //9.提交事务异常
           transaction.rollback();
           //10.修改状态
           status = Status.BACKOFF;
       } finally {
           //11.关闭事务
           transaction.close();
       }
       //11.返回状态信息
       return status;
   }
}

3.自定义sink flume文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1



# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444



# Describe the sink
#自定义mysink的全类名
a1.sinks.k1.type = com.lhh.sink.Mysink
#自定义的前缀 prefix要和java代码中的变量名一样
a1.sinks.k1.prefix = feiji--
#自定义的后缀 subfix要和java代码中的变量名一样
a1.sinks.k1.subfix = --xiaxian

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100


# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

4.测试代码

bin/flume-ng agent -c conf/ -f job/mysink.conf -n a1 -Dflume.root.logger=INFO,console

22.安装Ganglia

1.安装 httpd 服务与 php

sudo yum -y install httpd php

2) 安装其他依赖

sudo yum -y install rrdtool perl-rrdtool rrdtool-devel

sudo yum -y install apr-devel

3）安装 ganglia

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm

sudo yum -y install ganglia-gmetad

sudo yum -y install ganglia-web

sudo yum -y install ganglia-gmond

-Dflume.monitoring.hosts=192.168.126.102:8649

-Dflume.root.logger=INFO,console

transaction.commit();

   } catch (ChannelException e) {
       e.printStackTrace();
       //9.提交事务异常
       transaction.rollback();
       //10.修改状态
       status = Status.BACKOFF;
   } finally {
       //11.关闭事务
       transaction.close();
   }
   //11.返回状态信息
   return status;

}
}


3.自定义sink flume文件

~~~xml
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1



# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444



# Describe the sink
#自定义mysink的全类名
a1.sinks.k1.type = com.lhh.sink.Mysink
#自定义的前缀 prefix要和java代码中的变量名一样
a1.sinks.k1.prefix = feiji--
#自定义的后缀 subfix要和java代码中的变量名一样
a1.sinks.k1.subfix = --xiaxian

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100


# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

4.测试代码

bin/flume-ng agent -c conf/ -f job/mysink.conf -n a1 -Dflume.root.logger=INFO,console

22.安装Ganglia

1.安装 httpd 服务与 php

sudo yum -y install httpd php

2) 安装其他依赖

sudo yum -y install rrdtool perl-rrdtool rrdtool-devel

sudo yum -y install apr-devel

3）安装 ganglia

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm

sudo yum -y install ganglia-gmetad

sudo yum -y install ganglia-web

sudo yum -y install ganglia-gmond

-Dflume.monitoring.hosts=192.168.126.102:8649

-Dflume.root.logger=INFO,console

bin/flume-ng agent -c conf/ -f job/flume-netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console,console-Dflume.monitoring.type=ganglia-Dflume.monitoring.hosts=192.168.126.102:8649

你可能感兴趣的:(flume知识点,flume笔记总结)

【绝对要收藏】软考高项真题分析、点拨、思维导图-项目范围管理 Mr.H聊高项职场和发展经验分享学习方法学习
第九章项目范围管理知识点1项目范围管理过程考点1敏捷适应方法【点拨】采用敏捷或适应型生命周期，旨在应对大量变更，需要干系人持续
2025年6月28和29日复习和预习（C++）子豪-中国机器人算法 java 数据结构 c++
学习笔记大纲一、预习部分：数组基础（一）核心知识点数组的创建：掌握一维数组的声明方式，如intarr[5];（创建一个包含5个整数的数组）。重点在于理解数组长度需为常量，且在声明时确定。数组的初始化：学会为数组赋值，例如intarr[]={1,2,3};，可省略数组长度，编译器根据初始化值自动确定。数组元素的访问：通过索引访问数组元素，索引从0开始，如arr[1]表示访问数组arr的第二个元素。（
LeetCode第300题_最长递增子序列 @蓝莓果粒茶算法 leetcode 算法职场和发展学习 c#游戏 python
LeetCode第300题：最长递增子序列文章摘要本文详细解析LeetCode第300题"最长递增子序列"，这是一道考察动态规划和二分查找的中等难度题目。文章提供了动态规划和贪心+二分查找两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习动态规划和二分查找的读者。核心知识点：动态规划、二分查找、贪心算法难度等级：中等推荐人群：具备基础算法知识，想要提升
LeetCode第301题_删除无效括号 @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习 python c++
LeetCode第301题：删除无效括号文章摘要本文详细解析LeetCode第301题"删除无效括号"，这是一道考察DFS和括号匹配的困难难度题目。文章提供了DFS和BFS两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习深度优先搜索和字符串处理的读者。核心知识点：DFS、BFS、括号匹配、字符串处理难度等级：困难推荐人群：具备基础算法知识，想要提升搜
python包管理神器uv使用教程寻找窝的考拉Plus python 人工智能开发语言
文章目录uv简介安装`uv`管理python查看可用的python版本查看python版本安装指定的python版本卸载指定Python版本设置当前项目固定使用的Python版本uvpythonpin特殊说明常用命令添加项目级依赖移除依赖查看项目的依赖树导出requirements.txt文件示例项目流程针对项目换源`uv`与传统工具的区别小知识点uvrunmain.pyuv简介uv是一个较新的P
面向对象 clk6607 java java 开发语言
面向对象编程（Object-OrientedProgramming，简称OOP）是一种编程范式，它使用“对象”来设计程序。面向对象的核心概念包括类（Class）、对象（Object）、继承（Inheritance）、封装（Encapsulation）、多态（Polymorphism）和抽象（Abstraction）。以下是面向对象编程的详细知识点解析。1.类和对象（Class&Object）1.1
《深入理解Kotlin协程》知识点汇总岳锋 kotlin
一、协程的分类1.按调用栈分类。Kotlin协程通常被认为是一种无栈协程加粗样式的实现。因为Kotlin的控制流转，依靠对协程体本身编译生成的状态机的状态流转来实现，变量保存也是通过闭包语法来实现的。不过，Kotlin协程可以在挂起函数范围内的任意调用层次挂起。换句话说，我们启动一个Kotlin协程，可以在其中任意嵌套suspend函数，而这又恰恰是有栈协程最重要的特性之一。2.按调度方式分类。对
鸿蒙HarmonyOS 5.0开发实战：自定义安全键盘实现案例炫酷盖茨猫先生鸿蒙5.0开发鸿蒙应用开发案例 harmonyos 华为前端 android ArkUI ArkTS 鸿蒙系统
往期鸿蒙5.0全套实战文章必看：（文中附带鸿蒙5.0全栈学习资料）鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）自定义安全键盘案例
《量化开发》系列第 1 篇：金融知识基础入门指南（附 GitHub 学习项目） Natsume1710 金融 github 学习
本文为《量化开发学习路线与知识点》专栏的第一篇参考项目：Awesome-QuantDev-Learn量化金融是金融经济学与计算机科学交叉融合形成的新兴行业，越来越多的技术人才正积极投身其中。然而，面对纷繁复杂的金融概念与专业的开发技能，许多人常常感到无从下手。本专栏将为C++/Python工程师、自学者、量化岗求职者提供系统清晰的学习路径。本篇文章聚焦于量化开发所需的金融基础知识，帮助技术人打下坚
SpringBoot 自定义自动配置这些知识点你需要了解一品威客网 spring boot java spring
在SpringBoot开发中，自动配置极大简化了开发流程，但有时默认配置无法满足需求，这时自定义自动配置就显得尤为重要。理解自动配置原理：SpringBoot的自动配置基于条件注解和SPI机制。条件注解如@ConditionalOnClass@ConditionalOnProperty等，可根据类路径、系统属性等条件，控制配置类是否生效。SPI（服务提供发现）机制则让SpringBoot在启动时扫
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
WEB攻防-Java安全&JNDI&RMI&LDAP&五大不安全组件&RCE执行&不出网教IT的小强前端 java 安全
#知识点：1、Java安全-RCE执行-5大类函数调用2、Java安全-JNDI注入-RMI&LDAP&高版本3、Java安全-不安全组件(框架)-Shiro&FastJson&Jackson&XStream&Log4j一、演示案例-Java安全-RCE执行-5大类函数调用1、GroovyExec![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/38c
SpringMVC实战：从配置到JSON处理全解析 Cyanto SpringMVC spring java
目录项目概述核心配置文件解析web.xml配置springmvc.xml配置控制器详解基本控制器示例请求处理方式获取请求参数返回JSON数据请求转发重定向视图解析与页面跳转项目结构说明关键知识点总结项目概述这是一个基于SpringMVC的Web应用示例，展示了如何配置SpringMVC环境、创建控制器以及处理不同类型的请求和响应。项目包含了以下核心功能：基本页面跳转请求参数处理JSON数据返回请求
Java后端面试必备：高频知识点与实战解析（Git/Maven/MySQL/SpringBoot全攻略）陈遇巧学习 java maven spring spring boot
1.面试ToC面向个人，B2B2C（第1个B是指商品或服务的供应商，第2个B是指从事电子商务的企业，C是消费者。例子：腾讯课堂，第1个B是腾讯公司，第2个B是入驻授课的企业，C是用户学习课程）1.详细说说你的项目吧从以下几个方面进行项目介绍：1.项目的背景，包括：是自研还是外包，什么业务，服务的客户群是谁，谁去运营等问题。2.项目的业务流程3.项目的功能模块4.项目的技术架构5.个人工作职责6.个
嵌入式硬件中电容的基本原理与详解嵌入式开发星球单片机项目实战操作之优秀单片机智能硬件
大家好我们今天重讨论点知识点如下：1．电容在电路中的作用2.用生活中水缸的例子来比喻电容3.电容存储能力原理4.电容封装的种类介绍电容种类图片辨识5．X电容的作用介绍6．Y电容的作用介绍7．钽电容的优点及特性7．钽电容的缺点及特性8.铝电解电容的优点及特性9.铝电解电容的缺点及特10.贴片铝电解电容和插件铝电解电容缺点特性对比
Python训练营-Day26 Gxsugar Python打卡记录 python 开发语言
DAY26函数专题1：函数定义与参数知识点回顾：函数的定义变量作用域：局部变量和全局变量函数的参数类型：位置参数、默认参数、不定参数传递参数的手段：关键词参数传递参数的顺序：同时出现三种参数类型时作业：题目1：计算圆的面积任务：编写一个名为calculate_circle_area的函数，该函数接收圆的半径radius作为参数，并返回圆的面积。圆的面积=π*radius²(可以使用math.pi作
Python训练营---Day26 2501_91182850 Python训练营 python 开发语言
知识点回顾：函数的定义变量作用域：局部变量和全局变量函数的参数类型：位置参数、默认参数、不定参数传递参数的手段：关键词参数传递参数的顺序：同时出现三种参数类型时题目1：计算圆的面积任务：编写一个名为calculate_circle_area的函数，该函数接收圆的半径radius作为参数，并返回圆的面积。圆的面积=π*radius²(可以使用math.pi作为π的值)要求：函数接收一个位置参数rad
JavaScript深入理解与实战：作业6详解红廉骑士兽
本文还有配套的精品资源，点击获取简介：本次作业深入探讨了JavaScript编程语言的基础语法、函数与闭包、对象与原型链、事件与DOM操作、异步编程、ES6新特性、框架与库的使用、性能优化以及调试与测试。JavaScript在Web开发中扮演关键角色，通过学习上述知识点，学生将能够提升Web应用开发技能，优化代码性能，并进行有效的代码调试与测试。1.JavaScript基础语法介绍与实战1.1Ja
爬虫基础-urllib库的使用 a little peanut Python3网络爬虫 python 爬虫开发语言
注：本文章为学习过程中对知识点的记录，供自己复习使用，也给大家做个参考，如有错误，麻烦指出，大家共同探讨，互相进步。借鉴出处：该文章的路线和主要内容：崔庆才（第2版）python3网络爬虫开发实战bytes类型：https://blog.csdn.net/apple_50618492/article/details/114677967python中文官网：https://docs.python.o
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
四阶数独——深度优先搜索dfs 我爱工作&工作love我 c++深度优先算法
文章目录四阶数独例题讲解深度优先dfs搜索知识点算法思想应用代码框架四阶数独例题讲解题目描述这里讨论一种简化的数独——四阶数独。给出一个4×4的格子，每个格子只能填写1到4之间的整数，要求每行、每列和四等分更小的正方形部分都刚好由1到4组成。求总共有多少种不同的数独？输出结果：288思路常规思路就是根据格子序号挨个设置数如果每次都是从第一个开始设置，暴力枚举，一个格子四种选择，16个格子所以就有4
Gateway实现对接口参数加密 kerolalala java 前端网络
知识点SrpingCloudGateway过滤器讲解一、概述在微服务架构中，API网关（Gateway）是系统对外的统一入口，它不仅负责请求的路由分发，还承担着安全控制、流量控制等重要职责。参数加密是保障数据传输安全的重要手段之一，我们可以让客户端负责加密参数，网关负责在请求到达各服务端之前进行解密，然后将明文参数请求分发给对应服务。此文将介绍一个基于SpringCloudGateway实现的参数
【C#面向对象】第二课——深入C#数据类型、值类型和引用类型的学习逍遥小丸子 C#面向对象 C#数据类型数据类型值类型和引用类型拆箱和装箱枚举
知识点：理解值类型和引用类型的区别、掌握结构类型的定义、掌握拆箱和装箱的概念、掌握使用值类型和引用类型作为方法的参数1、值类型和引用类型我们在前面学习过C#中的常用数据类型，常用的数据类型有：C#中的数据类型说明用法举例
Day32 Web自动化进阶 lookout99 软件测试 python 自动化测试工具
系列文章目录Day01软件测试基础总结Day02测试用例知识点总结（上）Day03测试用例知识点总结（下）Day04禅道-从安装到卸载Day05MySql的基础使用Day06MySql知识点总结Day07MySql知识点再总结与多表查询Day08redis的基础知识Day08VMware的安装、Linux系统安装和Linux基础命令Day09Linux常用命令总结Day10Linux环境部署和项目
Day33 PO模型 lookout99 软件测试 python 自动化测试工具
系列文章目录Day01软件测试基础总结Day02测试用例知识点总结（上）Day03测试用例知识点总结（下）Day04禅道-从安装到卸载Day05MySql的基础使用Day06MySql知识点总结Day07MySql知识点再总结与多表查询Day08redis的基础知识Day08VMware的安装、Linux系统安装和Linux基础命令Day09Linux常用命令总结Day10Linux环境部署和项目
PMP备考神器:免费刷题小程序推荐才聚PMP 人工智能职场和发展
【PMP考试通】是一款专门为备考PMP的免费刷题小程序。【PMP考试通】涵盖了考试中的所有考点，能帮你顺利通过PMP考试。还有最新的考试咨讯提供给大家，随时了解考试的动态，考试更安心。有两种练习模式，可以实现不同的练习需求。1、考试模式:完全模拟考试，做完之后计算得分，并可以查看相应解析2、练习模式:练习与学习，遇到不能解答的题目时，可以直接查看解析，学习当前知识点3、做题类型:章节练习、每日一练
100W QPS 短链系统怎么设计 Java程序员拥抱ai 电商架构大数据
看上去业务简单，其实，覆盖的知识点非常多：高并发、高性能分布式IDRedisBloomFilter高并发、低内存损耗的过滤组件知识分库、分表海量数据存储多级缓存的知识HTTP传输知识二进制、十六进制、六十二进制知识总体来说，高并发、高性能系统的核心领域，都覆盖了。所以，分析下来，得到一个结论：是一个超级好的问题。1、短URL系统的背景短网址替代长URL，在互联网网上传播和引用。例如QQ微博的url
鸿蒙(HarmonyOS)应用开发实战——自定义安全键盘案例 CTrup HarmonyOS 移动开发鸿蒙开发 harmonyos 安全音视频移动开发鸿蒙开发组件化
往期知识点整理鸿蒙（HarmonyOS）北向开发知识点记录~被裁员后，踏上了鸿蒙开发求职之路持续更新中……介绍金融类应用在密码输入时，一般会使用自定义安全键盘。本示例介绍如何使用TextInput组件实现自定义安全键盘场景，主要包括TextInput.customKeyboard绑定自定义键盘、自定义键盘布局和状态更新等知识点。效果图预览实现思路1.使用TextInput的customKeyboa
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s