movYou521

【大数据之 Flume】入门到放弃

文章目录

1 Flume 概述
- 1.1 Flume 定义
- 1.2 Flume 基础架构
2 Flume 入门
- 2.1 Flume 安装部署
- - 2.1.1 安装地址
  - 2.1.2 安装部署
- 2.2 Flume 入门案例
- - 2.2.1 监控端口数据
  - 2.2.2 实时监控单个追加文件
  - 2.2.3 实时监控目录下多个新文件
  - 2.2.4 实时监控目录下的多个追加文件
3 Flume 进阶
- 3.1 Flume 事务
- 3.2 Flume Agent 内部原理
- 3.3 Flume 拓扑结构
- - 3.3.1 简单串联
  - 3.3.2 复制和多路复用
  - 3.3.3 负载均衡或故障转移
  - 3.3.4 聚合
- 3.4 Flume 进阶案例
- - 3.4.1 复制和多路复用
  - 3.4.2 负载均衡和故障转移
  - 3.4.3 聚合
- 3.5 自定义 Interceptor
- 3.6 自定义 Source
- 3.7 自定义 Sink

1 Flume 概述

1.1 Flume 定义

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。

Flume 最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入 HDFS 等目标。

1.2 Flume 基础架构

1）Agent
Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的地。主要由 Source，Channel，Sink 三部分组成。

2）Source
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。

3）Channel
Channel 是位于 Source 和 Sink 之间的缓冲区。因此，Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。

Flume 自带两种 Channel：Memory Channel 和 File Channel。Memory Channel 是内存中的队列。File Channel 将所有事件写到磁盘。

4）Sink
Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

5）Event
Flume 数据传输的基本单元。以 Event 的形式将数据从源头送至目的地。Event 由 Header 和 Body 两部分组成，Header 用来存放该 event 的一些属性，为 K-V 结构，Body 用来存放该条数据，形式为字节数组。

2 Flume 入门

2.1 Flume 安装部署

2.1.1 安装地址

1）官网地址：http://flume.apache.org/
2）文档地址：http://flume.apache.org/FlumeUserGuide.html
3）下载地址：http://archive.apache.org/dist/flume/

2.1.2 安装部署

需要先部署服务器环境，虚拟机环境搭建参考【大数据之 Hadoop】集群环境搭建

1）将 apache-flume-1.9.0-bin.tar.gz 上传到 linux 的 /opt/software 目录下。
2）解压安装包至 /opt/module 目录下。

[liyibin@hadoop102 software]$ tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/module/

3）修改文件夹 apache-flume-1.9.0-bin 名称为 flume-1.9.0。

[liyibin@hadoop102 module]$ mv apache-flume-1.9.0-bin/ flume-1.9.0

4）将 lib 文件夹下的 guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3。

[liyibin@hadoop102 module]$ rm /opt/module/flume-1.9.0/lib/guava-11.0.2.jar

2.2 Flume 入门案例

2.2.1 监控端口数据

1）案例需求：
使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。

2）需求分析

3）实现步骤

（1）安装 netcat 工具。

[liyibin@hadoop102 module]$ sudo yum install -y nc

（2）判断 9999 端口是否被占用。

[liyibin@hadoop102 module]$ sudo netstat -nlp | grep 9999

（3）在 flume-1.9.0 目录下创建 job 文件夹并进入。

[liyibin@hadoop102 flume-1.9.0]$ mkdir job
[liyibin@hadoop102 flume-1.9.0]$ cd job

（4）在 job 目录下创建 Flume Agent 配置文件 flume-netcat-logger.properties。

[liyibin@hadoop102 job]$ vim flume-netcat-logger.properties

（5）在 flume-netcat-logger.properties 添加如下内容。

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# 配置 source
# a1 输入源类型为 netcat
a1.sources.r1.type = netcat
# a1 监听的主机
a1.sources.r1.bind = localhost
# a1 监听的端口
a1.sources.r1.port = 9999
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1

# 配置 sink
# a1 的输出目的地是控制台
a1.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

配置文件解析参考注释，更详细的解释参考官方文档。

（6）开启 flume 监控 9999 端口。

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.properties -Dflume.root.logger=INFO,console

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.properties -Dflume.root.logger=INFO,console

参数说明：

–conf/-c：表示配置文件存储在 conf/ 目录
–name/-n：表示给 agent 起名为 a1
–conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的 flume-netcat-logger.properties 文件。
-Dflume.root.logger=INFO,console：-D 表示 flume 运行时动态修改 flume.root.logger 参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、error。

（7）使用 netcat 工具向本机的 9999 端口发送内容。

[liyibin@hadoop102 ~]$ nc localhost 9999
hello
OK
world
OK

（8）在 Flume 监听页面观察接收数据情况。

2.2.2 实时监控单个追加文件

1）案例需求：实时监控 Hive 日志，并上传到 HDFS 中。
2）需求分析：

3）实现步骤
（1）创建 flume-file-hdfs.properties。

[liyibin@hadoop102 logs]$ vim /opt/module/flume-1.9.0/job/flume-file-hdfs.properties

添加以下内容。

# 定义 source channle 和 sink，a2 表示 agent 的名称
# c2 表示 channel 的名称
a2.channels = c2
# r2 表示 source 名称
a2.sources = r2
# k2 表示 sink 的名称
a2.sinks = k2

# 配置通道
# a2 的channel 类型
a2.channels.c2.type = memory
# a2 的 channel 总容量
a2.channels.c2.capacity = 1000
# a2 的channel 传输时收集 100 条 event 后再去提交事务
a2.channels.c2.transactionCapacity = 100

# 配置 source
# a2 输入源类型为 exec
a2.sources.r2.type = exec
# 监控日志
a2.sources.r2.command = tail -F /opt/module/hive-3.1.2/logs/hive.log
# 连接 source 和 channel，一个 source 可以连接多个 channel
a2.sources.r2.channels = c2

# 配置 sink
# a2 的输出目的地是hdfs
a2.sinks.k2.type = hdfs
# hdfs 输出目录
a2.sinks.k2.hdfs.path = hdfs://hadoop102:8020/flume/%Y%m%d/%H
# 文件前缀
a2.sinks.k2.hdfs.filePrefix = logs-
# 是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
# 多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
# 是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
# 积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 100
# 设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
# 多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 30
# 设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
# 文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a2.sinks.k2.channel = c2

注意：对于所有与时间相关的转义序列，Event Header 中必须存在以 “timestamp”的 key（除非 hdfs.useLocalTimeStamp = true，此方法会使用 TimestampInterceptor 自动添加 timestamp）。

（2）运行 flume

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a2 -f job/flume-file-hdfs.properties

（3）开启 Hadoop 和 Hive 产生 Hive 日志。

[liyibin@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh 
[liyibin@hadoop102 hadoop-3.1.3]$ sbin/start-yarn.sh 

[liyibin@hadoop102 hive-3.1.2]$ bin/hive

（4）在 HDFS 上查看文件。

30 秒后文件被重命名。

hdfs 上只有新日志产生才会生成文件。

2.2.3 实时监控目录下多个新文件

1）案例需求：使用 Flume 监听整个目录的文件，并上传至 HDFS
2）需求分析

3）实现步骤
（1）创建 flume-file-hdfs.properties。

[liyibin@hadoop102 logs]$ vim /opt/module/flume-1.9.0/job/flume-dir-hdfs.properties

添加以下内容。

# 定义 source channle 和 sink，a3 表示 agent 的名称
# c3 表示 channel 的名称
a3.channels = c3
# r3 表示 source 名称
a3.sources = r3
# k3 表示 sink 的名称
a3.sinks = k3

# 配置通道
# a3 的channel 类型
a3.channels.c3.type = memory
# a3 的 channel 总容量
a3.channels.c3.capacity = 1000
# a3 的channel 传输时收集 100 条 event 后再去提交事务
a3.channels.c3.transactionCapacity = 100

# 配置 source
# a3 输入源类型为 spooldir
a3.sources.r3.type = spooldir
# 监控目录
a3.sources.r3.spoolDir = /opt/module/flume-1.9.0/upload
# 定义文件上传完后缀
a1.sources.r3.fileSuffix = .COMPLETED
# 是否有文件头
a1.sources.r3.fileHeader = true
# 忽略所有以.tmp结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)
# 连接 source 和 channel，一个 source 可以连接多个 channel
a3.sources.r3.channels = c3

# 配置 sink
# a3 的输出目的地是hdfs
a3.sinks.k3.type = hdfs
# hdfs 输出目录
a3.sinks.k3.hdfs.path = hdfs://hadoop102:8020/flume/upload/%Y%m%d/%H
# 文件前缀
a3.sinks.k3.hdfs.filePrefix = logs-
# 是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
# 多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
# 是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
# 积攒多少个 Event 才 flush 到 HDFS 一次
a3.sinks.k3.hdfs.batchSize = 100
# 设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
# 多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 30
# 设置每个文件的滚动大小
a3.sinks.k3.hdfs.rollSize = 134217700
# 文件的滚动与 Event 数量无关
a3.sinks.k3.hdfs.rollCount = 0
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a3.sinks.k3.channel = c3

（2）启动监控文件命令

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a3 -f job/flume-dir-hdfs.properties

（3）向 upload 目录添加文件

[liyibin@hadoop102 upload]$ vim test1.txt
[liyibin@hadoop102 upload]$ vim test2.tmp

（4）查看文件是否有 .COMPLETED 后缀

.tmp 后缀文件不会被上传。

6）查看 HDFS 上的数据

2.2.4 实时监控目录下的多个追加文件

Exec source 适用于监控一个实时追加的文件，不能实现断点续传；Spooldir Source 适合用于同步新文件，但不适合对实时追加日志的文件进行监听并同步；而 Taildir Source 适合用于监听多个实时追加的文件，并且能够实现断点续传

1）案例需求：使用 Flume 监听整个目录的实时追加文件，并上传到 HDFS
2）需求分析

3）实现步骤
（1）创建 flume-taildir-hdfs.properties。

[liyibin@hadoop102 logs]$ vim /opt/module/flume-1.9.0/job/flume-taildir-hdfs.properties

添加以下内容。

# 定义 source channle 和 sink，a3 表示 agent 的名称
# c3 表示 channel 的名称
a3.channels = c3
# r3 表示 source 名称
a3.sources = r3
# k3 表示 sink 的名称
a3.sinks = k3

# 配置通道
# a3 的channel 类型
a3.channels.c3.type = memory
# a3 的 channel 总容量
a3.channels.c3.capacity = 1000
# a3 的channel 传输时收集 100 条 event 后再去提交事务
a3.channels.c3.transactionCapacity = 100

# 配置 source
# a3 输入源类型为 TAILDIR
a3.sources.r3.type = TAILDIR
# 指定position_file位置
a3.sources.r3.positionFile = /opt/module/flume-1.9.0/tail_dir.json
# 监控的文件目录组，可以指定多个，空格分割
a3.sources.r3.filegroups = f1
a3.sources.r3.filegroups.f1 = /opt/module/flume-1.9.0/files/.*file.*
# 连接 source 和 channel，一个 source 可以连接多个 channel
a3.sources.r3.channels = c3

# 配置 sink
# a3 的输出目的地是hdfs
a3.sinks.k3.type = hdfs
# hdfs 输出目录
a3.sinks.k3.hdfs.path = hdfs://hadoop102:8020/flume/files/%Y%m%d/%H
# 文件前缀
a3.sinks.k3.hdfs.filePrefix = upload-
# 是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
# 多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
# 是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
# 积攒多少个 Event 才 flush 到 HDFS 一次
a3.sinks.k3.hdfs.batchSize = 100
# 设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
# 多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 30
# 设置每个文件的滚动大小
a3.sinks.k3.hdfs.rollSize = 134217700
# 文件的滚动与 Event 数量无关
a3.sinks.k3.hdfs.rollCount = 0
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a3.sinks.k3.channel = c3

（2）启动监控文件命令

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a3 -f job/flume-taildir-hdfs.properties

（3）向 files 文件夹的文件添加文件

[liyibin@hadoop102 files]$ echo hello >> file1.txt
[liyibin@hadoop102 files]$ echo world >> file2.txt

（4）查看 HDFS 上的文件

Taildir说明
Taildir Source 维护了一个 json 格式的 position File，其会定期的往 position File 中更新每个文件读取到的最新的位置，因此能够实现断点续传。Position File 的格式如下：

[{"inode":68976062,"pos":6,"file":"/opt/module/flume-1.9.0/files/file1.txt"},
{"inode":68976061,"pos":6,"file":"/opt/module/flume-1.9.0/files/file2.txt"}]

注：Linux 中储存文件元数据的区域就叫做 inode，每个 inode 都有一个号码，操作系统用 inode 号码来识别不同的文件，Unix/Linux 系统内部不使用文件名，而使用 inode 号码来识别文件。

3 Flume 进阶

3.1 Flume 事务

1）put 事务流程

doPut 将批数据写入临时缓冲区 putList
doCommit 检查 channel 内存队列是否足够合并
doRollback channel 内存队列空间不足，回滚数据

2）take 事务流程

doTake 将数据取到临时缓冲区 takeList，并将数据发送到 HDFS
doCommit 如果数据全部发送成功，则清除临时缓冲区 takeList
doRollback 数据如果发送过程出现异常，rollbak 将临时缓冲区 takeList 中的数据归还给内存队列

3.2 Flume Agent 内部原理

重要组件：
1）ChannelSelector
ChannelSelector 的作用是选出 Event 将要发往哪个 Channel 。共有两种类型，Replicating（复制）和 Multiplexing（多路复用）。

Replicating Selector 会将同一个 Event 发往所有的 Channel。Multiplexing Selector 会根据相应的原则将不同的 Event 发往不同的 Channel。

2）SinkProcessor
SinkProcessor 共有三种类型，分别是 DefaultSinkProcessor、LoadBalancingSinkProcessor 和 FailoverSinkProcessor。
（1）DefaultSinkProcessor 对应的单个 Sink。
（2）LoadBalancingSinkProcessor 对应 Sink Group，可以实现负载均衡的功能。
（3）FailoverSinkProcessor 对应 Sink Group，可以实现错误恢复的功能。

3.3 Flume 拓扑结构

3.3.1 简单串联

这种模式是将多个 flume 顺序连接起来了，从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量， flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。

3.3.2 复制和多路复用

Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个 channel 中，或者将不同数据分发到不同的 channel 中，sink 可以选择传送到不同的目的地。

3.3.3 负载均衡或故障转移

Flume 支持使用将多个 sink 逻辑上分到一个sink组，sink 组配合不同的 SinkProcessor 可以实现负载均衡和错误恢复的功能。

负载均衡，使用 LoadBalancingSinkProcessor，根据 header 中的信息写到不同的 sink 中。
错误恢复，使用 FailoverSinkProcessor，配置 sink 的优先级，当高优先级 sink 挂掉后，使用其它 sink 接收。

3.3.4 聚合

这种模式是我们最常见的，也非常实用，日常 web 应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用 flume 的这种组合方式能很好的解决这一问题，每台服务器部署一个 flume 采集日志，传送到一个集中收集日志 flume，再由此 flume 上传到 hdfs、hive、hbase 等，进行日志分析。

3.4 Flume 进阶案例

3.4.1 复制和多路复用

1）案例需求
使用 Flume-1 监控单文件变动，Flume-1 将变动内容传递给 Flume-2，Flume-2 负责显示到控制台。同时 Flume-1 将变动内容传递给 Flume-3，Flume-3 负责输出到 LocalFileSystem。

2）需求分析

3）实现步骤
（1）准备工作
创建 /opt/module/flume-1.9.0/job/group1 和 /opt/module/flume-1.9.0/files/jobgroup1

[liyibin@hadoop102 flume-1.9.0]$ mkdir /opt/module/flume-1.9.0/job/group1
[liyibin@hadoop102 flume-1.9.0]$ mkdir /opt/module/flume-1.9.0/files/jobgroup1/

（2）创建 flume-file-flume.properties
配置 1 个接收日志文件的 source 和两个 channel、两个 sink，分别输送给 flume-flume-logger 和 flume-flume-dir。

编辑配置文件

[liyibin@hadoop102 group1]$ vim flume-file-flume.properties

添加如下内容

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1 c2
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1 k2

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# a1 的channel 类型
a1.channels.c2.type = memory
# a1 的 channel 总容量
a1.channels.c2.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c2.transactionCapacity = 100

# 配置 source
# a1 输入源类型为 exec
a1.sources.r1.type = exec
# 监控日志
a1.sources.r1.command = tail -F /opt/module/flume-1.9.0/files/file3.txt 
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1 c2
# 将数据流复制给所有 channel 默认 replicating
a1.sources.r1.selector.type = replicating

# 配置 sink
a1.sinks.k1.type = avro
# sink 服务器主机
a1.sinks.k1.hostname = hadoop102
# sink 服务器端口
a1.sinks.k1.port = 4141
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

a1.sinks.k2.type = avro
# sink 服务器主机
a1.sinks.k2.hostname = hadoop102
# sink 服务器端口
a1.sinks.k2.port = 4142
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k2.channel = c2

（3）创建 flume-flume-logger.properties
编辑配置文件

[liyibin@hadoop102 group1]$ vim flume-flume-logger.properties

添加如下内容

# 定义 source channle 和 sink，a2 表示 agent 的名称
# c1 表示 channel 的名称
a2.channels = c1
# r1 表示 source 名称
a2.sources = r1
# k1 表示 sink 的名称
a2.sinks = k1

# 配置通道
# a2 的channel 类型
a2.channels.c1.type = memory
# a2 的 channel 总容量
a2.channels.c1.capacity = 1000
# a2 的channel 传输时收集 100 条 event 后再去提交事务
a2.channels.c1.transactionCapacity = 100

# 配置 source
# a2 输入源类型为 avro
a2.sources.r1.type = avro
# 绑定的地址和端口
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

# 配置 sink
# a1 的输出目的地是控制台
a2.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a2.sinks.k1.channel = c1

（4）创建 flume-flume-dir.properties
编辑配置文件

[liyibin@hadoop102 group1]$ vim flume-flume-dir.properties

添加如下内容

# 定义 source channle 和 sink，a3 表示 agent 的名称
# c1 表示 channel 的名称
a3.channels = c1
# r1 表示 source 名称
a3.sources = r1
# k1 表示 sink 的名称
a3.sinks = k1

# 配置通道
# a3 的channel 类型
a3.channels.c1.type = memory
# a3 的 channel 总容量
a3.channels.c1.capacity = 1000
# a3 的channel 传输时收集 100 条 event 后再去提交事务
a3.channels.c1.transactionCapacity = 100

# 配置 source
# a3 输入源类型为 arvo
a3.sources.r1.type = avro
# 绑定的地址和端口
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142
a3.sources.r1.channels = c1

# 配置 sink
# a1 的输出目的地是本地文件系统
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/module/flume-1.9.0/files/jobgroup1
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a3.sinks.k1.channel = c1

（5）执行配置文件
分别启动对应的 flume 进程：flume-flume-dir，flume-flume-logger，flume-file-flume。

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a2 -f job/group1/flume-flume-logger.properties -Dflume.root.logger=INFO,console
[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a3 -f job/group1/flume-fle-dir.properties 
[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/group1/flume-file-flume.properties

（6）追加信息到 /opt/module/flume-1.9.0/files/jobgroup1

[liyibin@hadoop102 files]$ echo hello >> file3.txt

（7）查看日志打印和 /opt/module/flume-1.9.0/files/jobgroup1 下的文件生成

3.4.2 负载均衡和故障转移

1）案例需求
使用 Flume1 监控一个端口，其 sink 组中的 sink 分别对接 Flume2 和 Flume3，采用 FailoverSinkProcessor，实现故障转移的功能。Flume2 挂掉后，Flume-3 会接收数据。

2）需求分析

3）实现步骤
（1）准备工作
创建 /opt/module/flume-1.9.0/job/group2

[liyibin@hadoop102 flume-1.9.0]$ mkdir /opt/module/flume-1.9.0/job/group2

（2）创建 flume-netcat-flume.properties
配置 1 个 netcat source，1 个 channel ，2 个 sink，分别传输给 flume-flume-logger1.properties 和 flume-flume-logger2.properties。

编辑配置文件

[liyibin@hadoop102 group2]$ vim flume-netcat-flume.properties

添加如下内容

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1 k2
# 配置 sing 组
a1.sinkgroups = g1

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# 配置 source
# a1 输入源类型为 netcat
a1.sources.r1.type = netcat
# a1 监听的主机
a1.sources.r1.bind = localhost
# a1 监听的端口
a1.sources.r1.port = 9999
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1

# 配置 sink
# a1 的输出目的地是 avro
a1.sinks.k1.type = avro
# sink 服务器主机
a1.sinks.k1.hostname = hadoop102
# sink 服务器端口
a1.sinks.k1.port = 4141
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

# a1 的输出目的地是 avro
a1.sinks.k2.type = avro
# sink 服务器主机
a1.sinks.k2.hostname = hadoop102
# sink 服务器端口
a1.sinks.k2.port = 4142
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k2.channel = c1

# sinkgroups 的类型为故障恢复
a1.sinkgroups.g1.processor.type = failover
# 配置优先级
a1.sinkgroups.g1.processor.priority.k1 = 10
a1.sinkgroups.g1.processor.priority.k2 = 5
a1.sinkgroups.g1.processor.maxpenalty = 10000
a1.sinkgroups.g1.sinks = k1 k2

（3）创建 flume-flume-logger1.properties
编辑配置文件

[liyibin@hadoop102 group2]$ vim flume-flume-logger1.properties

添加如下内容

# 定义 source channle 和 sink，a2 表示 agent 的名称
# c1 表示 channel 的名称
a2.channels = c1
# r1 表示 source 名称
a2.sources = r1
# k1 表示 sink 的名称
a2.sinks = k1

# 配置通道
# a2 的channel 类型
a2.channels.c1.type = memory
# a2 的 channel 总容量
a2.channels.c1.capacity = 1000
# a2 的channel 传输时收集 100 条 event 后再去提交事务
a2.channels.c1.transactionCapacity = 100

# 配置 source
# a2 输入源类型为 avro
a2.sources.r1.type = avro
# 绑定的地址和端口
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141
a2.sources.r1.channels = c1

# 配置 sink
# a2 的输出目的地是控制台
a2.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a2.sinks.k1.channel = c1

（4）创建 flume-flume-logger2.properties
编辑配置文件

[liyibin@hadoop102 group2]$ vim flume-flume-logger2.properties

添加如下内容

# 定义 source channle 和 sink，a3 表示 agent 的名称
# c1 表示 channel 的名称
a3.channels = c1
# r1 表示 source 名称
a3.sources = r1
# k1 表示 sink 的名称
a3.sinks = k1

# 配置通道
# a3 的channel 类型
a3.channels.c1.type = memory
# a3 的 channel 总容量
a3.channels.c1.capacity = 1000
# a3 的channel 传输时收集 100 条 event 后再去提交事务
a3.channels.c1.transactionCapacity = 100

# 配置 source
# a3 输入源类型为 avro
a3.sources.r1.type = avro
# 绑定的地址和端口
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142
a3.sources.r1.channels = c1

# 配置 sink
# a3 的输出目的地是控制台
a3.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a3.sinks.k1.channel = c1

（5）执行配置文件
分别启动对应的 flume 进程：flume-flume-logger1，flume-flume-logger2，flume-netcat-flume。

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a2 -f job/group2/flume-flume-logger1.properties -Dflume.root.logger=INFO,console
[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a3 -f job/group2/flume-fle-logger2.properties -Dflume.root.logger=INFO,console
[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/group2/flume-netcat-flume.properties

（6）使用 netcat 工具向本机的 9999 端口发送内容

[liyibin@hadoop102 flume-1.9.0]$ nc localhost 9999

（7）查看 Flume2 及 Flume3 的控制台打印日志

Flume2:
Flume3: 无打印

（8）将 Flume2 kill，观察 Flume3 的控制台打印情况。

Flume2 已经 kill
Flume3:

注：使用 jps -ml 查看 Flume 进程。

3.4.3 聚合

1）案例需求：
hadoop102 上的 Flume-1 监控文件/opt/module/flume-1.9.0/files/jobgroup3/group.log，hadoop103 上的 Flume-2 监控某一个端口的数据流，Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3，Flume-3 将最终数据打印到控制台。

2）需求分析

3）实现步骤
（1）准备工作
创建 /opt/module/flume-1.9.0/job/group3

[liyibin@hadoop102 flume-1.9.0]$ mkdir /opt/module/flume-1.9.0/job/group3

（2）创建 flume-file-flume.properties
配置 Source 用于监控 group.log 文件，配置 Sink 输出数据到下一级 Flume。

编辑配置文件

[liyibin@hadoop102 group2]$ vim flume-file-flume.properties

添加如下内容

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# 配置 source
# a1 输入源类型为 exec
a1.sources.r1.type = exec
# 监控日志
a1.sources.r1.command = tail -F /opt/module/flume-1.9.0/files/jobgroup3/group.log
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1

# 配置 sink
a1.sinks.k1.type = avro
# sink 服务器主机
a1.sinks.k1.hostname = hadoop104
# sink 服务器端口
a1.sinks.k1.port = 4141
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

（3）创建 flume-netcat-flume.properties
编辑配置文件

[liyibin@hadoop102 group3]$ vim flume-netcat-flume.properties

添加如下内容

# 定义 source channle 和 sink，a2 表示 agent 的名称
# c1 表示 channel 的名称
a2.channels = c1
# r1 表示 source 名称
a2.sources = r1
# k1 表示 sink 的名称
a2.sinks = k1

# 配置通道
# a2 的channel 类型
a2.channels.c1.type = memory
# a2 的 channel 总容量
a2.channels.c1.capacity = 1000
# a2 的channel 传输时收集 100 条 event 后再去提交事务
a2.channels.c1.transactionCapacity = 100

# 配置 source
# a2 输入源类型为 netcat
a2.sources.r1.type = netcat
# 监控主机和端口
a2.sources.r1.bind = hadoop103
a2.sources.r1.port = 9999
# 连接 source 和 channel，一个 source 可以连接多个 channel
a2.sources.r1.channels = c1

# 配置 sink
a2.sinks.k1.type = avro
# sink 服务器主机
a2.sinks.k1.hostname = hadoop104
# sink 服务器端口
a2.sinks.k1.port = 4141
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a2.sinks.k1.channel = c1

（4）创建 flume-flume-logger.properties
编辑配置文件

[liyibin@hadoop102 group3]$ vim flume-flume-logger.properties

添加如下内容

# 定义 source channle 和 sink，a3 表示 agent 的名称
# c1 表示 channel 的名称
a3.channels = c1
# r1 表示 source 名称
a3.sources = r1
# k1 表示 sink 的名称
a3.sinks = k1

# 配置通道
# a3 的channel 类型
a3.channels.c1.type = memory
# a3 的 channel 总容量
a3.channels.c1.capacity = 1000
# a3 的channel 传输时收集 100 条 event 后再去提交事务
a3.channels.c1.transactionCapacity = 100

# 配置 source
# a3 输入源类型为 avro
a3.sources.r1.type = avro
# 绑定主机和端口
a3.sources.r1.bind = hadoop104
a3.sources.r1.port = 4141
# 连接 source 和 channel，一个 source 可以连接多个 channel
a3.sources.r1.channels = c1

# 配置 sink
a3.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a3.sinks.k1.channel = c1

（5）分发 flume-1.9.0

[liyibin@hadoop102 module]$ xsync flume-1.9.0/

（5）执行配置文件
分别启动对应的 flume 进程：hadoop104 启动 flume-flume-logger，hadoop102 flume-file-flume，hadoop103 启动 flume-netcat-flume。

[liyibin@hadoop104 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a3 -f job/group3/flume-flume-logger.properties -Dflume.root.logger=INFO,console
[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/group3/flume-file-flume.properties
[liyibin@hadoop103 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a2 -f job/group2/flume-netcat-flume.properties

（6）在 hadoop103 上向/opt/module 目录下的 group.log 追加内容

[liyibin@hadoop102 jobgroup3]$ echo hello >> group.log

（7）在 hadoop103 上向 9999 端口发送数据

[liyibin@hadoop103 ~]$ nc localhost 9999
world
OK

（8）检查 hadoop104 上数据

3.5 自定义 Interceptor

1）案例需求
使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。

2）需求分析
在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing（多路复用）结构，Multiplexing 的原理是，根据 event 中 Header 的某个 key 的值，将不同的 event 发送到不同的 Channel 中，所以我们需要自定义一个 Interceptor，为不同类型的 event 的 Header 中的 key 赋予不同的值。

在该案例中，我们以端口数据模拟日志，以是否包含 ”flume” 模拟不同类型的日志，我们需要自定义 interceptor 区分数据中是否包含 ”flume”，将其分别发往不同的分析系统（Channel）。

3）实现步骤
（1）创建一个 maven 项目，导入以下依赖

<dependency>
    <groupId>org.apache.flumegroupId>
    <artifactId>flume-ng-coreartifactId>
    <version>1.9.0version>
dependency>

（2）定义 TypeInterceptor 类实现 Interceptor 接口

public class TypeInterceptor implements Interceptor {

    @Override
    public void initialize() {
    }

    /**
     * 处理事件
     * @return 返回 null 表示忽略当前事件
     */
    @Override
    public Event intercept(Event event) {
        // 事件头
        Map<String, String> headers = event.getHeaders();
        // 事件的 body 数据
        String body = new String(event.getBody());

        if (body.contains("flume")) {
            headers.put("type", "first");
        } else {
            headers.put("type", "second");
        }

        return event;
    }

    @Override
    public List<Event> intercept(List<Event> list) {
        for (Event event : list) {
            Map<String, String> headers = event.getHeaders();
            String body = new String(event.getBody());
            if (body.contains("flume")) {
                headers.put("type", "first");
            } else {
                headers.put("type", "second");
            }
        }
        return list;
    }

    @Override
    public void close() {
    }

    /**
     * 必须有该类，用来创建自定义拦截器
     */
    public static class Builder implements Interceptor.Builder {

        @Override
        public Interceptor build() {
            return new TypeInterceptor();
        }

        @Override
        public void configure(Context context) {

        }
    }
}

（3）编辑 flume 文件
为 hadoop102 上的 Flume1 配置 1 个 netcat source，1 个 sink group（2 个 avro sink），并配置相应的 ChannelSelector 和 interceptor。

编写 flume-netcta-flume.properties

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1 c2
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1 k2

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# a1 的channel 类型
a1.channels.c2.type = memory
# a1 的 channel 总容量
a1.channels.c2.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c2.transactionCapacity = 100

# 配置 source
# a1 输入源类型为 netcat
a1.sources.r1.type = netcat
# a1 监听的主机
a1.sources.r1.bind = localhost
# a1 监听的端口
a1.sources.r1.port = 9999
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1 c2
# 拦截器配置
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = com.liyibin.flume.interceptor.TypeInterceptor$Builder
# 配置 Channel selector，类型多路复用
a1.sources.r1.selector.type = multiplexing
# 事件头部中的 key
a1.sources.r1.selector.header = type
# 事件头部中的 值
a1.sources.r1.selector.mapping.first = c1
a1.sources.r1.selector.mapping.second = c2

# 配置 sink
# a1 的输出目的地是 avro
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop103
a1.sinks.k1.port = 4141
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

# a1 的输出目的地是 avro
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop104
a1.sinks.k2.port = 4141
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k2.channel = c2

为 hadoop103 上的 Flume4 配置一个 avro source 和一个 logger sink。

flume-flume-logger`.properties

# 定义 source channle 和 sink，a2 表示 agent 的名称
# c1 表示 channel 的名称
a2.channels = c1
# r1 表示 source 名称
a2.sources = r1
# k1 表示 sink 的名称
a2.sinks = k1

# 配置通道
# a2 的channel 类型
a2.channels.c1.type = memory
# a2 的 channel 总容量
a2.channels.c1.capacity = 1000
# a2 的channel 传输时收集 100 条 event 后再去提交事务
a2.channels.c1.transactionCapacity = 100

# 配置 source
# a2 输入源类型为 avro
a2.sources.r1.type = avro
# 绑定的地址和端口
a2.sources.r1.bind = hadoop103
a2.sources.r1.port = 4141
a2.sources.r1.channels = c1

# 配置 sink
# a2 的输出目的地是控制台
a2.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a2.sinks.k1.channel = c1

为 hadoop104 上的 Flume3 配置一个 avro source 和一个 logger sink。

flume-flume-logger2.properties

# 定义 source channle 和 sink，a3 表示 agent 的名称
# c1 表示 channel 的名称
a3.channels = c1
# r1 表示 source 名称
a3.sources = r1
# k1 表示 sink 的名称
a3.sinks = k1

# 配置通道
# a3 的channel 类型
a3.channels.c1.type = memory
# a3 的 channel 总容量
a3.channels.c1.capacity = 1000
# a3 的channel 传输时收集 100 条 event 后再去提交事务
a3.channels.c1.transactionCapacity = 100

# 配置 source
# a3 输入源类型为 avro
a3.sources.r1.type = avro
# 绑定的地址和端口
a3.sources.r1.bind = hadoop104
a3.sources.r1.port = 4141
a3.sources.r1.channels = c1

# 配置 sink
# a3 的输出目的地是控制台
a3.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a3.sinks.k1.channel = c1

（4）分别在 hadoop103，hadoop104， hadoop102 上启动 flume 进程，注意先后顺序。

[liyibin@hadoop103 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a2 -f job/group4/flume-flume-logger1.properties -Dflume.root.logger=INFO,console

[liyibin@hadoop104 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a3 -f job/group4/flume-flume-logger2.properties -Dflume.root.logger=INFO,console

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/group4/flume-netcat-flume.properties

（5）在 hadoop102 使用 netcat 向 localhost:44444 发送字母和数字。（6）观察 hadoop103 和 hadoop104 打印的日志。

[liyibin@hadoop102 flume-1.9.0]$ nc localhost 9999
hello
OK
flume
OK

（6）观察 hadoop103 和 hadoop104 打印的日志。

hadoop103：

hadoop104：

3.6 自定义 Source

1）介绍
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的 source 类型已经很多，但是有时候我们需要根据实际需求自定义某些 source。

官方也提供了自定义 source 的接口：
https://flume.apache.org/FlumeDeveloperGuide.html#source

自定义 Source 需要继承 AbstractSource 类并实现 Configurable 和 PollableSource 接口。

2）需求
使用 flume 接收数据，并给每条数据添加前缀，输出到控制台。前缀可从 flume 配置文件中配置。

3）分析

4）编写 MySource

public class MySource extends AbstractSource implements Configurable, PollableSource {

    /**
     * 从配置文件中获取
     */
    private Long delay;
    private String prefix;
    
    @Override
    public void configure(Context context) {
        prefix = context.getString("pre", "pre-");
        delay = context.getLong("suf", 1000L);
    }

    @Override
    public Status process() throws EventDeliveryException {
        try {
            // 事件
            Event event = new SimpleEvent();
            // 事件头
            Map<String, String> headers = new HashMap<>();

            for (int i = 0; i < 5; i++) {
                // 给事件设置头信息
                event.setHeaders(headers);
                event.setBody((prefix + i).getBytes());
                // 将事件写入 channel
                getChannelProcessor().processEvent(event);
                Thread.sleep(delay);
            }
        } catch (Exception e) {
            // 异常
            return Status.BACKOFF;
        }
        
        // 正常
        return Status.READY;
    }

    @Override
    public long getBackOffSleepIncrement() {
        return 0;
    }

    @Override
    public long getMaxBackOffSleepInterval() {
        return 0;
    }
}

5）测试
（1）打包
将写好的代码打包，并放到 flume 的 lib 目录下。

（2）配置文件

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# 配置 source
# a1 输入源类型为自定义 source 的类路径
a1.sources.r1.type = com.liyibin.flume.source.MySource
a1.sources.r1.pre = flume-
a1.sources.r1.delay = 1500
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1

# 配置 sink
# a1 的输出目的地是控制台
a1.sinks.k1.type = logger
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

（3）开启任务

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/mysource.properties -Dflume.root.logger=INFO,console

（4）查看打印

3.7 自定义 Sink

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。

Sink 是完全事务性的。在从 Channel 批量删除数据之前，每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent，Sink 就利用 Channel 提交事务。事务一旦被提交，该 Channel 从自己的内部缓冲区删除事件。

Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。官方提供的 Sink 类型已经很多，但是有时候我们就需要根据实际需求自定义某些 Sink。

自定义 sink 的接口：https://flume.apache.org/FlumeDeveloperGuide.html#sink

Sink 需要继承 AbstractSink 类并实现 Configurable 接口。实现相应方法：

configure(Context context)//初始化 context（读取配置文件内容）。
process()//从 Channel 读取获取数据（event），这个方法将被循环调用。

使用场景：读取 Channel 数据写入 MySQL 或者其他文件系统。

2）需求
使用 flume 接收数据，并在 Sink 端给每条数据添加前缀和后缀，输出到控制台。前后缀可在 flume 任务配置文件中配置。

3）分析
（1）编码

configure()：读取任务配置文件中的配置信息。
process()：从Channel中取数据，添加前后缀，打印日志。

（2）打包到集群，编写配置文件

4）编写 Sink

public class MySink extends AbstractSink implements Configurable {

    private static final Logger log = LoggerFactory.getLogger(MySink.class);

    /**
     * 从配置文件中获取配置
     */
    private String prefix;
    private String suffix;

    @Override
    public void configure(Context context) {
        prefix = context.getString("prefix", "pre-");
        suffix = context.getString("suffix");
    }

    @Override
    public Status process() throws EventDeliveryException {
        // 声明状态返回值信息
        Status status;

        // 获取当前 Sink 绑定的 Channel
        Channel channel = getChannel();

        // 获取事务
        Transaction tx = channel.getTransaction();
        tx.begin();

        try {
            // 获取事件
            Event event;
            do {
                event = channel.take();
            } while (event == null);

            // 处理事件
            log.info(prefix + new String(event.getBody()) + suffix);

            // 提交事务
            tx.commit();

            status = Status.READY;
        } catch (Exception e) {
            tx.rollback();
            status = Status.BACKOFF;
        } finally {
            // 关闭事务
            tx.close();
        }

        return status;
    }
}

5）测试
（1）打包
将写好的代码打包，并放到 flume 的 lib 目录下。

（2）flume 配置文件

# 定义 source channle 和 sink，a1 表示 agent 的名称
# c1 表示 channel 的名称
a1.channels = c1
# r1 表示 source 名称
a1.sources = r1
# k1 表示 sink 的名称
a1.sinks = k1

# 配置通道
# a1 的channel 类型
a1.channels.c1.type = memory
# a1 的 channel 总容量
a1.channels.c1.capacity = 1000
# a1 的channel 传输时收集 100 条 event 后再去提交事务
a1.channels.c1.transactionCapacity = 100

# 配置 source
# a1 输入源类型为 netcat
a1.sources.r1.type = netcat
# a1 监听的主机
a1.sources.r1.bind = localhost
# a1 监听的端口
a1.sources.r1.port = 9999
# 连接 source 和 channel，一个 source 可以连接多个 channel
a1.sources.r1.channels = c1

# 配置 sink
# a1 的输出目的地是控制台
a1.sinks.k1.type = com.liyibin.flume.sink.MySink
a1.sinks.k1.prefix = hello-
a1.sinks.k1.suffix = -world
# 连接 sink 和 channel，一个 sink 只能连接一个 channel
a1.sinks.k1.channel = c1

（4）开启任务

[liyibin@hadoop102 flume-1.9.0]$ bin/flume-ng agent -c conf/ -n a1 -f job/mysink.properties -Dflume.root.logger=INFO,console

[liyibin@hadoop102 ~]$ nc localhost 9999
moring
OK
left
OK

（5）结果展示

你可能感兴趣的:(大数据学习之路,flume,大数据)

从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round