yoshubom

Flume 安装使用(自己总结) 吐槽CSDN 对Markdown 的mermaid 语法支持不完整

Flume 安装使用(自己总结)

准备工作

安装JDK8

# 下载JDK 8
wget --no-cookies --no-check-certificate --header \
"Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" \
"http://download.oracle.com/otn-pub/java/jdk/8u241-b07/1f5b5a70bf22433b84d0e960903adac8/jdk-8u241-linux-x64.tar.gz" -P ~/

# 解压安装
sudo tar -xf jdk-8u241-linux-x64.tar.gz -C /usr/local/

# 配置~/.bashrc
echo -e '\n\n# JDK 1.8' >> ~/.bashrc
echo 'export JAVA_HOME=/usr/local/jdk1.8.0_241' >> ~/.bashrc
echo 'export JRE_HOME=${JAVA_HOME}/jre' >> ~/.bashrc
echo 'export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib' >> ~/.bashrc
echo 'export PATH=$PATH:${JAVA_HOME}/bin' >> ~/.bashrc

# 应用设置
source ~/.bashrc

# 测试效果
java -version

# 清理残余
rm jdk-8u241-linux-x64.tar.gz

单机Hadoop

单机模式仅供本次测试用，生产中还是用集群HDFS。

# 下载
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

# 解压
sudo mkdir -p /opt/modules
sudo chown -R `id -u`:`id -g` /opt/modules  # 赋予当前用户修改该目录的权限
tar -xf hadoop-2.7.2.tar.gz -C /opt/modules

# 删除多余的cmd 文件，Linux 下不需要这些文件
rm -rf /opt/modules/hadoop-2.7.2/bin/*.cmd
rm -rf /opt/modules/hadoop-2.7.2/sbin/*.cmd
rm -rf /opt/modules/hadoop-2.7.2/etc/hadoop/*.cmd

# 配置
## 1. hadoop-env.sh，修改JAVA_HOME 路径
sed -i 's#=${JAVA_HOME}#=/usr/local/jdk1.8.0_241#' \
    /opt/modules/hadoop-2.7.2/etc/hadoop/hadoop-env.sh

## 2. core-site.xml
cat > /opt/modules/hadoop-2.7.2/etc/hadoop/core-site.xml << 'EOF'



  
  
  fs.defaultFS
    hdfs://hadoop112:9000
  

  
  
    hadoop.tmp.dir
    /opt/modules/hadoop-2.7.2/data/tmp
  

EOF

## 3. hdfs-site.xml
cat > /opt/modules/hadoop-2.7.2/etc/hadoop/hdfs-site.xml << 'EOF'



  
  
    dfs.replication
    1
  

EOF

# 启动
## 1. 格式化`NameNode`，仅在初始化时执行一次。
### 前面将数据文件设置在data 目录下，先清空再格式化
cd /opt/modules/hadoop-2.7.2
rm -rf data/ logs/ && bin/hdfs namenode -format
### 出现Exiting with status 0 字样表示格式化成功

## 2. 启动HDFS
### 统一启动，NameNode、DataNode、SecondaryNameNode 一起
cd /opt/modules/hadoop-2.7.2 && sbin/start-dfs.sh

# 验证
## 浏览器访问 http://hadoop112:50070

# 停止
cd /opt/modules/hadoop-2.7.2 && sbin/stop-dfs.sh

创建工作目录

# 创建操作目录，操作用户为abc
sudo mkdir -p /opt/modules
sudo chown -R `id -u`:`id -g` /opt/modules

安装配置

# 1. 下载
wget http://archive.apache.org/dist/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz

# 2. 解压
tar -xf apache-flume-1.7.0-bin.tar.gz -C /opt/modules
cd /opt/modules && mv apache-flume-1.7.0-bin flume-1.7.0

# 3. 配置
echo 'export JAVA_HOME=/usr/local/jdk1.8.0_241' > /opt/modules/flume-1.7.0/conf/flume-env.sh

使用案例

开始之前先说明以下，Flume有三大组件，分别是：Source、Channel、Sink。它们三者各自都有很多类型可以选择，例如Channel就有memory和file两种类型可供使用，甚至类型还可以自定义。但是，在同一个Flume进程中即同一个Agent中，Channel两端连接的是Source和Sink的，所以Channel连Channel是不存在的。不同Agent进程可以通过Avro 接口让Source和Sink串联在一起。

Web Server
logs

Source

0. 创建案例目录

# 案例配置存放路径
mkdir /opt/modules/flume-1.7.0/jobs

1. 实时监听端口数据

在hadoop112启动监听44444端口，hadoop113作为客户端来访问，如有数据变化则打印到终端上。
本实验在同一台机器上做也可以，例如hadoop112开两个终端，一个启动Flume，另一个开netcat。

1.1 Shell 实现

nc hadoop112 44444

hadoop112
(nc -lk 44444)

hadoop113

# 0. 使用netcat 实验
## 0.1 服务端，在hadoop112 上执行，不指定主机，默认绑定所有本机的IP
nc -lk 44444  # 监听44444 端口，nc 是netcat 缩写，-l 监听，-k 保存不关闭
### 关于netcat 类似于cat，cat 是本地连接输入输出的，netcat 则是网络上连接输入输出的
### cat 源自于单词catenate，连接的意思，同义词connect

## 0.2 客户端，在另一个节点hadoop113 上执行
nc hadoop112 44444  # 连接hadoop112 上的44444 端口，Ctrl+d 或Ctrl+c 结束
### 客户端hadoop113 输入、服务端hadoop112 输出

1.2 Flume 实现

Source r1
netcat

# 使用flume 实现以上过程
## 1. 创建任务配置，hadoop112 上执行，参考官网v1.7.0 的说明
cat > /opt/modules/flume-1.7.0/jobs/netcat_flume_logger.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop112
a1.sources.r1.port = 44444

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型，memory 应该比file 要快一些
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

## 2. 启动flume，相当于启动了netcat 服务端
### flume 相当于shell 的一般命令，没有服务后台进程，要靠启动agent
### agent 包含了Flume 的source、channel、sink 三大组件
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent --conf conf/ --conf-file jobs/netcat_flume_logger.conf \
                   --name a1 -Dflume.root.logger=INFO,console
### --conf 读取JAVA_HOME 等配置，--conf-file 才是agent 的配置，--name 是agent 的名字
### -D 动态修改参数值，将默认的flume.root.logger=INFO,LOGFILE 改成flume.root.logger=INFO,console
### 日志默认参数在conf/log4j.properties，修改INFO 就包含了INFO 以下例如DEBUG 的信息，以上命令简写形式如下
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/netcat_flume_logger.conf \
                   -n a1 -Dflume.root.logger=INFO,console
### 启动后，flume 会阻塞等待客户端访问

## 3. 在hadoop113 上启动netcat 客户端访问
nc hadoop112 44444
### 输入的字符在hadoop112 的控制台上都会被打印出来
telnet hadoop112 44444  # 或用telnet 有也是同样的效果

## 4. 停止flume
kill $(jps -l | grep org.apache.flume.node.Application | cut -d ' ' -f 1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

2. 实时监控文件内容追加

2.1 追加内容打印到控制台

Source r1
exec

# 0. 创建测试用的日志文件
mkdir -p /tmp/log && touch /tmp/log/t.log

# 1. 创建任务配置文件
cat > /opt/modules/flume-1.7.0/jobs/exec_flume_logger.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，exec 表要执行系统命令
a1.sources.r1.type = exec
## -F 即使日志文件回滚了，inode 信息变了，它也会根据文件名追踪新的日志文件
a1.sources.r1.command = tail -F /tmp/log/t.log
## tail 命令默认会读取文件的最后10 行
## 用什么去解析执行command，以下为flume 默认值，不写也行
a1.sources.r1.shell = /bin/bash -c

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

# 2. 启动flume agent
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/exec_flume_logger.conf -n a1 -Dflume.root.logger=INFO,console

# 3. 模拟生产环境追加日志文件内容，另外开个终端
echo 'data1' >> /tmp/log/t.log
echo 'data2' >> /tmp/log/t.log
echo 'data3' >> /tmp/log/t.log

# 4. 验证传输
## 在终端往/tmp/log/t.log 追加内容，在控制台可以看到对应的信息。

# 5. 停止flume agent
kill $(jps -l | grep org.apache.flume.node.Application | cut -d' ' -f1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

2.2 追加内容保存到HDFS

Source r1
exec

# 0. 环境准备 
## 创建测试用的日志文件
mkdir -p /tmp/log && touch /tmp/log/tt.log
## 启动单机版HDFS，NameNode、DataNode、SecondaryNameNode 一起
cd /opt/modules/hadoop-2.7.2 && sbin/start-dfs.sh

# 1. 创建任务配置文件
cat > /opt/modules/flume-1.7.0/jobs/exec_flume_hdfs.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，exec 表要执行系统命令
a1.sources.r1.type = exec
## -F 即使日志文件回滚了，inode 信息变了，它也会根据文件名追踪新的日志文件
a1.sources.r1.command = tail -F /tmp/log/tt.log
## tail 命令默认会读取文件的最后10 行
## 用什么去解析执行command，以下为flume 默认值，不写也行
a1.sources.r1.shell = /bin/bash -c
# Describe the sink
## 定义sink 即下游的类型，指定类型为hdfs 及存储路径的文件夹命名规则
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hadoop112:9000/flume/webdata/%Y%m%d/%H
## 上传文件的前缀
a1.sinks.k1.hdfs.filePrefix = logs
## 设置文件内容为DataStream 便于观察，默认SequenceFile 是序列化的文本编辑器不好打开
a1.sinks.k1.hdfs.fileType = DataStream
## 使用本地时间戳，如为false 以上的%Y%m%d 等将不可用，因默认event 的header 为空
a1.sinks.k1.hdfs.useLocalTimeStamp = true
## 配合文件夹命名规则，每小时建立一个新文件夹，以下三项为一组，round 为true 时才生效
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 1
a1.sinks.k1.hdfs.roundUnit = hour
## 临时文件，即正在写入的文件的后缀名，满足roll 三项中任一项则去掉改后缀变成正式文件
a1.sinks.k1.hdfs.inUseSuffix = .tmp
## 文件滚动规则，以下三项roll 为一组
## 设置每个滚动文件的大小，HDFS 每个块128MB(1024*1024*128=134217728 Byte)
a2.sinks.k1.hdfs.rollSize = 134210000
## 最后4 位为0000，让其提早滚动到新文件，避免128.1MB 要存两个块，第二个块只有一丁点内容
## 将.tmp 文件变成正式文件的间隔时间，单位为秒，太小会产生过多的小文件，为0 则不按间隔时间滚动
a1.sinks.k1.hdfs.rollInterval = 30
## 累计到事件数后滚动，为0 则忽略累计事件数
a1.sinks.k1.hdfs.rollCount = 0
## 如果rollInterval 和rollCount 都为0 则单文件大小达到rollSize 才滚动文件

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

# 2. 启动flume agent
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -c conf/ -f jobs/exec_flume_hdfs.conf -n a1

# 3. 模拟生产环境追加日志文件内容，另外开个终端
date >> /tmp/log/tt.log && sleep 3
date >> /tmp/log/tt.log && sleep 3
date >> /tmp/log/tt.log

# 4. 验证传输
## 在终端往/tmp/log/tt.log 追加内容，在hadoop112:50070/explorer.html#/flume/webdata 可看到
## HDFS 在有event 消息传过来的情况下，每小时创建一个文件夹，临时*.tmp 文件过30 秒去掉后缀变成正式文件
## 下载对应的文件，可以看到里面的文本，用其跟追加到/tmp/log/tt.log 内容的作比较。

# 5. 停止flume agent
kill $(jps -l | grep org.apache.flume.node.Application | cut -d' ' -f1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

3. 实时监控目录下新增文件

Source r1
spooldir

# 0. 创建测试用的日志文件
mkdir -p /tmp/log/source /tmp/log/target

# 1. 创建任务配置文件
cat > /opt/modules/flume-1.7.0/jobs/spooldir_flume_fileroll.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，spooldir 会扫描源文件夹
a1.sources.r1.type = spooldir
## 每500 毫秒扫描一次源文件夹的新增文件
a1.sources.r1.pollDelay = 500
## 源文件夹
a1.sources.r1.spoolDir = /tmp/log/source

# Describe the sink
## 定义sink 即下游的类型，file_roll 即输出到本地文件系统
a1.sinks.k1.type = file_roll
## 输出文件的目标文件夹
a1.sinks.k1.sink.directory = /tmp/log/target

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

# 2. 启动flume agent
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -c conf/ -f jobs/spooldir_flume_fileroll.conf -n a1

# 3. 模拟生产环境追加文件到源文件夹
cd /tmp/log/source && for((i=1;i<=5;i++)); do echo $i$i$i > $i.txt; done

# 4. 验证传输
## 往/tmp/log/source 里添加的新文件经过500 毫秒之后都增加了.COMPLETED 后缀名
## 在/tmp/log/target 看到传输过来的文件内容，可能多个源文件被合并成了一个
cd /tmp/log/source && ls
cd /tmp/log/target && ls
## 注意：
### 1. 不可以往源文件夹里放入同名文件，例如已有1.txt.COMPLETED，再放如一个1.txt 文件会报错，进程须重启才能再次工作
### 2. 修改文件夹里文件的内容，spooldir 也不会将其当新文件看待，所以新内容必须放到不重名的新文件里

# 5. 停止flume agent
kill $(jps -l | grep org.apache.flume.node.Application | cut -d' ' -f1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

4. 实时监控目录下多个文件内容追加

TAILDIR类型的sink可以在确保数据不丢失的前提下实现实时监控和断点续传。

Source r1
TAILDIR

# 0. 创建测试用的日志文件
mkdir -p /tmp/log/test1 /tmp/log/test2

# 1. 创建任务配置文件
cat > /opt/modules/flume-1.7.0/jobs/taildir_flume_logger.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，TAILDIR 会监控源文件夹变化
a1.sources.r1.type = TAILDIR
## 设置监控的文件组，这里有f1 和f2 两个
a1.sources.r1.filegroups = f1 f2
## 可用绝对路径或正则表达式与文件组绑定来监控文件
a1.sources.r1.filegroups.f1 = /tmp/log/test1/t.log
a1.sources.r1.filegroups.f2 = /tmp/log/test2/.*log.*
## 以下设置均可选，默认值请参考FlumeUserGuide
## 否则在Event 的header 加入信息
a1.sources.r1.fileHeader = true
## 头部信息K-V 形式，K 和V 可随意命名，也可有多个头部信息
a1.sources.r1.headers.f1.headerKey1 = value1
a1.sources.r1.headers.f2.headerKey1 = value2
a1.sources.r1.headers.f2.headerKey2 = value22
## 文件空闲多久将其关闭，单位毫秒
a1.sources.r1.idleTimeout = 2000
## 保存断点续传记录的文件
a1.sources.r1.positionFile = /opt/modules/flume-1.7.0/logs/taildir_position.json

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

# 2. 启动flume agent
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/taildir_flume_logger.conf \
                   -n a1 -Dflume.root.logger=INFO,console

# 3. 模拟生产环境追加文件到源文件夹
## 3.1 创建/tmp/log/test1/t.log 并修改其内容
cd /tmp/log/test1 && echo 111 > t.log && echo 1111 >> t.log
## 3.2 在/tmp/log/test2 下创建多个.log 文件，并修改它们的内容
cd /tmp/log/test2 && \
  for((i=1;i<=5;i++)); do echo $i$i$i > $i.log; done && \
  for((i=1;i<=5;i++)); do echo abcde$i$i$i > $i.log; done

# 4. 验证传输
## 以上修改在终端都应该可以看到对应的事件信息
## 另外，停止flume 后，往/tmp/log/test1/t.log 追加点内容，再次启动flume，
## 终端应显示关闭flume 后追加的内容，而不是像tail 命令那样默认读最后10 行，这就是断点续传

# 5. 停止flume agent
kill $(jps -l | grep org.apache.flume.node.Application | cut -d' ' -f1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

5. Flume 简单串联

产生日志的网站后台并不在大数据集群中，需要在网站后台安装Flume，然后再和大数据集群中的Flume串联。
这里假设hadoop113是网站后台，hadoop112是大数据集群中的数据采集节点。
Flume串联使用Avro 接口，Avro Source是服务端，Avro Sink是客户端，记住服务端要先于客户端启动。

Source r1
netcat

# 1. 创建任务配置文件
## 1.1 在hadoop112 上执行，配置服务端
cat > /opt/modules/flume-1.7.0/jobs/avro_flume_avro.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，avro 表要跟另一台机器上的avro sink 串联
a1.sources.r1.type = avro
## 绑定本机的IP，0.0.0.0 表本机所有可用IP
a1.sources.r1.bind = 0.0.0.0
## 监听的端口，与客户端一致
a1.sources.r1.port = 4545

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

## 1.2 在hadoop113 上执行，配置客户端
cat > /opt/modules/flume-1.7.0/jobs/avro_flume_avro.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
## 定义sink 即下游的类型，avro 表示下游有avro source 串联对接
a1.sinks.k1.type = avro
## 连接的服务端即avro source 的地址
a1.sinks.k1.hostname = hadoop112
## 服务端avro source 的端口
a1.sinks.k1.port = 4545

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

# 2. 启动flume agent
## 2.1 在hadoop112 上启动服务端，注意！！服务端必须先启，否则客户端启动不起来
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/avro_flume_avro.conf -n a1 -Dflume.root.logger=INFO,console

## 2.2 在hadoop113 上启动客户端，必须确保服务端已经启好
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -c conf/ -f jobs/avro_flume_avro.conf -n a1

# 3. 验证传输
## 在hadoop113 再开一个终端，往本机44444 端口发送数据
telnet localhost 44444
## 或使用netcat 也是一样的效果，在hadoop112 上应该可以看到从hadoop113 发来的数据
nc localhost 44444
## PVE 上测试居然要9 秒消息才能传到……

# 4. 停止flume agent
kill $(jps -l | grep org.apache.flume.node.Application | cut -d' ' -f1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

Flume 高级

Flume 内部机制

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WBomzned-1584755721693)(flume_flow_path.png)]

Flume 传输事务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-biDgXVTL-1584755721699)(flume_transaction.png)]

数据复制

由于只有Channel Selector才有replicating即数据复制的功能，准确的说Source 组件才有数据复制功能，因为Channel Selectors是属于Source的。所以，需要通过多个Channel来实现数据多组副本数据落地，而无法使用一个Channel接多个Sink的方式实现。

Source r1
netcat

Channel Selector
replicating

# 0. 环境准备
mkdir -p /tmp/log/target

# 1. 创建任务配置，在hadoop112 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_replicating.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop112
a1.sources.r1.port = 44444
## 设置Source 的Channel 选择器类型为数据复制，即下游的Channel 们都使用相同的数据
a1.sources.r1.selector.type = replicating

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger
## 定义sink 即下游的类型，file_roll 即输出到本地文件系统
a1.sinks.k2.type = file_roll
## 输出文件的目标文件夹
a1.sinks.k2.sink.directory = /tmp/log/target

# Use a channel which buffers events in memory
## 定义channel 即管道的类型，memory 应该比file 要快一些
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100
## 多定义一个Channel c2 用于数据复制，用file 类型和memory 效果一样，效率可能会慢一些
a1.channels.c2.type = file

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1 c2
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2
EOF

# 2. 启动flume，相当于启动了netcat 服务端
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/flume_replicating.conf \
                   -n a1 -Dflume.root.logger=INFO,console
### 启动后，flume 会阻塞等待客户端访问

# 3. 验证数据复制
## 另开一个终端或在hadoop113 上启动netcat 客户端访问
nc hadoop112 44444
telnet hadoop112 44444  # 或用telnet 有也是同样的效果
## 输入的字符会出现在hadoop112 的控制台及/tmp/log/target 里的文件内
cat /tmp/log/target/*  # 在hadoop112 上执行

## 4. 停止flume
kill $(jps -l | grep org.apache.flume.node.Application | cut -d ' ' -f 1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

负载均衡

使用Channel 组件中Sink Processor设置策略为load_balance即负载均衡的Sink Group，然后将多个Sink纳入其中。Sink Group会按照一定的规则将消息分配给组中的某个Sink，以达到负载均衡的目的。同时，通过多个Flume Agent中的Channel对消息数据进行缓存，以分担因最终Sink端写入过慢而造成源头端的数据积压。

Source r1
exec

# 1. 创建任务配置
## 1.1 创建flume_load_balance_2.conf，在hadoop112 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_load_balance_2.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop112
a1.sources.r1.port = 44444

# Describe the sink
## 定义sink 即下游的类型，avro 表示下游有avro source 串联对接
a1.sinks.k1.type = avro
## 连接的服务端即avro source 的地址
a1.sinks.k1.hostname = hadoop113
## 服务端avro source 的端口
a1.sinks.k1.port = 4545
## 新增一个Sink 做负载均衡
a1.sinks.k2.type = avro
## 连接的服务端即avro source 的地址
a1.sinks.k2.hostname = hadoop114
## 服务端avro source 的端口
a1.sinks.k2.port = 4545

# Use a channel which buffers events in memory
## 定义channel 即管道的类型，memory 应该比file 要快一些
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1

## 定义Sink Group，可以将某几个Sink 划到一个组里，它们使用相同的策略
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
### g1 组里使用负载均衡策略
a1.sinkgroups.g1.processor.type = load_balance
EOF

## 1.2 创建flume_load_balance_34.conf，在hadoop113 和hadoop114 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_load_balance_34.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，avro 表要跟另一台机器上的avro sink 串联
a1.sources.r1.type = avro
## 绑定本机的IP，0.0.0.0 表本机所有可用IP
a1.sources.r1.bind = 0.0.0.0
## 监听的端口，与客户端一致
a1.sources.r1.port = 4545

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF


# 2. 启动flume
## 2.1 分别在hadoop113 和hadoop114 上执行，avro source 作为服务器端必须先启动
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/flume_load_balance_34.conf \
                   -n a1 -Dflume.root.logger=INFO,console

## 2.2 在数据源头hadoop112 上执行，确保hadoop113 和hadoop114 上包含avro source 的flume 已启动
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -c conf/ -f jobs/flume_load_balance_2.conf -n a1


# 3. 验证数据复制
## 另开一个终端或在hadoop112 上启动netcat 客户端访问
nc hadoop112 44444
telnet hadoop112 44444  # 或用telnet 有也是同样的效果
## 输入的字符会随机出现在hadoop113 或hadoop114 的终端上，有可能多条消息只发往同一个终端，这由负载均衡后台算法决定。


## 4. 停止flume
kill $(jps -l | grep org.apache.flume.node.Application | cut -d ' ' -f 1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

故障转移

使用Channel 组件中Sink Processor设置策略为failover的Sink Group，然后将多个Sink纳入其中，让组内的Sink们形成主备关系，根据优先级平时只有一Sink正常工作，它出现问题后故障转移到另一个Sink。但即使这样源头端的Flume还是存在单点故障的问题，因为无法设置主备两个Flume去读取同一个数据源。

Source r1
exec

# 1. 创建任务配置
## 1.1 创建flume_failover_2.conf，在hadoop112 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_failover_2.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop112
a1.sources.r1.port = 44444

# Describe the sink
## 定义sink 即下游的类型，avro 表示下游有avro source 串联对接
a1.sinks.k1.type = avro
## 连接的服务端即avro source 的地址
a1.sinks.k1.hostname = hadoop113
## 服务端avro source 的端口
a1.sinks.k1.port = 4545
## 新增一个Sink 做负载均衡
a1.sinks.k2.type = avro
## 连接的服务端即avro source 的地址
a1.sinks.k2.hostname = hadoop114
## 服务端avro source 的端口
a1.sinks.k2.port = 4545

# Use a channel which buffers events in memory
## 定义channel 即管道的类型，memory 应该比file 要快一些
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1

## 定义Sink Group，可以将某几个Sink 划到一个组里，它们使用相同的策略
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
### g1 组里使用故障转移策略
a1.sinkgroups.g1.processor.type = failover
### sink1 的优先级高于sink2，默认先走sink1
a1.sinkgroups.g1.processor.priority.k1 = 50
a1.sinkgroups.g1.processor.priority.k2 = 10
EOF

## 1.2 创建flume_failover_34，分别在hadoop113 和hadoop114 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_failover_34.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，avro 表要跟另一台机器上的avro sink 串联
a1.sources.r1.type = avro
## 绑定本机的IP，0.0.0.0 表本机所有可用IP
a1.sources.r1.bind = 0.0.0.0
## 监听的端口，与客户端一致
a1.sources.r1.port = 4545

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF


# 2. 启动flume
## 2.1 分别在hadoop113 和hadoop114 上执行，avro source 作为服务器端必须先启动
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/flume_failover_34.conf \
                   -n a1 -Dflume.root.logger=INFO,console

## 2.2 在数据源头hadoop112 上执行，确保hadoop113 和hadoop114 上包含avro source 的flume 已启动
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -c conf/ -f jobs/flume_failover_2.conf -n a1


# 3. 验证数据复制
## 另开一个终端或在hadoop112 上启动netcat 客户端访问
nc hadoop112 44444
telnet hadoop112 44444  # 或用telnet 有也是同样的效果
## 输入的字符会出现在hadoop113 的终端上，直到hadoop113 上的flume agent 退出，输入的字符才会跑到hadoop114 的终端上。


## 4. 停止flume
kill $(jps -l | grep org.apache.flume.node.Application | cut -d ' ' -f 1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

聚合数据

数据来源端假设是网站后台负载均衡的机器，每台上面的日志都需要采集，因为它们并不是互为备份的关系，每台机器上的日志都不重复，但假设落地端是HDFS，它的连接数或用户数有限，所以需要将数据聚合在一起提交。

Web Server
Node A

Source r1
exec

Web Server
Node B

rb1

# 0. 配置说明
## 实验中对比流程图略做小小改动，输入端都用netcat，任一个输入端有数据，输出端都会显示

# 1. 创建任务配置
## 1.1 创建flume_consolidation_2.conf，在hadoop112 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_consolidation_2.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，avro 表要跟另一台机器上的avro sink 串联
a1.sources.r1.type = avro
## 绑定本机的IP，0.0.0.0 表本机所有可用IP
a1.sources.r1.bind = 0.0.0.0
## 监听的端口，与客户端一致
a1.sources.r1.port = 4545

# Describe the sink
## 定义sink 即下游的类型，logger 默认打印到日志文件，启动参数中可改为打印到控制台
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
## 定义channel 即管道的类型
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

## 1.2 创建flume_consolidation_34.conf，分别在hadoop113 和hadoop114 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_consolidation_34.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
## 绑定本机的IP，0.0.0.0 表本机所有可用IP
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444

# Describe the sink
## 定义sink 即下游的类型，avro 表示下游有avro source 串联对接
a1.sinks.k1.type = avro
## 连接的服务端即avro source 的地址
a1.sinks.k1.hostname = hadoop112
## 服务端avro source 的端口
a1.sinks.k1.port = 4545

# Use a channel which buffers events in memory
## 定义channel 即管道的类型，memory 应该比file 要快一些
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF


# 2. 启动flume
## 2.1 在数据落地端hadoop112 上执行，avro source 作为服务器端必须先启动
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -c conf/ -f jobs/flume_consolidation_2.conf \
                   -n a1 -Dflume.root.logger=INFO,console

## 2.2 分别在hadoop113 和hadoop114 上执行，确保hadoop112 上包含avro source 的flume 已启动
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -c conf/ -f jobs/flume_consolidation_34.conf -n a1


# 3. 验证数据复制
## 分别在hadoop113 和hadoop114 上另开一个终端
nc hadoop112 44444
telnet hadoop112 44444  # 或用telnet 有也是同样的效果
## 在hadoop113 或hadoop114 终端上输入的字符都会在hadoop112 的终端上。


## 4. 停止flume
kill $(jps -l | grep org.apache.flume.node.Application | cut -d ' ' -f 1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

自定义Interceptor 多路复用

1. 结构流程图

通过Channel Selector的multiplexing属性即多路复用，根据Event的header内容选择通道。同时，因为Channel Selectors是属于Source组件的，所以需要配置多个Channel来实现多通道。

Source r1
netcat

Channel Selector
multiplexing

2. 代码实现

创建一个Maven工程
GroupId: com.abc.flume
ArtifactId: flume-interceptor01
Version: 1.0
ProjectName: flume-interceptor01

pom.xml文件内容如下


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.abc.flumegroupId>
    <artifactId>flume-interceptor01artifactId>
    <version>1.0version>

    <dependencies>
      <dependency>
        <groupId>org.apache.flumegroupId>
        <artifactId>flume-ng-coreartifactId>
        <version>1.7.0version>
      dependency>
    dependencies>
project>

Java实现代码如下

// MyTypeInterceptor.java
package com.abc.flume;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.ArrayList;
import java.util.List;
import java.util.Map;


public class MyTypeInterceptor implements Interceptor {

	// 用于保存处理过的Event
	private List<Event> resultList;

	public void initialize() {
		// 初始化resultList
		resultList = new ArrayList<Event>();
	}

	public Event intercept(Event event) {

		System.out.println("v1.3a==-=-=-=-=-=-=-=-=-=-=-=-==-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-==-=");
		System.out.println(event);

		// 0. 如果Event 的Body 为空则不作任何处理
		if (event.getBody().length == 0) return event;

		// 1. 获取事件Headers 信息
		Map<String, String> headers = event.getHeaders();

		// 2. 获取事件Body 信息
		String body = new String(event.getBody());

		// 3. 根据Body 前2 个字符来判断并添加Header 内容
		String str = body.substring(0, 2).toUpperCase();
		if ("AA".equals(str)) {
			headers.put("myType", "AA");
		} else if ("AB".equals(str)) {
			headers.put("myType", "AB");
		} else if ("BB".equals(str)) {
			headers.put("myType", "BB");
		}

		return event;
	}

	public List<Event> intercept(List<Event> list) {
		System.out.println("deal with List");
		// 1. 清空结果resultList
		resultList.clear();

		// 2. 向resultList 中添加处理过的非空event
		for (Event event : list) {
			resultList.add(intercept(event));
		}

		// 3. 返回结果resultList
		return resultList;
	}

	public void close() {

	}

	// 使用静态内部类返回一个MyTypeInterceptor 对象供程序使用，类名可以随便起
	public static class Builder implements Interceptor.Builder {

		public Interceptor build() {
			return new MyTypeInterceptor();
		}

		public void configure(Context context) {

		}
	}
}

使用Maven–> Lifecycle --> package --> 在工程下生成target/flume-interceptor01-1.0.jar
将flume-interceptor01-1.0.jar拷贝至hadoop112的/opt/modules/flume-1.7.0/lib/下

3. 配置测试

# 0. 环境准备
mkdir -p /tmp/log/sink1 /tmp/log/sink2

# 1. 创建任务配置，在hadoop112 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_multiplexing.conf << 'EOF'
# Name the components on this agent
## a1 是agent 的名字，在同一个节点上要唯一，因为可以启多个agent
## source、sink、channel 都可以有多个
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2

# Describe/configure the source
## 定义source 即源头的类型，这里定义相当于netcat 服务端
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444
## 定义Source 的Interceptor 即拦截器
a1.sources.r1.interceptors = i1
## $ 后面的是拦截器内部的静态类，它负责返回拦截器对象
a1.sources.r1.interceptors.i1.type = com.abc.flume.MyTypeInterceptor$Builder
## 设置Source 的Channel 选择器类型为多路复用，根据事件的头信息选择通道
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = myType
a1.sources.r1.selector.mapping.AA = c1
a1.sources.r1.selector.mapping.BB = c2
a1.sources.r1.selector.mapping.AB = c1 c2
a1.sources.r1.selector.default = c1

# Describe the sink
## 定义sink 即下游的类型，file_roll 即输出到本地文件系统
a1.sinks.k1.type = file_roll
## 不滚动文件，只输出到一个文件中
a1.sinks.k1.sink.rollInterval = 0
## 输出文件的目标文件夹
a1.sinks.k1.sink.directory = /tmp/log/sink1
## 定义sink 即下游的类型，file_roll 即输出到本地文件系统
a1.sinks.k2.type = file_roll
## 不滚动文件，只输出到一个文件中
a1.sinks.k2.sink.rollInterval = 0
## 输出文件的目标文件夹
a1.sinks.k2.sink.directory = /tmp/log/sink2

# Use a channel which buffers events in memory
## 定义channel 即管道的类型，memory 应该比file 要快一些
a1.channels.c1.type = memory
## capacity 指channel 中能容纳的事件数，一个事件好比一个乒乓球，这里channel 能容纳1000 个
a1.channels.c1.capacity = 1000
## channel 每次从source 提取或发送给sink 的事件数，一次从源头取100 个乒乓球，或发给下游100 个
a1.channels.c1.transactionCapacity = 100
## 多定义一个Channel c2 用于多路复用，其他参数默认
a1.channels.c2.type = memory

# Bind the source and sink to the channel
## 绑定source、sink 和channel，即定义它们之间的关系
a1.sources.r1.channels = c1 c2
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2
EOF

# 2. 启动flume，相当于启动了netcat 服务端
cd /opt/modules/flume-1.7.0/ && bin/flume-ng agent -n a1 -c conf/ -f jobs/flume_multiplexing.conf
### 启动后，flume 会阻塞等待客户端访问

# 3. 验证多路复用
## 另开一个终端或在hadoop113 上启动netcat 客户端访问
nc hadoop112 44444
telnet hadoop112 44444  # 或用telnet 有也是同样的效果
## 拦截器按照消息前两个字符为其被打上标签，字符判断不区分大小写
## aa 打上AA 标签，发往/tmp/log/sink1
## bb 打上BB 标签，发往/tmp/log/sink2
## ab 打上AB 标签，发往/tmp/log/sink1 和/tmp/log/sink2
## 其他不打标签，默认发往/tmp/log/sink1
## 查看最终落地的内容
tail -f /tmp/log/sink1/*
tail -f /tmp/log/sink2/*

## 4. 停止flume
kill $(jps -l | grep org.apache.flume.node.Application | cut -d ' ' -f 1)
### ！！！切记不能用kill -9，因为可能还有数据没有传输完毕
### kill 或者Ctrl+c 都会调用flume 的hook 程序进行收尾工作，处理完剩余的数据才停止

自定义Source

未完成

自定义Sink

未完成

监控Flume

操作系统为Ubuntu14.04，其他发行版可能不适用。

Ganlia 结构

gmond 需要监控的主机上的监听器
gmetad 整合所有反馈信息
gweb 网页可视化工具

hadoop113

hadoop112

hadoop111

put

get

flume

gmond

gmated

rddtool

gweb

1. 安装配置Ganglia

# 1. 安装gmetad、gweb 和gmond，在hadoop111 上执行
sudo apt-get update
sudo apt-get install -y gmetad ganglia-webfrontend ganglia-monitor rrdtool
## 会提示两次是否要重启apache2，选Yes
## 如果选错了No，可以手动重启，sudo /etc/init.d/apache2 restart

# 2. 配置gweb，在hadoop111 上执行
## 使用tee 和here document 创建配置文件，并将tee 的标准输出重定向到/dev/null 即什么都不显示
sudo tee /etc/apache2/sites-enabled/ganglia.conf << 'EOF' > /dev/null
Alias /ganglia /usr/share/ganglia-webfrontend
<Directory "/usr/share/ganglia-webfrontend">
  AllowOverride All
  Order allow,deny
  Allow from all
  Deny from none
</Directory>
EOF
## 顺带提一句，cat 与> 是两个命令，所以sudo cat > 不能创建需要root 权限的文件，详见cat 命令的总结
## 去掉重启Apache 时的提示，AH00558: apache2: Could not reliably determine the server's fully qualified domain name, using 192.168.0.111. Set the 'ServerName' directive globally to suppress this message
sudo tee -a /etc/apache2/apache2.conf <<< "ServerName hadoop111"
## hadoop111 是该节点的局域网内的域名，在各个节点的/etc/hosts 里有192.168.0.111  hadoop111

# 3. 配置gmated，在hadoop111 上执行
## 如果备份文件不存在则先备份
if [ ! -f '/etc/ganglia/gmetad.conf.bak' ]; then 
  cd /etc/ganglia; sudo cp gmetad.conf gmetad.conf.bak; 
fi
sudo tee /etc/ganglia/gmetad.conf << 'EOF' > /dev/null
# data_source 有三个参数：集群名称，轮询时间，被监听gmond 地址:端口(可多个，空格隔开)
data_source "flumes" 10 hadoop111:8649
EOF

# 4. 配置gmond，在hadoop111 上执行
## 如果备份文件不存在则先备份
if [ ! -f '/etc/ganglia/gmond.conf.bak' ]; then 
  cd /etc/ganglia; sudo cp gmond.conf gmond.conf.bak; 
fi
## name 与gmate 中data_source 集群名称一致
sudo sed -i 's/name = "unspecified"/name = "flumes"/' /etc/ganglia/gmond.conf
## 注释掉mcast_join、bind
sudo sed -i 's/mcast_join/#mcast_join/' /etc/ganglia/gmond.conf
sudo sed -i 's/bind/#bind/' /etc/ganglia/gmond.conf
## 在'udp_send_channel {' 下添加host 属性
sudo sed -i '/udp_send_channel\ {/a\ \ host = hadoop111' /etc/ganglia/gmond.conf

# 5. 重启ganglia，在hadoop111 上执行
sudo /etc/init.d/ganglia-monitor restart
sudo /etc/init.d/gmetad restart
sudo /etc/init.d/apache2 restart
## 查看服务状态
service --status-all
service gmetad status
service ganglia-monitor status
service apache2 status

2. 启动Flume 并监控

# 1. 创建任务配置，分别在hadoop112、hadoop113 上执行
cat > /opt/modules/flume-1.7.0/jobs/flume_ganglia.conf << 'EOF'
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
## 注意！！sink 只能对应一个channel
a1.sinks.k1.channel = c1
EOF

# 2. 启动Flume，分别在hadoop112、hadoop113 上执行
cd /opt/modules/flume-1.7.0/ &&\
bin/flume-ng agent -n a1 -c conf/ -f jobs/flume_ganglia.conf \
                   -Dflume.root.logger=INFO,console \
                   -Dflume.monitoring.type=ganglia \
                   -Dflume.monitoring.hosts=hadoop111:8649
## 以ganglia 的形式进行监控，将监控数据发到hadoop111 的8649 端口
## 每启动一个Flume Agent，在Ganglia 页面上Choose Node 就多一个该进程所在的节点选项

# 3. 压力测试Flume，分别在hadoop112、hadoop113 上执行
## 使用here string 通过netcat 发给本机44444 端口，再将反馈信息重定向到/dev/null
for((i=1; i<=100; i++)); do
  nc localhost 44444 <<< "data-$i" > /dev/null
done

# 4. 检验Ganglia
## 浏览器访问，http://192.168.0.111/ganglia/
## 以flume.CHANNEL.c1 为例，已放入的事件数 = 还在通道中的事件数 + 已取走的事件数，即
## EventPutSuccessCount = ChannelSize + EventTakeSuccessCount

参考文章

Flume v1.7 官方使用说明
Flume transactionCapacity capacity 的简单理解
Flume v1.8 用户手册中文版
Flume 核心概念
理解 inode
Ubuntu14.04 安装配置Ganglia
sudo echo 依旧写入不了特权文件
Linux 管道指令（pipe）与shell 重定向的区别
深入理解Ganglia 之Overview
sed 匹配内容的前一行和后一行添加内容
Ubuntu 服务管理

你可能感兴趣的:(Flume 安装使用(自己总结) 吐槽CSDN 对Markdown 的mermaid 语法支持不完整)

VS2019+QT5.13更改应用图标和状态栏的图标（包含提示框）大可布加冰 c++qt5 vs2015
VS2019+QT5.13更改应用图标和状态栏的图标（包含提示框）自述1.更改应用程序图标2.更改状态栏和提示框图标自述一入编程，深似海，在CSDN.上记录下自己遇到的问题和解决办法，希望为大家带来方便。1.更改应用程序图标将准备好的图标资源（.ico文件）放到工程目录。在vs资源视图中选中项目右键->添加->资源，选择icon，vs会创建一个名叫“项目名称.rc”的资源文件，无论你项目是否有这个
iOS 26中的 Liquid Glass 设计理念与 CSS 的 UI 实现 duxweb ios css ui
引言2025年6月，苹果在WWDC2025上发布了令人惊艳的iOS26，引入了全新的"LiquidGlass"（液态玻璃）设计语言。这被苹果称为"有史以来最广泛的软件设计更新"，不仅彻底重新定义了iOS的视觉语言，更是为整个移动界面设计领域带来了全新的思路。本文将深入探讨LiquidGlass设计理念的核心思想，并提供详细的CSS实现方案，帮助开发者在Web项目中实现类似的视觉效果。LiquidG
DataX（2）—— 核心流程申尧强 datax
DataX的核心执行流程：初始化阶段创建JobContainer容器（主控进程）加载配置，初始化reader/writer插件准备阶段调用reader/writer的prepare()方法执行数据源和目标端的准备工作任务切分阶段根据channel数切分reader任务根据reader切分结果切分writer任务合并生成最终task配置调度执行阶段分配task到各个taskGroup启动TaskGr
VS2019 配置QT 轩宇^_^ qt qt5
步骤：下载安装S2019（可以到官网下载）按默认的C++安装即可。下载安装QT创建一个工程文件在VS中插件添加qt的插件如果插件下载失败可以到这个链接下载，或者换一个网下载。在vs中配置qtVersions选择打开界面的designer：右击UI界面-》选择打开方式-》选择designer的安装路径，设置为默认。参考路径：D:\installapp\qt\5.15.2\msvc2019_64\bi
pycharm——djiango之数据迁移，终端操作 Pop– python
首先在pycharm中找到terminal(终端)，输入指令：pythonmanage.pymakemigrations之后你会看到如下图：这表示创建成功。接着输入指令：pythonmanage.pymigrate就能看到好多ok，你在数据库中也能看到很多表你可以在终端打开数据库查看表，也可以使用客户端的可视化界面查看，还可以在pycharm中右边的database里边打开查看，如下图：之后你就可
拓展nRF Connect SDK 的组件 Halfway-- Product 嵌入式硬件物联网 arm开发单片机
1：nRFConnectSDKAdd-ons是一组扩展nRFConnectSDK功能的补充组件。这些add-ons包括应用程序、驱动程序、库和协议实现。可以通过nRFConnectSDKAdd-ons索引浏览和进行访问https://nrfconnect.github.io/ncs-app-index/2：如何在本地环境中构建和运行nRFConnectSDK插件索引，可以使用nRFConnectf
如何在项目中集成和使用 nPM2100 裸机驱动程序(非NCS) Halfway-- Nordic 硬件工程射频工程 mcu 嵌入式硬件
1：为什么选择Nordic电源管理芯片?https://www.nordicsemi.com/Products/Power-Management-ICs最高能源效率：超低功耗意味着从电子离开电池到射频信号转换为无线电波之间的最高能量效率。高集成：将重要的系统和电源管理功能与基本的PMIC功能结合在一起，在紧凑的封装中，减少了电路板空间、复杂性和材料清单。无缝开发：在完美的世界中，硬件工程师不需要编
【收藏】 Kafka监控组件大全 weixin_34038652 大数据操作系统 netty
本文使用Burrow和Telegraf搭建Kafka的监控体系。然后，简单介绍一下其他的，比如KafkaManager，KafkaEagle，ConfluentControlCenter等。如果你对kafka比较陌生，请参考：Kafka基础知识索引Burrow依赖路径使用Burrow拉取kafka的监控信息，然后通过telegraf进行收集，最后写入到influxdb中。使用grafana进行展示
VS2019中打开ui文件出现闪退和报错粥粥VZ ui
在创建项目后打开.ui文件时出现闪退以及报错：文件无法打开。这些情况需要添加designer.exe所在的文件路径到VS2019中，并设置为默认值。解决方法如下1.在.ui右键点击->选择打开方式->添加2.点击...找到你安装Qt的路径，我在配置Qttools是用的编辑器是msvc2017_64，所以我完整路径如下E:\qt\5.14.1\msvc2017_64\bin最后点击确定并设置为默认值
C++基本语法与类和对象一 wangjialelele c++
//C++兼容绝大多数C语言语法//C语言的第一个问题是命名冲突，如rand在有头文件和没有的时候#include//是inputoutputstream的缩写，是标准的输入输出流库namespacewjl{intrand=10;//可以定义变量、函数、结构体等structNode{intdata;structNode*next;};//命名空间是可以无限嵌套的//访问方式：bit::pg::ra
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
开发者视角：一键拉起与快速安装的巧妙运用 tongjiwenzhang 携带参数安装信息可视化大数据 android ios
Apptrace技术集成方案SDK集成基础Android集成配置//build.gradle(Module)dependencies{implementation'com.apptrace.sdk:core:3.2.1'implementation'com.apptrace.sdk:deeplink:2.0.0'}//AndroidManifest.xmliOS集成配置//Podfilepod'A
深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
Flask入门基础1 浅清陌 Flask flask python 后端
1Flask简介Flask诞生于2010年，是Arminronacher（阿明·罗纳彻）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-SQLAlchemy），都需要用第三方的扩展来实现。比如可以用Flask扩展加入ORM、窗体验证工
面向对象基础篇1 浅清陌 python基础 python
1.什么是面向对象？对于面向对象编程，我们首先要知道的是什么是面向对象，然后才能运用面向对象去解决实际的问题。而面向对象是一种抽象化的编程思想，在很多编程语言中都有这个概念。在面向对象的思想中，我们强调万物皆对象，即现实世界中的所有事物都可以被抽象为程序中的对象，从而更好地实现程序的设计和开发。对于以往的函数编程，将一个功能设计为一个函数，需要使用该功能的时候调用函数就完成了，这种方法强调将计算看
Linux 面试知识（附常见命令）笑衬人心。 linux 运维服务器
目录结构与重要文件Linux中一切皆文件，掌握目录结构有助于理解系统管理与配置。目录说明/根目录，所有文件起点/bin基本命令的可执行文件，如ls,cp/sbin系统管理员用的命令，如shutdown/etc配置文件目录，如/etc/passwd/home普通用户的主目录/root超级用户的主目录/dev设备文件，如磁盘/dev/sda/var可变数据，如日志/var/log/tmp临时文件目录/
H5液态玻璃背景效果实现木木黄木木 html5 css javascript
H5液态玻璃背景效果实现教程在现代网页设计中，动态和交互式的背景效果可以大大提升用户体验。本教程将详细介绍如何使用HTML5技术实现一个美观、流畅的液态玻璃背景效果，无论你是初学者还是有经验的开发者，都能轻松掌握。效果预览本教程提供了两种实现方式：基础版本：使用Canvas2DAPI实现，适合初学者，兼容性好高级版本：使用WebGL和GLSL着色器实现，效果更加逼真，但复杂度更高两个版本都具有以下
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
GitHub每周最火火火项目（6.23-6.29） FutureUniant github日推 github 人工智能计算机视觉音视频 ai
1.twentyhq/twenty项目名称：twenty项目介绍：基于TypeScript开发，致力于打造社区驱动的现代Salesforce替代方案，聚焦客户关系管理（CRM）系统构建。旨在为企业提供灵活、可定制且社区共建的CRM平台，覆盖客户数据管理、销售流程追踪、营销活动策划、服务工单处理等核心业务场景，助力企业优化客户交互全流程，提升运营效率。用途贯穿企业客户管理各环节：销售团队借助其自定义
QT~VS混合编程中，打开UI文件失败或是打开后自动关闭，打开失败无名️ qt
点击项目中任意ui文件，右键->打开方式->添加->QtDesigner->设为默认值，如下图：注意：你的编译器中可能存在QtDesigner的项，但是还是不能打开，这是因为你的QtDesigner的路径不对。所以需要重新配置一下该路径。此文章用于记录：《QT~VS混合编程中，打开UI文件失败或是打开后自动关闭，打开失败》的问题。
django 数据库迁移指令 CrazyDemo #django框架 web框架
#rbac/models.pyclassRole(models.Model):...classUser(models.Model):#name=models.CharField(max_length=12)#password=models.CharField(max_length=12)roles=models.ManyToManyField(Role)#直接写对应的类名，字符串形式反射是找不到的
React Native 鸿蒙化学习指南
ReactNative鸿蒙化学习指南随着鸿蒙系统的不断发展，越来越多的开发者开始关注如何将ReactNative应用适配到鸿蒙平台上。本文将为大家提供一份详细的ReactNative鸿蒙化学习指南，帮助大家快速上手。一、版本信息与配套环境（一）当前适配版本当前ReactNative鸿蒙版本基于社区RN0.72.5进行适配，发布版本信息如下名称版本号react-native-harmony.tgz0
Flutter 与 uni-app 的深度对比：鸿蒙开发的最佳选择竟是原生开发
Flutter与uni-app的深度对比：鸿蒙开发的最佳选择竟是原生开发在移动应用开发领域，Flutter和uni-app是两种非常受欢迎的跨平台开发框架。它们各自具有独特的优缺点，适用于不同的开发场景和需求。本文将从多个维度对Flutter和uni-app进行深度对比，帮助开发者更好地理解这两种框架的特点，并最终引出ArkTS在鸿蒙开发中的优势。一、Flutter与uni-app的概述Flutt
IT大环境差，程序员摆烂还是不断进取？在校生/应届生/社招生/大龄程序员的未来职业发展之路！马士兵教育 java 开发语言大数据人工智能程序员
IT大环境差，程序员摆烂还是不断进取？在校生/应届生/社招生/大龄程序员的未来职业发展之路！IT大环境差，程序员摆烂还是不断进取？在校生/应届生/社招生/大龄程序员的未来职业发展之路！【码士集团】_哔哩哔哩_bilibili2.双非本，杭电211，研0，想研二去实习，该怎么走？_哔哩哔哩_bilibili3.双非本，硕士211，研0，本科计算机，硕士控制工程，研究方向是大模型，如果定大方向,是ja
AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安 | 不摸鱼的独立开发者日报（第36期）不摸鱼_ 不摸鱼的独立开发者日报人工智能科技产品经理 microsoft 个人开发游戏
✍️说明日报相关信息：网站：https://daily.nomoyu.com/RSS：https://daily.nomoyu.com/rss/rss.xml欢迎一起沟通交流AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安“人工智能教父”GeoffreyHinton在访谈中表示，他对自己毕生的工作成果表示深切忧虑，并致力于警告世界AI带来的巨大风险，他的主要观点如
Trae CN WangLinXX AI ai
️技术实现深度架构设计采用微内核+插件化架构，核心引擎仅占15MB内存，通过RPC调用云侧AI模型（响应延迟约800ms）。本地缓存最近3次生成代码的AST结构，支持离线基础编辑。模型协同机制豆包1.5Pro负责需求语义解析，DeepSeek-R1生成代码骨架，DeepSeek-V3进行风格优化。三模型并行推理，最终由规则引擎校验API兼容性（如微信SDK版本匹配）。性能实测数据场景响应时间代码通
第 6 部分 - 视图集和路由器 pythondjango
DjangoREST框架包含一个用于处理视图集的抽象层，这样开发者就可以集中精力去建模API的状态和交互，而将URL构建自动交给系统处理，基于常见的约定来完成。视图集类和视图类几乎是一样的，只不过它们提供的是像retrieve或者update这样的操作，而不是像get或者put这样的方法处理程序。当视图集类被实例化为一组视图时，才会在最后一刻与一组方法处理程序绑定，通常是由路由器类来处理定义URL
第 1 部分 - 序列化 pythondjango
介绍本教程将介绍如何创建一个简单的在线代码高亮WebAPI。在此过程中，将介绍DjangoRESTFramework的各个组件，并让你全面了解它们是如何协同工作的。本教程内容较为深入，所以在开始之前，你可能需要准备一块饼干和一杯你最喜欢的饮料。如果你只是想快速了解内容，可以查看快速入门文档。注意：本教程的代码可在GitHub上的encode/rest-framework-tutorial仓库中找到
arm交叉编译qt应用中含opengl问题解决 m0_55576290 青泥何盘盘 qt arm开发 qt 开发语言
问题是采用正点原子方案中，用虚拟机交叉编译含opengl的qt程序会出现编译失败问题，因为正点原子中的交叉编译qt源码时没有编opengl。野火似乎有解决：https://doc.embedfire.com/linux/rk356x/Qt/zh/latest/lubancat_qt/install/install_arm_2.html
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在