往事随风_h

大数据技术之Flume(概述,安装,案例等)

第1章概述

1.1 Flume定义
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

1.2 Flume的优点

可以和任意存储进程集成。
输入的的数据速率大于写入目的存储的速率，flume会进行缓冲，减小hdfs的压力。
flume中的事务基于channel，使用了两个事务模型（sender + receiver），确保消息被可靠发送。
Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到sink的事件传递。一旦事务中所有的数据全部成功提交到channel，那么source才认为该数据读取完成。同理，只有成功被sink写出去的数据，才会从channel中移除。
1.3 Flume组成架构
请看下图详细解释

1.3.1 Agent
Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成，Source、Channel、Sink。
1.3.2 Source
Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。
1.3.3 Channel
Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel：Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。
1.3.4 Sink
Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。
1.3.5 Event
传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。
1.4 Flume拓扑结构
Flume的拓扑结构如下面三张图所示每张图片下面有注释

这种模式是将多个flume给顺序连接起来了，从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量， flume数量过多不仅会影响传输速率，而且一旦传输过程中某个节点flume宕机，会影响整个传输系统。

Flume支持将事件流向一个或者多个目的地。这种模式将数据源复制到多个channel中，每个channel都有相同的数据，sink可以选择传送的不同的目的地。

Flume支持使用将多个sink逻辑上分到一个sink组，flume将数据发送到不同的sink，主要解决负载均衡和故障转移问题。

这种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase、jms等，进行日志分析。

1.5 Flume Agent内部原理

第2章快速入门

2.1 Flume安装地址
1） Flume官网地址
http://flume.apache.org/
2）文档查看地址
http://flume.apache.org/FlumeUserGuide.html
3）下载地址
http://archive.apache.org/dist/flume/
2.2 安装部署
1）将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下
(找不到jar包的可以评论或者私信我)
2）解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下

[jinghang@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

3）修改apache-flume-1.7.0-bin的名称为flume

[jinghang@hadoop102 module]$ mv apache-flume-1.7.0-bin flume

4）将flume/conf下的flume-env.sh.template文件修改为flume-env.sh，并配置flume-env.sh文件

[jinghang@hadoop102 conf]$ mv flume-env.sh.template flume-env.sh
[jinghang@hadoop102 conf]$ vi flume-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

第3章企业开发案例

3.1 监控端口数据官方案例
1）案例需求：
首先启动Flume任务，监控本机44444端口，服务端；
然后通过netcat工具向本机44444端口发送消息，客户端；
最后Flume将监听的数据实时显示在控制台。
2）需求分析如下图：

3）实现步骤：
1．安装netcat工具

 [jinghang@hadoop102 software]$ sudo yum install -y nc

2．判断44444端口是否被占用

[jinghang@hadoop102 flume-telnet]$ sudo netstat -tunlp | grep 44444

功能描述：netstat命令是一个监控TCP/IP网络的非常有用的工具，它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。
基本语法：netstat [选项]
选项参数：
-t或–tcp：显示TCP传输协议的连线状况；
-u或–udp：显示UDP传输协议的连线状况；
-n或–numeric：直接使用ip地址，而不通过域名服务器；
-l或–listening：显示监控中的服务器的Socket；
-p或–programs：显示正在使用Socket的程序识别码（PID）和程序名称；
3．创建Flume Agent配置文件flume-netcat-logger.conf
在flume目录下创建job文件夹并进入job文件夹。

[jinghang@hadoop102 flume]$ mkdir job
[jinghang@hadoop102 flume]$ cd job/

在job文件夹下创建Flume Agent配置文件flume-netcat-logger.conf。

[jinghang@hadoop102 job]$ touch flume-netcat-logger.conf

在flume-netcat-logger.conf文件中添加如下内容。

[jinghang@hadoop102 job]$ vim flume-netcat-logger.conf

添加内容如下：
#Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#Describe the sink
a1.sinks.k1.type = logger

#Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
注：配置文件来源于官方手册http://flume.apache.org/FlumeUserGuide.html

4. 先开启flume监听端口
第一种写法：

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

第二种写法：

[jinghang@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

参数说明：
–conf conf/ ：表示配置文件存储在conf/目录
–name a1 ：表示给agent起名为a1
–conf-file job/flume-netcat.conf ：flume本次启动读取的配置文件是在job文件夹下的flume-telnet.conf文件。
-Dflume.root.logger==INFO,console ：-D表示flume运行时动态修改flume.root.logger参数属性值，并将控制台日志打印级别设置为INFO级别。日志级别包括:log、info、warn、error。
5．使用netcat工具向本机的44444端口发送内容

[jinghang@hadoop102 ~]$ nc localhost 44444
hello 
jinghang

6．在Flume监听页面观察接收数据情况
3.2 实时读取本地文件到HDFS案例
1）案例需求：实时监控Hive日志，并上传到HDFS中
2）需求分析：

3）实现步骤：
1．Flume要想将数据输出到HDFS，必须持有Hadoop相关jar包
将commons-configuration-1.6.jar、
hadoop-auth-2.7.2.jar、
hadoop-common-2.7.2.jar、
hadoop-hdfs-2.7.2.jar、
commons-io-2.4.jar、
htrace-core-3.1.0-incubating.jar
拷贝到/opt/module/flume/lib文件夹下。
2．创建flume-file-hdfs.conf文件
创建文件

[jinghang@hadoop102 job]$ touch flume-file-hdfs.conf

注：要想读取Linux系统中的文件，就得按照Linux命令的规则执行命令。由于Hive日志在Linux系统中所以读取文件的类型选择：exec即execute执行的意思。表示执行Linux命令来读取文件。

[jinghang@hadoop102 job]$ vim flume-file-hdfs.conf

添加如下内容
#Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

#Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log
a2.sources.r2.shell = /bin/bash -c

#Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9000/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k2.hdfs.rollCount = 0

#Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

#Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2
注意：

对于所有与时间相关的转义序列，Event Header中必须存在以 “timestamp”的key（除非hdfs.useLocalTimeStamp设置为true，此方法会使用TimestampInterceptor自动添加timestamp）。
a3.sinks.k3.hdfs.useLocalTimeStamp = true

3．执行监控配置

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

4．开启Hadoop和Hive并操作Hive产生日志

[jinghang@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[jinghang@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

[jinghang@hadoop102 hive]$ bin/hive
hive (default)>

5．在HDFS上查看文件。

3.3 实时读取目录文件到HDFS案例
1）案例需求：使用Flume监听整个目录的文件
2）需求分析：

3）实现步骤：
1．创建配置文件flume-dir-hdfs.conf
创建一个文件

[jinghang@hadoop102 job]$ touch flume-dir-hdfs.conf

打开文件

[jinghang@hadoop102 job]$ vim flume-dir-hdfs.conf

添加如下内容
a3.sources = r3
a3.sinks = k3
a3.channels = c3

#Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/flume/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true
#忽略所有以.tmp结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*.tmp)

#Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://hadoop102:9000/flume/upload/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a3.sinks.k3.hdfs.rollCount = 0

#Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100

#Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

2. 启动监控文件夹命令

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

说明：在使用Spooling Directory Source时
1) 不要在监控目录中创建并持续修改文件
2) 上传完成的文件会以.COMPLETED结尾
3) 被监控文件夹每500毫秒扫描一次文件变动

向upload文件夹中添加文件
在/opt/module/flume目录下创建upload文件夹

[jinghang@hadoop102 flume]$ mkdir upload

向upload文件夹中添加文件

[jinghang@hadoop102 upload]$ touch jinghang.txt
[jinghang@hadoop102 upload]$ touch jinghang.tmp
[jinghang@hadoop102 upload]$ touch jinghang.log

查看HDFS上的数据
等待1s，再次查询upload文件夹

[jinghang@hadoop102 upload]$ ll

总用量 0
-rw-rw-r--. 1 jinghang jinghang 0 5月  20 22:31 jinghang.log.COMPLETED
-rw-rw-r--. 1 jinghang jinghang 0 5月  20 22:31 jinghang.tmp
-rw-rw-r--. 1 jinghang jinghang 0 5月  20 22:31 jinghang.txt.COMPLETED

3.4 单数据源多出口案例(选择器)
单Source多Channel、Sink如下图所示。

1）案例需求：使用Flume-1监控文件变动，Flume-1将变动内容传递给Flume-2，Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3，Flume-3负责输出到Local FileSystem。
2）需求分析：

3）实现步骤：
0．准备工作
在/opt/module/flume/job目录下创建group1文件夹
[jinghang@hadoop102 job]$ cd group1/
在/opt/module/datas/目录下创建flume3文件夹

[jinghang@hadoop102 datas]$ mkdir flume3

1．创建flume-file-flume.conf
配置1个接收日志文件的source和两个channel、两个sink，分别输送给flume-flume-hdfs和flume-flume-dir。
创建配置文件并打开

[jinghang@hadoop102 group1]$ touch flume-file-flume.conf
[jinghang@hadoop102 group1]$ vim flume-file-flume.conf

添加如下内容
#Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
#将数据流复制给所有channel
a1.sources.r1.selector.type = replicating

#Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/hive/logs/hive.log
a1.sources.r1.shell = /bin/bash -c

#Describe the sink
#sink端的avro是一个数据发送者
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142

#Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

#Bind the source and sink to the channel
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2

注：Avro是由Hadoop创始人Doug Cutting创建的一种语言无关的数据序列化和RPC框架。
注：RPC（Remote Procedure Call）—远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。
2．创建flume-flume-hdfs.conf
配置上级Flume输出的Source，输出是到HDFS的Sink。
创建配置文件并打开

[jinghang@hadoop102 group1]$ touch flume-flume-hdfs.conf
[jinghang@hadoop102 group1]$ vim flume-flume-hdfs.conf

添加如下内容
#Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

#Describe/configure the source
#source端的avro是一个数据接收服务
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

#Describe the sink
a2.sinks.k1.type = hdfs
a2.sinks.k1.hdfs.path = hdfs://hadoop102:9000/flume2/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k1.hdfs.filePrefix = flume2-
#是否按照时间滚动文件夹
a2.sinks.k1.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k1.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k1.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a2.sinks.k1.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a2.sinks.k1.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k1.hdfs.rollInterval = 600
#设置每个文件的滚动大小大概是128M
a2.sinks.k1.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k1.hdfs.rollCount = 0

#Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1
3．创建flume-flume-dir.conf
配置上级Flume输出的Source，输出是到本地目录的Sink。
创建配置文件并打开

[jinghang@hadoop102 group1]$ touch flume-flume-dir.conf
[jinghang@hadoop102 group1]$ vim flume-flume-dir.conf

添加如下内容
#Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2

#Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142

#Describe the sink
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/module/data/flume3

#Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100

#Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2
提示：输出的本地目录必须是已经存在的目录，如果该目录不存在，并不会创建新的目录。
4．执行配置文件
分别开启对应配置文件：flume-flume-dir，flume-flume-hdfs，flume-file-flume。

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/group1/flume-flume-dir.conf

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/group1/flume-flume-hdfs.conf

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group1/flume-file-flume.conf

5．启动Hadoop和Hive

[jinghang@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[jinghang@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

[jinghang@hadoop102 hive]$ bin/hive
hive (default)>

6．检查HDFS上数据

7检查/opt/module/datas/flume3目录中数据

[jinghang@hadoop102 flume3]$ ll
总用量 8
-rw-rw-r--. 1 jinghang jinghang 5942 5月  22 00:09 1526918887550-3

3.5 单数据源多出口案例(Sink组)

单Source、Channel多Sink(负载均衡)如下图所示。

1）案例需求：使用Flume-1监控文件变动，Flume-1将变动内容传递给Flume-2，Flume-2负责存储到控制台。同时Flume-1将变动内容传递给Flume-3，Flume-3也负责存储到控制台
2）需求分析：

3）实现步骤：
0．准备工作
在/opt/module/flume/job目录下创建group2文件夹

[jinghang@hadoop102 job]$ cd group2/

1．创建flume-netcat-flume.conf
配置1个接收日志文件的source和1个channel、两个sink，分别输送给flume-flume-console1和flume-flume-console2。
创建配置文件并打开
[jinghang@hadoop102 group2]$ touch flume-netcat-flume.conf
[jinghang@hadoop102 group2]$ vim flume-netcat-flume.conf
添加如下内容
#Name the components on this agent
a1.sources = r1
a1.channels = c1
a1.sinkgroups = g1
a1.sinks = k1 k2

#Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.backoff = true
a1.sinkgroups.g1.processor.selector = round_robin
a1.sinkgroups.g1.processor.selector.maxTimeOut=10000

#Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142

#Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1
注：Avro是由Hadoop创始人Doug Cutting创建的一种语言无关的数据序列化和RPC框架。
注：RPC（Remote Procedure Call）—远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。
2．创建flume-flume-console1.conf
配置上级Flume输出的Source，输出是到本地控制台。
创建配置文件并打开

[jinghang@hadoop102 group2]$ touch flume-flume-console1.conf
[jinghang@hadoop102 group2]$ vim flume-flume-console1.conf

添加如下内容
#Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

#Describe/configure the source
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

#Describe the sink
a2.sinks.k1.type = logger

#Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1
3．创建flume-flume-console2.conf
配置上级Flume输出的Source，输出是到本地控制台。
创建配置文件并打开

[jinghang@hadoop102 group2]$ touch flume-flume-console2.conf
[jinghang@hadoop102 group2]$ vim flume-flume-console2.conf

添加如下内容
#Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2

#Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142

#Describe the sink
a3.sinks.k1.type = logger

#Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100

#Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2
4．执行配置文件
分别开启对应配置文件：flume-flume-console2，flume-flume-console1，flume-netcat-flume。
[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/group2/flume-flume-console2.conf -Dflume.root.logger=INFO,console

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/group2/flume-flume-console1.conf -Dflume.root.logger=INFO,console

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group2/flume-netcat-flume.conf
5. 使用netcat工具向本机的44444端口发送内容
$ nc localhost 44444
6. 查看Flume2及Flume3的控制台打印日志
3.6 多数据源汇总案例
多Source汇总数据到单Flume如下图所示。

1）案例需求：
hadoop103上的Flume-1监控文件/opt/module/group.log，
hadoop102上的Flume-2监控某一个端口的数据流，
Flume-1与Flume-2将数据发送给hadoop104上的Flume-3，Flume-3将最终数据打印到控制台。
2）需求分析：

3）实现步骤：
0．准备工作
分发Flume

[jinghang@hadoop102 module]$ xsync flume

在hadoop102、hadoop103以及hadoop104的/opt/module/flume/job目录下创建一个group3文件夹。

[jinghang@hadoop102 job]$ mkdir group3
[jinghang@hadoop103 job]$ mkdir group3
[jinghang@hadoop104 job]$ mkdir group3

1．创建flume1-logger-flume.conf
配置Source用于监控hive.log文件，配置Sink输出数据到下一级Flume。
在hadoop103上创建配置文件并打开

[jinghang@hadoop103 group3]$ touch flume1-logger-flume.conf
[jinghang@hadoop103 group3]$ vim flume1-logger-flume.conf

添加如下内容
#Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/group.log
a1.sources.r1.shell = /bin/bash -c

#Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop104
a1.sinks.k1.port = 4141

#Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
2．创建flume2-netcat-flume.conf
配置Source监控端口44444数据流，配置Sink数据到下一级Flume：
在hadoop102上创建配置文件并打开
[jinghang@hadoop102 group3]$ touch flume2-netcat-flume.conf
[jinghang@hadoop102 group3]$ vim flume2-netcat-flume.conf
添加如下内容
#Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

#Describe/configure the source
a2.sources.r1.type = netcat
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 44444

#Describe the sink
a2.sinks.k1.type = avro
a2.sinks.k1.hostname = hadoop104
a2.sinks.k1.port = 4141

#Use a channel which buffers events in memory
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1
3．创建flume3-flume-logger.conf
配置source用于接收flume1与flume2发送过来的数据流，最终合并后sink到控制台。
在hadoop104上创建配置文件并打开

[jinghang@hadoop104 group3]$ touch flume3-flume-logger.conf
[jinghang@hadoop104 group3]$ vim flume3-flume-logger.conf

添加如下内容
#Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c1

#Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop104
a3.sources.r1.port = 4141

#Describe the sink
#Describe the sink
a3.sinks.k1.type = logger

#Describe the channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1
4．执行配置文件
分别开启对应配置文件：flume3-flume-logger.conf，flume2-netcat-flume.conf，flume1-logger-flume.conf。

[jinghang@hadoop104 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/group3/flume3-flume-logger.conf -Dflume.root.logger=INFO,console

[jinghang@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/group3/flume2-netcat-flume.conf

[jinghang@hadoop103 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group3/flume1-logger-flume.conf

5．在hadoop103上向/opt/module目录下的group.log追加内容

[jinghang@hadoop103 module]$ echo 'hello' > group.log

6．在hadoop102上向44444端口发送数据

[jinghang@hadoop102 flume]$ telnet hadoop102 44444

7.检查hadoop104上数据

第4章 Flume监控之Ganglia

4.1 Ganglia的安装与部署

安装httpd服务与php

[jinghang@hadoop102 flume]$ sudo yum -y install httpd php

安装其他依赖

[jinghang@hadoop102 flume]$ sudo yum -y install rrdtool perl-rrdtool rrdtool-devel

[jinghang@hadoop102 flume]$ sudo yum -y install apr-devel

安装ganglia

[jinghang@hadoop102 flume]$ sudo rpm -Uvh

http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm

[jinghang@hadoop102 flume]$ sudo yum -y install ganglia-gmetad 
[jinghang@hadoop102 flume]$ sudo yum -y install ganglia-web
[jinghang@hadoop102 flume]$ sudo yum install -y ganglia-gmond

Ganglia由gmond、gmetad和gweb三部分组成。
gmond（Ganglia Monitoring Daemon）是一种轻量级服务，安装在每台需要收集指标数据的节点主机上。使用gmond，你可以很容易收集很多系统指标数据，如CPU、内存、磁盘、网络和活跃进程的数据等。
gmetad（Ganglia Meta Daemon）整合所有信息，并将其以RRD格式存储至磁盘的服务。
gweb（Ganglia Web）Ganglia可视化工具，gweb是一种利用浏览器显示gmetad所存储数据的PHP前端。在Web界面中以图表方式展现集群的运行状态下收集的多种不同指标数据。
4) 修改配置文件/etc/httpd/conf.d/ganglia.conf

[jinghang@hadoop102 flume]$ sudo vim /etc/httpd/conf.d/ganglia.conf

修改为黄颜色的配置：
#Ganglia monitoring system php web frontend
Alias /ganglia /usr/share/ganglia

Order deny,allow
#Deny from all
Allow from all
#Allow from 127.0.0.1
#Allow from ::1
#Allow from .example.com

5) 修改配置文件/etc/ganglia/gmetad.conf

[jinghang@hadoop102 flume]$ sudo vim /etc/ganglia/gmetad.conf

修改为：
data_source “hadoop102” 192.168.1.102
6) 修改配置文件/etc/ganglia/gmond.conf

[jinghang@hadoop102 flume]$ sudo vim /etc/ganglia/gmond.conf

修改为：
cluster {
name = “hadoop102”
owner = “unspecified”
latlong = “unspecified”
url = “unspecified”
}
udp_send_channel {
#bind_hostname = yes # Highly recommended, soon to be default.
# This option tells gmond to use a source address
# that resolves to the machine’s hostname. Without
# this, the metrics may appear to come from any
# interface and the DNS names associated with
# those IPs will be used to create the RRDs.
#mcast_join = 239.2.11.71
host = 192.168.1.102
port = 8649
ttl = 1
}
udp_recv_channel {
#mcast_join = 239.2.11.71
port = 8649
bind = 192.168.1.102
retry_bind = true
#Size of the UDP buffer. If you are handling lots of metrics you really
#should bump it up to e.g. 10MB or even higher.
#buffer = 10485760
}

修改配置文件/etc/selinux/config

[jinghang@hadoop102 flume]$ sudo vim /etc/selinux/config

修改为：
#This file controls the state of SELinux on the system.
#SELINUX= can take one of these three values:
#enforcing - SELinux security policy is enforced.
#permissive - SELinux prints warnings instead of enforcing.
#disabled - No SELinux policy is loaded.
SELINUX=disabled
#SELINUXTYPE= can take one of these two values:
#targeted - Targeted processes are protected,
#mls - Multi Level Security protection.
SELINUXTYPE=targeted
尖叫提示：selinux本次生效关闭必须重启，如果此时不想重启，可以临时生效之：

[jinghang@hadoop102 flume]$ sudo setenforce 0

启动ganglia

[jinghang@hadoop102 flume]$ sudo service httpd start
[jinghang@hadoop102 flume]$ sudo service gmetad start
[jinghang@hadoop102 flume]$ sudo service gmond start

打开网页浏览ganglia页面
http://192.168.1.102/ganglia
尖叫提示：如果完成以上操作依然出现权限不足错误，请修改/var/lib/ganglia目录的权限：

[jinghang@hadoop102 flume]$ sudo chmod -R 777 /var/lib/ganglia

4.2 操作Flume测试监控

修改/opt/module/flume/conf目录下的flume-env.sh配置：
JAVA_OPTS="-Dflume.monitoring.type=ganglia
-Dflume.monitoring.hosts=192.168.1.102:8649
-Xms100m
-Xmx200m"
启动Flume任务

[jinghang@hadoop102 flume]$ bin/flume-ng agent \
--conf conf/ \
--name a1 \
--conf-file job/flume-netcat-logger.conf \
-Dflume.root.logger==INFO,console \
-Dflume.monitoring.type=ganglia \
-Dflume.monitoring.hosts=192.168.1.102:8649

发送数据观察ganglia监测图

[jinghang@hadoop102 flume]$ nc localhost 44444

样式如下图-

第5章自定义Source

5.1 介绍
Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的source类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些source。
官方也提供了自定义source的接口：
https://flume.apache.org/FlumeDeveloperGuide.html#source根据官方说明自定义MySource需要继承AbstractSource类并实现Configurable和PollableSource接口。
实现相应方法：
getBackOffSleepIncrement()//暂不用
getMaxBackOffSleepInterval()//暂不用
configure(Context context)//初始化context（读取配置文件内容）
process()//获取数据封装成event并写入channel，这个方法将被循环调用。
使用场景：读取MySQL数据或者其他文件系统。
5.2 需求
使用flume接收数据，并给每条数据添加前缀，输出到控制台。前缀可从flume配置文件中配置。

5.2 分析

5.3 编码
导入pom依赖

org.apache.flume
flume-ng-core
1.7.0

package com.jinghang;

import org.apache.flume.Context;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.PollableSource;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.SimpleEvent;
import org.apache.flume.source.AbstractSource;

import java.util.HashMap;

public class MySource extends AbstractSource implements Configurable, PollableSource {

//定义配置文件将来要读取的字段
private Long delay;
private String field;

//初始化配置信息
@Override
public void configure(Context context) {
    delay = context.getLong("delay");
    field = context.getString("field", "Hello!");
}

@Override
public Status process() throws EventDeliveryException {

    try {
        //创建事件头信息
        HashMap hearderMap = new HashMap<>();
        //创建事件
        SimpleEvent event = new SimpleEvent();
        //循环封装事件
        for (int i = 0; i < 5; i++) {
            //给事件设置头信息
            event.setHeaders(hearderMap);
            //给事件设置内容
            event.setBody((field + i).getBytes());
            //将事件写入channel
            getChannelProcessor().processEvent(event);
            Thread.sleep(delay);
        }
    } catch (Exception e) {
        e.printStackTrace();
        return Status.BACKOFF;
    }
    return Status.READY;
}

@Override
public long getBackOffSleepIncrement() {
    return 0;
}

@Override
public long getMaxBackOffSleepInterval() {
    return 0;
}

}

5.4 测试
1）打包
将写好的代码打包，并放到flume的lib目录（/opt/module/flume）下。
2）配置文件
#Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#Describe/configure the source
a1.sources.r1.type = com.jinghang.MySource
a1.sources.r1.delay = 1000
#a1.sources.r1.field = jinghang

#Describe the sink
a1.sinks.k1.type = logger

#Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
3）开启任务

[jinghang@hadoop102 flume]$ pwd
/opt/module/flume
[jinghang@hadoop102 flume]$ bin/flume-ng agent -c conf/ -f job/mysource.conf -n a1 -Dflume.root.logger=INFO,console

4）结果展示如下图

第6章自定义Sink

6.1 介绍
Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。官方提供的Sink类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些Sink。
官方也提供了自定义source的接口：
https://flume.apache.org/FlumeDeveloperGuide.html#sink根据官方说明自定义MySink需要继承AbstractSink类并实现Configurable接口。
实现相应方法：
configure(Context context)//初始化context（读取配置文件内容）
process()//从Channel读取获取数据（event），这个方法将被循环调用。
使用场景：读取Channel数据写入MySQL或者其他文件系统。
6.2 需求
使用flume接收数据，并在Sink端给每条数据添加前缀和后缀，输出到控制台。前后缀可在flume任务配置文件中配置。
流程分析：

6.3 编码
package com.jinghang;

import org.apache.flume.*;
import org.apache.flume.conf.Configurable;
import org.apache.flume.sink.AbstractSink;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class MySink extends AbstractSink implements Configurable {

//创建Logger对象
private static final Logger LOG = LoggerFactory.getLogger(AbstractSink.class);

private String prefix;
private String suffix;

@Override
public Status process() throws EventDeliveryException {

    //声明返回值状态信息
    Status status;

    //获取当前Sink绑定的Channel
    Channel ch = getChannel();

    //获取事务
    Transaction txn = ch.getTransaction();

    //声明事件
    Event event;

    //开启事务
    txn.begin();

    //读取Channel中的事件，直到读取到事件结束循环
    while (true) {
        event = ch.take();
        if (event != null) {
            break;
        }
    }
    try {
        //处理事件（打印）
        LOG.info(prefix + new String(event.getBody()) + suffix);

        //事务提交
        txn.commit();
        status = Status.READY;
    } catch (Exception e) {

        //遇到异常，事务回滚
        txn.rollback();
        status = Status.BACKOFF;
    } finally {

        //关闭事务
        txn.close();
    }
    return status;
}

@Override
public void configure(Context context) {

    //读取配置文件内容，有默认值
    prefix = context.getString("prefix", "hello:");

    //读取配置文件内容，无默认值
    suffix = context.getString("suffix");
}

}
6.4 测试
1）打包
将写好的代码打包，并放到flume的lib目录（/opt/module/flume）下。
2）配置文件
#Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#Describe the sink
a1.sinks.k1.type = com.jinghang.MySink
#a1.sinks.k1.prefix = jinghang:
a1.sinks.k1.suffix = :jinghang

#Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

#Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
3）开启任务

[jinghang@hadoop102 flume]$ pwd
/opt/module/flume
[jinghang@hadoop102 flume]$ bin/flume-ng agent -c conf/ -f job/mysink.conf -n a1 -Dflume.root.logger=INFO,console
[jinghang@hadoop102 ~]$ nc localhost 44444
hello
OK
jinghang
OK

4）结果展示如下图

你可能感兴趣的:(Flume,Flume安装,关于Flume,Flume案例)

智能推送系统的敏感词过滤功能：合规防线与用户体验的守护者大数据
在信息爆炸与监管趋严的双重挑战下，APP企业正面临前所未有的内容安全压力。一次不当推送可能引发用户投诉、应用下架甚至法律诉讼。MobPush智能推送系统的敏感词过滤功能，通过技术手段在推送内容发布前自动拦截违规信息，已成为企业规避风险、维护品牌声誉的核心工具。数据显示，引入该功能后，APP的违规内容投诉率平均下降75%，人工审核成本减少60%。本文将从技术逻辑、业务价值及典型案例三个维度，解析这一
智能推送系统的敏感词过滤功能：合规防线与用户体验的守护者大数据
在信息爆炸与监管趋严的双重挑战下，APP企业正面临前所未有的内容安全压力。一次不当推送可能引发用户投诉、应用下架甚至法律诉讼。MobPush智能推送系统的敏感词过滤功能，通过技术手段在推送内容发布前自动拦截违规信息，已成为企业规避风险、维护品牌声誉的核心工具。数据显示，引入该功能后，APP的违规内容投诉率平均下降75%，人工审核成本减少60%。本文将从技术逻辑、业务价值及典型案例三个维度，解析这一
阿根廷总统 Milei 谈 Libra 代币风波：从初衷到反思区块链智能合约web3
作者：Techub热点速递采访媒体：TodoNoticias整理：Tia，TechubNews编者按：关于阿根廷总统哈维尔·米莱（JavierMilei）与代币LIBRA事件的风波，近日依然未曾平息。从他公开为项目站台到推文风波引发的广泛关注，一场复杂的政治与经济博弈正在阿根廷上演。与此同时，涉及该事件的资金流向、参与者范围以及后续的舆论反响，逐步揭示了其中错综复杂的内幕。总统米莱在接受采访时，坦
kafka-关于ISR-概述 xiao-xiang kafka 分布式
一.什么是ISR？Kafka中通常每个分区都有多个副本，其中一个副本被选举为Leader，其他副本为Follower。ISR是指与Leader副本保持同步的Follower副本集合。ISR机制的核心是确保数据在多个副本之间的一致性和可靠性，同时在Leader副本出现故障时能够快速进行故障转移，保证服务的可用性。二.ISR基本原理：1.数据同步过程：首先：生产者发送的消息首先会被leader副本接收
redisCluster集群相关查询结果详解 ghostp redis redis
redisCluster集群相关查询结果详解进入redis进群查看集群信息CLUSTERINFO命令CLUSTERNODES命令info命令infoCommandstats命令查询服务器相关key的大小单个key查询某些前缀key批量查询进入redis进群在安装redis的机器上，找到安装目录的bin文件夹，使用以下命令来进入集群：[root@localhostbin]#./redis-cli-c
leetcode刷题-动态规划06 emmmmXxxy leetcode 动态规划算法
代码随想录动态规划part06|322.零钱兑换、279.完全平方数、139.单词拆分322.零钱兑换279.完全平方数139.单词拆分关于多重背包，你该了解这些！背包问题总结篇！322.零钱兑换leetcode题目链接代码随想录文档讲解思路：完全背包整理：完全背包理论基础：装满这个背包可得的最大价值（遍历顺序可以颠倒）零钱兑换2：装满背包有多少种方法（每种方法不强调顺序，组合数）（先遍历物品再遍
Ubuntu，centos下源码安装cmake指定版本你若盛开，清风自来！ ubuntu centos linux
网址：Indexof/files/v3.23常规安装出错1.先把安装包cmake-3.12.4-Linux-x86_64.tar.gz复制到指定目录2.解压tar-zxvfcmake-3.12.4-Linux-x86_64.tar.gz3.进入解压之后的文件夹cdcmake-3.12.4-Linux-x86_64.tar.gz4.运行下面命令出错bash:./bootstrap:Nosuchfil
Vue中常见问题汇总及解决方案（二）小刘哥007 Vue实战 vue.js 前端 javascript
目录CSSbackground引入图片打包后,访问路径错误安装模块时命令窗口输出unsupportedplatformxxxUnexpectedtabcharater这些Failedtomountcomponent:templateorrenderfunctionnotdefinedUnknowncustomelement:-didyouregisterthecomponentcorrectly?
JavaSE : 注解 Annotation Edenyt java-ee java
注解Java中的注解（Annotation）是一种元数据形式，用于向编译器或JVM提供有关程序元素（如类、方法、变量、参数和包）的附加信息。注解不会直接影响程序的行为或结构，但它们可以被编译器、开发工具或运行时环境用于生成代码、进行验证、执行处理或提供信息。以下是关于Java注解的几个关键点：1.注解的种类1.1.内置标准注解：@Override：指示一个方法覆盖了超类中的方法。@Deprecat
解锁高效开发新姿势：Trae AI编辑器深度体验 Williams10 AI工具集人工智能编辑器
解锁高效开发新姿势：TraeAI编辑器深度体验在软件开发领域，效率就是生命。字节跳动新推出的AI编辑器Trae，就像一把神奇的钥匙，为开发者打开了高效开发的大门。最近我深入体验了Trae，今天就来和大家分享一下使用感受。文章目录解锁高效开发新姿势：TraeAI编辑器深度体验Trae是什么？核心功能大揭秘实际使用场景展示实用使用教程安装与初始设置项目导入与创建日常使用技巧Trae是什么？Trae是字
anaconda 创建虚拟环境 yuweififi 环境搭建
1.打开AnacondaPrompt2.创建环境condacreate--nametorchpython=3.62.输入activatetorch安装的anacondapython虚拟环境打开，torch为创建的env名字3.condainfo--env查看所有创建的环境4.关闭环境deactivate切记先激活环境
最好Wordpree+Apache+PHP安装教程伶星37 apache php 开发语言
前提需要PHP的安装最少需要7.4以上Mysql的安装，直接默认最新版就行APache服务器（HTTP服务器，只有用这个你的软件才能在服务器上运行）安装apache安装sudoaptinstallapache2查看防火墙sudoufwapplist如果有Apache那么就可以直接访问安装PHP版本7.4就可以sudoaptinstallphp-mysqlsudosystemctlrestartap
多边形顺逆时针判定算法详解 wangzy1982 算法
多边形顺逆时针判定解决的问题是给一个多边形的顶点列表或者边列表，判断该多边形是顺时针还是逆时针。多边形顺逆时针判定算法在几何算法中应用十分广泛。因为很多几何算法都需要要根据几何的拓扑结构，为了方便，往往规定外环多边形是逆时针，内环多边形是顺时针。除了介绍算法，作者还会关于误差对算法稳定性影响有详细介绍。更多几何算法，欢迎关注作者gongzhonghao：几何算法算法一：用最远顶点判断顺逆时针边不包
php composer 私有包,手把手教你如何搭建Composer私有仓库超级小嬲 php composer 私有包
现在网上到处充斥这各种搭建私有仓库文档，但对于新手来说，总是有那么多的坑。这里我把我的摸索历程写出来给大家参考，希望大家能少踩一些坑。现在网上到处充斥这各种搭建私有仓库文档，但对于新手来说，总是有那么多的坑。这里我把我的摸索历程写出来给大家参考，希望大家能少踩一些坑。一，安装ComposerComposer的安装已经有很完善的教程，这里我就不重复造轮子了。安装Composer安装好之后就能直接在命
Nginx 请求转发配置指南 web13093320398 面试学习路线阿里巴巴 nginx linux 运维
Nginx请求转发配置指南1.简介Nginx是一款高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/SMTP代理服务器。本文档将介绍如何使用Nginx配置请求转发，并解释一些常用的配置参数。2.Nginx安装在配置之前，确保你的系统已经安装了Nginx。如果未安装，可以使用以下命令进行安装：在CentOS/RHEL上：sudoyuminstallnginx-y在Ubuntu/Debia
自动化脚本在Xshell中的应用这多冒昧啊运维 github git 运维自动化自动化脚本脚本
Xshell是一款功能强大的终端模拟软件，主要用于远程连接和管理服务器。它支持多种协议，包括SSH、Telnet、SFTP等，使用户能够通过命令行界面对远程服务器进行操作。Xshell提供了丰富的功能和特点，使其成为系统管理员、开发人员和网络工程师的得力工具。目录一、概述二、自动化脚本在Xshell中的应用案例案例一：自动化系统更新与维护案例二：自动化备份与恢复案例三：自动化网络安全检查三、总结一
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
NX二次开发-UFUN重新分配内存UF_reallocate_memory 阿飞2018 UG二次开发(C++)c++
版本NX9+VS2012例子说明关于这个分配内存UF_allocate_memory和重新分配内存UF_reallocate_memory，我之前是在唐工的视频中学过。但是我做了这两年开发，虽然没开发过多少东西。但是还真的从来都没用过分配内存和重新分配内存。都忘记有这个东西的存在了快。这东西也就在C语言开发中，才会有，要是用C#开发的话，都不会有指针这些东西。也不用那么麻烦。我试过想自己单独写一个
【数组】- 如何在C++的数组中插入元素？小鹏编程 C++c++数组
数组逆序数组是C++语言重要的数据结构，对它的一些基本操作要熟练掌握。今天，我们就来讨论，如何在数组中插入元素？案例题目描述在一个数组的第x个位置插入一个新的数y。输入有四行第一行有一个整数n(5usingnamespacestd;intmain(){inta[11],i,n,x,y;cin>>n;for(i=0;i>a[i];}cin>>x;//插入的位置cin>>y;//插入的元素x--;//
【数组】- 如何用C++数组统计相同数字出现的次数？小鹏编程 C++c++算法
统计数字出现次数数组是C++语言重要的数据结构，对它的一些基本操作要熟练掌握。那么，今天我们就来讨论，怎么使用数组统计一组数中每个数字出现的次数？案例题目描述有50个数（0-19），求这50个数中相同数字出现的最多次数为几次？输入50个数字。样例输入110201581270315015181671716911916121712431111421114611464111318703231819216
使用 acme.sh 申请和管理免费SSL 证书：告别 certbot 的繁琐 lihuang319 linux ssl
使用acme.sh申请和管理SSL证书：告别certbot的繁琐引言介绍SSL证书的重要性传统certbot的痛点（如live目录、复杂的配置）acme.sh的优势（轻量、灵活、自动化）一、acme.sh简介什么是acme.shacme.sh的主要特点支持多种DNS服务商自动化续期直接指定证书路径无需额外依赖二、安装acme.sh基本安装curlhttps://get.acme.sh|sh-sem
Llama.cpp 服务器安装指南（使用 Docker，GPU 专用）田猿笔记 AI 高级应用 llama 服务器 docker llama.cpp
前置条件在开始之前，请确保你的系统满足以下要求：操作系统：Ubuntu20.04/22.04（或支持Docker的Linux系统）。硬件：NVIDIAGPU（例如RTX4090）。内存：16GB+系统内存，GPU需12GB+显存（RTX4090有24GB）。存储：15GB+可用空间（用于源码、镜像和模型文件）。网络：需要互联网连接以下载源码和依赖。软件：已安装并运行Docker。已安装NVIDIA
PyTorch使用常见异常和解决办法汇总东哥说AI 机器学习与深度学习实战 PyTorch 异常解决办法
文章目录1.使用conda安装PyTorch后同时在Jupyter导入失败Nomodulenamed'torch'2.PyTorch使用张量时报错expectedscalartypeDoublebutfoundFloat3.PyTorch创建Embedding时报错IndexError:indexoutofrangeinself1.使用conda安装PyTorch后同时在Jupyter导入失败No
主成分回归（PCR）与特征值因子筛选：从理论到MATLAB实战青橘MATLAB学习多元分析回归 matlab 线性代数数学建模算法
内容摘要：本文深入解析主成分回归（PCR）的原理与MATLAB实现，结合Hald水泥数据案例对比PCR与普通回归的性能差异。详细讲解特征值筛选策略（累积贡献率、交叉验证），并提供单参数估计优化方法。通过完整代码与可视化结果，助力读者掌握高维数据建模与多重共线性处理技巧。关键词：主成分回归特征值筛选多重共线性MATLAB实现交叉验证—1.主成分回归（PCR）概述主成分回归（PrincipalComp
记录更换电脑硬盘并克隆数据鱼干～电脑
1.傲梅安装在c盘2.删除旧机械硬盘里无用的软件以及数据3.删除新固态硬盘里的无用数据，并备份数据到其他电脑硬盘或存储设备4.打开傲梅==》克隆硬盘==>选择源旧机械硬盘》目标新固态硬盘》弹窗提示点击是==》设置里选中“让分区适应整个硬盘大小”》点击保存》提交里点击执行即可5.执行完毕后关机，拆掉旧机械硬盘，换上新固态硬盘6.开机后，在计算机管理–》存储==》磁盘管理==》更改新固态硬盘的驱动器号
Composer如何通过GitHub Personal Access Token安装私有包：完整教程 lihuang319 composer github php
使用Composer安全管理您的PHP私有依赖包一、前言在PHP开发中，我们经常需要将内部工具包托管为私有仓库。传统的账号密码验证方式存在安全隐患，而GitHubPersonalAccessToken（PAT）提供了一种更安全的鉴权方案。本文将通过4个核心步骤+3个避坑指南，手把手教您在Composer中优雅地使用PAT安装私有包。二、为什么要用PAT？安全性：细粒度权限控制（可设置过期时间/单仓
222222222222222 智能与优化开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas是基于Nu
【四】3D Object Model之测量Features——area_object_model_3d()/distance_object_model_3d()算子 cqy阳 #【四】3D Object Model 3d
欢迎来到本博客Halcon算子太多，学习查找都没有系统的学习查找路径，本专栏主要分享Halcon各类算子含义及用法，有时间会更新具体案例。具体食用方式：可以点击本专栏【Halcon算子快速查找】–>搜索你要查询的算子名称；或者点击Halcon算子汇总博客，即可食用。支持：如果觉得博主的文章还不错或者您用得到的话，可以悄悄关注一下博主哈，如果三连收藏支持就更好啦！这就是给予我最大的支持！文章目录学习
【四】3D Object Model之测量Features——get_object_model_3d_params()算子 cqy阳 #【四】3D Object Model 3d 图像处理计算机视觉 halcon
欢迎来到本博客Halcon算子太多，学习查找都没有系统的学习查找路径，本专栏主要分享Halcon各类算子含义及用法，有时间会更新具体案例。具体食用方式：可以点击本专栏【Halcon算子快速查找】–>搜索你要查询的算子名称；或者点击Halcon算子汇总博客，即可食用。支持：如果觉得博主的文章还不错或者您用得到的话，可以悄悄关注一下博主哈，如果三连收藏支持就更好啦！这就是给予我最大的支持！文章目录学习
Linux查看端口占用情况的几种方式 liu_caihong linux 服务器网络
Linux查看端口占用情况的几种方式概述测试环境为Centos7.9，本文简单给出了几种检测端口的例子。一、查看本机端口占用1、netstat#安装netstatyum-yinstallnet-tools#检测端口占用netstat-npl|grep"端口"[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FFUW0j6I-1655191692938)(C:%5CUse
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

大数据技术之Flume(概述,安装,案例等)

第1章 概述

第2章 快速入门

第3章 企业开发案例

第4章 Flume监控之Ganglia

第5章 自定义Source

第6章 自定义Sink

你可能感兴趣的:(Flume,Flume安装,关于Flume,Flume案例)

第1章概述

第2章快速入门

第3章企业开发案例

第5章自定义Source

第6章自定义Sink