小崔的技术博客

Flume从入门到精通一站式学习笔记

文章目录

什么是Flume
Flume的特性
Flume高级应用场景
Flume的三大核心组件
- Source：数据源
- channel
- sink
Flume安装部署
Flume的使用
- 案例：采集文件内容上传至HDFS
- 案例：采集网站日志上传至HDFS
各种自定义组件
- 例如：自定义source
- 例如：自定义sink
Flume优化
Flume进程监控

什么是Flume

Flume是一个高可用，高可靠，分布式的海量日志采集、聚合和传输的系统，能够有效的收集、聚合、移动大量的日志数据。其实通俗一点来说就是Flume是一个很靠谱，很方便、很强的日志采集工具。他是目前大数据领域数据采集最常用的一个框架。为什么它这么香呢？
主要是因为使用Flume采集数据不需要写一行代码，注意是一行代码都不需要，只需要在配置文件中随便写几行配置Flume就会死心塌地的给你干活了

这个属于Flume的一个非常典型的应用场景，使用Flume采集数据，最终存储到HDFS上。

左边的web server表示是一个web项目，web项目会产生日志数据，通过中间的Agent把日志数据采集到HDFS中。其中这个Agent就是我们使用Flume启动的一个代理，它是一个持续传输数据的服务，数据在Agent内部的这些组件之间传输的基本单位是Event
从图中可以看到，Agent是由Source、Channel、Sink这三大组件组成的，这就是Flume中的三大核心组件，其中source是数据源，负责读取数据。channel是临时存储数据的，source会把读取到的数据临时存储到channel中。sink是负责从channel中读取数据的，最终将数据写出去，写到指定的目的地中

Flume的特性

它有一个简单、灵活的基于流的数据流结构，这个其实就是刚才说的Agent内部有三大组件，数据通过这三大组件流动的
具有负载均衡机制和故障转移机制
一个简单可扩展的数据模型(Source、Channel、Sink)，这几个组件是可灵活组合的

Flume高级应用场景

下面这个图里面主要演示了Flume的多路输出，就是可以将采集到的一份数据输出到多个目的地中，不同目的地的数据对应不同的业务场景

这个图里面一共有两个Agent，表示我们启动了2个Flume的代理，或者可以理解为了启动了2个flume的进程。首先看左边这个agent，给他起个名字叫 foo，这里面有一个source，source后面接了3个channel，表示source读取到的数据会重复发送给每个channel，每个channel中的数据都是一样的。针对每个channel都接了一个sink，这三个sink负责读取对应channel中的数据，并且把数据输出到不同的目的地，

sink1负责把数据写到hdfs中
sink2负责把数据写到一个Java消息服务数据队列中
sink3负责把数据写给另一个Agent

注意了，Flume中多个Agent之间是可以连通的，只需要让前面Agent的sink组件把数据写到下一个Agent的source组件中即可。

所以sink3就把数据输出到了Agent bar中。在Agent bar中同样有三个组件，source组件其实就获取到了sink3发送过来的数据，然后把数据临时存储到自己的channel4中，最终再通过sink组件把数据写到其他地方。这就是这个场景的应用，把采集到的一份数据重复输出到不同的目的地中。

下面这张图，这张图主要表示了flume的汇聚功能，就是多个Agent采集到的数据统一汇聚到一个Agent

这个图里面一共启动了四个agent，左边的三个agent都是负责采集对应web服务器中的日志数据，数据采集过来之后统一发送给agent4，最后agent4进行统一汇总，最终写入hdfs。
这种架构的好处是后期如果要修改最终数据的输出目的地，只需要修改agent4中的sink即可，不需要修改agent1、2、3。但是这种架构也有弊端，

如果有很多个agent同时向agent4写数据，那么agent4会出现性能瓶颈，导致数据处理过慢
这种架构还存在单点故障问题，如果agent4挂了，那么所有的数据都断了。
不过这些问题可以通过flume中的负载均衡和故障转移机制解决

Flume的三大核心组件

Source：数据源
Channel：临时存储数据的管道
Sink：目的地

接下来具体看一下这三大核心组件都是干什么的

Source：数据源

Source：数据源：通过source组件可以指定让Flume读取哪里的数据，然后将数据传递给后面的channel
Flume内置支持读取很多种数据源，基于文件、基于目录、基于TCP/UDP端口、基于HTTP、Kafka的等等、当然了，如果这里面没有你喜欢的，他也是支持自定义的

在这我们挑几个常用的看一下：

Exec Source：实现文件监控，可以实时监控文件中的新增内容，类似于linux中的tail -f 效果。
在这需要注意 tail -F 和 tail -f 的区别
tail -F ：等同于–follow=name --retry，根据文件名进行追踪，并保持重试，即该文件被删除或改名后，如果再次创建相同的文件名，会继续追踪
tail -f ：等同于–follow=descriptor，根据文件描述符进行追踪，当文件改名或被删除，追踪停止。在实际工作中我们的日志数据一般都会通过log4j记录，log4j产生的日志文件名称是固定的，每天定时给文件重命名
假设默认log4j会向access.log文件中写日志，每当凌晨0点的时候，log4j都会对文件进行重命名，在access后面添加昨天的日期，然后再创建新的access.log记录当天的新增日志数据。这个时候如果想要一直监控access.log文件中的新增日志数据的话，就需要使用tail -F
NetCat TCP/UDP Source：采集指定端口(tcp、udp)的数据，可以读取流经端口的每一行数据
Spooling Directory Source：采集文件夹里新增的文件
Kafka Source：从Kafka消息队列中采集数据

注意了，前面我们分析的这几个source组件，其中execsource 和 kafkasource在实际工作中是最常见的，可以满足大部分的数据采集需求。

channel

Channel：接受Source发出的数据，可以把channel理解为一个临时存储数据的管道。
Channel的类型有很多：内存、文件，内存+文件、JDBC等
接下来我们来分析一下

Memory Channel：使用内存作为数据的存储
优点是效率高，因为就不涉及磁盘IO
缺点有两个
1：可能会丢数据，如果Flume的agent挂了，那么channel中的数据就丢失了。
2：内存是有限的，会存在内存不够用的情况
File Channel：使用文件来作为数据的存储
优点是数据不会丢失
缺点是效率相对内存来说会有点慢，但是这个慢并没有我们想象中的那么慢，
所以这个也是比较常用的一种channel。
Spillable Memory Channel：使用内存和文件作为数据存储，即先把数据存到内存中，如果内存中数据达到阈值再flush到文件中
优点：解决了内存不够用的问题。
缺点：还是存在数据丢失的风险

sink

Sink：从Channel中读取数据并存储到指定目的地
Sink的表现形式有很多：打印到控制台、HDFS、Kafka等，

注意：Channel中的数据直到进入目的地才会被删除，当Sink写入目的地失败后，可以自动重写，
不会造成数据丢失，这块是有一个事务保证的。

常用的sink组件有：

Logger Sink：将数据作为日志处理，可以选择打印到控制台或者写到文件中，这个主要在测试的时候使用
HDFS Sink：将数据传输到HDFS中，这个是比较常见的，主要针对离线计算的场景
Kafka Sink：将数据发送到kafka消息队列中，这个也是比较常见的，主要针对实时计算场景，数据不落盘，实时传输，最后使用实时计算框架直接处理。

Flume安装部署

在这里我重新克隆了一台Linux机器，主机名设置为bigdata04，ip设置为192.168.182.103
关闭防火墙，安装jdk并配置环境变量，因为Flume是java开发，所以需要依赖jdk环境。这些工作已经提前做好了，继续往下面分析
想要安装Flume，首先需要下载Flume，进入Flume的官网，找到Download链接

安装包下载好以后上传到linux机器的/data/soft目录下，并且解压

[root@bigdata04 soft]# ll
total 255844
-rw-r--r--. 1 root root 67938106 May 1 23:27 apache-flume-1.9.0-bin.tar.gz
drwxr-xr-x. 7 10 143 245 Dec 16 2018 jdk1.8
-rw-r--r--. 1 root root 194042837 Apr 6 23:14 jdk-8u202-linux-x64.tar.gz
[root@bigdata04 soft]# tar -zxvf apache-flume-1.9.0-bin.tar.gz

修改盘flume的env环境变量配置文件
在flume的conf目录下，修改flume-env.sh.template的名字，去掉后缀template

[root@bigdata04 conf]# mv flume-env.sh.template flume-env.sh

这样就好了，Flume的安装是不是很简单，这个时候我们不需要启动任何进程，只有在配置好采集任务之后才需要启动Flume。

Flume的使用

下面我们就想上手操作Flume，具体该怎么做呢？
先来看一个入门级别的Hello World案例。
我们前面说了，启动Flume任务其实就是启动一个Agent，Agent是由source、channel、sink组成的，这些组件在使用的时候只需要写几行配置就可以了
那下面我们就看一下source、channel、sink该如何配置呢？接下来带着大家看一下官网，找到左边的documentation，查看文档信息

Flume的操作文档是非常良心的，整理的非常详细

下面有一个Agent配置的例子：


# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

这个例子中首先定义了source的名字、sink的名字还有channel的名字
下面配置source的相关参数
下面配置了sink的相关参数
接着配置了channel的相关参数
最后把这三个组件连接到了一起，就是告诉source需要向哪个channel写入数据，告诉sink需要从哪个channel读取数据，这样source、channel、sink这三个组件就联通了。总结下来，配置Flume agent的主要流程是这样的

给每个组件起名字
配置每个组件的相关参数
把它们联通起来

注意了，在Agent中配置的三大组件为什么要这样写呢？如果我是第一次使用我也不会写啊。
三大组件的配置在文档中是有详细说明的，来看一下，在Flume Sources下面显示的都是已经内置支持的Source组件

刚才看的案例中使用的是source类型是netcat，其实就是NetCat TCP Source，看一下详细内容

这里面的粗体字体是必选的参数
第一个参数是为了指定source需要向哪个channel写数据，这个其实是通用的参数，主要看下面这三个，type、bind、port

type：类型需要指定为natcat
bind：指定当前机器的ip，使用hostname也可以
port：指定当前机器中一个没有被使用的端口

指定bind和port表示开启监听模式，监听指定ip和端口中的数据，其实就是开启了一个socket的服务端，等待客户端连接进来写入数据
在这里给agent起名为a1,所以netcat类型的配置如下，这里面还指定了source、channel的名字，并且把source和channel连接到一起了，刨除这几个配置之外就剩下了三行配置，就是刚才我们分析的那三个必填参数

a1.sources = r1
a1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 6666
a1.sources.r1.channels = c1

注意了，bind参数后面指定的ip是四个0，这个当前机器的通用ip，因为一台机器可以有多个ip，例如：内网ip、外网ip，如果通过bind参数指定某一个ip的话，表示就只监听通过这个ip发送过来的数据了，这样会有局限性，所以可以指定0.0.0.0。下面几个参数都是可选配置，默认可以不配置。接着是channel，案例中channel使用的是memory

查看memory channel

这里面只有type是必填项，其他都是可选的
最后看一下sink，在案例中sink使用的是logger，对应的就是Logger Sink

logger sink中默认也只需要指定type即可

后期我们如果想要使用其他的内置组件，直接到官网文档这里查找即可，这里面的配置有很多，没有必要去记，肯定记不住，只要知道到哪里去找就可以。配置文件分析完了，可以把这些配置放到一个配置文件中，起名叫example.conf，把这个配置文件放到

[root@bigdata04 ~]# cd /data/soft/apache-flume-1.9.0-bin
[root@bigdata04 apache-flume-1.9.0-bin]# cd conf/
[root@bigdata04 conf]# vi example.conf
# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注意了，这个配置文件中的a1表示是agent的名称，还有就是port指定的端口必须是未被使用的，可以先查询一下当前机器使用了哪些端口，端口的可用范围是1-65535，如果懒得去查的话，就尽量使用偏大一些的端口，这样被占用的概率就非常低了。
Agent配置好了以后就可以启动了，下面来看一下启动Agent的命令
可以使用命令：

bin/flume-ng agent --name a1 --conf conf --conf-file example.conf -Dflume.ro

这里面使用flume-ng命令

后面指定agent，表示启动一个Flume的agent代理
--name：指定agent的名字
--conf：指定flume配置文件的根目录
--conf-file：指定Agent对应的配置文件(包含source、channel、sink配置的文件)
-D：动态添加一些参数，在这里是指定了flume的日志输出级别和输出位置，INFO表示日志级

其实agent的启动命令还可以这样写

bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template

这里面的-n属于简写，完整的写法就是–name

-c完整写法的–conf
-f完整写法是–conf-file

注意了，由于配置文件里面指定了agent的名称为a1,所以在–name后面也需要指定a1，还有就是通过–conf-file指定配置文件的时候需要指定conf目录下的example.conf配置文件

启动之后会看到如下信息，表示启动成功，启动成功之后，这个窗口会被一直占用，因为Agent服务一直在运行，现在属于一个前台进程。

2020-05-02 10:14:56,464 (lifecycleSupervisor-1-4) [INFO - org.apache.flume.so

如果看到提示的有ERROR级别的日志信息，就需要具体问题具体分析了，一般都是配置文件配置错误了。接下来我们需要连接到source中通过netcat开启的socket服务端克隆一个bigdata04的会话，因为前面启动Agent之后，窗口就被占用了使用telnet命令可以连接到指定socket服务，telnet后面的主机名和端口是根据example.conf配置文件中配置的

[root@bigdata04 ~]# telnet localhost 44444
-bash: telnet: command not found
[root@bigdata04 ~]# yum install -y telnet
[root@bigdata04 ~]# telnet localhost 44444
Trying ::1...
telnet: connect to address ::1: Connection refused
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
hello world!
OK

此时Flume中Agent服务是在前台运行，这个服务实际工作中需要一直运行，所以需要放到后台运行。
Flume自身没有提供直接把进程放到后台执行的参数，所以就需要使用咱们前面学习的nohup和&了。此时就不需要指定-Dflume.root.logger=INFO,console参数了，默认情况下flume的日志会记录到日志文件中。停掉之前的Agent，重新执行。

[root@bigdata04 apache-flume-1.9.0-bin]# nohup bin/flume-ng agent --name a1 -

启动之后，通过jps命令可以查看到一个application进程，这个就是启动的Agent

案例：采集文件内容上传至HDFS

接下来我们来看一个工作中的典型案例：
采集文件内容上传至HDFS
需求：采集目录中已有的文件内容，存储到HDFS
分析：source是要基于目录的，channel建议使用file，可以保证不丢数据，sink使用hdfs
下面要做的就是配置Agent了，可以把example.conf拿过来修改一下，新的文件名为file-to-hdfs.conf
首先是基于目录的source，咱们前面说过，Spooling Directory Source可以实现目录监控。来看一下这个Spooling Directory Source。

channels和type肯定是必填的，还有一个是spoolDir，就是指定一个监控的目录
看他下面的案例，里面还多指定了一个fileHeader，这个我们暂时也用不到，后面等我们讲了Event之后大家就知道这个fileHeader可以干什么了，先记着有这个事把。那来配置一下source

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /data/log/studentDir

接下来是channel了
channel在这里使用基于文件的，可以保证数据的安全性
如果针对采集的数据，丢个一两条对整体结果影响不大，只要求采集效率，那么这个时候完全可以使用基于内存的channel
咱们前面的例子中使用的是基于内存的channel，下面我们到文档中找一下基于文件的channel

根据这里的例子可知，主要配置checkpointDir和dataDir，因为这两个目录默认会在用户家目录下生成，
建议修改到其他地方

checkpointDir是存放检查点目录
data是存放数据的目录

a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /data/soft/apache-flume-1.9.0-bin/data/studentDir
a1.channels.c1.dataDirs = /data/soft/apache-flume-1.9.0-bin/data/studentDir/d

最后是sink
因为要向hdfs中输出数据，所以可以使用hdfssink

hdfs.path是必填项，指定hdfs上的存储目录
看这里例子中还指定了filePrefix参数，这个是一个文件前缀，会在hdfs上生成的文件前面加上这个前缀，这个属于可选项，有需求的话可以加上一般在这我们需要设置writeFormat和fileType这两个参数
默认情况下writeFormat的值是Writable，建议改为Text，看后面的解释，如果后期想使用hive或者impala操作这份数据的话，必须在生成数据之前设置为Text，Text表示是普通文本数据
fileType默认是SequenceFile，还支持DataStream 和 CompressedStream ，DataStream 不会对输出数据进行压缩，CompressedStream 会对输出数据进行压缩，在这里我们先不使用压缩格式的，所以选择DataStream
除了这些参数以外，还有三个也比较重要hdfs.rollInterval、hdfs.rollSize和hdfs.rollCount

hdfs.rollInterval默认值是30，单位是秒，表示hdfs多长时间切分一个文件，因为这个采集程序是一直运行的，只要有新数据，就会被采集到hdfs上面，hdfs默认30秒钟切分出来一个文件，如果设置为0表示不按时间切文件
hdfs.rollSize默认是1024，单位是字节，最终hdfs上切出来的文件大小都是1024字节，如果设置为0表示不按大小切文件
hdfs.rollCount默认设置为10，表示每隔10条数据切出来一个文件，如果设置为0表示不按数据条数切文件这三个参数，如果都设置的有值，哪个条件先满足就按照哪个条件都会执行。在实际工作中一般会根据时间或者文件大小来切分文件，我们之前在工作中是设置的时间和文件小相结合，时间设置的是一小时，文件大小设置的128M，这两个哪个满足执行哪个所以针对hdfssink的配置最终是这样的

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://192.168.182.100:9000/flume/studentDir
a1.sinks.k1.hdfs.filePrefix = stu-
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat = Text
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

最后把组件连接到一起

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

把Agent的配置保存到flume的conf目录下的 file-to-hdfs.conf 文件中：

[root@bigdata04 conf]# vi file-to-hdfs.conf
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /data/log/studentDir
# Use a channel which buffers events in memory
a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /data/soft/apache-flume-1.9.0-bin/data/student
a1.channels.c1.dataDirs = /data/soft/apache-flume-1.9.0-bin/data/studentDir/d
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://192.168.182.100:9000/flume/studentDir
a1.sinks.k1.hdfs.filePrefix = stu-
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat = Text
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

下面就可以启动agent了，在启动agent之前，先初始化一下测试数据
创建/data/log/studentDir目录，然后在里面添加一个文件，class1.dat
class1.dat中存储的是学生信息，学生姓名、年龄、性别

[root@bigdata04 ~]# mkdir -p /data/log/studentDir
[root@bigdata04 ~]# cd /data/log/studentDir
[root@bigdata04 studentDir]# more class1.dat
jack 18 male
jessic 20 female
tom 17 male

启动Hadoop集群

启动Agent，使用在前台启动的方式，方便观察现象

Flume怎么知道哪些文件是新文件呢？它会不会重复读取同一个文件的数据呢？
不会的，我们到/data/log/studentDir目录看一下你就知道了

我们发现此时这个文件已经被加了一个后缀 .COMPLETED ，表示这个文件已经被读取过了，所以Flume在读取的时候会忽略后缀为 .COMPLETED 的文件。

案例：采集网站日志上传至HDFS

需求是这样的，

将A和B两台机器实时产生的日志数据汇总到机器C中
通过机器C将数据统一上传至HDFS的指定目录中

注意：HDFS中的目录是按天生成的，每天一个目录

根据刚才的需求分析可知，我们一共需要三台机器
这里使用bigdata02和bigdata03采集当前机器上产生的实时日志数据，统一汇总到bigdata04机器上。其中bigdata02和bigdata03中的source使用基于file的source，ExecSource，因为要实时读取文件中的新增数据
channel在这里我们使用基于内存的channel，因为这里是采集网站的访问日志，就算丢一两条数据对整体结果影响也不大，我们只希望采集到的数据可以快读进入hdfs中，所以就选择了基于内存的channel。
由于bigdata02和bigdata03的数据需要快速发送到bigdata04中，为了快速发送我们可以通过网络直接传输，sink建议使用avrosink，avro是一种数据序列化系统，经过它序列化的数据传输起来效率更高，并且它对应的还有一个avrosource，avrosink的数据可以直接发送给avrosource，所以他们可以无缝衔接。
这样bigdata04的source就确定了使用avrosource、channel还是基于内存的channel，sink就使用
hdfssink，因为是要向hdfs中写数据的。
这里面的组件，只有execsource、avrosource、avrosink我们还没有使用过，其他的组件都使用过了。最终需要在每台机器上启动一个agent，启动的时候需要注意先后顺序，先启动bigdata04上面的，再启动bigdata02和bigdata03上面的。

具体实现这个案例

1：在bigdata02上安装Flume并配置Agent

上传Flume的安装包，解压

[root@bigdata02 soft]# tar -zxvf apache-flume-1.9.0-bin.tar.gz
在flume的conf目录下，修改flume-env.sh.template的名字，去掉后缀template
[root@bigdata02 soft]# cd apache-flume-1.9.0-bin/conf
[root@bigdata02 conf]# mv flume-env.sh.template flume-env.sh

配置Agent，创建文件 file-to-avro-101.conf

[root@bigdata02 conf] vi file-to-avro-101.conf
# agent的名称是a1
# 指定source组件、channel组件和Sink组件的名称
a1.sources = r1
a1.channels = c1
a1.sinks = k1
# 配置source组件
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /data/log/access.log

# 配置channel组件
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 配置sink组件
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = 192.168.182.103
a1.sinks.k1.port = 45454
# 把组件连接起来
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

这里面的配置没有特殊配置，直接参考官网文档就可以搞定

2：在bigdata03上安装Flume并配置Agent
上传Flume的安装包，解压

配置Agent，创建文件file-to-avro-102.conf

[root@bigdata03 conf] vi file-to-avro-102.conf
# agent的名称是a1
# 指定source组件、channel组件和Sink组件的名称
a1.sources = r1
a1.channels = c1
a1.sinks = k1
# 配置source组件
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /data/log/access.log
# 配置channel组件
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 配置sink组件
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = 192.168.182.103
a1.sinks.k1.port = 45454
# 把组件连接起来
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3：在bigdata04上安装Flume并配置Agent
这台机器我们已经安装过Flume了，所以直接配置Agent即可
在指定Agent中sink配置的时候注意，我们的需求是需要按天在hdfs中创建目录，并把当天的数据上传到当天的日期目录中，这也就意味着hdfssink中的path不能写死，需要使用变量，动态获取时间，查看官方文档可知，在hdfs的目录中需要使用%Y%m%d
在这还有一点需要注意的，因为我们这里需要抽取时间，这个时间其实是需要从数据里面抽取，咱们前面说过数据的基本单位是Event，Event是一个对象，后面我们会详细分析，在这里大家先知道它里面包含的既有我们采集到的原始的数据，还有一个header属性，这个header属性是一个key-value结构的，我们现在抽取时间就需要到event的header中抽取，但是默认情况下event的header中是没有日期的，强行抽取是会报错的，会提示抽取不到，返回空指针异常。
java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null
那如何向header中添加日期呢？其实官方文档中也说了，可以使用hdfs.useLocalTimeStamp或者时间拦截器，时间拦截器我们后面会讲，暂时最简单直接的方式就是使用hdfs.useLocalTimeStamp，这个属性的值默认为false，需要改为true。

配置Agent，创建文件 avro-to-hdfs.conf

[root@bigdata04 conf] vi avro-to-hdfs.conf
# agent的名称是a1
# 指定source组件、channel组件和Sink组件的名称
a1.sources = r1
a1.channels = c1
a1.sinks = k1
# 配置source组件
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 45454
# 配置channel组件
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 配置sink组件
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://192.168.182.100:9000/access/%Y%m%d
a1.sinks.k1.hdfs.filePrefix = access
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat = Text
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# 把组件连接起来
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注意：bigdata02和bigdata03中配置的a1.sinks.k1.port 的值45454需要和bigdata04中配置的三台机器中的Flume Agent都配置好了，在开始启动之前需要先在bigdata02和bigdata03中生成测试数据，为了模拟真实情况，在这里我们就开发一个脚本，定时向文件中写数据

#!/bin/bash
# 循环向文件中生成数据
while [ "1" = "1" ]
do
# 获取当前时间戳
curr_time=`date +%s`
# 获取当前主机名
name=`hostname`
echo ${name}_${curr_time} >> /data/log/access.log
# 暂停1秒
sleep 1
done

在bigdata02和bigdata03中使用这个脚本生成数据
首先在bigdata02上创建/data/log目录，然后创建 generateAccessLog.sh 脚本

[root@bigdata02 ~]# mkdir -p /data/log
[root@bigdata02 ~]# cd /data/log/
[root@bigdata02 log]# vi generateAccessLog.sh
#!/bin/bash
# 循环向文件中生成数据
while [ "1" = "1" ]
do
# 获取当前时间戳
curr_time=`date +%s`
# 获取当前主机名
name=`hostname`
echo ${name}_${curr_time} >> /data/log/access.log
# 暂停1秒
sleep 1
done

接着在bigdata03上创建/data/log目录，然后创建 generateAccessLog.sh 脚本

[root@bigdata03 ~]# mkdir /data/log
[root@bigdata03 ~]# cd /data/log/
[root@bigdata03 log]# vi generateAccessLog.sh
#!/bin/bash
# 循环向文件中生成数据
while [ "1" = "1" ]
do
# 获取当前时间戳
curr_time=`date +%s`
# 获取当前主机名
name=`hostname`
echo ${name}_${curr_time} >> /data/log/access.log
# 暂停1秒
sleep 1
done

接下来开始启动相关的服务进程
首先启动bigdata04上的agent服务
接下来启动bigdata-02上的agent服务和shell脚本

[root@bigdata02 apache-flume-1.9.0-bin]# bin/flume-ng agent --name a1 --conf
[root@bigdata02 log]# sh -x generateAccessLog.sh

最后启动bigdata-03上的agent服务和shell脚本

[root@bigdata03 apache-flume-1.9.0-bin]# bin/flume-ng agent --name a1 --conf
[root@bigdata03 log]# sh -x generateAccessLog.sh

验证结果，查看hdfs上的结果数据，在bigdata01上查看

[root@bigdata01 soft]# hdfs dfs -cat /access/20200502/access.1588426157482.tmp
bigdata02_1588426253
bigdata02_1588426254
bigdata02_1588426255
bigdata02_1588426256
bigdata02_1588426257
bigdata02_1588426258

注意：启动之后稍等一会就可以看到数据了，我们观察数据的变化，会发现hdfs中数据增长的不是很快，它会每隔一段时间添加一批数据，实时性好像没那么高？

这是因为avrosink中有一个配置batch-size，它的默认值是100，也就是每次发送100条数据，如果数据不够100条，则不发送。
具体这个值设置多少合适，要看你source数据源大致每秒产生多少数据，以及你希望的延迟要达到什么程度，如果这个值设置太小的话，会造成sink频繁向外面写数据，这样也会影响性能。最终，依次停止bigdata02、bigdata03中的服务，最后停止bigdata04中的服务

各种自定义组件

咱们前面讲了很多组件，有核心组件和高级组件
source、channel、sink以及Source Interceptors，Channel Selectors、Sink Processors
针对这些组件，Flume都内置提供了组件的很多具体实现，在实际工作中，95%以上的数据采集需求都是可以满足的，但是谁也不敢保证100%都能满足，因为什么奇葩的需求都会有，那针对系统内没有提供的一些组件怎么办呢？
假设我们想把flume采集到的数据输出到mysql中，那这个时候就需要有针对mysql的sink组件了，但是Flume中并没有，因为这种需求不常见，往mysql中写的都是结构化数据，数据的格式是固定的，但是flume采集的一般都是日志数据，这种属于非结构化数据，不支持也是正常的，但是我们在这里就是需要使用Flume往mysql中写数据，那怎么办？
要不我们考虑换一个采集工具把，当然这也是一种解决方案，如果有其他采集工具支持向mysql中写数据的话那可以考虑换一个采集工具，如果所有的采集工具都不支持向mysql中写数据呢，也就是说你这个需求就是前无古人后无来者的，怎么破？
不用担心，天无绝人之路，其实咱们使用的Flume提供的那些内置组件也都是作者一行代码一行代码写出来的，那我们是不是也可以自己写一个自定义的组件呢？可以的，并且flume也很欢迎你这样去做，它把开发文档什么的东西都给你准备好了。
注意了，就算没有文档，我们也要想办法去自定义，没有文档的话就需要去抠Flume的源码了。
在这里Flume针对自定义组件提供了详细的文档说明，我们来看一下通过Flume User Guide可以看到，针对source、channle、sink、Source Interceptors，Channel Selectors、都是可以的，这里面都显示了针对自定义的组件如何配置使用Sink Processors目前暂时不支持自定义。
那这些支持自定义的组件具体开发步骤是什么样的呢？代码该写成什么样的呢？大家还记得Flume有两个文档链接吗？Flume Developer Guide

例如：自定义source

例如：自定义sink

自定义channel的内容目前还没完善，如果你确实想自定义这个组件，就需要到Flume源码中找到目前支持的那些channel的代码，参考着实现我们自定义的channel组件。
大家在这里知道可以自定义，并且知道自定义组件的文档在哪里就可以了，目前来说，需要我们自定义组件的场景实在是太少了，几乎和买彩票中奖的概率差不多。
前面我们掌握了Flume的基本使用和高级使用场景，下面我们来看一下针对Flume的一些企业级优化和监控手段

Flume优化

调整Flume进程的内存大小，建议设置1G~2G，太小的话会导致频繁GC
因为Flume进程也是基于Java的，所以就涉及到进程的内存设置，一般建议启动的单个Flume进程(或者说单个Agent)内存设置为1G~2G，内存太小的话会频繁GC，影响Agent的执行效率。

那具体设置多少合适呢？
这个需求需要根据Agent读取的数据量的大小和速度有关系，所以需要具体情况具体分析，当Flume的Agent启动之后，对应就会启动一个进程，我们可以通过jstat -gcutil PID 1000来看看这个进程GC的信息，每一秒钟刷新一次，如果GC次数增长过快，说明内存不够用。使用jps查看目前启动flume进程

[root@bigdata04 ~]# jps
2957 Jps
2799 Application

执行 jstat -gcutil PID 1000

[root@bigdata04 ~]# jstat -gcutil 2799 1000
S0 S1 E O M CCS YGC YGCT FGC FGCT GCT
100.00 0.00 17.54 42.80 96.46 92.38 8 0.029 0 0.000 0
100.00 0.00 17.54 42.80 96.46 92.38 8 0.029 0 0.000 0
100.00 0.00 17.54 42.80 96.46 92.38 8 0.029 0 0.000 0
100.00 0.00 17.54 42.80 96.46 92.38 8 0.029 0 0.000 0
100.00 0.00 17.54 42.80 96.46 92.38 8 0.029 0 0.000 0
100.00 0.00 17.54 42.80 96.46 92.38 8 0.029 0 0.000 0

在这里主要看YGC YGCT FGC FGCT GCT

YGC：表示新生代堆内存GC的次数，如果每隔几十秒产生一次，也还可以接受，如果每秒都会发生一次YGC，那说明需要增加内存了
YGCT：表示新生代堆内存GC消耗的总时间
FGC：FULL GC发生的次数，注意，如果发生FUCC GC，则Flume进程会进入暂停状态，FUCC GC执行完以后Flume才会继续工作，所以FUCC GC是非常影响效率的，这个指标的值越低越好，没有更好。
GCT：所有类型的GC消耗的总时间

如果需要调整Flume进程内存的话，需要调整 flume-env.s h脚本中的 JAVA_OPTS 参数把 export JAVA_OPTS 参数前面的#号去掉才会生效。

export JAVA_OPTS="-Xms1024m -Xmx1024m -Dcom.sun.management.jmxremote"

建议这里的 Xms 和 Xmx 设置为一样大，避免进行内存交换，内存交换也比较消耗性能。

在一台服务器启动多个agent的时候，建议修改配置区分日志文件

因为在conf目录下有log4j.properties，在这里面指定了日志文件的名称和位置，所有使用conf目录下面配置启动的Agent产生的日志都会记录到同一个日志文件中，如果我们在一台机器上启动了10几个Agent，后期发现某一个Agent挂了，想要查看日志分析问题，这个时候就疯了，因为所有Agent产生的日志都混到一块了，压根都没法分析日志了。
所以建议拷贝多个conf目录，然后修改对应conf目录中log4j.properties日志的文件名称(可以保证多个agent的日志分别存储)，并且把日志级别调整为warn(减少垃圾日志的产生)，默认info级别会记录很多日志信息。这样在启动Agent的时候分别通过–conf参数指定不同的conf目录，后期分析日志就方便了，每一个Agent都有一个单独的日志文件。

以bigdata04机器为例：
复制conf-failover目录，以后启动sink的failover任务的时候使用这个目录
修改 log4j.properties中的日志记录级别和日志文件名称，日志文件目录可以不用修改，统一使用logs目录即可。

[root@bigdata04 apache-flume-1.9.0-bin]# cp -r conf/ conf-failover
[root@bigdata04 apache-flume-1.9.0-bin]# cd conf-failover/
[root@bigdata04 conf-failover]# vi log4j.properties
.....
flume.root.logger=WARN,LOGFILE
flume.log.dir=./logs
flume.log.file=flume-failover.log

再启动的时候就是这样的了

[root@bigdata04 apache-flume-1.9.0-bin]# nohup bin/flume-ng agent --name a1 -

这样就会在flume的logs目录中产生 flume-failover.log 文件，并且文件中只记录WARN和ERROR级别
的日志，这样后期排查日志就很清晰了。

[root@bigdata04 apache-flume-1.9.0-bin]# cd logs/
[root@bigdata04 logs]# ll
total 4
-rw-r--r--. 1 root root 478 May 3 16:25 flume-failover.log
[root@bigdata04 logs]# more flume-failover.log
03 May 2020 16:25:38,992 ERROR [SinkRunner-PollingRunner-FailoverSinkP
rocessor] (org.apache.flume.SinkRunner$PollingRunner.run:158) - Unabl
e to deliver event. Exception follows.
org.apache.flume.EventDeliveryException: All sinks failed to process,
nothing left to failover to
at org.apache.flume.sink.FailoverSinkProcessor.process(Failove
rSinkProcessor.java:194)
at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.ja
va:145)
at java.lang.Thread.run(Thread.java:748)

Flume进程监控

Flume的Agent服务是一个独立的进程，假设我们使用source->channel->sink实现了一个数据采集落盘的功能，如果这个采集进程被误操作干掉了，这个时候我们是发现不了的，什么时候会发现呢？
可能第二天，产品经理找到你了，说昨天的这个指标值有点偏低啊，你来看下怎么回事，然后你就一顿操作猛如虎，结果发现原始数据少了一半多，那是因为Flume的采集程序在昨天下午的时候被误操作干掉了。
找到问题之后，你就苦巴巴的手工去补数据，重跑计算程序，最后再找产品经理确认数据的准确性。类似的问题会有很多，这说明你现在是无法掌控你手下的这些程序，他们都是不受控的状态，说不定哪天哪个程序不高兴，他就自杀了，不干活了，过了好几天，需要用到这个数据的时候你才发现，发现的早的话还能补数据，发现晚的话数据可能都补不回来了，这样对公司来说就是属于比较严重的数据故障问题，这样你年终奖想拿18薪就不太现实了。
所以针对这些存在单点故障的进程，我们都需要添加监控告警机制，最起码出问题能及时知道，再好一点的呢，可以尝试自动修复重启。
那针对Flume中的Agent我们就来实现一个监控功能，并且尝试自动重启
大致思路是这样的，

首先需要有一个配置文件，配置文件中指定你现在需要监控哪些Agent
有一个脚本负责读取配置文件中的内容，定时挨个检查Agent对应的进程还在不在，如果发现对应的进程不在，则记录错误信息，然后告警(发短信或者发邮件) 并尝试重启
创建一个文件 monlist.conf文件中的第一列指定一个Agent的唯一标识，后期需要根据这个标识过滤对应的Flume进程，所以一定要保证至少在一台机器上是唯一的，
等号后面是一个启动Flume进程的脚本，这个脚本和Agent的唯一标识是一一对应的，后期如果根据
Agent标识没有找到对应的进程，那么就需要根据这个脚本启动进程

example=startExample.sh

这个脚本的内容如下： startExample.sh

#!/bin/bash
flume_path=/data/soft/apache-flume-1.9.0-bin
nohup ${flume_path}/bin/flume-ng agent --name a1 --conf ${flume_path}/conf/ -

接着就是要写一个脚本来检查进程在不在，不在的话尝试重启
创建脚本 monlist.sh

#!/bin/bash
monlist=`cat monlist.conf`
echo "start check"
for item in ${monlist}
do
# 设置字段分隔符
OLD_IFS=$IFS
IFS="="
# 把一行内容转成多列[数组]
arr=($item)
# 获取等号左边的内容
name=${arr[0]}
# 获取等号右边的内容
script=${arr[1]}
echo "time is:"`date +"%Y-%m-%d %H:%M:%S"`" check "$name
if [ `jps -m|grep $name | wc -l` -eq 0 ]
then
# 发短信或者邮件告警
echo `date +"%Y-%m-%d %H:%M:%S"`$name "is none"
sh -x ./${script}
fi
done

注意：这个需要定时执行，所以可以使用crontab定时调度

* * * * * root /bin/bash /data/soft/monlist.sh

你可能感兴趣的:(大数据学习,flume,学习,笔记)

得到三周年直播收获简记张照浩
好久没有节奏性的学习得到了，我体会的结论是--一旦停止，前功尽弃，此言不虚啊~哈哈。学的少，进步的少，这就是我的代价。幸好在中午看到朋友分享海报，点进了得到三周年的直播，信息量很大，干货满满，当时没有记笔记，复盘一下，固化下知识，也便于今后再学习。我理解的这场直播为什么会有的原因如下：1、强化仪式感和节奏感。2、正向引导，尊重付出，给予反馈和获得感。3、价值吸引，强化品牌影响力，做推广。4、践行价
小教师的感悟随笔365【36】不帅的张老师
忙碌的一天，在回家的路上。突然想到身为班主任带好的班级，老师都会带，学生具有一定的自觉性，稍微管理就会取得一定的成绩。对于非常差的班级如果带好才能真正的考验班主任，如何协调老师对班级空闲时间的管理、如何做学生的思想，如何激发学生学习的积极性等，这才是真正的考验！在今年管理学生班级中，对待学校布置的部分任务，如布置向家长要求一些的任务，我不是那么一定的为了学校的任务而去要求家长，这一点我稍微的改变，
2023-05-15 越来越好崔
2023-05-15中原焦点网中级36学员李灵芝坚持分享第364儿童技能教养法的学习过程中，我们要帮助孩子建立信心。让孩子相信他有能力学会这个技能。无论我们说的理由是多么的理性或者是无厘头。重要的是让孩子听到有这么多人才告诉他。有这么多人都确信他能学会。我们告诉孩子，你对他有信心的时候，并把你的信心传递给他。并帮助他建立了信心。这是点燃孩子学习激情的不可或缺的火花。但掌握技能的唯一方法就是一遍一遍
舍得让你爱的人受苦北上的路上没有你
今天看了一本书《舍得让你爱的人受苦》。在书中，作者提出：有时候我们在自己的情绪模式和互动惯性的遮蔽下，会看不清楚我们和爱人、亲人、家人、好友、同事之间到底发生了什么事情。而这本书可以帮助我们穿越各种错综复杂的关系，穿越自我的障碍，通过学习如何面对自己最好以及最糟的特质，学会接纳、臣服和放手，来修复和重塑我们与亲密爱人、友人及自己之间的关系，并最终找到通往爱和幸福的路径。作者说：想幸福，要能断、舍、
再也没有小时候的快乐了周晴同学
读书的时候，总想在二十岁之前有段美好的恋爱，觉得肯定是浪漫的，那种执念就像是种在了心里一样，突然发芽了，于是等着那个人来牵我的手。工作以后，又总想回到读书的时候，想着绝对不会虚度光阴，把心思都放在学习上，我想，大概是我现在过的不如当初自由了吧。也没有以前好，所以总想着重来，间接性斗志满满，持续性懒惰自我安慰。有时候会超级丧，对目前无能为力的感觉，就想逃避一切。因此不得不试着转移注意力。让自己不去想
281129-李晏林-2022/12/6【day56】尘心_aa8c
学《于敏洪案例》第五天今天听民于敏洪案例，学了今天感觉有点疲惫，在听课过程中最大的促动还是在于每天及时送自己鼓励，这件事情，有再做没做好，也没做好精准的数据统计，不养成习惯，对于自己来说会成很大问题，可能这个学这个课程一结束，没过多久这方法就被自己忘于脑后。先给自己制定确实可量化的指标，刚开始，先给自己送20个鼓励，每完成5个做次记录。鼓励分为明的鼓励，与自我暗示。学习于敏洪案例的本质是什么？从于
抄书打卡第2天八月荒
本来今天计划抄一章的，可是，由于生病住院，耽搁了，只抄了一半。虽然只抄了一半，但还是有收获的。本章节主要讲的是在录节目的时候，人们无法分辨真假情感流露，而作者又是追求真实的东西，讨厌弄虚作假。为博眼球，很多电视节目都把情感做了假。收视率肯定上去了，可这是我们需要的吗？这样的手段长期用，观众也会审视疲劳的。这就是很多节目陆陆续续淡出荧幕的根本原因。这就是我今天抄书的收获。抄书，是另一种学习进步的方式
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
不可多得的风味小吃——读杨勇的《家园四书》（笔记4）潜2023
身为亳州人，谁不喜欢了解亳州事？读杨勇先生（雅不知）的《家园四书》，相当于走进了亳州，了解她的过去和现在。《家园四书》总共有四部分组成，每一部分都是一道亳州风味的小吃，让你了解亳州的同时，更能咀嚼出她的美。《历史书：明月前身》写了亳州诸多历史人物。写得厚重大气，篇篇有铮铮铁骨，文笔刚劲有力，也不乏诙谐，偶有文白相间之处，读来很有韵味，像作者的书法，需得细细地品。它是亳州的肉夹馍，咔吱一口咬下去，满
20180722【剽悍行动营8】DAY1 嘉宾分享——赵周《碎片化时代你最缺的知识管理五招》英娟儿
补课五、自己学习后的五个收获：1.区分两类知识管理：追求知识本身；追求致用与成长。2.便签学习法的三个维度：A用自己的语言重述信息（理解）A1描述自己相关经验（内化）A2规划自己的目标与行动3.一切不改变行动的知识管理都是浪费。也就是说，不管是何种知识管理，都要以行动为目的。4.信息和知识的区别，又一次听到这两个概念的区别。5.构建知识体系是知识管理的最高境界。三、自己需要改善的（三个方面）:1.
【职场小技巧】技术管理者的困惑@稀土永磁Amy@20210104@上海稀土永磁Amy
技术出身的管理者会沉迷于技术细节，把大量的时间花在学习新技术或者解决技术难题上。“告诉你怎么干，还不如我自己干更容易”是技术专家型管理者常说的一句话，尤其是他们看到团队成员中，有人的工作令人不满意，而这项工作又恰恰是自己老本行时，更是如此。因为对结果不满意，就亲自动手来做，第1次我来，第2次我来，很快就把猴子背到自己的背上。这些管理者必须明白，判断管理工作是否有效的标准是团队的绩效，而不是自己做的
复习博客：JVM hdzw20 java八股文复习 jvm java intellij-idea spring 后端
复习博客：JVM今日复习内容今天学习Java虚拟机（JVM），它是Java程序运行的基石。理解JVM的工作原理对于优化Java应用性能和排查问题至关重要。主要复习了以下内容：JVM内存模型JVM内存模型（也称为运行时数据区域）主要分为以下几个部分：程序计数器(ProgramCounterRegister)：一块较小的内存空间，是当前线程所执行的字节码的行号指示器。每个线程都有一个独立的程序计数器，
Matlab学习笔记：矩阵基础
MATLAB学习笔记：矩阵基础作为MATLAB的核心，矩阵是处理数据的基础工具。矩阵本质上是一个二维数组，由行和列组成，用于存储和操作数值数据。在本节中，我将详细讲解矩阵的所有知识点，包括创建、索引、运算、函数等，确保内容通俗易懂。我会在关键地方添加MATLAB代码示例，帮助你直观理解。最后，我会总结本课重点，并引出下一节“逻辑基础”的内容。一、什么是矩阵？在MATLAB中，矩阵是一个二维数组，元
ROS个人笔记
写在前面：由于个人原因距离上次学习ROS已经过去了2周时间，本以为时间不算长，但还是忘记了好多。因此写下这篇笔记，主要是记录学习过程中的概念性问题，程序代码可能会写，但是不是主要。1.ROS是什么：是一个生态系统，首先他是一个操作系统。统筹各种资源如通信，开发等。2.在以往开发时一旦工程庞大起来往往会对数据流通的耦合十分苦恼，因此ROS提供的通信方式为松耦合式的：节点Node。另外大工程时的另外一
乐惠国际怎么去学习操作技巧？该怎么分辨是否安全？御老师
微交易市场形式千变万化，稍有不慎就会导致亏损，为了把握盈利机会，最大限度降低风险，对基本面进行分析是必做功课。微交易中的基本面，指的是各种重大新闻、财政热点，这些动态资讯与市场行情走势息息相关，需要重点关注。那么，分析消息面时要注意哪些事项?搜索【庞老师微信：wtz677】一起学习盈利技巧一、注意资讯的时效性时效性是新闻的生命，直接关系到新闻信息的价值。在互联网时代，投资人可以突破地域限制，快速获
假如我有一个亿，我要怎么花？雯雯➕26号➕Ｄ2预热雯彩飞扬007
假如我有一个亿我将从三个时点来安排。你：200万元。给我爱的人一个安定的家和适合的保险。让他们从艰辛的体力劳动中抽离出来，安享晚年我：用500万做稳定的存款，1000万做理财，1000万用作天使投资。1000万用来做个人投资发展资金，学习西班牙语，出国留学，留出时间定期旅行✈️。用100万元买下2套门面房保证稳定的持续收入。他：1000万元在我所在的城市办一座概念图书馆，包含阅读和社交的功能，以公
20180818《遇见心想事成的自己》读书笔记苗苗聊成长
读书时间：20180813-20180818此书主要分为两部分，第一部分是心想事成的秘密，第二部分是秘密后的秘密。看到这两个主题就想起，曾经有些时候，也会期盼着能够心想事成，让自己在困境中突围，然而往往不管用，上天总是不会给到你想要的东西。看了此书才恍然大悟，原来心想事成也有方法，也讲套路。秘密后的秘密，才是核心。在这个快餐式的时代，很多时候我们只学一些表面上的术，就想达成所愿，化解一切难题，往往
2023-05-27 花开生两面
投射我儿读书明理，修身做人，每天阳光快乐，情绪平和稳定，越来越会调节自己的情绪和压力。投射我儿对家人、他人、社会都常怀一颗感恩之心，是一个暖心的男子汉。投射我儿对自己未来人生规划清晰，建立学习中短期目标，并为此不断努力。投射我儿生活、学习自律，扎实打好各学科基础，大二下学期的期末总绩点能进入本专业年级前15名，拿到保研资格。投射我儿大学期间交到一两位充满正能量的知心好友。投射我儿和3位新舍友能互帮
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
HCIP第一、二章笔记整理 aaaBsBsBsB 笔记网络 tcp/ip
第一章：TCP协议的扩展一、面向连接点到点：TCP通讯中仅存在通讯双方，无第三方。连接性质：非物理链路上的连接，而是逻辑上的连接。二、TCP的报文结构核心字段：包括源端口号（16位）、目标端口号（16位）、序列号（32位）、确认应答号（32位）、首部长度（4位）、保留位（6位）、标记位（如SYN、ACK、RST等）、窗口大小（16位）、校验和（16位）、紧急指针（16位）、选项（可变长度）及数据。
家长也是小学生之《家庭教育口传书》124 井蛙读书
在我们高度关注如何进行家庭教育的时候，似乎忽略了一个问题——作为家庭教育关键环节的家长一环够不够强。家长的格局决定孩子的未来，可如何提升家长的格局又不是一时三刻的事。每一个家长都是从第一次开始的，成为家长的那一刻，家长与孩子是一样的，对未来的一切都是现学现用的。要想在家长这个身份上做的够好够强，就要不停地学习，以小学生的心态终身学习，陪孩子一起成长。今天继续分享《家庭教育口传书》——一本我被序言吸
HCIP第一天课程笔记整理搞IT的马哥 IP 网络网络协议 tcp/ip 服务器
HCIP----huawei认证高级工程师抽象语言先转化成编码编码一定要转化成二进制（为什么一定要转化成二进制？）二进制信号转化成电信号处理电信号（协议等同于标准，目的就是提升服务）（1876年电话诞生，1946年第一台电子计算机诞生）OSI参考模型---OSI/RM---ISO（国际标准化组织）---1979年颁布开放式系统互联参考模型（应表会传网数物）应用层---提供各种应用服务，将抽象语言转
2019-06-06 906bbbe1730f
尊敬的李老师，智慧的教授，亲爱的跃友们，大家晚上好！我是来自临沂永林木业的姜秀萍，今天是我日精进分享的第180天，给大家分享我今天的进步，每天进步一点点，距离成功便不远。比学习好好学好数学，计算，口算，培养孩子的同时，也锻炼了自己，会给自己的工作带来帮助。比改变我变了，世界就变了，虚心学习，从内而外，提高自身素养，和专业技能。比付出承担才会成长，付出才会杰出，只要努力付出，定会在将来的某一天收获成
单片机C语言程序设计实训100例--Proteus仿真实战
本文还有配套的精品资源，点击获取简介：《单片机C语言程序设计实训100例--Proteus仿真实战》是一本面向初学者和进阶者的实践指南，通过100个实例帮助读者掌握8051单片机的C语言编程技能。涵盖了I/O端口控制、定时器/计数器、中断系统、串行通信等关键知识点，并结合Proteus仿真，使得学习过程更为直观和高效。本课程设计项目经过测试，旨在帮助学生掌握单片机C语言编程的实际应用，为进入更复杂
中原焦点团队焦点初级32期孙晓娟2022年️3月10日坚持分享第️30天 85b9745cfed8
一个连父母都不放在眼里的孩子，长大后也必然是一位斤斤计较、眼界狭窄、礼仪欠缺的人。父母就是孩子最初成长的学习对象，严格要求自我，把控好自己的一言一行。孩子才能从父母这里，学会包容与爱，学会理解与尊重。我们尊重孩子，也赢得孩子的尊敬.如此才能让良好的教育理念滋养孩子的心田，幻化成孩子前行的动力，陪他走过漫长的人生岁月。
Java学习-----Bean 典孝赢麻崩乐急 java 学习 rpc
在Spring框架中，Bean是核心概念之一，它贯穿了整个Spring应用的生命周期，是实现依赖注入（DI）和控制反转（IoC）的基础。理解Bean的原理、作用及使用特点，对于掌握Spring框架至关重要。SpringBean的本质是由SpringIoC容器管理的对象，它的创建、初始化、依赖注入及销毁等过程均由容器控制，而非通过传统的new关键字手动创建。其核心原理可概括为以下两点：1.控制反转（
Java学习----NIO模型典孝赢麻崩乐急 java 学习 nio
在Java的I/O模型中，NIO（Non-BlockingI/O，非阻塞I/O）是对BIO的重要改进。它为高并发场景提供了更高效的处理方式，在众多Java应用中发挥着关键作用。NIO模型的核心在于非阻塞和多路复用，其采用“一个线程处理多个连接”的模式，主要依靠通道（Channel）、缓冲区（Buffer）和选择器（Selector）这三个核心组件协同工作，每个核心组件的功能原理和功能如下：（1）通
Java学习————————ThreadLocal 典孝赢麻崩乐急 java 学习开发语言
ThreadLocal是Java中一个非常重要的线程级别的变量隔离机制，它提供了线程局部变量，使得每个线程都可以拥有自己独立的变量副本，从而避免了多线程环境下的共享变量竞争问题。ThreadLocal的实现原理主要依赖于：（1）ThreadLocalMap：每个Thread对象内部都有一个ThreadLocalMap实例（2）弱引用键：ThreadLocalMap使用ThreadLocal对象作为
【第17章】亿级电商订单系统架构设计-概要设计 cherry5230 亿级流量架构设计与落地系统架构架构分布式中间件
1-1本章导学课程概述核心内容：从粗到精细化系统架构设计项目案例：年交易额200亿的B2B电商平台订单系统学习路径1.高层架构设计细化阶段分为两个核心部分：概要设计（本章重点）详细设计2.本章学习目标(1)概要设计方法论理解设计阶段的核心任务掌握具体实施方法建立设计思想指导体系(2)项目实践应用项目工程架构搭建环境配置规范组件关系梳理客户端->网关层->业务层->数据层(3)基础框架构建工程结构初
小红书增加曝光率晓谈小红书_46f9
小红书目前来说的话，主要是依靠内容口碑模式，社群类型营销，笔记，类似于大众电商类型，但是我个人觉得小红书更有优势，以下是我发过的一些操作推广小技巧可以了解下。推广大致大家都大同小异，我只能给予一些适当帮助，如有推广业务需求可以随时私聊我。以下是我个人一些增加曝光率一些方式1：过硬的内容加上适当的曝光，点赞，评论，收藏，转发，等于文章的热度与曝光率2：内容过硬的同时，文章也需要注意一下排版，底色，文
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str