wangpei1949

数据收集之Flume

Flume最初由Cloudera开发，于2011年6月贡献给Apache,于2012成为顶级项目。在孵化这一年，基于老版本的Flume(Flume OG：Flume Original Generation 即Flume 0.9.x版本)进行重构，摒弃了Zookeeper和Master，升级为现在的轻量级的Flume(Flume NG：Flume Next Generation，即Flume 1.x版本)，

架构要点

核心概念

Agent：Flume进程，包含组件Source、Channel、Sink。
Source：源。收集数据，发送给Channel。
Sink：输出。从Channel取数据，发送到目标地。
Channel：缓冲。缓存Source传递过来的Event。
Event：事件。Flume处理数据的最小单元。由键值对的Header和字节数组Body组成。

基本架构

单个Flume Agent基本架构。

运行机制

提到Flume的运行机制，就不得不提Flume的事务机制和可靠性。

Flume最核心的就是把数据从数据源收集过来，再送达到目的地。为了保证At-Least-Once投送，Agent会事先把Events缓存起来并采用两阶段事务提交的方式。每一批次对应两个事务，Source-Channel事务，保证这一Batch放入Channel的操作是原子的，要么全部放入Channel，要么一个不放；Channel-Sink事务，保证事务的投送是原子的，要么全部投送成功，要么全部回滚。

主要组件

Source

HTTP Source

某些环境可能不能部署Flume，此时可用HTTP Source接收数据倒Flume中。
在${FlUME_HOME}/conf目录下创建http_source.conf，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = http
agent.sources.s1.bind = 0.0.0.0
agent.sources.s1.port = 9600

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/http_source.conf -Dflume.root.logger=DEBUG,console -n agent

发送POST请求,观察日志变化。

curl -X POST -d'[{"headers":{"Header1":"value1","Header2":"value2"},"body":"this is http source"}]'  http://192.168.113.102:9600

Avro Source

在${FlUME_HOME}/conf目录下创建avro_source.conf，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = avro
agent.sources.s1.bind = 0.0.0.0
agent.sources.s1.port = 4141

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/avro_source.conf -Dflume.root.logger=DEBUG,console -n agent

在${FlUME_HOME}目录下启动一个avro-client 客户端生产数据

bin/flume-ng avro-client -H localhost -p 4141 -F README.md

可以看到，README.md中的内容被接收并打印出来了。

Exec Source

Exec Source可执行Linux命令，并将输出同步给Sink。
在${FlUME_HOME}/conf目录下创建exec_source.conf，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = exec
agent.sources.s1.command = tail -f /data/software/apache-flume-1.7.0-bin/data/access.log

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/exec_source.conf -Dflume.root.logger=DEBUG,console -n agent

向/data/software/apache-flume-1.7.0-bin/data/access.log中追加数据，观察日志变化。
注意:agent重启会重复消费。

Spooling Directory Source

Spooling Directory Source可监听一个目录，同步目录中的新文件到sink,被同步完的文件可被立即删除或被打上标记。适合用于同步新文件，但不适合对实时追加日志的文件进行监听并同步。
在${FlUME_HOME}/conf目录下创建spooling_directory_source.conf ，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = spooldir
#监控目录
agent.sources.s1.spoolDir = /data/software/apache-flume-1.7.0-bin/data
#Event Header中添加文件绝对路径
agent.sources.s1.fileHeader = true

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/spooling_directory_source.conf -Dflume.root.logger=DEBUG,console -n agent

cp一个文件到/data/software/apache-flume-1.7.0-bin/data,观察agent日志变化,且能看到被同步的文件被打上.COMPLETED后缀。

Taildir Source

Taildir Source可实时监控一批文件，并记录每个文件最新消费位置。
具体可见：Flume Taildir Source监听实时追加内容的文件

Kafka Source

在${FlUME_HOME}/conf目录下创建kafka_source.conf ，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = org.apache.flume.source.kafka.KafkaSource
agent.sources.s1.kafka.bootstrap.servers = localhost:9092
agent.sources.s1.kafka.topics = testTopic3
agent.sources.s1.kafka.consumer.group.id = consumer_testTopic3

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/kafka_source.conf -Dflume.root.logger=DEBUG,console -n agent

向testTopic3发送数据，可以看到消息被打印出来。如{ headers:{topic=testTopic3, partition=2, timestamp=1534177649622} body: 6E 6E 6E nnn }

Sink

Logger Sink

主要用于测试。将收到的Events以Logger INFO Level的方式打印出来。

在Source中多次使用，这里不再赘述。

File Roll Sink

Events存放本地文件系统。

在${FlUME_HOME}/conf目录下创建file_roll_sink.conf ，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = http
agent.sources.s1.bind = 0.0.0.0
agent.sources.s1.port = 9600

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = file_roll
#文件存放目录
agent.sinks.r1.sink.directory = /data/software/apache-flume-1.7.0-bin/data/logs
#多久生成一个新文件，单位秒。指定0将禁用滚动并导致所有事件都写入单个文件。
agent.sinks.r1.rollInterval = 30

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/file_roll_sink.conf -Dflume.root.logger=DEBUG,console -n agent

向9600端口发送数据，观察日志及 /data/software/apache-flume-1.7.0-bin/data目录变化。可看到每隔30秒生成一个新文件。

for i in `seq 1 100`;do curl -X POST -d'[{"headers":{"Header1":"value1","Header2":"value2"},"body":"Hello"}]'  http://192.168.113.102:9600;done

HDFS Sink

Events写到HDFS 分布式文件系统中。

在${FlUME_HOME}/conf目录下创建hdfs_sink.conf ，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = exec
agent.sources.s1.command = tail -f /data/software/apache-flume-1.7.0-bin/data/access.log

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = hdfs
#使用服务器本地时间代替Event Header中的timestamp
#注意:HDFS Sink中所有与时间相关的转义序列，事件标题中必须存在带有“timestamp”键的标头（除非hdfs.useLocalTimeStamp设置为true）>。自动添加timestamp的一种方法是使用TimestampInterceptor
agent.sinks.r1.hdfs.useLocalTimeStamp = true
#hdfs 目录 这里%Y%m%d取自timestamp
agent.sinks.r1.hdfs.path = hdfs://node1:8020/test/%Y%m%d/accessLog
#hdfs 目录下文件前缀
agent.sinks.r1.hdfs.filePrefix = data
#hdfs 目录下文件后缀
agent.sinks.r1.hdfs.fileSuffix = .log
#多少秒生成一个新文件 0:不根据时间滚动
agent.sinks.r1.hdfs.rollInterval = 60
#文件达到多少字节后生成一个新文件 0:不根据文件大小滚动
agent.sinks.r1.hdfs.rollSize = 1024
#多个个Event生成一个新文件 0:不根据事件数量滚动
agent.sinks.r1.hdfs.rollCount = 10
#Event数量达到多少向hdfs刷新一次
agent.sinks.r1.hdfs.batchSize = 100
#指定压缩格式 支持gzip, bzip2, lzo, lzop, snappy
#agent.sinks.r1.hdfs.codeC =
#文件类型 支持SequenceFile, DataStream or CompressedStream
#DataStream 不启用压缩
agent.sinks.r1.hdfs.fileType = DataStream
#文件格式
agent.sinks.r1.hdfs.writeFormat = Text

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/hdfs_sink.conf -Dflume.root.logger=DEBUG,console -n agent

向/data/software/apache-flume-1.7.0-bin/data/access.log中追加文件，观察日志和HDFS目录变化。

for i in `seq 1 1000`;do echo "Hello Flume ${i}">> /data/software/apache-flume-1.7.0-bin/data/access.log;sleep 1;done

可以看到，HDFS中生成了新文件。内容如下：

hdfs dfs -cat /test/20180814/accessLog/data.1534211236747.log
Hello Flume 21
Hello Flume 22
Hello Flume 23
Hello Flume 24
Hello Flume 25
Hello Flume 26
Hello Flume 27
Hello Flume 28
Hello Flume 29
Hello Flume 30

Kafka Sink

Events 写到Hive 分区或Hive表中。
在${FlUME_HOME}/conf目录下创建kafka_sink.conf ，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.r1.kafka.bootstrap.servers = node2:6667,node3:6667,node1:6667
agent.sinks.r1.kafka.topic = testTopic

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/kafka_sink.conf -Dflume.root.logger=DEBUG,console -n agent

向端口6666发送数据，观察到kafka-console-consumer消费出了数据。

telnet localhost 6666
Hello Flume!

其他Sink

Hive Sink
通过Hive的事务，将Events近实时写到Hive分区中。注意:Hive必须开启事务，Hive的表必须是内部表，且是桶表，需存储为ORC格式。
HBase Sink
将Events存储到HBase中。写入HBase不成功会尝试重写。
Async HBase Sink
以异步的方式将Events存储到HBase中，比普通的HBase Sink要快。
Elasticsearch Sink
Flume 支持的Elasticsearch版本较老。各种不兼容问题。
Avro Sink
Avro Sink多用于多Agent节点间数据传输。
File Roll Sink
把Events存储到本地文件系统。
Null Sink
丢弃从Channel中取到的Events。

Channel

Channel临时缓存Events。Source向Channel添加事件，Sink从Channel删除事件。

Memory Channel

Events存储在内存中。吞吐量高，但Agent重启、JVM崩溃会丢数据。
关键参数：

agent.channels.c1.type = memory
channel的类型是memory
agent.channels.c1.capacity
默认100。channel中存储的最大事件数
agent.channels.c1.transactionCapacity
默认100。指源Source单次事务可以写入的最大事件数，也指Sink单次事务所能读取的最大事件数。可以增大该值，但要注意还要同时增加JVM堆空间大小，因为事件是以Event对象的形式存在于堆中的。同时还要注意，增大该值可以提升速度，但事务失败就要回滚更多的数据。
agent.channels.c1.keep-alive
单位是秒，默认3秒。指channel已满，Source线程将Events写入到channel中的等待时间，这个值设的太大容易导致Events堵在Source端。会抛出异常。
agent.channels.c1.byteCapacityBufferPercentage与agent.channels.c1.byteCapacity
使用字节而非数量来控制内存中事件的总大小。避免OutOfMemoryError。

File Channel

Events持久化到文件中。多个Channel，应为每个Channel显示指定检查点目录和数据目录，且尽量在不同磁盘。
关键参数：

agent.channels.c1.type = file
agent.channels.c1.dataDirs
数据持久化目录。逗号分隔。在不同磁盘上使用多个目录可以提高文件通道的性能。
agent.channels.c1.checkpointDir
检查点目录。
agent.channels.c1.checkpointInterval
两个检查点之间的毫秒数。
agent.channels.c1.useDualCheckpoints与agent.channels.c1.backupCheckpointDir
备份检查点目录。
agent.channels.c1.capacity
默认1000000。同Memory Channel。
agent.channels.c1.transactionCapacity
默认10000。同Memory Channel。
agent.channels.c1.keep-alive
单位是秒，默认3秒。同Memory Channel。

在${FlUME_HOME}/conf目录下创建file_channel_sink.conf ，内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

#channel
agent.channels.c1.type = file
agent.channels.c1.dataDirs = /data/software/apache-flume-1.7.0-bin/data/fileChannel/dataDirs
agent.channels.c1.checkpointDir = /data/software/apache-flume-1.7.0-bin/data/fileChannel/checkpointDir
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 100

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/file_channel_sink.conf -Dflume.root.logger=DEBUG,console -n agent

向6666端口发送一段时间数据后，将agent关掉，然后重启。观察变化。

for i in `seq 1 100000`;do echo ${i} > /dev/tcp/localhost/6666;echo ${i};done

重启后可以看到，flume会接着消费。

其他Channel

Kafka Channel
Events缓存在Kafka中，但需要Kafka 0.9以上的版本。
JDBC Channel
Events缓存在数据库中。目前只支持Derby。
Spillable Memory Channel
Events同时缓存在内存和文件中。内存做主存。实验性的，不建议生产下使用。
Pseudo Transaction Channel
仅用于测试，不用于生产。

Channel Selector

一个源Source可以被选择性的写入多个Channel中，叫Channel选择器。

多路复制

同一Source数据，复制多份，即复制到多个Channel，每个Channel最终分别发向不同Sink，如HDFS、Kafka、本地文件系统等。
关键参数：

agent.sources.s1.selector.type = replicating
channel selector为多路复制。
agent.sources.s1.selector.optional = c1
如下c1是可选channel。无法写入c1的事务会被忽略。c2和c3未标记为可选，无法写入这些channel将导致事务失败。

在${FlUME_HOME}/conf目录下创建replicating_channel_selector.conf 内容如下：

agent.sources = s1
agent.channels = c1 c2 c3
agent.sinks = r1 r2 r3

#source 配置
#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

#配置channel selector
agent.sources.s1.selector.type = replicating
agent.sources.s1.channels = c1 c2 c3
agent.sources.s1.selector.optional = c1

#channel 配置
#channel c1
agent.channels.c1.type = file
agent.channels.c1.dataDirs = /data/software/apache-flume-1.7.0-bin/data/fileChannel/dataDirs
agent.channels.c1.checkpointDir = /data/software/apache-flume-1.7.0-bin/data/fileChannel/checkpointDir
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 100

#channel c2
agent.channels.c2.type = memory

#channel c3
agent.channels.c3.type = memory

#sink 配置
#sink r1
agent.sinks.r1.type = logger

#sink r2
agent.sinks.r2.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.r2.kafka.bootstrap.servers = node2:6667,node3:6667,node1:6667
agent.sinks.r2.kafka.topic = testTopic

#sink r3
agent.sinks.r3.type = file_roll
agent.sinks.r3.sink.directory = /data/software/apache-flume-1.7.0-bin/data/file_roll

#source/channel/sink绑定
agent.sinks.r1.channel = c1
agent.sinks.r2.channel = c2
agent.sinks.r3.channel = c3

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/replicating_channel_selector.conf -Dflume.root.logger=DEBUG,console -n agent

向6666端口发送数据后，在控制台、file_roll目录、kafka中均收到一样的数据。

for i in `seq 1 100000`;do echo '{"name":"'"name${i}"'","age":10}' > /dev/tcp/localhost/6666;echo ${i};done

多路复用

同一Source，根据某个Header值分别写入到不同Channel中。

关键参数：

agent.sources.s1.selector.type = multiplexing
channel selector为多路复用。
agent.sources.s1.selector.header
用Header中哪个字段的值分流。
agent.sources.s1.selector.mapping.*
值匹配到*则发送到相应channel。

在${FlUME_HOME}/conf目录下创建multiplexing_channel_selector.conf 内容如下：

agent.sources = s1
agent.channels = c1 c2 c3
agent.sinks = r1 r2 r3

#source 配置
#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

#这里使用拦截器向Event Header中添加字段
agent.sources.s1.interceptors = i1
#基于正则从Event body中抽取字段,添加到Event Header中
agent.sources.s1.interceptors.i1.type = regex_extractor
agent.sources.s1.interceptors.i1.regex = "log_type":"(\\w+)".*
agent.sources.s1.interceptors.i1.serializers = i1_ser1
agent.sources.s1.interceptors.i1.serializers.i1_ser1.name = log_type

#配置channel selector 为多路复用
agent.sources.s1.channels = c1 c2 c3
agent.sources.s1.selector.type = multiplexing
#使用Header中log_type字段的值分流
agent.sources.s1.selector.header = log_type
#Header中log_type=AppError 发送到channel c1
agent.sources.s1.selector.mapping.AppError = c1
#Header中log_type=UserInfo 发送到channel c2
agent.sources.s1.selector.mapping.UserInfo = c2
#Header中log_type=AccessLog 发送到channel c3
agent.sources.s1.selector.mapping.AccessLog = c3

#channel 配置
#channel c1
agent.channels.c1.type = file
agent.channels.c1.dataDirs = /data/software/apache-flume-1.7.0-bin/data/fileChannel/dataDirs
agent.channels.c1.checkpointDir = /data/software/apache-flume-1.7.0-bin/data/fileChannel/checkpointDir
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 100

#channel c2
agent.channels.c2.type = memory

#channel c3
agent.channels.c3.type = memory

#sink 配置
#sink r1
agent.sinks.r1.type = logger

#sink r2
agent.sinks.r2.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.r2.kafka.bootstrap.servers = node2:6667,node3:6667,node1:6667
agent.sinks.r2.kafka.topic = testTopic

#sink r3
agent.sinks.r3.type = file_roll
agent.sinks.r3.sink.directory = /data/software/apache-flume-1.7.0-bin/data/file_roll


#source/channel/sink绑定
agent.sinks.r1.channel = c1
agent.sinks.r2.channel = c2
agent.sinks.r3.channel = c3

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/multiplexing_channel_selector.conf -Dflume.root.logger=DEBUG,console -n agent

向6666端口发送数据后，在控制台、file_roll目录、kafka中分别收到各自的数据。

log1='{"log_type":"AppError","msg":"this is AppError !"}'
log2='{"log_type":"UserInfo","msg":"this is UserInfo !"}'
log3='{"log_type":"AccessLog","msg":"this is AccessLog !"}'

#将会在kafka中收到此类数据
for i in `seq 1 100000`;do echo "${log2}" > /dev/tcp/localhost/6666;echo ${i};done

Sink Processors

通过接收器组，来解决Sink的单点故障与负载均衡问题。

故障转移 Failover Sink Processor

维护一个带优先级的sink列表，对失败根据优先级进行路由。若sinks都不可用，则事务会回滚。

关键参数：

agent.sinkgroups.g1.processor.type = failover
配置接收器组中接收器之间处理方式为故障转移。
agent.sinkgroups.g1.processor.priority.r1
配置每个接收器sink的优先级。
agent.sinkgroups.g1.processor.maxpenalty
不可用接收器的最大等待毫秒数。首次失败，间隔一秒后失败sink才可使用，之后指数级等待直到达到最大上限maxpenalty。

在${FlUME_HOME}/conf目录下创建failover_sink_processor.conf 内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1 r2

#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

#channel
agent.channels.c1.type = memory

#sink
agent.sinkgroups = g1
agent.sinkgroups.g1.sinks = r1 r2
#故障转移
agent.sinkgroups.g1.processor.type = failover
#sink r1 的优先级是10
agent.sinkgroups.g1.processor.priority.r1 = 10
#sink r2 的优先级是100 会优先写到文件
agent.sinkgroups.g1.processor.priority.r2 = 100
#不可用接收器的最大等待毫秒数
agent.sinkgroups.g1.processor.maxpenalty = 10000

#sink r1
agent.sinks.r1.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.r1.kafka.bootstrap.servers = node2:6667,node3:6667,node1:6667
agent.sinks.r1.kafka.topic = testTopic

#sink r2
agent.sinks.r2.type = file_roll
agent.sinks.r2.sink.directory = /data/software/apache-flume-1.7.0-bin/data/file_roll

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1
agent.sinks.r2.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/failover_sink_processor.conf -Dflume.root.logger=DEBUG,console -n agent

向端口发送数据,可以看到，数据都写进file_roll sink对应的本地目录，然后删掉file_roll sink本地目录(模拟某个sink挂掉)，数据发送到kafka。

log2='{"log_type":"UserInfo","msg":"this is UserInfo !"}'
for i in `seq 1 100000`;do echo "${log2}" > /dev/tcp/localhost/6666;echo ${i};done

负载均衡 Load balancing Sink Processor

接收器组中的接收器之间根据负责均衡策略。
关键参数：

agent.sinkgroups.g1.processor.type = load_balance
配置接收器组中接收器之间处理方式为负载均衡。
agent.sinkgroups.g1.processor.selector = round_robin
负载均衡的方式为轮询。也可配置成随机random。
agent.sinkgroups.g1.processor.backoff = false
值为true，某个sink失败后会指数级等待并重试。

在${FlUME_HOME}/conf目录下创建load_balancing_sink_processor.conf 内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1 r2

#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

#channel
agent.channels.c1.type = memory

#sink
agent.sinkgroups = g1
agent.sinkgroups.g1.sinks = r1 r2
#负载均衡
agent.sinkgroups.g1.processor.type = load_balance
#负载均衡方式 random/round_robin
agent.sinkgroups.g1.processor.selector = round_robin
agent.sinkgroups.g1.processor.backoff = false


#sink r1
agent.sinks.r1.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.r1.kafka.bootstrap.servers = node2:6667,node3:6667,node1:6667
agent.sinks.r1.kafka.topic = testTopic

#sink r2
agent.sinks.r2.type = file_roll
agent.sinks.r2.sink.directory = /data/software/apache-flume-1.7.0-bin/data/file_roll

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1
agent.sinks.r2.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/load_balancing_sink_processor.conf -Dflume.root.logger=DEBUG,console -n agent

向端口发送数据,可以看到，数据以轮询的方式写入本地目录和kafka，然后删掉file_roll sink本地目录(模拟某个sink挂掉)，数据发送到kafka。

Event Serializers

编解码器用于通过各种压缩算法压缩或解压缩数据。Flume支持gzip, bzip2, lzo, lzop, snappy方式压缩。而事件序列化器是将Flume事件转换为另一种方式输出。
常见事件序列化器有：

Body Text Serializer
只输出Event Body，会丢掉Event Header。
Avro Event Serializer
序列化成Avro格式。类似Protobuf。

Interceptors

拦截器一般用于修改事件。拦截器的配置顺序即拦截器的调用顺序。

Timestamp Interceptor

在Event Header中增加timestamp字段，值为毫秒时间戳。

Host Interceptor

在Event Header中增加host字段，值为Agent主机名或IP。

Static Interceptor

在Event Header中增加指定的静态值，如datacenter=NEW_YORK。

Remove Header Interceptor

删除Event Header中指定字段。

UUID Interceptor

在Event Header中增加id字段，值为Flume生成的UUID。

Search and Replace Interceptor

基于正则查找并和替换。具体可参考:

Regex Filtering Interceptor

基于正则过滤或反向过滤Events。具体可参考:

Regex Extractor Interceptor

基于正则从Event body中抽取字段,添加到Event Header中。具体可参考:

多个拦截器同时使用

在${FlUME_HOME}/conf目录下创建load_balancing_sink_processor.conf 内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = netcat
agent.sources.s1.bind = localhost
agent.sources.s1.port = 6666

agent.sources.s1.interceptors = i1 i2 i3 i4 i5
#基于正则从Event body中抽取字段,添加到Event Header中
agent.sources.s1.interceptors.i1.type = regex_extractor
agent.sources.s1.interceptors.i1.regex = "log_type":"(\\w+)".*
agent.sources.s1.interceptors.i1.serializers = i1_ser1
agent.sources.s1.interceptors.i1.serializers.i1_ser1.name = log_type

agent.sources.s1.interceptors.i2.type = timestamp

agent.sources.s1.interceptors.i3.type = host
agent.sources.s1.interceptors.i3.useIP = false

agent.sources.s1.interceptors.i4.type = static
agent.sources.s1.interceptors.i4.key = datacenter
agent.sources.s1.interceptors.i4.value = NEW_YORK

agent.sources.s1.interceptors.i5.type = org.apache.flume.sink.solr.morphline.UUIDInterceptor$Builder
agent.sources.s1.interceptors.i5.headerName = uuid


#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = logger

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/multiple_interceptors.conf -Dflume.root.logger=DEBUG,console -n agent

向端口发送数据,可以看到,Event Header中添加了如下内容。

log2='{"log_type":"UserInfo","msg":"this is UserInfo !"}'
for i in `seq 1 100000`;do echo "${log2}" > /dev/tcp/localhost/6666;echo ${i};done
headers:{log_type=UserInfo, host=node2, datacenter=NEW_YORK, uuid=2b286f72-0453-48a4-a0fd-be00b4777966, timestamp=1534360528235}

Agent组合形式

多Agent顺序连接

需要注意:数据链路太长，出问题的概率就大。

多Agent汇聚到一个Agent

服务端业务服务器一般都会采取负载均衡方式来进行分流，这样同一份日志就会分布在多台服务器上。在每台业务服务器上都部署一个Flume Agent收集日志，最后统一汇总到到数据收集服务器，再分发到目标存储。

多路Agent

红色方框部分可以用多路复制，也可以用多路复用，来分发到不同存储。

Flume监控

进程监控

Crontab + Shell
Supervisor
Monit
monit是一个开源轻量级监控工具，可从系统、进程、文件、网络等多个层面进行监控。自带Web UI、可配置邮件告警或短信告警。

性能监控

export JAVA_OPTS=”-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=5445 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false”

Ganglia

#flume.monitoring.hosts 逗号分隔的Ganglia服务器列表
bin/flume-ng agent --conf-file example.conf --name a1 -Dflume.monitoring.type=ganglia -Dflume.monitoring.hosts=com.example:1234,com.example2:5455

HTTP
HTTP请求返回JSON格式数据。通过HTTP请求查看各个指标。
在${FlUME_HOME}/conf目录下创建http_monitor.conf 内容如下：

agent.sources = s1
agent.channels = c1
agent.sinks = r1

#source
agent.sources.s1.type = exec
agent.sources.s1.command = cat /data/software/apache-flume-1.7.0-bin/data/access.log

agent.sources.s1.interceptors = i1
#基于正则从Event body中抽取字段,添加到Event Header中
agent.sources.s1.interceptors.i1.type = regex_extractor
agent.sources.s1.interceptors.i1.regex = "log_type":"(\\w+)".*
agent.sources.s1.interceptors.i1.serializers = i1_ser1
agent.sources.s1.interceptors.i1.serializers.i1_ser1.name = log_type

#channel
agent.channels.c1.type = memory

#sink
agent.sinks.r1.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.r1.kafka.bootstrap.servers = node2:6667,node3:6667,node1:6667
agent.sinks.r1.kafka.topic = testTopic

agent.sources.s1.channels = c1
agent.sinks.r1.channel = c1

在${FlUME_HOME}目录下启动agent

bin/flume-ng agent -c conf -f conf/http_monitor.conf -Dflume.root.logger=DEBUG,console -n agent -Dflume.monitoring.type=http -Dflume.monitoring.port=34545

访问监控接口http://node2:34545/metrics并观察变化。

{
    "CHANNEL.c1":{
        "ChannelCapacity":"100",
        "ChannelFillPercentage":"75.0",
        "Type":"CHANNEL",
        "ChannelSize":"52",
        "EventTakeSuccessCount":"46700",
        "EventTakeAttemptCount":"46800",
        "StartTime":"1534365360844",
        "EventPutAttemptCount":"46820",
        "EventPutSuccessCount":"46800",
        "StopTime":"0"
    },
    "SOURCE.s1":{
        "EventReceivedCount":"46820",
        "AppendBatchAcceptedCount":"0",
        "Type":"SOURCE",
        "EventAcceptedCount":"46800",
        "AppendReceivedCount":"0",
        "StartTime":"1534365361074",
        "AppendAcceptedCount":"0",
        "OpenConnectionCount":"0",
        "AppendBatchReceivedCount":"0",
        "StopTime":"0"
    },
    "SINK.r1":{
        "ConnectionCreatedCount":"0",
        "BatchCompleteCount":"0",
        "EventDrainAttemptCount":"0",
        "BatchEmptyCount":"0",
        "StartTime":"1534365362817",
        "BatchUnderflowCount":"0",
        "ConnectionFailedCount":"0",
        "ConnectionClosedCount":"0",
        "Type":"SINK",
        "RollbackCount":"0",
        "EventDrainSuccessCount":"46800",
        "KafkaEventSendTimer":"49636",
        "StopTime":"0"
    }
}

可通过ChannelFillPercentage判断出去的速度是否大于进来的速度。以及结合其他参数判断当前Agent配置是否满足需求。

你可能感兴趣的:(Flume,Flume)

大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
Flum的组件和原理。以及配置和基础命令
ApacheFlume架构的原理和组成ApacheFlume是一个高可靠、高性能的服务，用于收集、聚合和移动大量日志数据。它的架构设计灵活且可扩展，能够适应各种不同的数据源和目的地。一、Flume的核心组件及其任务1.Agent定义：Flume的基本运行单元，是一个独立的进程。功能：负责执行数据采集任务，包含Source、Channel和Sink三个主要部分。2.Source（源）定义：数据进入F
Flume入门指南：大数据日志采集的秘密武器 £菜鸟也有梦大数据基础大数据 flume kafka hadoop hive
目录一、Flume是什么？为何如此重要？二、Flume核心概念大揭秘2.1Agent：Flume的核心引擎2.2Source：数据的入口大门2.3Channel：数据的临时港湾2.4Sink：数据的最终归宿2.5Event：数据的最小单元三、Flume工作原理深度剖析3.1数据如何流动3.2可靠性保障机制四、Flume安装与配置实战4.1安装前的准备工作4.2下载与解压4.3配置文件详解4.4启动
Flume进阶之路：从基础到高阶的飞跃 £菜鸟也有梦大数据基础 flume 大数据 hadoop hive
目录一、Flume高阶特性揭秘二、拦截器：数据的精细雕琢师2.1拦截器的概念与作用2.2常见拦截器类型及案例分析2.2.1时间添加戳拦截器2.2.2Host添加拦截器2.2.3正则表达式过滤拦截器三、选择器：数据流向的掌控者3.1选择器的概念与分类3.2不同选择器的工作原理与案例3.2.1复制选择器3.2.2多路复用选择器3.2.3自定义选择器四、Sink组逻辑处理器：数据传输的保障者4.1Sin
记一次·Spark读Hbase
记一次·Spark读Hbase一、背景过年回来，数仓发现hive的一个表丢数据了，需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据，有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份，并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。HBase表内，只有一个列族info，列族内只有一个列valu
Kafka整合Flume 小顽童王 kafka flume
Kafka与flume1）准备jar包1、将Kafka主目录lib下的如下jar拷贝至Flume的lib目录下kafka_2.10-0.8.2.1.jar、kafka-clients-0.8.2.1.jar、jopt-simple-3.2.jar、metrics-core-2.2.0.jar、scala-library-2.10.4.jar、zkclient-0.3.jar等2、将如下jar拷贝至
电商数仓项目(八) Flume(3) 生产者和消费者配置涛2021 数据仓库:Hadoop+Hive flume kafka
目录一、生产数据写到kafka二、消费kafka数据写到hdfs本节讲解Flume生产者和消费者配置。源码下载一、生产数据写到kafka将上节生成的flume-interceptor-1.0.0.jar文件上传到$FLUME_HOME/lib目录下在$FLUME_HOME/conf目录中创建file-flume-kafka.conf文件，文件目录：/u01/gmall/data/in/log-da
运维-ES集群介绍 ww22652098814 运维 elasticsearch
什么是ElasticStackElasticStack早期名称为elk。elk分别代表了3个组件:-ElasticSearch负责数据存储和检索。-Logstash:负责数据的采集，将源数据采集到ElasticSearch进行存储。-Kibana:负责数据的展示。由于Logstash是一个重量级产品，安装包超过300MB+，很多同学只是用于采集日志，于是使用其他采集工具代替，比如flume，flu
《云计算》第三版总结冰菓Neko 书籍云计算
《云计算》第三版总结云计算体系结构云计算成本优势开源云计算架构Hadoop2.0Hadoop体系架构Hadoop访问接口Hadoop编程接口Hadoop大家族分布式组件概述ZooKeeperHbasePigHiveOozieFlumeMahout虚拟化技术服务器虚拟化存储虚拟化网络虚拟化桌面虚拟化OpenStack开源虚拟化平台NovaSwiftGlance云计算核心算法PaxosDHTGossi
数据采集与接入：Kafka、Flume、Flink CDC、Debezium（实时/离线数据获取方式）晴天彩虹雨 kafka flume flink 大数据
数据采集是大数据平台中的关键步骤，它负责将数据从多个数据源传输到数据处理系统。对于大数据处理平台来说，数据的实时与离线获取方式至关重要，能够确保系统的响应性与可扩展性。在本篇文章中，我们将深入探讨四种常见的数据采集与接入技术：Kafka、Flume、FlinkCDC、Debezium，并分析它们的适用场景。1.Kafka-分布式流处理平台概述：Kafka是一个分布式流平台，用于高吞吐量、低延迟的数
Flume启动报错，guava.java包冲突 Lion-ha 大数据
Flume启动时报错如下：(SinkRunner-PollingRunner-DefaultSinkProcessor)[ERROR-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)]processfailedjava.lang.NoSuchMethodError:com.google.common.b
Flume(二十一)Memory Channel 薛定谔的猫1982 #flume flume 大数据
MemoryChannel是将收集来的数据临时存储到内存队列中，如果不指定，那么该队列默认大小是100，即最多允许在队列中存储100条数据。如果队列被占满，那么后来的数据就会被阻塞(即Source收集到的数据就无法放入队列中,产生rollback回滚)，直到队列中有位置被空出。实际过程中，这个值一般会调大，一般会调节为10W~30W，如果数据量较大，那么也可以考虑调节为50W。需要注意的是，Mem
【课程笔记】华为 HCIA-Big Data 大数据总结淵_ken 华为 HCIA-Big Data 大数据大数据
目录HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器Spark分布式计算框架Flink分布式计算框架Flume日志采集工具Kafka分布式消息队列本课程主要围绕以下几个服务展开：HDFS(Hadoop分布式文件系统)ZooKeeper(分布式
Windows PC上创建大数据职业技能竞赛实验环境之三--Spark、Hive、Flume、Kafka和Flink环境的搭建 liu9ang 大数据平台 hadoop spark kafka flink
在前述hadoop-base基础容器环境的基础上，实现Spark、Hive、Flume、kafka和Flink实验环境的搭建。我们已将前述的hadoop-base基础容器进行可阶段的保存：sudodockercommit"hadoopbasev3"hadoop-basecentos/hadoop-base:v3现在，如果已经将前述作业的hadoop-base容器停用并删除，用保存的centos/h
[大数据技术与应用省赛学习记录一]——软件准备 Ench77 大数据技术与应用比赛筹备大数据
@JIAQI第一章大数据平台环境搭建在指定主机上完成Hadoop完全分布式、Spark、Flink、kafka、flume的安装配置赛前准备主办方要求使用以下相关版本软件环境，仅供参考：设备类型软件类别软件名称、版本号竞赛服务器竞赛环境大数据集群操作系统Centos7大数据平台组件unbuntu18.04Hadoop2.7.7Hive2.3.4Spark2.1.1Kafka2.0.0Redis4.
Flume+kafka+SparkStreaming整合逆水行舟如何大数据架构 kafka常用命令 flume进行数据收集的编写实时架构
一、需求模拟一个流式处理场景：我再说话，我编写好的一个sparkstreaming做词频统计1.模拟说话：nc-lk3399flumesource:avro(qyl01:3399)channel:memorysink:kafkasink模拟实时的日志生成：echoaabbcc>>/home/qyl/logs/flume.logflumesource：exec(tail-f)channel:memo
Flume Source原理与代码实例讲解 AI天才研究院计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
FlumeSource原理与代码实例讲解1.背景介绍ApacheFlume是一个分布式、可靠且高可用的海量日志采集、聚合和传输的系统,它是Apache软件基金会的一个顶级项目。在大数据时代,日志数据作为企业的重要资产,如何高效地收集和传输海量日志数据成为了一个迫切需要解决的问题。Flume应运而生,它可以从不同的数据源采集数据,经过聚合后再将数据传输到下一个节点,最终存储到HDFS、HBase或S
SparkStreaming概述淋一遍下雨天 spark 大数据学习
SparkStreaming主要用于流式计算，处理实时数据。DStream是SparkStreaming中的数据抽象模型，表示随着时间推移收到的数据序列。SparkStreaming支持多种数据输入源（如Kafka、Flume、Twitter、TCP套接字等）和数据输出位置（如HDFS、数据库等）。SparkStreaming特点易用性：支持Java、Python、Scala等编程语言，编写实时计
kafka spark java_Kafka与Spark整合 weixin_39630247 kafka spark java
本篇文章帮大家学习Kafka与Spark整合，包含了Kafka与Spark整合使用方法、操作技巧、实例演示和注意事项，有一定的学习价值，大家可以用来参考。在本章中，将讨论如何将apacheKafka与SparkStreamingAPI集成。Spark是什么？SparkStreamingAPI支持实时数据流的可扩展，高吞吐量，容错流处理。数据可以从Kafka，Flume，Twitter等许多来源获取
Spark-Streaming 美味的大香蕉笔记
探索Spark-Streaming：实时数据处理的得力助手在大数据处理领域，实时处理越来越重要。今天就来聊一聊Spark生态中处理流式数据的利器——Spark-Streaming。Spark-Streaming主要用于处理流式数据，像从Kafka、Flume等数据源来的数据，它都能轻松应对。它使用离散化流（DStream）作为核心抽象。简单来说，DStream就是把随时间收到的数据，按照时间区间封
数据中台架构与技术体系 Aurora_NeAr 架构大数据
数据中台整体架构设计数据中台分层架构数据采集层数据源类型：业务系统（ERP、CRM）、日志、IoT设备、第三方API等。采集方式：实时采集：Kafka、FlinkCDC（变更数据捕获）。离线采集：Sqoop、DataX（批量同步数据库）。日志采集：Flume、Filebeat。数据缓冲与预处理：使用消息队列（如Kafka）作为缓冲区，应对数据流量峰值。数据存储层数据湖（DataLake）：存储原始
大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007 添柴程序猿大数据 hadoop hive 大数据面试题 flume
大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和
探索Hadoop生态圈：核心组件介绍放。756 hadoop 大数据分布式
Hadoop生态圈包括多个组件，如HDFS提供分布式存储，MapReduce处理大数据计算，YARN管理资源调度，HBase支持非结构化数据存储，Hive实现数据仓库功能，Pig提供高级数据流处理，Sqoop实现数据迁移，Flume处理日志收集等。这些组件共同构建起强大的大数据处理框架。
flume 负载均衡详解 goTsHgo flume 大数据分布式 flume 负载均衡大数据
ApacheFlume是一个分布式、可靠且可用的系统，旨在有效地从多个数据源收集、聚合和移动大量日志数据到集中存储系统（如HDFS、HBase等）。在数据传输过程中，负载均衡是Flume的一个重要功能，它有助于确保多个节点间的负载均匀分布，从而提高系统的稳定性和吞吐量。从Flume的架构角度来看，它的负载均衡涉及多个组件，包括Source、Channel和Sink，下面我们逐层从底层原理和部分源代
数据仓库：如何解决ODS数据零点漂移问题夜希辰数据仓库大数据
本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移，查看flume+kafka同步数据导致的零点漂移参考该文章：业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)一、数据零点漂移概念1、什么是零点漂移：数据零点漂移指的是数据同步过程中，ODS表按时间字段分区时，同一个业务日期(分区)包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据。由于ODS需要承接面向历史的细节
Windows PC上创建大数据职业技能竞赛实验环境之六--Flume、Kafka和Flink编程 liu9ang 大数据平台 hadoop kafka flink redis
1Flume参看日志采集工具Flume的安装与使用方法_厦大数据库实验室博客(xmu.edu.cn)。查看Flume安装root@client1:~#flume-ngversionFlume1.7.0Sourcecoderepository:https://git-wip-us.apache.org/repos/asf/flume.gitRevision:511d868555dd4d16e6ce4
flume面试题整理狂飙婴儿车笔记 flume 数据库 flume hadoop
flume1.什么是flumeflume是一个分布式的基于流式架构的海量日志采集聚合传输的系统有高可用性和高可靠性2.flume由什么组成的？*Agent*：一个jvm进程以event（事件）为基本单元对数据进行传输由source、channel、sink组成source：收集数据以event为单元进行封装发送给channel常见的source有：1）netcattcpsource:用来监听端口数
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa