小强签名设计

flume实用案例（比较全）

官方网站：http://flume.apache.org/

Apache版1.6.0下载地址：http://www.apache.org/dyn/closer.cgi/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz

案例1：Avro

Avro可以发送一个给定的文件给Flume，Avro 源使用AVRO RPC机制。

a)创建agent配置文件

[hadoop@h71 conf]$ vi avro.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 192.168.8.71
a1.sources.r1.port = 4141

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/avro.conf -n a1 -Dflume.root.logger=INFO,console

c)创建指定文件
[hadoop@h71 ~]$ touch log.00
[hadoop@h71 ~]$ echo "hello world" > /home/hadoop/log.00

d)使用avro-client发送文件
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng avro-client -c conf/ -H h71 -p 4141 -F /home/hadoop/log.00

f)因为sink为logger模式，所以它会把数据写入到日志文件中。所以在控制台，可以看到以下信息，注意最后一行

12/12/13 02:00:34 INFO source.AvroSource: Avro source r1 started.
12/12/13 02:03:42 INFO ipc.NettyServer: [id: 0x060035f0, /192.168.8.71:56184 => /192.168.8.71:4141] OPEN
12/12/13 02:03:42 INFO ipc.NettyServer: [id: 0x060035f0, /192.168.8.71:56184 => /192.168.8.71:4141] BOUND: /192.168.8.71:4141
12/12/13 02:03:42 INFO ipc.NettyServer: [id: 0x060035f0, /192.168.8.71:56184 => /192.168.8.71:4141] CONNECTED: /192.168.8.71:56184
12/12/13 02:03:42 INFO ipc.NettyServer: [id: 0x060035f0, /192.168.8.71:56184 :> /192.168.8.71:4141] DISCONNECTED
12/12/13 02:03:42 INFO ipc.NettyServer: [id: 0x060035f0, /192.168.8.71:56184 :> /192.168.8.71:4141] UNBOUND
12/12/13 02:03:42 INFO ipc.NettyServer: [id: 0x060035f0, /192.168.8.71:56184 :> /192.168.8.71:4141] CLOSED
12/12/13 02:03:42 INFO ipc.NettyServer: Connection to /192.168.8.71:56184 disconnected.
12/12/13 02:03:44 INFO sink.LoggerSink: Event: { headers:{} body: 68 65 6C 6C 6F 20 77 6F 72 6C 64                hello world }

补充：当启动命令最后加-Dflume.root.logger=INFO,console参数时会将日志信息打印到控制台中。

当不加-Dflume.root.logger=INFO,console参数的时候，会在flume的家目录中生成logs目录，并且在该目录下生成flume.log文件。当你打开flume.log文件的时候你会发现内容其实就是当你加-Dflume.root.logger=INFO,console参数时在控制台所打印出来的信息（好像格式稍微有点不同，比如时间的表示方式，这个应该得在log4j中配置吧）

查看flume默认的log4j.properties文件（在你flume安装目录的cong目录下）你会发现这么几行：

#flume.root.logger=DEBUG,console
flume.root.logger=INFO,LOGFILE
flume.log.dir=./logs
flume.log.file=flume.log

案例2：Spool
Spool监测配置的目录下新增的文件，并将文件中的数据读取出来。需要注意两点：
　　　　1) 拷贝到spool目录下的文件不可以再打开编辑。
　　　　2) spool目录下不可包含相应的子目录

a)创建agent配置文件

[hadoop@h71 conf]$ vi spool.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.channels = c1
a1.sources.r1.spoolDir = /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs
a1.sources.r1.fileHeader = true
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ mkdir logs
b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/spool.conf -n a1 -Dflume.root.logger=INFO,console

c)追加文件到/home/hadoop/flume-1.5.0-bin/logs目录
[hadoop@h71 logs]$ echo "spool test1" > /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs/spool_text.log

d)在控制台，可以看到以下相关信息：

12/12/13 02:19:50 INFO instrumentation.MonitoredCounterGroup: Component type: SOURCE, name: r1 started
12/12/13 02:20:23 INFO avro.ReliableSpoolingFileEventReader: Last read took us just up to a file boundary. Rolling to the next file, if there is one.
12/12/13 02:20:23 INFO avro.ReliableSpoolingFileEventReader: Preparing to move file /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs/spool_text.log to /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs/spool_text.log.COMPLETED
12/12/13 02:20:23 INFO sink.LoggerSink: Event: { headers:{file=/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs/spool_text.log} body: 73 70 6F 6F 6C 20 74 65 73 74 31                spool test1 }

案例3：Exec
EXEC执行一个给定的命令获得输出的源,如果要使用tail命令，必选使得file足够大才能看到输出内容

a)创建agent配置文件

[hadoop@h71 conf]$ vi exec_tail.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.channels = c1
a1.sources.r1.command = tail -F /home/hadoop/flume-1.5.0-bin/log_exec_tail
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/exec_tail.conf -n a1 -Dflume.root.logger=INFO,console

c)生成足够多的内容在文件里
[hadoop@h71 ~]$ for i in {1..100};do echo "exec tail$i" >> /home/hadoop/log_exec_tail;echo $i;sleep 0.1;done

e)在控制台，可以看到以下信息：

12/12/13 02:33:06 INFO instrumentation.MonitoredCounterGroup: Component type: SOURCE, name: r1 started
12/12/13 02:34:00 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 31                   exec tail1 }
12/12/13 02:34:00 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 32                   exec tail2 }
12/12/13 02:34:00 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 33                   exec tail3 }
12/12/13 02:34:00 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 34                   exec tail4 }
12/12/13 02:34:00 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 35                   exec tail5 }
....
....
....
12/12/13 02:34:09 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 39 38                exec tail98 }
12/12/13 02:34:09 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 39 39                exec tail99 }
12/12/13 02:34:09 INFO sink.LoggerSink: Event: { headers:{} body: 65 78 65 63 20 74 61 69 6C 31 30 30             exec tail100 }

案例4：Syslogtcp
Syslogtcp监听TCP的端口做为数据源

a)创建agent配置文件

[hadoop@h71 conf]$ vi syslog_tcp.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.host = 192.168.8.71
a1.sources.r1.channels = c1
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/syslog_tcp.conf -n a1 -Dflume.root.logger=INFO,console

c)测试产生syslog
[hadoop@h71 ~]$ echo "hello idoall.org syslog" | nc 192.168.8.71 5140

d)在控制台，可以看到以下信息：

12/12/13 02:40:51 INFO instrumentation.MonitoredCounterGroup: Component type: CHANNEL, name: c1 started
12/12/13 02:40:51 INFO node.Application: Starting Sink k1
12/12/13 02:40:51 INFO node.Application: Starting Source r1
12/12/13 02:40:51 INFO source.SyslogTcpSource: Syslog TCP Source starting...
12/12/13 02:42:09 WARN source.SyslogUtils: Event created from Invalid Syslog data.
12/12/13 02:42:09 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 68 65 6C 6C 6F 20 69 64 6F 61 6C 6C 2E 6F 72 67 hello idoall.org }

案例5：JSONHandler
a)创建agent配置文件
[hadoop@h71 conf]$ vi post_json.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = org.apache.flume.source.http.HTTPSource
a1.sources.r1.port = 8888
a1.sources.r1.channels = c1
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/post_json.conf -n a1 -Dflume.root.logger=INFO,console

c)生成JSON 格式的POST request
[hadoop@h71 ~]$ curl -X POST -d '[{ "headers" :{"a" : "a1","b" : "b1"},"body" : "idoall.org_body"}]' http://192.168.8.71:8888

d)在控制台，可以看到以下信息：
12/12/13 02:48:25 INFO instrumentation.MonitoredCounterGroup: Component type: SOURCE, name: r1 started
12/12/13 02:49:35 INFO sink.LoggerSink: Event: { headers:{b=b1, a=a1} body: 69 64 6F 61 6C 6C 2E 6F 72 67 5F 62 6F 64 79 idoall.org_body }

案例6：Hadoop sink
其中关于hadoop2.6.0部分的安装部署，请参考文章 http://blog.csdn.net/m0_37739193/article/details/71222673

a)创建agent配置文件

[hadoop@h71 conf]$ vi hdfs_sink.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.host = 192.168.8.71
a1.sources.r1.channels = c1
# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://192.168.8.71:9000/user/flume/syslogtcp
a1.sinks.k1.hdfs.filePrefix = Syslog
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/hdfs_sink.conf -n a1 -Dflume.root.logger=INFO,console

c)测试产生syslog
[hadoop@h71 ~]$ echo "hello idoall flume -> hadoop testing one" | nc 192.168.8.71 5140

d)在控制台，可以看到以下信息：

12/12/13 03:00:57 INFO instrumentation.MonitoredCounterGroup: Component type: SINK, name: k1 started
12/12/13 03:00:57 INFO node.Application: Starting Source r1
12/12/13 03:00:58 INFO source.SyslogTcpSource: Syslog TCP Source starting...
12/12/13 03:01:01 WARN source.SyslogUtils: Event created from Invalid Syslog data.
12/12/13 03:01:02 INFO hdfs.HDFSSequenceFile: writeFormat = Writable, UseRawLocalFileSystem = false
12/12/13 03:01:02 INFO hdfs.BucketWriter: Creating hdfs://192.168.8.71:9000/user/flume/syslogtcp/Syslog.1355338862051.tmp
12/12/13 03:01:02 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
12/12/13 03:01:33 INFO hdfs.BucketWriter: Closing hdfs://192.168.8.71:9000/user/flume/syslogtcp/Syslog.1355338862051.tmp
12/12/13 03:01:33 INFO hdfs.BucketWriter: Renaming hdfs://192.168.8.71:9000/user/flume/syslogtcp/Syslog.1355338862051.tmp to hdfs://192.168.8.71:9000/user/flume/syslogtcp/Syslog.1355338862051
12/12/13 03:01:33 INFO hdfs.HDFSEventSink: Writer callback called.

e)再打开一个窗口，去hadoop上检查文件是否生成
[hadoop@h71 ~]$ hadoop fs -lsr /user/flume/syslogtcp
lsr: DEPRECATED: Please use 'ls -R' instead.
-rw-r--r-- 2 hadoop supergroup 155 2012-12-13 03:01 /user/flume/syslogtcp/Syslog.1355338862051
[hadoop@h71 ~]$ hadoop fs -cat /user/flume/syslogtcp/Syslog.1355338862051
SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable^ ;>Gv$hello idoall flume -> hadoop testing one

案例7：File Roll Sink
a)创建agent配置文件
[hadoop@h71 conf]$ vi file_roll.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5555
a1.sources.r1.host = 192.168.8.71
a1.sources.r1.channels = c1
# Describe the sink
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ mkdir logs
b)启动flume agent a1
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/file_roll.conf -n a1 -Dflume.root.logger=INFO,console

c)测试产生log
[hadoop@h71 logs]$ echo "hello idoall.org syslog" | nc 192.168.8.71 5555
[hadoop@h71 logs]$ echo "hello idoall.org syslog 2" | nc 192.168.8.71 5555

在控制台，可以看到以下信息：

12/12/13 03:10:33 INFO instrumentation.MonitoredCounterGroup: Component type: SINK, name: k1 started
12/12/13 03:10:33 INFO node.Application: Starting Source r1
12/12/13 03:10:33 INFO sink.RollingFileSink: RollingFileSink k1 started.
12/12/13 03:10:34 INFO source.SyslogTcpSource: Syslog TCP Source starting...
12/12/13 03:11:38 WARN source.SyslogUtils: Event created from Invalid Syslog data.
12/12/13 03:12:44 WARN source.SyslogUtils: Event created from Invalid Syslog data.

d)查看/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/logs下是否生成文件,默认每30秒生成一个新文件（如果有内容输入则会输入生成的这个文件中，如果这30秒内没有内容输入，则只生成一个空文件）
[hadoop@h71 logs]$ ll
total 1

-rw-rw-r-- 1 hadoop hadoop 50 Dec 13 03:19 1355339980196-1

（默认它会每30秒生成一个文件，这样的话会在产生很多的小文件，如果嫌麻烦的话可以添加参数a1.sinks.k1.sink.rollInterval = 0，后面跟的数字自己定义，就是多少秒产生一个新的文件，我这里设置的0，那么就会只产生一个文件）

[hadoop@h71 logs]$ cat 1355339980196-1
hello idoall.org syslog
hello idoall.org syslog 2

Flume支持Fan out flow（扇出流）从一个源到多个通道。有两种方式，一种是用来复制（Replication），另一种是用来分流（Multiplexing）。

案例8：Replicating Channel Selector

Replication方式，可以将最前端的数据源复制多份，分别传递到多个channel中，每个channel接收到的数据都是相同的。

　　　　这次我们需要用到h71,h72两台机器

a)在h71创建replicating_Channel_Selector配置文件

[hadoop@h71 conf]$ vi replicating_Channel_Selector.conf

a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.host = 192.168.8.71
a1.sources.r1.channels = c1 c2
a1.sources.r1.selector.type = replicating
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = 192.168.8.71
a1.sinks.k1.port = 5555
a1.sinks.k2.type = avro
a1.sinks.k2.channel = c2
a1.sinks.k2.hostname = 192.168.8.72
a1.sinks.k2.port = 5555
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

b)在h71创建replicating_Channel_Selector_avro配置文件
[hadoop@h71 conf]$ vi replicating_Channel_Selector_avro.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 192.168.8.71
a1.sources.r1.port = 5555
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

c)在h71上将replicating_Channel_Selector_avro.conf配置文件复制到h72上一份
[hadoop@h71 conf]$ scp replicating_Channel_Selector_avro.conf h72:/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/
在h72上修改replicating_Channel_Selector_avro.conf的ip为
a1.sources.r1.bind = 192.168.8.72

d)打开3个窗口，在h71和h72上同时启动两个flume agent
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/replicating_Channel_Selector_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/replicating_Channel_Selector_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/replicating_Channel_Selector.conf -n a1 -Dflume.root.logger=INFO,console

e)然后在h71或h72的任意一台机器上，测试产生syslog
[hadoop@h71 conf]$ echo "hello idoall.org syslog" | nc 192.168.8.71 5140

f)在h71和h72的sink窗口，分别可以看到以下信息,这说明信息得到了同步：
h71上：

12/12/13 06:36:01 INFO instrumentation.MonitoredCounterGroup: Component type: SOURCE, name: r1 started
12/12/13 06:36:01 INFO source.AvroSource: Avro source r1 started.
12/12/13 06:36:46 INFO ipc.NettyServer: [id: 0x54f65bf3, /192.168.8.71:43038 => /192.168.8.71:5555] OPEN
12/12/13 06:36:46 INFO ipc.NettyServer: [id: 0x54f65bf3, /192.168.8.71:43038 => /192.168.8.71:5555] BOUND: /192.168.8.71:5555
12/12/13 06:36:46 INFO ipc.NettyServer: [id: 0x54f65bf3, /192.168.8.71:43038 => /192.168.8.71:5555] CONNECTED: /192.168.8.71:43038
12/12/13 06:36:47 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 68 65 6C 6C 6F 20 69 64 6F 61 6C 6C 2E 6F 72 67 hello idoall.org }

h72上：

2012-12-13 06:31:28,547 (lifecycleSupervisor-1-2) [INFO - org.apache.flume.instrumentation.MonitoredCounterGroup.start(MonitoredCounterGroup.java:96)] Component type: SOURCE, name: r1 started
2012-12-13 06:31:28,549 (lifecycleSupervisor-1-2) [INFO - org.apache.flume.source.AvroSource.start(AvroSource.java:253)] Avro source r1 started.
2012-12-13 06:31:38,500 (New I/O server boss #3) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0x0a5fa6e0, /192.168.8.71:49630 => /192.168.8.72:5555] OPEN
2012-12-13 06:31:38,501 (New I/O worker #1) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0x0a5fa6e0, /192.168.8.71:49630 => /192.168.8.72:5555] BOUND: /192.168.8.72:5555
2012-12-13 06:31:38,501 (New I/O worker #1) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0x0a5fa6e0, /192.168.8.71:49630 => /192.168.8.72:5555] CONNECTED: /192.168.8.71:49630
2012-12-13 06:33:18,375 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:94)] Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 68 65 6C 6C 6F 20 69 64 6F 61 6C 6C 2E 6F 72 67 hello idoall.org }

猜想：我记得以前并没有设置selector.type的类型为replicating，也就是说并没有该项，只是简单的在一个配置文件中配置了一个source和两个channel和两个sink，并且两个channel和两个sink是一一对应，然而也成功了，而且就是复制的效果。所以我这里大胆猜测当你不设置这一项的时候，它默认就是复制（replicating），如果你想用多路复用的话还必须得配置该项为Multiplexing。

案例9：Multiplexing Channel Selector

Multiplexing方式，selector可以根据header的值来确定数据传递到哪一个channel

a)在h71创建Multiplexing_Channel_Selector配置文件

[hadoop@h71 conf]$ vi Multiplexing_Channel_Selector.conf

a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
# Describe/configure the source
a1.sources.r1.type = org.apache.flume.source.http.HTTPSource
a1.sources.r1.port = 5140
a1.sources.r1.channels = c1 c2
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = type
#映射允许每个值通道可以重叠。默认值可以包含任意数量的通道。
a1.sources.r1.selector.mapping.baidu = c1
a1.sources.r1.selector.mapping.ali = c2
a1.sources.r1.selector.default = c1
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = 192.168.8.71
a1.sinks.k1.port = 5555
a1.sinks.k2.type = avro
a1.sinks.k2.channel = c2
a1.sinks.k2.hostname = 192.168.8.72
a1.sinks.k2.port = 5555
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

b)在h71创建Multiplexing_Channel_Selector_avro配置文件
[hadoop@h71 conf]$ vi Multiplexing_Channel_Selector_avro.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 192.168.8.71
a1.sources.r1.port = 5555
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

c)将Multiplexing_Channel_Selector_avro.conf配置文件复制到h72上一份
[hadoop@h71 conf]$ scp Multiplexing_Channel_Selector_avro.conf h72:/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/
在h72上修改Multiplexing_Channel_Selector_avro.conf的ip为：
a1.sources.r1.bind = 192.168.8.72

d)打开3个窗口，在h71和h72上同时启动两个flume agent（我试验的时候打开三个就可以。。）
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/Multiplexing_Channel_Selector_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/Multiplexing_Channel_Selector_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c conf/ -f conf/Multiplexing_Channel_Selector.conf -n a1 -Dflume.root.logger=INFO,console

e)然后在h71或h72的任意一台机器上，测试产生syslog
[hadoop@h71 conf]$ curl -X POST -d '[{ "headers" :{"type" : "baidu"},"body" : "idoall_TEST1"}]' http://192.168.8.71:5140 && curl -X POST -d '[{ "headers" :{"type" : "ali"},"body" : "idoall_TEST2"}]' http://192.168.8.71:5140 && curl -X POST -d '[{ "headers" :{"type" : "qq"},"body" : "idoall_TEST3"}]' http://192.168.8.71:5140

f)在h71的sink窗口，可以看到以下信息：

12/12/13 08:12:23 INFO instrumentation.MonitoredCounterGroup: Component type: SOURCE, name: r1 started
12/12/13 08:12:23 INFO source.AvroSource: Avro source r1 started.
12/12/13 08:13:08 INFO ipc.NettyServer: [id: 0x7c761258, /192.168.8.71:52767 => /192.168.8.71:5555] OPEN
12/12/13 08:13:08 INFO ipc.NettyServer: [id: 0x7c761258, /192.168.8.71:52767 => /192.168.8.71:5555] BOUND: /192.168.8.71:5555
12/12/13 08:13:08 INFO ipc.NettyServer: [id: 0x7c761258, /192.168.8.71:52767 => /192.168.8.71:5555] CONNECTED: /192.168.8.71:52767
12/12/13 08:15:33 INFO sink.LoggerSink: Event: { headers:{type=baidu} body: 69 64 6F 61 6C 6C 5F 54 45 53 54 31             idoall_TEST1 }
12/12/13 08:15:33 INFO sink.LoggerSink: Event: { headers:{type=qq} body: 69 64 6F 61 6C 6C 5F 54 45 53 54 33             idoall_TEST3 }

g)在h72的sink窗口，可以看到以下信息：

2012-12-13 08:09:18,316 (lifecycleSupervisor-1-4) [INFO - org.apache.flume.instrumentation.MonitoredCounterGroup.start(MonitoredCounterGroup.java:96)] Component type: SOURCE, name: r1 started
2012-12-13 08:09:18,317 (lifecycleSupervisor-1-4) [INFO - org.apache.flume.source.AvroSource.start(AvroSource.java:253)] Avro source r1 started.
2012-12-13 08:09:40,430 (New I/O server boss #3) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0xcb673fb5, /192.168.8.71:46032 => /192.168.8.72:5555] OPEN
2012-12-13 08:09:40,432 (New I/O worker #1) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0xcb673fb5, /192.168.8.71:46032 => /192.168.8.72:5555] BOUND: /192.168.8.72:5555
2012-12-13 08:09:40,432 (New I/O worker #1) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0xcb673fb5, /192.168.8.71:46032 => /192.168.8.72:5555] CONNECTED: /192.168.8.71:46032
2012-12-13 08:12:05,774 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:94)] Event: { headers:{type=ali} body: 69 64 6F 61 6C 6C 5F 54 45 53 54 32             idoall_TEST2 }

可以看到，根据header中不同的条件分布到不同的channel上

案例10：Failover Sink Processor
failover的机器是一直发送给其中一个sink，当这个sink不可用的时候，自动发送到下一个sink。

a)在h71创建Flume_Sink_Processors配置文件

[hadoop@h71 conf]$ vi Flume_Sink_Processors.conf

a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2

#这个是配置failover的关键，需要有一个sink group
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
#处理的类型是failover
a1.sinkgroups.g1.processor.type = failover
#优先级，数字越大优先级越高，每个sink的优先级必须不相同
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 10
#设置为10秒，当然可以根据你的实际状况更改成更快或者很慢
a1.sinkgroups.g1.processor.maxpenalty = 10000

# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.channels = c1 c2
a1.sources.r1.selector.type = replicating
  
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = 192.168.8.71
a1.sinks.k1.port = 5555

a1.sinks.k2.type = avro
a1.sinks.k2.channel = c2
a1.sinks.k2.hostname = 192.168.8.72
a1.sinks.k2.port = 5555

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

b)在h71创建Flume_Sink_Processors_avro配置文件
[hadoop@h71 conf]$ vi Flume_Sink_Processors_avro.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 192.168.8.71
a1.sources.r1.port = 5555

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

c)将Flume_Sink_Processors_avro.conf配置文件复制到h72上一份
[hadoop@h71 conf]$ scp Flume_Sink_Processors_avro.conf h72:/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/
（但是这个得在h72修改一下IP，和网上的博客有点出入）
改为a1.sources.r1.bind = 192.168.8.72
否则h72在执行bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/Flume_Sink_Processors_avro.conf -n a1 -Dflume.root.logger=INFO,console命令时会报这个错：

2012-12-13 05:51:57,248 (lifecycleSupervisor-1-4) [ERROR - org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleSupervisor.java:253)] Unable to start EventDrivenSourceRunner: { source:Avro source r1: { bindAddress: 192.168.8.71, port: 5555 } } - Exception follows.
org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.8.71:5555
        at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)
        at org.apache.avro.ipc.NettyServer.(NettyServer.java:106)
        at org.apache.flume.source.AvroSource.start(AvroSource.java:236)
        at org.apache.flume.source.EventDrivenSourceRunner.start(EventDrivenSourceRunner.java:44)
        at org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleSupervisor.java:251)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
        at java.util.concurrent.FutureTask$Sync.innerRunAndReset(FutureTask.java:351)
        at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:178)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:724)
Caused by: java.net.BindException: Cannot assign requested address
        at sun.nio.ch.Net.bind0(Native Method)
        at sun.nio.ch.Net.bind(Net.java:444)
        at sun.nio.ch.Net.bind(Net.java:436)
        at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:214)
        at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
        at org.jboss.netty.channel.socket.nio.NioServerBoss$RegisterTask.run(NioServerBoss.java:193)
        at org.jboss.netty.channel.socket.nio.AbstractNioSelector.processTaskQueue(AbstractNioSelector.java:366)
        at org.jboss.netty.channel.socket.nio.AbstractNioSelector.run(AbstractNioSelector.java:290)
        at org.jboss.netty.channel.socket.nio.NioServerBoss.run(NioServerBoss.java:42)
        ... 3 more

一开始在h72上启动flume时报这个错：
[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c . -f conf/avro.conf -n a1 -Dflume.root.logger=INFO,console

Info: Including Hive libraries found via () for Hive access
+ exec /usr/jdk1.7.0_25/bin/java -Xmx20m -Dflume.root.logger=INFO,console -cp '/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin:/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/*:/lib/*' -Djava.library.path= org.apache.flume.node.Application -f conf/avro.conf -n a1
log4j:WARN No appenders could be found for logger (org.apache.flume.lifecycle.LifecycleSupervisor).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

后来上网查说是因为使用 -c 指定的conf位置出错;于是修改执行命令

[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/avro.conf -n a1 -Dflume.root.logger=INFO,console

（原来是我在h72机器的.bash_profile文件中没有添加hadoop的环境变量才出现了这个问题，于是添加环境变量后好使了

HADOOP_HOME=/home/hadoop/hadoop-2.6.0-cdh5.5.2
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME HADOOP_CONF_DIR PATH

然后再让该配置文件生效[hadoop@h72 ~]$ source .bash_profile

思考：按理说-c后面跟的应该是conf目录，那么跟相对路径和绝对路径都是可以的，但是在.bash_profile中添加了hadoop的环境变量后在flume的家目录下-c后面跟.为什么也会识别啊，.的意思不是本目录下吗，即/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin，而不是/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf啊

）

d)打开3个窗口，在h71和h72上同时启动两个flume agent
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c . -f conf/Flume_Sink_Processors_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/Flume_Sink_Processors_avro.conf -n a1 -Dflume.root.logger=INFO,console
一开始启动这个命令的时候总是报这个错：Caused by: java.net.BindException: Address already in use，于是我就
[hadoop@h71 conf]$ jps
4350 Jps
3762 SecondaryNameNode
25747 Main
3571 NameNode
3904 ResourceManager
3061 Application
4561 HMaster
4485 HQuorumPeer
3722 Application
（有两个Application进程，我就把最前面的那个Application进程用kill -9杀死了，然后再执行上面的那个命令奇迹般的就好使了。。。）
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c . -f conf/Flume_Sink_Processors.conf -n a1 -Dflume.root.logger=INFO,console

e)然后在h71或h72的任意一台机器上，测试产生log
[hadoop@h71 conf]$ echo "idoall.org test1 failover" | nc 192.168.8.71 5140

f)因为h72的优先级高，所以在h72的sink窗口，可以看到以下信息，而h71没有

2012-12-13 06:04:42,892 (New I/O server boss #3) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0xcdd2cc86, /192.168.8.71:37143 => /192.168.8.72:5555] OPEN
2012-12-13 06:04:42,892 (New I/O worker #2) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0xcdd2cc86, /192.168.8.71:37143 => /192.168.8.72:5555] BOUND: /192.168.8.72:5555
2012-12-13 06:04:42,892 (New I/O worker #2) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0xcdd2cc86, /192.168.8.71:37143 => /192.168.8.72:5555] CONNECTED: /192.168.8.71:37143
2012-12-13 06:04:52,000 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:94)] Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 30 idoall.org test1 }

g)这时我们停止掉h72机器上的sink(ctrl+c)，再次输出测试数据：
[hadoop@h71 conf]$ echo "idoall.org test2 failover" | nc 192.168.8.71 5140

h)可以在h71的sink窗口，看到读取到了刚才发送的两条测试数据：

12/12/13 06:08:10 INFO ipc.NettyServer: [id: 0x45a46286, /192.168.8.71:55655 => /192.168.8.71:5555] OPEN
12/12/13 06:08:10 INFO ipc.NettyServer: [id: 0x45a46286, /192.168.8.71:55655 => /192.168.8.71:5555] BOUND: /192.168.8.71:5555
12/12/13 06:08:10 INFO ipc.NettyServer: [id: 0x45a46286, /192.168.8.71:55655 => /192.168.8.71:5555] CONNECTED: /192.168.8.71:55655
12/12/13 06:16:13 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 30 idoall.org test1 }
12/12/13 06:16:13 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 32 idoall.org test2 }

i)我们再在h72的sink窗口中，启动sink：
[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/Flume_Sink_Processors_avro.conf -n a1 -Dflume.root.logger=INFO,console

j)输入两批测试数据：
[hadoop@h71 conf]$ echo "idoall.org test3 failover" | nc 192.168.8.71 5140 && echo "idoall.org test4 failover" | nc 192.168.8.71 5140

k)在h72的sink窗口，我们可以看到以下信息，因为优先级的关系，log消息会再次落到h72上：

2012-12-13 06:14:14,191 (lifecycleSupervisor-1-4) [INFO - org.apache.flume.instrumentation.MonitoredCounterGroup.start(MonitoredCounterGroup.java:96)] Component type: SOURCE, name: r1 started
2012-12-13 06:14:14,192 (lifecycleSupervisor-1-4) [INFO - org.apache.flume.source.AvroSource.start(AvroSource.java:253)] Avro source r1 started.
2012-12-13 06:14:18,934 (New I/O server boss #3) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0x45dd9ffb, /192.168.8.71:57973 => /192.168.8.72:5555] OPEN
2012-12-13 06:14:18,936 (New I/O worker #1) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0x45dd9ffb, /192.168.8.71:57973 => /192.168.8.72:5555] BOUND: /192.168.8.72:5555
2012-12-13 06:14:18,936 (New I/O worker #1) [INFO - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.handleUpstream(NettyServer.java:171)] [id: 0x45dd9ffb, /192.168.8.71:57973 => /192.168.8.72:5555] CONNECTED: /192.168.8.71:57973
2012-12-13 06:14:22,935 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:94)] Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 32 idoall.org test2 }
2012-12-13 06:16:07,028 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:94)] Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 33 idoall.org test3 }
2012-12-13 06:16:07,028 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:94)] Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 34 idoall.org test4 }

案例11：Load balancing Sink Processor
load balance type和failover不同的地方是，load balance有两个配置，一个是round_robin（轮询），一个是random（随机），默认情况下使用round_robin。两种情况下如果被选择的sink不可用，就会自动尝试发送到下一个可用的sink上面。

a)在h71创建Load_balancing_Sink_Processors配置文件

[hadoop@h71 conf]$ vi Load_balancing_Sink_Processors.conf

a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1

#这个是配置Load balancing的关键，需要有一个sink group
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.backoff = true
a1.sinkgroups.g1.processor.selector = round_robin

# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.channels = c1

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = 192.168.8.71
a1.sinks.k1.port = 5555

a1.sinks.k2.type = avro
a1.sinks.k2.channel = c1
a1.sinks.k2.hostname = 192.168.8.72
a1.sinks.k2.port = 5555

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

b)在h71创建Load_balancing_Sink_Processors_avro配置文件
[hadoop@h71 conf]$ vi Load_balancing_Sink_Processors_avro.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 192.168.8.71
a1.sources.r1.port = 5555

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

c)将这Load_balancing_Sink_Processors_avro.conf配置文件复制到h72上一份
[hadoop@h71 conf]$ scp Load_balancing_Sink_Processors.conf h72:/home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/
在h72上修改Load_balancing_Sink_Processors_avro.conf的ip为：
a1.sources.r1.bind = 192.168.8.72

d)打开3个窗口，在h71和h72上同时启动两个flume agent
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c . -f conf/Load_balancing_Sink_Processors_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h72 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/ -f conf/Load_balancing_Sink_Processors_avro.conf -n a1 -Dflume.root.logger=INFO,console
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c . -f conf/Load_balancing_Sink_Processors.conf -n a1 -Dflume.root.logger=INFO,console

e)然后在h71或h72的任意一台机器上，测试产生log，一行一行输入，输入太快，容易落到一台机器上
[hadoop@h72 conf]$ echo "idoall.org test1" | nc 192.168.8.71 5140
[hadoop@h72 conf]$ echo "idoall.org test2" | nc 192.168.8.71 5140
[hadoop@h71 conf]$ echo "idoall.org test3" | nc 192.168.8.71 5140
[hadoop@h71 conf]$ echo "idoall.org test4" | nc 192.168.8.71 5140

f)在h71的sink窗口，可以看到以下信息：
14/08/10 15:35:29 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 32 idoall.org test2 }
14/08/10 15:35:33 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 34 idoall.org test4 }

g)在h72的sink窗口，可以看到以下信息：
14/08/10 15:35:27 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 31 idoall.org test1 }
14/08/10 15:35:29 INFO sink.LoggerSink: Event: { headers:{Severity=0, flume.syslog.status=Invalid, Facility=0} body: 69 64 6F 61 6C 6C 2E 6F 72 67 20 74 65 73 74 33 idoall.org test3 }

说明轮询模式起到了作用。

案例12：Hbase sink
　　　　　　a)在测试之前，请先将hbase启动
　　　　　　b)然后将以下jar包复制到flume的lib目录中：
[hadoop@h71 lib]$ cp protobuf-java-2.5.0.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp hbase-protocol-1.0.0-cdh5.5.2.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp hbase-client-1.0.0-cdh5.5.2.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp hbase-common-1.0.0-cdh5.5.2.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp hbase-server-1.0.0-cdh5.5.2.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp hbase-hadoop2-compat-1.0.0-cdh5.5.2.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp hbase-hadoop-compat-1.0.0-cdh5.5.2.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/
[hadoop@h71 lib]$ cp htrace-core-3.2.0-incubating.jar /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/lib/ （博客中复制的是htrace-core-2.04.jar，而我这里却只有htrace-core-3.2.0-incubating.jar）
（也可以直接把hbase-1.0.0-cdh5.5.2/lib下的jar包全部复制到flume的lib目录下）

c)确保test_idoall_org表在hbase中已经存在，若不存在则在hbase中建立。
hbase(main):002:0> create 'test_idoall_org','uid','name'
0 row(s) in 0.6730 seconds

d)在h71上创建hbase_simple配置文件
[hadoop@h71 conf]$ vi hbase_simple.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.host = 192.168.8.71
a1.sources.r1.channels = c1

# Describe the sink
a1.sinks.k1.type = logger
a1.sinks.k1.type = hbase
a1.sinks.k1.table = test_idoall_org
a1.sinks.k1.columnFamily = name
a1.sinks.k1.column = idoall
a1.sinks.k1.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer
a1.sinks.k1.channel = memoryChannel

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

e)启动flume agent
[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ bin/flume-ng agent -c . -f /home/hadoop/apache-flume-1.6.0-cdh5.5.2-bin/conf/hbase_simple2.conf -n a1 -Dflume.root.logger=INFO,console

f)测试产生syslog
[hadoop@h71 conf]$ echo "hello idoall.org from flume" | nc 192.168.8.71 5140

g)这时登录到hbase中，可以发现新数据已经插入
hbase(main):006:0> scan 'test_idoall_org'
ROW COLUMN+CELL
1355359597472-jBAezVDqVh-0 column=name:payload, timestamp=1355359392694, value=hello idoall.org from flume

1 row(s) in 0.0160 seconds

参考文章：http://www.jb51.net/article/53542.htm
（在此文章的基础上做了一些修改和完善）

你可能感兴趣的:(flume)

Flume到Kafka且均分到多个partition 小学僧来啦 Flume Kafka partition Flume
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时，发现kafka接收到的数据总是在一个partition中，而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢？解决方法Flume的官方文档是这么说的：KafkaSinkusesthetopicandkey
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
Flum的组件和原理。以及配置和基础命令
ApacheFlume架构的原理和组成ApacheFlume是一个高可靠、高性能的服务，用于收集、聚合和移动大量日志数据。它的架构设计灵活且可扩展，能够适应各种不同的数据源和目的地。一、Flume的核心组件及其任务1.Agent定义：Flume的基本运行单元，是一个独立的进程。功能：负责执行数据采集任务，包含Source、Channel和Sink三个主要部分。2.Source（源）定义：数据进入F
Flume入门指南：大数据日志采集的秘密武器 £菜鸟也有梦大数据基础大数据 flume kafka hadoop hive
目录一、Flume是什么？为何如此重要？二、Flume核心概念大揭秘2.1Agent：Flume的核心引擎2.2Source：数据的入口大门2.3Channel：数据的临时港湾2.4Sink：数据的最终归宿2.5Event：数据的最小单元三、Flume工作原理深度剖析3.1数据如何流动3.2可靠性保障机制四、Flume安装与配置实战4.1安装前的准备工作4.2下载与解压4.3配置文件详解4.4启动
Flume进阶之路：从基础到高阶的飞跃 £菜鸟也有梦大数据基础 flume 大数据 hadoop hive
目录一、Flume高阶特性揭秘二、拦截器：数据的精细雕琢师2.1拦截器的概念与作用2.2常见拦截器类型及案例分析2.2.1时间添加戳拦截器2.2.2Host添加拦截器2.2.3正则表达式过滤拦截器三、选择器：数据流向的掌控者3.1选择器的概念与分类3.2不同选择器的工作原理与案例3.2.1复制选择器3.2.2多路复用选择器3.2.3自定义选择器四、Sink组逻辑处理器：数据传输的保障者4.1Sin
记一次·Spark读Hbase
记一次·Spark读Hbase一、背景过年回来，数仓发现hive的一个表丢数据了，需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据，有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份，并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。HBase表内，只有一个列族info，列族内只有一个列valu
Kafka整合Flume 小顽童王 kafka flume
Kafka与flume1）准备jar包1、将Kafka主目录lib下的如下jar拷贝至Flume的lib目录下kafka_2.10-0.8.2.1.jar、kafka-clients-0.8.2.1.jar、jopt-simple-3.2.jar、metrics-core-2.2.0.jar、scala-library-2.10.4.jar、zkclient-0.3.jar等2、将如下jar拷贝至
电商数仓项目(八) Flume(3) 生产者和消费者配置涛2021 数据仓库:Hadoop+Hive flume kafka
目录一、生产数据写到kafka二、消费kafka数据写到hdfs本节讲解Flume生产者和消费者配置。源码下载一、生产数据写到kafka将上节生成的flume-interceptor-1.0.0.jar文件上传到$FLUME_HOME/lib目录下在$FLUME_HOME/conf目录中创建file-flume-kafka.conf文件，文件目录：/u01/gmall/data/in/log-da
运维-ES集群介绍 ww22652098814 运维 elasticsearch
什么是ElasticStackElasticStack早期名称为elk。elk分别代表了3个组件:-ElasticSearch负责数据存储和检索。-Logstash:负责数据的采集，将源数据采集到ElasticSearch进行存储。-Kibana:负责数据的展示。由于Logstash是一个重量级产品，安装包超过300MB+，很多同学只是用于采集日志，于是使用其他采集工具代替，比如flume，flu
《云计算》第三版总结冰菓Neko 书籍云计算
《云计算》第三版总结云计算体系结构云计算成本优势开源云计算架构Hadoop2.0Hadoop体系架构Hadoop访问接口Hadoop编程接口Hadoop大家族分布式组件概述ZooKeeperHbasePigHiveOozieFlumeMahout虚拟化技术服务器虚拟化存储虚拟化网络虚拟化桌面虚拟化OpenStack开源虚拟化平台NovaSwiftGlance云计算核心算法PaxosDHTGossi
数据采集与接入：Kafka、Flume、Flink CDC、Debezium（实时/离线数据获取方式）晴天彩虹雨 kafka flume flink 大数据
数据采集是大数据平台中的关键步骤，它负责将数据从多个数据源传输到数据处理系统。对于大数据处理平台来说，数据的实时与离线获取方式至关重要，能够确保系统的响应性与可扩展性。在本篇文章中，我们将深入探讨四种常见的数据采集与接入技术：Kafka、Flume、FlinkCDC、Debezium，并分析它们的适用场景。1.Kafka-分布式流处理平台概述：Kafka是一个分布式流平台，用于高吞吐量、低延迟的数
Flume启动报错，guava.java包冲突 Lion-ha 大数据
Flume启动时报错如下：(SinkRunner-PollingRunner-DefaultSinkProcessor)[ERROR-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)]processfailedjava.lang.NoSuchMethodError:com.google.common.b
Flume(二十一)Memory Channel 薛定谔的猫1982 #flume flume 大数据
MemoryChannel是将收集来的数据临时存储到内存队列中，如果不指定，那么该队列默认大小是100，即最多允许在队列中存储100条数据。如果队列被占满，那么后来的数据就会被阻塞(即Source收集到的数据就无法放入队列中,产生rollback回滚)，直到队列中有位置被空出。实际过程中，这个值一般会调大，一般会调节为10W~30W，如果数据量较大，那么也可以考虑调节为50W。需要注意的是，Mem
【课程笔记】华为 HCIA-Big Data 大数据总结淵_ken 华为 HCIA-Big Data 大数据大数据
目录HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器Spark分布式计算框架Flink分布式计算框架Flume日志采集工具Kafka分布式消息队列本课程主要围绕以下几个服务展开：HDFS(Hadoop分布式文件系统)ZooKeeper(分布式
Windows PC上创建大数据职业技能竞赛实验环境之三--Spark、Hive、Flume、Kafka和Flink环境的搭建 liu9ang 大数据平台 hadoop spark kafka flink
在前述hadoop-base基础容器环境的基础上，实现Spark、Hive、Flume、kafka和Flink实验环境的搭建。我们已将前述的hadoop-base基础容器进行可阶段的保存：sudodockercommit"hadoopbasev3"hadoop-basecentos/hadoop-base:v3现在，如果已经将前述作业的hadoop-base容器停用并删除，用保存的centos/h
[大数据技术与应用省赛学习记录一]——软件准备 Ench77 大数据技术与应用比赛筹备大数据
@JIAQI第一章大数据平台环境搭建在指定主机上完成Hadoop完全分布式、Spark、Flink、kafka、flume的安装配置赛前准备主办方要求使用以下相关版本软件环境，仅供参考：设备类型软件类别软件名称、版本号竞赛服务器竞赛环境大数据集群操作系统Centos7大数据平台组件unbuntu18.04Hadoop2.7.7Hive2.3.4Spark2.1.1Kafka2.0.0Redis4.
Flume+kafka+SparkStreaming整合逆水行舟如何大数据架构 kafka常用命令 flume进行数据收集的编写实时架构
一、需求模拟一个流式处理场景：我再说话，我编写好的一个sparkstreaming做词频统计1.模拟说话：nc-lk3399flumesource:avro(qyl01:3399)channel:memorysink:kafkasink模拟实时的日志生成：echoaabbcc>>/home/qyl/logs/flume.logflumesource：exec(tail-f)channel:memo
Flume Source原理与代码实例讲解 AI天才研究院计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
FlumeSource原理与代码实例讲解1.背景介绍ApacheFlume是一个分布式、可靠且高可用的海量日志采集、聚合和传输的系统,它是Apache软件基金会的一个顶级项目。在大数据时代,日志数据作为企业的重要资产,如何高效地收集和传输海量日志数据成为了一个迫切需要解决的问题。Flume应运而生,它可以从不同的数据源采集数据,经过聚合后再将数据传输到下一个节点,最终存储到HDFS、HBase或S
SparkStreaming概述淋一遍下雨天 spark 大数据学习
SparkStreaming主要用于流式计算，处理实时数据。DStream是SparkStreaming中的数据抽象模型，表示随着时间推移收到的数据序列。SparkStreaming支持多种数据输入源（如Kafka、Flume、Twitter、TCP套接字等）和数据输出位置（如HDFS、数据库等）。SparkStreaming特点易用性：支持Java、Python、Scala等编程语言，编写实时计
kafka spark java_Kafka与Spark整合 weixin_39630247 kafka spark java
本篇文章帮大家学习Kafka与Spark整合，包含了Kafka与Spark整合使用方法、操作技巧、实例演示和注意事项，有一定的学习价值，大家可以用来参考。在本章中，将讨论如何将apacheKafka与SparkStreamingAPI集成。Spark是什么？SparkStreamingAPI支持实时数据流的可扩展，高吞吐量，容错流处理。数据可以从Kafka，Flume，Twitter等许多来源获取
Spark-Streaming 美味的大香蕉笔记
探索Spark-Streaming：实时数据处理的得力助手在大数据处理领域，实时处理越来越重要。今天就来聊一聊Spark生态中处理流式数据的利器——Spark-Streaming。Spark-Streaming主要用于处理流式数据，像从Kafka、Flume等数据源来的数据，它都能轻松应对。它使用离散化流（DStream）作为核心抽象。简单来说，DStream就是把随时间收到的数据，按照时间区间封
数据中台架构与技术体系 Aurora_NeAr 架构大数据
数据中台整体架构设计数据中台分层架构数据采集层数据源类型：业务系统（ERP、CRM）、日志、IoT设备、第三方API等。采集方式：实时采集：Kafka、FlinkCDC（变更数据捕获）。离线采集：Sqoop、DataX（批量同步数据库）。日志采集：Flume、Filebeat。数据缓冲与预处理：使用消息队列（如Kafka）作为缓冲区，应对数据流量峰值。数据存储层数据湖（DataLake）：存储原始
大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007 添柴程序猿大数据 hadoop hive 大数据面试题 flume
大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和
探索Hadoop生态圈：核心组件介绍放。756 hadoop 大数据分布式
Hadoop生态圈包括多个组件，如HDFS提供分布式存储，MapReduce处理大数据计算，YARN管理资源调度，HBase支持非结构化数据存储，Hive实现数据仓库功能，Pig提供高级数据流处理，Sqoop实现数据迁移，Flume处理日志收集等。这些组件共同构建起强大的大数据处理框架。
flume 负载均衡详解 goTsHgo flume 大数据分布式 flume 负载均衡大数据
ApacheFlume是一个分布式、可靠且可用的系统，旨在有效地从多个数据源收集、聚合和移动大量日志数据到集中存储系统（如HDFS、HBase等）。在数据传输过程中，负载均衡是Flume的一个重要功能，它有助于确保多个节点间的负载均匀分布，从而提高系统的稳定性和吞吐量。从Flume的架构角度来看，它的负载均衡涉及多个组件，包括Source、Channel和Sink，下面我们逐层从底层原理和部分源代
数据仓库：如何解决ODS数据零点漂移问题夜希辰数据仓库大数据
本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移，查看flume+kafka同步数据导致的零点漂移参考该文章：业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)一、数据零点漂移概念1、什么是零点漂移：数据零点漂移指的是数据同步过程中，ODS表按时间字段分区时，同一个业务日期(分区)包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据。由于ODS需要承接面向历史的细节
Windows PC上创建大数据职业技能竞赛实验环境之六--Flume、Kafka和Flink编程 liu9ang 大数据平台 hadoop kafka flink redis
1Flume参看日志采集工具Flume的安装与使用方法_厦大数据库实验室博客(xmu.edu.cn)。查看Flume安装root@client1:~#flume-ngversionFlume1.7.0Sourcecoderepository:https://git-wip-us.apache.org/repos/asf/flume.gitRevision:511d868555dd4d16e6ce4
flume面试题整理狂飙婴儿车笔记 flume 数据库 flume hadoop
flume1.什么是flumeflume是一个分布式的基于流式架构的海量日志采集聚合传输的系统有高可用性和高可靠性2.flume由什么组成的？*Agent*：一个jvm进程以event（事件）为基本单元对数据进行传输由source、channel、sink组成source：收集数据以event为单元进行封装发送给channel常见的source有：1）netcattcpsource:用来监听端口数
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST