yydcj

flume搭建调试

Installing CDH3

https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation

wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo -O /etc/yum.repos.d/cloudera.repo
 
yum search hadoop
yum -y install hadoop-0.20
 
yum -y install hadoop-0.20-namenode
yum -y install hadoop-0.20-datanode
#yum -y install hadoop-0.20-secondarynamenode
yum -y install hadoop-0.20-jobtracker
yum -y install hadoop-0.20-tasktracker

Installing CDH3 Components

https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation#CDH3Installation-InstallingCDH3Components

yum install

install/Use
---------------------------------
Flume flume
Sqoop sqoop
Hue hue
Pig hadoop-pig
Hive hadoop-hive
HBase hadoop-hbase
ZooKeeper hadoop-zookeeper
Oozie server oozie
Oozie client oozie-client
Whirr whirr
Snappy hadoop-0.20-native
Mahout mahout

flume分为：

flume 核心
flume.node 作为节点的服务自启动脚本
flume.master 作为maaster的服务自启动脚本

yum install flume*

[root@flume-hadoop-node-1 ~]# flume
usage: flume command [args...]
commands include: 
  dump            Takes a specified source and dumps to console
  source          Takes a specified source and dumps to console
  node            Start a Flume node/agent (with watchdog)
  master          Start a Flume Master server (with watchdog)
  version         Dump flume build version information 
  node_nowatch    Start a flume node/agent (no watchdog)
  master_nowatch  Start a Flume Master server (no watchdog)
  class    Run specified fully qualified class using Flume environment (no watchdog)
                   ex: flume com.cloudera.flume.agent.FlumeNode 
  classpath       Dump the classpath used by the java executables
  shell           Start the flume shell
  killmaster      Kill a running master
  dumplog         Takes a specified WAL/DFO log file and dumps to console
  sink            Start a one-shot flume node with console source and specified sink 
 
 
 
cd /etc/flume/conf
mv flume-site.xml.template flume-site.xml
vi flume-site.xml
 
#修改masterhost为你的host
 
 
/etc/init.d/flume-master  start
/etc/init.d/flume-node start

flume文档

http://archive.cloudera.com/cdh/3/flume/UserGuide/index.html

flume总的来说，是面向流的设计，“source“和”sink"分别代表产生和消费，push、pull都支持，可以扩展支持各种数据源，及数据的处理，非常灵活。

先停掉服务，以前台模式运行，方便查看各种输出，直观的了解一把

/etc/init.d/flume-master stop && /etc/init.d/flume-node stop

启动flume

flume dump console

启动之后，你可以在输入任何字符，然后会有来自flume的回显，因为我们参数指定了console，这个其实是配置flume的source为console的输入，默认sink也是console

source为文件的情况
flume dump 'text("/etc/services")'

tail文件末尾信息的方法
flume dump 'tail("testfile")'

testfile可以不存在，没有问题，我们在另外的console里面创建这个文件，并添加些内容

[root@flume-hadoop-node-1 tmp]# echo "test flume">testfile
[root@flume-hadoop-node-1 tmp]# echo "test flume 123">testfile
[root@flume-hadoop-node-1 tmp]# echo "test flume 123">>testfile
[root@flume-hadoop-node-1 tmp]# echo "test flume 1234">>testfile
[root@flume-hadoop-node-1 tmp]# echo "test flume 12345\r\n123456">>testfile

在flume这边，就可以实时的看到反馈

2012-01-06 20:42:55,818 [main] INFO agent.LogicalNodeManager: Loading node name with FlumeConfigData: {srcVer:'Thu Jan 01 08:00:00 CST 1970' snkVer:'Thu Jan 01 08:00:00 CST 1970'  ts='Thu Jan 01 08:00:00 CST 1970' flowId:'null' source:'tail( "testfile" )' sink:'console' }
2012-01-06 20:42:55,836 [main] INFO agent.LogicalNode: Node config successfully set to FlumeConfigData: {srcVer:'Thu Jan 01 08:00:00 CST 1970' snkVer:'Thu Jan 01 08:00:00 CST 1970'  ts='Thu Jan 01 08:00:00 CST 1970' flowId:'null' source:'tail( "testfile" )' sink:'console' }
2012-01-06 20:42:55,920 [logicalNode dump-10] INFO debug.ConsoleEventSink: ConsoleEventSink( debug ) opened
2012-01-06 20:42:55,973 [main] INFO agent.FlumeNode: Hadoop Security enabled: false
flume-hadoop-node-1 [INFO Fri Jan 06 20:43:21 CST 2012] { tailSrcFile : (long)8387236824819002469  (string) 'testfile' (double)4.914663849160389E252 } test flume
flume-hadoop-node-1 [INFO Fri Jan 06 20:43:36 CST 2012] { tailSrcFile : (long)8387236824819002469  (string) 'testfile' (double)4.914663849160389E252 } 123
flume-hadoop-node-1 [INFO Fri Jan 06 20:43:48 CST 2012] { tailSrcFile : (long)8387236824819002469  (string) 'testfile' (double)4.914663849160389E252 } test flume 123
flume-hadoop-node-1 [INFO Fri Jan 06 20:43:56 CST 2012] { tailSrcFile : (long)8387236824819002469  (string) 'testfile' (double)4.914663849160389E252 } test flume 1234
flume-hadoop-node-1 [INFO Fri Jan 06 20:44:11 CST 2012] { tailSrcFile : (long)8387236824819002469  (string) 'testfile' (double)4.914663849160389E252 } test flume 12345\\r\\n123456

多个文件，也是可以的

flume dump 'multitail("test1", "test2")'

默认情况下，tail会处理文件的每一行，并分别生成event，默认分隔符是“\n”，并且不会排除分隔符本身，如果你需要自定义分隔符（采用正则表达式），也是可以的，支持
”prev":分隔符属于前一个event
"next"：分隔符属于下一个event
"exclude"：分隔符丢弃

tail("file", delim="\n\n+", delimMode="exclude")
tail("file", delim="", delimMode="prev")

开启一个UDP服务，并监听5140端口

 flume dump 'syslogUdp(5140)'

flume web console

http://10.129.8.125:35871/flumemaster.jsp

Cloudera Manager Free Edition

https://ccp.cloudera.com/display/express37/Cloudera+Manager+Free+Edition+Documentation

wget http://archive.cloudera.com/cloudera-manager/installer/latest/cloudera-manager-installer.bin
chmod a+x cloudera-manager-installer.bin 
./cloudera-manager-installer.bin

安装之前，先禁用Selinux

vi /etc/selinux/config 
--
SELINUX=disabled
--
 
 
setenforce 0

./cloudera-manager-installer.bin
安装失败，查看日志，发现安装包下载不下来，只能手动下载安装了。

手动安装JDK

wget http://archive.cloudera.com/cloudera-manager/redhat/5/x86_64/cloudera-manager/3/RPMS/jdk-6u21-linux-amd64.rpm
rpm -Uhv jdk-6u21-linux-amd64.rpm

http://archive.cloudera.com/cloudera-manager/redhat/5/x86_64/cloudera-manager/3/RPMS/cloudera-manager-daemons-3.7.2.143-1.noarch.rpm

----------------------------华丽的不行了的分割线-----------------------------------------

2台机器：125 126
125上配置：

vi /etc/flume/conf/flume-site.xml
 

flume.collector.event.host
collector
This is the host name of the default "remote"     collector.


  
flume.collector.port
35853
This default tcp port that the collector listens to     in order to receive events it is collecting.

启动flume各节点

 flume node_watch -n collector

HDFS服务器设置（新配）

hdfs://10.129.8.126/

 
cp  /usr/lib/hadoop/example-confs/conf.pseudo/*  /etc/hadoop/conf/
 
 
mkdir /var/lib/hadoop-0.20/cache/hadoop/dfs/name -p
chmod 777 -R /var/lib/hadoop-0.20/
 
sudo -u hdfs hadoop namenode -format  （注意大写的：Y）
 
 
 
[root@cloudera-node-1 logs]# hadoop fs -ls hdfs://127.0.0.1/
ls: Wrong FS: hdfs://127.0.0.1/, expected: hdfs://cloudera-node-1
Usage: java FsShell [-ls <path>]
[root@cloudera-node-1 logs]# hadoop fs -ls hdfs://cloudera-node-1
ls: Pathname  from hdfs://cloudera-node-1 is not a valid DFS filename.
Usage: java FsShell [-ls <path>]
[root@cloudera-node-1 logs]# hadoop fs -ls hdfs://cloudera-node-1/
[root@cloudera-node-1 logs]# hadoop fs -mkdir  hdfs://cloudera-node-1/test
[root@cloudera-node-1 logs]# hadoop fs -ls hdfs://cloudera-node-1/
Found 1 items
drwxr-xr-x   - root supergroup          0 2012-02-03 00:54 /test
[root@cloudera-node-1 logs]#

修改hadoop配置，使用外部ip

 
vi /etc/hadoop/conf/core-site.xml
 
<property>
    <name>fs.default.namename>
    <value>hdfs://10.129.8.126:8020value>
  property>
 
/etc/init.d/hadoop-0.20-namenode restart
 
[root@cloudera-node-1 logs]# hadoop fs -ls hdfs://10.129.8.126/
Found 1 items
drwxr-xr-x   - root supergroup          0 2012-02-03 00:54 /test

设置访问权限：

hadoop dfs -chmod 777 hdfs://10.129.8.126/flume/ hadoop dfs -chmod 777 hdfs://10.129.8.126/flume/*

126节点，启动flume

flume node_nowatch

打开flume master

http://10.129.8.125:35871/flumemaster.jsp

cloudera-node-1 : text("/etc/services") | agentSink("10.129.8.125",35853); collector : collectorSource(35853) | collectorSink("hdfs://10.129.8.126/flume/","srcdata");

？？
Flume’s Tiered Event Sources

collectorSource[(port)]
Collector source. Listens for data from agentSinks forwarding to port port. If port is not specified, the node default collector TCP port, 35853.
!!

hadoop dfs -ls hdfs://10.129.8.126/flume/

125上报错：

org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /flume/srcdata20120203-013616957+0800.2438481505068540.00000021.tmp could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1520) at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:665) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428) at org.apache.hadoop.ipc.Client.call(Client.java:1107) at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226) at $Proxy6.addBlock(Unknown Source) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82) at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59) at $Proxy6.addBlock(Unknown Source) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3178) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:3047) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$1900(DFSClient.java:2305) at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2500)

vi /etc/hadoop/conf/hdfs-site.xml
设置replica为0.也不行

<delete> 设置 vi /etc/hadoop/conf/hdfs-site.xml <property> <name>dfs.thrift.addressname> <value>10.129.8.126:10090value> property> delete>

vi /etc/hadoop/conf/masters
替换localhost为ip：10.129.8.126

还是不行，在125上手动执行upload操作

vi a.txt hadoop dfs -put a.txt hdfs://10.129.8.126/flume/srcdata20120203-014405668+0800.2438950215947540.00000019.tmp.1

报一样的错误，

在126上执行如上操作，报同样错误，MD

看来是datanode挂了，但是服务显示启动，重启试试。

[root@cloudera-node-1 ~]# /etc/init.d/hadoop-0.20-datanode status datanode (pid 4866) is running... [root@cloudera-node-1 ~]# /etc/init.d/hadoop-0.20-datanode restart Stopping Hadoop datanode daemon (hadoop-datanode): stopping datanode datanode is stopped [ OK ] Starting Hadoop datanode daemon (hadoop-datanode): starting datanode, logging to /usr/lib/hadoop-0.20/logs/hadoop-hadoop-datanode-cloudera-node-1.out datanode (pid 8570) is running... [ OK ] [root@cloudera-node-1 ~]# vi /usr/lib/hadoop/logs/hadoop-hadoop-datanode-cloudera-node-1.log [root@cloudera-node-1 ~]# vi /usr/lib/hadoop/logs/hadoop-hadoop-datanode-cloudera-node-1.log [root@cloudera-node-1 ~]# vi /usr/lib/hadoop/logs/hadoop-hadoop-datanode-cloudera-node-1.log [root@cloudera-node-1 ~]# vi /usr/lib/hadoop/logs/hadoop-hadoop-datanode-cloudera-node-1.log [root@cloudera-node-1 ~]# hadoop dfs -put a.txt hdfs://10.129.8.126/flume/srcdata20120203-014405668+0800.2438950215947540.00000019.tmp.12 put: Target hdfs://10.129.8.126/flume/srcdata20120203-014405668+0800.2438950215947540.00000019.tmp.12 already exists [root@cloudera-node-1 ~]# hadoop dfs -put a.txt hdfs://10.129.8.126/flume/srcdata20120203-014405668+0800.2438950215947540.00000019.tmp.123 [root@cloudera-node-1 ~]#

ok了。

如果报safemode了

2012-02-03 01:42:17,467 [logicalNode collector-19] INFO rolling.RollSink: closing RollSink 'escapedCustomDfs("hdfs://10.129.8.126/flume/","srcdata%{rolltag}" )' 2012-02-03 01:42:17,467 [logicalNode collector-19] INFO rolling.RollSink: opening RollSink 'escapedCustomDfs("hdfs://10.129.8.126/flume/","srcdata%{rolltag}" )' 2012-02-03 01:42:17,468 [logicalNode collector-19] INFO debug.InsistentOpenDecorator: Opened MaskDecorator on try 0 2012-02-03 01:42:17,469 [pool-7-thread-1] INFO hdfs.EscapedCustomDfsSink: Opening hdfs://10.129.8.126/flume/srcdata20120203-014217467+0800.2438842015436540.00000019 2012-02-03 01:42:17,476 [logicalNode collector-19] INFO debug.InsistentAppendDecorator: append attempt 3 failed, backoff (8000ms): org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create file/flume/srcdata20120203-014217467+0800.2438842015436540.00000019.tmp. Name node is in safe mode. The number of live datanodes 0 needs an additional 1 live datanodes to reach the minimum number 1. Safe mode will be turned off automatically. at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1182) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:1150) at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:597) at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:576) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:557) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1434) at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1430) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:396) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1157) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1428)

执行
hadoop dfsadmin -safemode leave

ok，再来一遍

125上面；
flume node_nowatch -n collector

126上面：
flume node_nowatch

ok搞定

[root@flume-hadoop-node-1 log]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 2 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 0 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023.tmp [root@flume-hadoop-node-1 log]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 2 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 [root@flume-hadoop-node-1 log]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 2 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 [root@flume-hadoop-node-1 log]# hadoop fs -tail hdfs://10.129.8.126/flume/srcdata20120203-021531413+0800.2440835961446540.00000021 \t\t3881/udp\t\t\t# Data Acquisition and Control","timestamp":1328205987177,"pri":"INFO","nanos":100778763829457,"host":"cloudera-node-1","fields":{"AckTag":"20120203-020626329+0800.100777916519457.00000019","AckType":"msg","AckChecksum":"\u0000\u0000\u0000\u0000陋赂\u0010娄","rolltag":"20120203-021531413+0800.2440835961446540.00000021"}} {"body":"msdts1\t\t3882/tcp\t\t\t# DTS Service Port","timestamp":1328205987177,"pri":"INFO","nanos":100778763863457,"host":"cloudera-node-1","fields":{"AckTag":"20120203-020626329+0800.100777916519457.00000019","AckType":"msg","AckChecksum":"\u0000\u0000\u0000\u0000?隆w?","rolltag":"20120203-021531413+0800.2440835961446540.00000021"}} {"body":"msdts1\t\t3882/udp\t\t\t# DTS Service Port","timestamp":1328205987177,"pri":"INFO","nanos":100778763897457,"host":"cloudera-node-1","fields":{"AckTag":"20120203-020626329+0800.100777916519457.00000019","AckType":"msg","AckChecksum":"\u0000\u0000\u0000\u00005=?\u0002","rolltag":"20120203-021531413+0800.2440835961446540.00000021"}}

新加flume node
126上面：

flume node_nowatch -n agentAB

flume-master页面上面添加配置
agentAB : text("/var/log/dmesg") | agentSink("10.129.8.125",35853);

OK，没有问题，下面试试默认配置

flume node_nowatch -n agentABC
agentABC : text("/tmp/medcl") | agentSink("10.129.8.125");

这个时候，
node status里面
agentABC agentABC flume-hadoop-node-1 OPENING Fri Feb 03 02:31:11 CST 2012 3 Fri Feb 03 02:32:49 CST 2012

console端报错：

2012-02-03 02:31:14,823 [logicalNode agentABC-22] INFO connector.DirectDriver: Connector logicalNode agentABC-22 exited with error: /tmp/medcl (No such file or directory) java.io.FileNotFoundException: /tmp/medcl (No such file or directory) at java.io.RandomAccessFile.open(Native Method) at java.io.RandomAccessFile.<init>(RandomAccessFile.java:212) at java.io.RandomAccessFile.<init>(RandomAccessFile.java:98) at com.cloudera.flume.handlers.debug.TextFileSource.open(TextFileSource.java:75) at com.cloudera.flume.core.connector.DirectDriver$PumperThread.run(DirectDriver.java:87) Exception in thread "logicalNode agentABC-22" java.lang.NullPointerException at com.cloudera.flume.handlers.debug.TextFileSource.close(TextFileSource.java:69) at com.cloudera.flume.core.connector.DirectDriver$PumperThread.ensureClosed(DirectDriver.java:183) at com.cloudera.flume.core.connector.DirectDriver$PumperThread.errorCleanup(DirectDriver.java:204) at com.cloudera.flume.core.connector.DirectDriver$PumperThread.run(DirectDriver.java:92)

创建文件
echo "hello world" > /tmp/medcl

继续失败着，不能自动恢复，只能重启node

[root@cloudera-node-1 log]# hadoop dfs -tail hdfs://10.129.8.126/flume/srcdata20120203-023644240+0800.2442108787815540.00000021 {"body":"hello world","timestamp":1328207806233,"pri":"INFO","nanos":2442110780978540,"host":"flume-hadoop-node-1","fields":{"AckTag":"20120203-023646196+0800.2442110743929540.00000022","AckType":"msg","AckChecksum":"\u0000\u0000\u0000\u0000\rJ\u0011?","rolltag":"20120203-023644240+0800.2442108787815540.00000021"}}

flume node_nowatch -n agentABCD agentABCD : text("/tmp/medcl") | agentSink("10.129.8.125");

text sink只能执行一次，后续文件有变化，并不处理

tail就可以实现监听

flume node_nowatch -n collector #如果collector已经关闭，需要重新打开，配置文件在前面 flume node_nowatch -n agentABCDE agentABCDE : tail("/tmp/medcl") | agentSink("10.129.8.125");

collector每30秒写一次hadoop，hadoop文件每次新建一个

[root@flume-hadoop-node-1 tmp]# echo "happy new year">>medcl [root@flume-hadoop-node-1 tmp]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 7 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 -rw-r--r-- 3 root supergroup 197377 2012-02-03 02:25 /flume/srcdata20120203-022338788+0800.2441323335749540.00000021 -rw-r--r-- 3 root supergroup 318 2012-02-03 02:38 /flume/srcdata20120203-023644240+0800.2442108787815540.00000021 -rw-r--r-- 3 root supergroup 761621 2012-02-07 19:00 /flume/srcdata20120207-185754757+0800.2846579304755540.00000021 -rw-r--r-- 3 root supergroup 336 2012-02-07 19:02 /flume/srcdata20120207-185954947+0800.2846699494856540.00000021 -rw-r--r-- 3 root supergroup 329 2012-02-07 19:09 /flume/srcdata20120207-190658071+0800.2847122618653540.00000021 [root@flume-hadoop-node-1 tmp]# [root@flume-hadoop-node-1 tmp]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 8 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 -rw-r--r-- 3 root supergroup 197377 2012-02-03 02:25 /flume/srcdata20120203-022338788+0800.2441323335749540.00000021 -rw-r--r-- 3 root supergroup 318 2012-02-03 02:38 /flume/srcdata20120203-023644240+0800.2442108787815540.00000021 -rw-r--r-- 3 root supergroup 761621 2012-02-07 19:00 /flume/srcdata20120207-185754757+0800.2846579304755540.00000021 -rw-r--r-- 3 root supergroup 336 2012-02-07 19:02 /flume/srcdata20120207-185954947+0800.2846699494856540.00000021 -rw-r--r-- 3 root supergroup 329 2012-02-07 19:09 /flume/srcdata20120207-190658071+0800.2847122618653540.00000021 -rw-r--r-- 3 root supergroup 337 2012-02-07 19:12 /flume/srcdata20120207-190929343+0800.2847273890577540.00000021 [root@flume-hadoop-node-1 tmp]# hadoop fs -get hdfs://10.129.8.126/flume/srcdata20120207-190929343+0800.2847273890577540.00000021 /tmp/lo2

如果是替换文件内容，不是追加，第一条记录会造成丢失，此处应该特别注意（bug？)

[root@flume-hadoop-node-1 tmp]# echo "who is your daddy?">medcl [root@flume-hadoop-node-1 tmp]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 8 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 -rw-r--r-- 3 root supergroup 197377 2012-02-03 02:25 /flume/srcdata20120203-022338788+0800.2441323335749540.00000021 -rw-r--r-- 3 root supergroup 318 2012-02-03 02:38 /flume/srcdata20120203-023644240+0800.2442108787815540.00000021 -rw-r--r-- 3 root supergroup 761621 2012-02-07 19:00 /flume/srcdata20120207-185754757+0800.2846579304755540.00000021 -rw-r--r-- 3 root supergroup 336 2012-02-07 19:02 /flume/srcdata20120207-185954947+0800.2846699494856540.00000021 -rw-r--r-- 3 root supergroup 329 2012-02-07 19:09 /flume/srcdata20120207-190658071+0800.2847122618653540.00000021 -rw-r--r-- 3 root supergroup 337 2012-02-07 19:12 /flume/srcdata20120207-190929343+0800.2847273890577540.00000021

再追加一条数据

[root@flume-hadoop-node-1 tmp]# echo "here is a new line">>medcl [root@flume-hadoop-node-1 tmp]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 9 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 -rw-r--r-- 3 root supergroup 197377 2012-02-03 02:25 /flume/srcdata20120203-022338788+0800.2441323335749540.00000021 -rw-r--r-- 3 root supergroup 318 2012-02-03 02:38 /flume/srcdata20120203-023644240+0800.2442108787815540.00000021 -rw-r--r-- 3 root supergroup 761621 2012-02-07 19:00 /flume/srcdata20120207-185754757+0800.2846579304755540.00000021 -rw-r--r-- 3 root supergroup 336 2012-02-07 19:02 /flume/srcdata20120207-185954947+0800.2846699494856540.00000021 -rw-r--r-- 3 root supergroup 329 2012-02-07 19:09 /flume/srcdata20120207-190658071+0800.2847122618653540.00000021 -rw-r--r-- 3 root supergroup 337 2012-02-07 19:12 /flume/srcdata20120207-190929343+0800.2847273890577540.00000021 -rw-r--r-- 3 root supergroup 0 2012-02-07 19:19 /flume/srcdata20120207-191702865+0800.2847727413000540.00000021.tmp [root@flume-hadoop-node-1 tmp]# hadoop fs -ls hdfs://10.129.8.126/flume/ Found 9 items -rw-r--r-- 3 root supergroup 11829304 2012-02-03 02:17 /flume/srcdata20120203-021531413+0800.2440835961446540.00000021 -rw-r--r-- 3 root supergroup 7080210 2012-02-03 02:18 /flume/srcdata20120203-021605232+0800.2440869780410540.00000023 -rw-r--r-- 3 root supergroup 197377 2012-02-03 02:25 /flume/srcdata20120203-022338788+0800.2441323335749540.00000021 -rw-r--r-- 3 root supergroup 318 2012-02-03 02:38 /flume/srcdata20120203-023644240+0800.2442108787815540.00000021 -rw-r--r-- 3 root supergroup 761621 2012-02-07 19:00 /flume/srcdata20120207-185754757+0800.2846579304755540.00000021 -rw-r--r-- 3 root supergroup 336 2012-02-07 19:02 /flume/srcdata20120207-185954947+0800.2846699494856540.00000021 -rw-r--r-- 3 root supergroup 329 2012-02-07 19:09 /flume/srcdata20120207-190658071+0800.2847122618653540.00000021 -rw-r--r-- 3 root supergroup 337 2012-02-07 19:12 /flume/srcdata20120207-190929343+0800.2847273890577540.00000021 -rw-r--r-- 3 root supergroup 341 2012-02-07 19:19 /flume/srcdata20120207-191702865+0800.2847727413000540.00000021 [root@flume-hadoop-node-1 tmp]# hadoop fs -tail hdfs://10.129.8.126/flume/srcdata20120207-191702865+0800.2847727413000540.00000021 {"body":"here is a new line","timestamp":1328613446703,"pri":"INFO","nanos":2847751251273540,"host":"flume-hadoop-node-1","fields":{"AckTag":"20120207-191720960+0800.2847745508415540.00000025","AckType":"msg","AckChecksum":"\u0000\u0000\u0000\u0000/rN?","tailSrcFile":"medcl","rolltag":"20120207-191702865+0800.2847727413000540.00000021"}}

果然，数据丢了一条了。

ok，前面提到了flume使用3种工作模式来保证数据的可靠性与可用性：
1.End2End，2端确认，失败会自动重试（重试次数多少，重试失败之后怎样处理，还要继续研究）
agentE2ESink[("machine"[,port])]

2.DiskFailover，失败写本地磁盘，周期性检查，collector可用的时候，自动重做任务。
agentDFOSink[("machine"[,port])]

3.高效模式，collector失败就丢弃日志，够狠够绝
agentBESink[("machine"[,port])]

前面使用到的agentSink，是第一种End2End的别名，效果和End2End一样。

多收集器的配置

多个collector能够提高吞吐量，因为日志收集都是平行，前面提到过，为保证可靠性，如果collector挂了，agent需要写本地磁盘，然后周期性的去重新连接collector，另外，日志收集停止了，后面的日志处理与分析也歇菜了，这个可不行的。
多个collector就可以解决这个问题，汗！

另外多个collector中，如果其中一个挂了，agent应该是能够自动切换的，怎么配呢？

使用failover chains，

agentA : src | agentE2EChain("collectorA:35853","collectorB:35853"); agentB : src | agentE2EChain("collectorA:35853","collectorC:35853"); agentC : src | agentE2EChain("collectorB:35853","collectorA:35853"); agentD : src | agentE2EChain("collectorB:35853","collectorC:35853"); agentE : src | agentE2EChain("collectorC:35853","collectorA:35853"); agentF : src | agentE2EChain("collectorC:35853","collectorB:35853"); collectorA : collectorSource(35853) | collectorSink("hdfs://...","src"); collectorB : collectorSource(35853) | collectorSink("hdfs://...","src"); collectorC : collectorSource(35853) | collectorSink("hdfs://...","src");

如上配置，chain指定了2个，第一个collector失败了之后，自动切换使用第二个。

自动FailoverChain，主要是通过使用特殊的source和sink名字（多master下不适用）

source使用：
autoCollectorSource

sink使用：
autoE2EChain, autoDFOChain, or autoBEChain

配置为：
agentA : src | autoE2EChain ;
agentB : src | autoE2EChain ;
agentC : src | autoE2EChain ;
agentD : src | autoE2EChain ;
agentE : src | autoE2EChain ;
agentF : src | autoE2EChain ;
collectorA : autoCollectorSource | collectorSink("hdfs://...", "src");
collectorB : autoCollectorSource | collectorSink("hdfs://...", "src");
collectorC : autoCollectorSource | collectorSink("hdfs://...", "src");

Logical Configurations
一个physical node包含若干个logical node，logical node又分为：logical sources 和logical sinks ，使用flow来隔离nodes和分组

logical node允许一个JVM实例包含多个logical nodes，实现在一个JVM上跑多个Source和Sink的线程。

每个logical node的名称必须唯一，包括physical node 名称或者 host名称都不能相同

logical定义分两步，

1.定义node类型
agent1 : _source_ | autoBEChain ;
collector1 : autoCollectorSource | collectorSink("hdfs://....") ;

2.mapping logical node和 physical node
map host1 agent1
map host2 collector1

3.解除一个logical节点
decommission agent1

试试

125上 1004 cd /tmp/ 1005 ls 1006 rm -rif flume-* 1007 /etc/init.d/flume-master restart 1008 /etc/init.d/flume-node star

126上

/etc/init.d/flume-node star

flume master页面
config：

agent1 : tail("/tmp/medcl") | autoBEChain ; collector1 : autoCollectorSource | collectorSink("hdfs://10.129.8.126/flume/","medcl") ;

注：主机名-ip
cloudera-node-1：10.129.8.126
flume-hadoop-node-1：10.129.8.125

raw command:

command: map arguments:10.129.8.125 agent1 #flume-hadoop-node-1 agent1 command: map arguments: 10.129.8.126 collector1 #cloudera-node-1 collector1 试试解除 map 10.129.8.125 agent2 decommission agent2

（注意空格，decommission两端不能有空格）

或者unmap和map操作来移动logicalnode

unmap host2 collector1 map host3 collector1

（
抓包得到请求为：
curl -XPOST http://10.129.8.125:35871/mastersubmit.jsp -d'cmd=unmap&args=10.129.8.125+agent1'
）

注：logical sources和logical sinks在多master下不适用

通过logical source和logical sink可以在不知道具体物理节点的时候就进行流程的配置，flume有一种翻译的机制，会自动将logical节点名称替换成实际的主机名和端口
事实上，autoSinks和auto-Chain也是这样来实现的。

Flow 隔离，（注，多master下也不适用，悲催啊）

假设你需要收集一个物理机的多种数据，并存放到不同的地方，一种方式是对所有的数据打上tag，通过同一个管道来传数据，然后通过后处理来分离数据

另一种是在整个传输过程中通过将两两种数据隔离，避免后处理的产生

Flume两种都支持，并且延时很低，通过引入flow的概念，将节点进行分组，配置方式如下:
flume master页面：
raw commands

命令：config
参数：[logincal node] [flow name] fooSrc autoBEChain

实际例子：

config AgentC myflow tail("/tmp/medcl") autoBEChain config CollectorC myflow autoCollectorSource collectorSink("hdfs://10.129.8.126/flume/","medcl_flow") map 10.129.8.125 AgentC map 10.129.8.126 CollectorC

!!!!

------------
1.问题：
fail( "logical node not mapped to physical node yet" )

1.使用主机名来做map，node status显示的是什么名称，map的时候就用什么名称
2.先map好logical node，然后再更新config配置

正常工作的配置，

map cloudera-node-1 agent1 map flume-hadoop-node-1 collector1 agent1 : tail("/tmp/medcl") | agentSink("10.129.8.125",35853); collector1 : collectorSource(35853) | collectorSink("hdfs://10.129.8.126/flume/","medcl");

!!!!

多master配置
多master之间自动同步，一个master挂了，其下node会自动转移到其他master上去。

flume master有两种工作模式：standalone和distributed
如何配置呢？

<property> <name>flume.master.serversname> <value>hostA,hostBvalue> property>

一个Host则是standalone模式，多个host即distributed模式【分布式模式下，每个master的配置文件必须一样】
另外，每个master必须要配置不同的serverid，如下：

MaserA： <property> <name>flume.master.serveridname> <value>0value> property> MasterB： <property> <name>flume.master.serveridname> <value>1value> property>

【数字和前面配置的服务器列表的下标保持一致即可】
分布式环境下，至少需要3台服务器来保证允许一台失败，如果要允许同时两台挂掉，则至少需要5台服务器
，如果master节点存活率不能超过总数的一半，整个flume master 集群就会block住，无法读写配置信息

flume master存放配置信息的地方叫做：configuration store，支持插拔，本身支持两种实现：
基于内存的：MBCS和基于ZooKeeper的：ZBCS
默认ZBCS，flume内置zookeeper，支持配置到现有的zookeeper集群去

<property> <name>flume.master.storename> <value>zookeepervalue> property>

【value值可选：zookeeper或者memory】

ZBCS配置

flume.master.zk.logdir：存储配置文件信息，更新日志，失败信息等
flume.master.zk.server.quorum.port：默认3182，zookeeper server本地监听
flume.master.zk.server.election.port：默认3183，zookeeper server用来寻找其它节点
flume.master.zk.client.port：默认3181，用来与zookeeper server通讯

FlumeMaster的gossip协议支持：

<property> <name>flume.master.gossip.portname> <value>57890value> property>

分布式模型下，flume node的配置也需要调整，从连一个改成连接多个master

<property> <name>flume.master.serversname> <value>masterA,masterB,masterCvalue> property>

flume node通过定期与master的端口做心跳检测，一旦master 连接失败，自动随机切换到剩下的可以连上的master上去。【master节点通过配置flume.master.heartbeat.port来配置心跳端口】

如果要使用外部的zookeeper，配置如下
conf/flume-site.xml.

<property> <name>flume.master.zk.use.externalname> <value>truevalue> property> <property> <name>flume.master.zk.serversname> <value>zkServerA:2181,zkServerB:2181,zkServerC:2181value> property>

Flume与数据源集成
Flume强大就在于灵活，支持各种数据源，结构化的，非结构化的,半结构化等等
三种方式：
pushing、polling、embedding（嵌入flume组件到你的应用程序中）

Push Sources:
syslogTcp,syslogUdp:syslog,syslog-ng日志协议
scribe：scribe日志系统的协议

Polling：
tail,mulitail:监视文件内容的追加信息
exec：适合从现有系统抽取数据
poller：收集来着flume node本身的信息

Flume Event的数据模型
6个主要的字段;
Unix timestamp
Nanosecond timestamp 【纳秒级别的时间戳】
Priority
Source host
Body
Metadata table with an arbitrary number of attribute value pairs.

所有的event都有这几个字段，不过body长度可能为0，metadata表可能为空。

priority :TRACE, DEBUG, INFO, WARN, ERROR, or FATAL，这几种
body：raw格式，默认最大32KB，多余的截掉，通过参数flume.event.max.size.bytes来进行配置

使用event的字段来自定义输出位置
collectorSink("hdfs://namenode/flume/webdata/%H00/", "%{host}-")
%H 为时间timestamp字段里的小时，host为field里面的主机名

快速参考：
[horizontal] %{host}
host
%{nanos}
nanos
%{priority}
priority string
%{body}
body
%%
a % character.
%t
Unix time in millis

时间比较特殊，直接使用，不需要{}
collectorSink("hdfs://namenode/flume/webdata/%Y-%m-%d/%H00/", "web-")

快速参考：
%a

locale’s short weekday name (Mon, Tue, …)

%A

locale’s full weekday name (Monday, Tuesday, …)

%b

locale’s short month name (Jan, Feb,…)

%B

locale’s long month name (January, February,…)

%c

locale’s date and time (Thu Mar 3 23:05:25 2005)

%d

day of month (01)

%D

date; same as %m/%d/%y

%H

hour (00..23)

%I

hour (01..12)

%j

day of year (001..366)

%k

hour ( 0..23)

%l

hour ( 1..12)

%m

month (01..12)

%M

minute (00..59)

%P

locale’s equivalent of am or pm

%s

seconds since 1970-01-01 00:00:00 UTC

%S

second (00..60)

%y

last two digits of year (00..99)

%Y

year (2010)

%z

+hhmm numeric timezone (for example, -0400)

输出文件格式

两种方式：
一直是在 flume-site.xml里面设置默认值，另外是由特定的sink来决定

1.flume-site.xml
flume.collector.output.format

格式快速参考

avro

Avro Native file format. Default currently is uncompressed.

avrodata

Binary encoded data written in the avro binary format.

avrojson

JSON encoded data generated by avro.

default

a debugging format.

json

JSON encoded data.

log4j

a log4j pattern similar to that used by CDH output pattern.

raw

Event body only. This is most similar to copying a file but does not preserve any uniqifying metadata like host/timestamp/nanos.

syslog

a syslog like text output format.

seqfile

the binary hadoop Sequence file format with WritableEventKeys keys, and WritableEvent as values.

2.分别配置

collectorSink( "dfsdir","prefix"[, rollmillis[, format]]) text("file"[,format]) formatDfs("hdfs://nn/file" [, format]) escapedFormatDfs("hdfs://nn/file" [, format])

压缩seqfile
formatDfs("hdfs://nn/dir/file", seqfile("bzip2"))

HDFS大量小文件与高延迟的处理
Flume两种策略来处理
1.合并小文件到大的文件
2.使用CombinedFileInputFormat

<property> <name>flume.collector.dfs.compress.codecname> <value>Nonevalue> <description>Writes formatted data compressed in specified codec to dfs. Value is None, GzipCodec, DefaultCodec (deflate), BZip2Codec, or any other Codec Hadoop is aware of description> property>

seqfile和avrodata支持内部的压缩，具体再研究

DataFlow定义语言

Fan out，往所有sinks写：
[ console, collectorSink ]

Fail over，当前失败，转移到下一个，尝试候选sink：

< logicalSink("collector1") ? logicalSink("collector2") >

配置样例：

agent1 : source | < logicalSink("collector1") ? logicalSink("collector2") > ;

Roll sink，每隔一段时间，关闭当前实例，创建新的实例，每次会创建新的独立的文件：
roll(millis) sink
配置样例：

roll(1000) [ console, escapedCustomDfs("hdfs://namenode/flume/file-%{rolltag}") ]

Sink Decorators，sink装饰器
Fan out和Failover影响messages去哪里，但不修改数据，如果要过滤数据什么的，使用sink decorator

sink decorator可以做很多事情，如可以给数据流添加属性，可以通过写ahead 日志来确保可靠性，或者通过批量、压缩来提供网络吞吐，抽样甚至轻量级的分析

flumenode: source | intervalSampler(10) sink;
flumenode: source | batch(100) sink;
flumenode: source | batch(100) gzip sink;
collector(15000) { escapedCustomDfs("xxx","yyy-%{rolltag}") }
collector(15000) { [ escapedCustomDfs("xxx","yyy-%{rolltag}"), hbase("aaa", "bbb-%{rolltag}"), elasticSearch("eeee","ffff") ] } 【同时往3个sink里面写数据，可能有些是持久化的，有些是瞬时的，都成功之后，才会确认成功】

node1 : tail("foo") | ackedWriteAhead batch(100) gzip lazyOpen stubbornAppend logicalSink("bar");【write ahead，批量100，gzip压缩】

Metadata支持正则来进行抽取
支持类似select语法来筛选

thriftSink and thriftSource

扩展与插件

http://archive.cloudera.com/cdh/3/flume/UserGuide/index.html#_semantics_of_flume_extensions

附录真是好啊

http://archive.cloudera.com/cdh/3/flume/UserGuide/index.html#_flume_source_catalog

map cloudera-node-1 agent2 agent2 : syslogTcp(2012) | agentSink("10.129.8.125",35853); flume node_nowatch -n medcl agent2 : syslogTcp(2012) | agentSink("10.129.8.125",35853);

测试syslog信息

1.NC连接 nc 10.129.8.126 2012 2.输入syslog消息（遵照格式：http://blog.csdn.net/xcj0535/article/details/4158624） <165>Aug 24 05:34:00 CST 1987 mymachine myproc[10]: %% It's time to make the do-nuts. %% Ingredients: Mix=OK, Jelly=OK # Devices: Mixer=OK, Jelly_Injector=OK, Frier=OK # Transport: Conveyer1=OK, Conveyer2=OK # %% <1> medcl is back syslog的格式下面是一个syslog消息： <30>Oct 9 22:33:20 hlfedora auditd[1787]: The audit daemon is exiting. 其中“<30>”是PRI部分，“Oct 9 22:33:20 hlfedora”是HEADER部分，“auditd[1787]: The audit daemon is exiting.”是MSG部分。 [root@cloudera-node-1 ~]# hadoop fs -cat /flume/medcl20120209-221925655+0800.3031470203471540.00000026 {"body":"medcl is back","timestamp":1328797314800,"pri":"INFO","nanos":692106386851457,"host":"cloudera-node-1","fields":{"AckTag":"20120209-222148285+0800.692099872659457.00000037","syslogfacility":"\u0001","AckType":"msg","AckChecksum":"\u0000\u0000\u0000\u0000qu锚茫","syslogseverity":"\u0003","rolltag":"20120209-221925655+0800.3031470203471540.00000026"}} upload到HDFS的文件包含了太多内容 raw下 collector2 : syslogTcp( 2013) | collectorSink( "hdfs://10.129.8.126/flume/", "medcl_raw",3000,raw ); C:\Windows\system32>nc 10.129.8.125 2013 <1> i will be back <1> i will be back2 <1> i will be back3 <1> i will be back4 [root@cloudera-node-1 ~]# hadoop fs -cat /flume/medcl_raw20120209-235000888+0800.3036905435701540.00000069 i will be back i will be back2 i will be back3 i will be back4

.NET Agent 25个线程，结果压趴下了[另外后续测试发现经常无原因socket断开，服务端socket直接挂掉，flume显示error]。
2012-02-10 21:29:44,154 ERROR com.cloudera.flume.core.connector.DirectDriver: Exiting driver logicalNode collector2-20 in error state SyslogTcpSourceThreads | Collector because null

syslogTcp不稳定，果断换thriftRpc作为Source，经测果然很稳定

thrift-0.6.0.exe -r -gen csharp flume.thrift 2012-02-13 23:36:30,574 [pool-4-thread-1] ERROR server.TSaneThreadPoolServer: Thrift error occurred during processing of message. org.apache.thrift.protocol.TProtocolException: Missing version in readMessageBegin, old client? at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.java:213) at com.cloudera.flume.handlers.thrift.ThriftFlumeEventServer$Processor.process(ThriftFlumeEventServer.java:224) at org.apache.thrift.server.TSaneThreadPoolServer$WorkerProcess.run(TSaneThreadPoolServer.java:280) at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) at java.lang.Thread.run(Thread.java:619)

此异常可能是因为服务端和客户端使用了不相同的transport，如framed和buffered不匹配

collector3 : thriftSource( 2014 )| collectorSink( "hdfs://10.129.8.126/flume/", "medcl_thrift",60000,raw ); collector4 : thriftSource( 2015 )| collectorSink( "hdfs://10.129.8.126/flume/", "medcl_thrift",60000,raw ); collector5 : thriftSource( 2016 )| collectorSink( "hdfs://10.129.8.126/flume/", "medcl_thrift",60000,raw ); collector6 : thriftSource( 2017 )| collectorSink( "hdfs://10.129.8.126/flume/", "medcl_thrift",60000,raw ); collector7 : thriftSource( 2018 )| collectorSink( "hdfs://10.129.8.126/flume/", "medcl_thrift2",30000); map cloudera-node-1 collector7

vi flume-site.xml,添加压缩和默认roll时间

<property> <name>flume.collector.dfs.compress.gzipname> <value>truevalue> <description>Writes compressed output in gzip format to dfs. value is boolean type, i.e. true/falsedescription> property> <property> <name>flume.collector.roll.millisname> <value>60000value> <description>The time (in milliseconds) between when hdfs files are closed and a new file is opened (rolled). description> property>

测试文件模板

collector8 : thriftSource( 2019 )| collectorSink("hdfs://10.129.8.126/flume/app/%{host}/%Y-%m-%d/", "%H%M%S-test1-%t",5000); map cloudera-node-1 collector8 [root@flume-hadoop-node-1 ~]# hadoop fs -lsr hdfs://10.129.8.126/flume/app drwxr-xr-x - flume supergroup 0 2012-02-17 00:49 /flume/app/MEDCL-THINK drwxr-xr-x - flume supergroup 0 2012-02-17 00:49 /flume/app/MEDCL-THINK/4113221-02-12 -rw-r--r-- 1 flume supergroup 219 2012-02-17 00:49 /flume/app/MEDCL-THINK/4113221-02-12/203942-test1-12973855419598268720120217-004946767+0800.1305778353827457.00006891

更新

collector8 : thriftSource( 2019 )| collectorSink("hdfs://10.129.8.126/flume/%{catalog}/2012-%m/%d/", "%a-%{host}-",5000,raw());

结果：

/flume/FileTemplateRaw/2012-11/19/Fri-MEDCL-THINK-20120217-013005302+0800.1308196889416457.00007109

collector8 : thriftSource( 2019 )| collectorSink("hdfs://10.129.8.126/flume/%{catalog}/2012", "",5000,raw());

本文来自: flume搭建调试

【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
Flume到Kafka且均分到多个partition 小学僧来啦 Flume Kafka partition Flume
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时，发现kafka接收到的数据总是在一个partition中，而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢？解决方法Flume的官方文档是这么说的：KafkaSinkusesthetopicandkey
深入 Java 领域 log4j 的日志异步队列实现 Java大师兄学大数据AI应用开发 AI人工智能与大数据应用开发 AI实战 java log4j 开发语言 ai
深入Java领域log4j的日志异步队列实现关键词：log4j、异步日志、队列实现、Java日志框架、性能优化、并发编程、日志系统架构摘要：本文深入探讨了log4j日志框架中异步队列的实现原理和机制。我们将从日志系统的基本概念出发，详细分析log4j异步日志的核心架构、队列实现方式、性能优化策略以及在实际项目中的应用场景。通过源码级别的解析和性能测试数据对比，帮助开发者深入理解异步日志的工作原理，
基于多设计模式的同步&异步日志系统--代码设计（六）久念祈日志系统设计模式
目录日志器管理模块（单例）设计思想成员属性提供的接口代码实现：全局的日志器建造者代码实现全局接口的设计获取日志器的全局接口使用宏函数代理日志器的输出接口日志器管理模块（单例）用户可能会创建多个日志器，然后从中选取一个输出日志，那我们就需要将这些日志器管理起来，因此我们需要设计一个日志器管理模块。设计思想以日志器的名称作为唯一关键字将创建的日志器保存起来，允许用户通过日志器名称获取对应日志器，如果日
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）运维痛点日志采集的可靠性与复杂性pod生命周期短、易销毁容器重启或Pod被销毁后，日志会丢失（除非已持久化或集中采集）。需要侧重于实时采集和转发，而不能依赖节点本地日志。多样化的日志来源与格式应用日志、系统日志、Kubernetes组件日志（如kubelet、kube-apiserver）、中间件日志（
C# 设计模式——单例模式（Singleton Pattern） Pdtian C#设计模式 c#设计模式单例模式
单例模式（SingletonPattern）是设计模式中最基础但应用最广泛的一种模式，它确保一个类只有一个实例，并提供一个全局访问点。在C#开发中，单例模式常用于管理共享资源、配置管理、日志系统等场景。文章目录一、基础实现：线程不安全的单例二、线程安全实现1.双重检查锁定模式（Double-CheckLocking）2.使用Lazy（推荐方式）三、进阶实现技巧1.防止反射攻击2.处理序列化问题四、
【Note】《Kafka: The Definitive Guide》第5章：深入 Kafka 内部结构，理解分布式日志系统的核心奥秘
《Kafka:TheDefinitiveGuide》第5章：深入Kafka内部结构，理解分布式日志系统的核心奥秘ApacheKafka在表面上看似只是一个“分布式消息队列”，但其背后的存储架构、分区机制、复制策略与高性能设计，才是它在千万级TPS场景中立足的根本。一、Kafka的核心逻辑结构Kafka是一个分布式日志服务（distributedcommitlog），核心概念有以下几类：TopicK
基于多设计模式的同步&异步日志系统--代码设计（四）久念祈日志系统设计模式
日志器模块设计（logger.hpp）日志器模块是对前述几个模块的整合，实现对日志信息的格式化与落地等功能。这里设计同步和异步两种日志器。一个日志器所要包含的元素有：日志器名称：唯一表示日志器。日志器等级：限制日志输出的最低等级。格式化工具：用于格式化日志信息。日志落地方向数组：用于将日志落地到相应位置。互斥锁：为了支持高并发，需要一个互斥锁保证日志信息的正确。需要提供的对外接口接口有：voidd
linux/ubuntu日志管理--/dev/log 的本质与作用奇妙之二进制 #嵌入式/Linux linux ubuntu 运维
文章目录**一、基本概念****二、技术细节：UNIX域套接字****三、在不同日志系统中的角色****四、应用程序如何使用`dev/log`****五、查看和验证`/dev/log`****六、总结`/dev/log`的核心作用**一、基本概念/dev/log是一个UNIX域套接字（UnixDomainSocket），是Linux系统中实现进程间通信（IPC）的一种特殊文件。它为应用程序提供了向
Linux 日志监控工具对比：从 syslog 到 ELK 实战指南 Clownseven linux elk jenkins
更多云服务器知识，尽在hostol.com你有没有被Linux上满屏飞滚的日志整崩溃过？看着/var/log目录越来越肥，关键日志像大海捞针一样藏在里面，每次出故障就像拆盲盒，赌你能不能第一眼看出问题。日志系统，说起来简单，干起来头疼。很多人一开始用的是最经典的syslog，后来慢慢用上了rsyslog、journald，进阶点的就开始上ELK或者Graylog这些“现代化战斗系统”。但你真的了解
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台 lingRJ777 Java技术栈应用 java backend elasticsearch spring boot microservices elk
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台引言在当前的微服务架构体系中，一个复杂的业务流程往往会横跨数十甚至上百个服务。当线上出现问题时，如何从每天产生的TB级海量日志中快速定位根源，成为衡量系统可观测性的关键。传统的日志聚合方案在面对如此巨大的数据量时，普遍会遇到两大核心挑战：高并发写入瓶颈：数千个服务实例同时产生大量日志，要求日志系统具备极高的写入吞吐能力，
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
MySQL 的日志分析 jarenyVO Mysql 数据库
MySQL的日志分析MySQL的日志系统是保证数据一致性、持久性和高可用的核心组件，不同日志各司其职。以下是详细分类和解析：一、事务日志（InnoDB引擎层）1.RedoLog（重做日志）物理格式：循环写入的固定大小文件（默认ib_logfile0、ib_logfile1）核心作用：崩溃恢复：确保事务的持久性（Durability）Write-AheadLogging(WAL)：数据页修改前先写r
建议是先把base完全搞懂 weixin_47868976 Web云存储项目网络
并发编程日志系统啥的我只了解了一点点直接从网络层入手这个项目可行么？底层base模块没搞懂从web开始合理么？你的担心很有道理！让我来分析一下学习路径的可行性，并给你一个合理的学习建议。一、项目依赖关系分析1.模块依赖层次application/(应用层)↓强依赖net/(网络层)↓强依赖base/(基础层)↓强依赖系统调用(LinuxAPI)2.具体依赖关系Rantool从依赖分析可以看出，网络
同步日志系统深度解析【链式调用】【宏定义】【固定缓冲区】【线程局部存储】【RAII】 weixin_47868976 链表 python
你的理解完全正确！让我结合你的项目，深入讲解同步日志的实现原理和代码。同步日志系统深度解析开始之前：没有必要一行一行理解！没有必要一行一行理解！我建议你采用更高效的学习策略：一、学习策略建议重点理解核心概念和设计思路//只需要理解这些核心概念：1.RAII模式：构造函数获取资源，析构函数释放资源2.链式调用：operatorstream()output();//手动调用输出deletelogger
Zeek网络安全分析框架深入体验八位数花园
本文还有配套的精品资源，点击获取简介：Zeek（前身为Bro）是一个强大的开源网络分析工具，专门用于监控和分析网络流量以识别安全威胁。它通过事件驱动的方式解析多种网络协议，并具备实时分析、非侵入式部署、强大的日志记录能力，以及丰富的脚本语言支持，是网络安全专业人员不可或缺的工具之一。通过本课程，学生将掌握Zeek的核心功能，包括其日志系统、事件处理机制，以及如何通过编写Zeek脚本来扩展分析能力，
C++ 第三阶段项目二：异步日志系统程序员弘羽 C++从入门到入土连载 c++开发语言
目录一、项目目标二、功能需求1.核心功能2.扩展功能（后续可实现）三、实现思路1.整体架构设计2.关键技术点3.性能优化策略4.示例代码结构四、代码实现1.日志消息结构体2.线程安全队列（阻塞队列）3.日志处理器（后台线程）4.日志记录器（对外接口）五、运行示例1.示例代码：调用日志接口2.输出日志文件示例3.编译与运行六、代码关键点说明七、注意事项性能优化：线程安全：扩展性：八、扩展示例1.远程
创建Python批量重命名工具木子乔乔服务器 linux windows
创建Python批量重命名工具开发一个递归处理文件名和目录名中"(Z-Library)"后缀的Python工具，需要以下核心实现方法：以下是针对Python批量文件重命名工具的优化版本，在原功能基础上增加了命令行参数支持、干跑模式、多线程处理及更完善的错误处理机制，同时优化了代码结构和日志系统：Python批量文件重命名工具：增强版（Z-Library后缀处理）功能亮点✅多模式重命名：支持后缀去除
《MySQL 技术内幕（第5版）》逐章精华笔记第六章喵桑.. MySQL mysql 笔记数据库
第6章：事务与日志系统（完整版）本章目标弄懂事务的四大特性（ACID）掌握redolog、undolog、binlog各自用途与流程理解两阶段提交协议（2PC）明白事务是如何保证一致性的一、事务的四大特性（ACID）特性含义原子性A要么全做、要么全不做（靠undo实现）一致性C数据始终从一个合法状态变到另一个合法状态隔离性I多个事务互不干扰（靠锁机制或MVCC）持久性D提交后数据不会丢（靠redo
16.7 Prometheus+Grafana实战：容器化监控与日志聚合一站式解决方案少林码僧 prometheus grafana 人工智能 langchain llama 语言模型机器学习
《Prometheus+Grafana实战：容器化监控与日志聚合一站式解决方案》关键词：容器化监控、日志聚合、Prometheus、Grafana、ELKStack、用户反馈收集容器化监控与日志系统的架构设计在LanguageMentorAgent生产部署中，监控系统需要覆盖以下维度：
Qt日志系统详解：如何高效管理调试信息与错误记录小徐不徐说 qt 开发语言 Qt日志 qDebug 日志写入文件
在Qt应用开发中，日志系统是不可或缺的调试与问题排查工具。相比传统的printf输出，Qt提供了更丰富、更灵活的日志机制，能够满足开发调试、错误捕获、文件记录等多种需求。本文将从基础使用到进阶写入文件，系统性介绍Qt的日志系统。一、为什么要使用日志？日志是软件开发过程中的“黑匣子”，可以记录：程序的执行流程错误和异常发生的位置用户行为与输入性能瓶颈与状态变化尤其是在Qt图形界面程序中，调试信息往往
HarmonyOS Next的HiLog日志系统完全指南：从入门到精通 harmonyos教程
HarmonyOSNext的HiLog日志系统完全指南：从入门到精通\##HarmonyOSNext##ArkTs##教育本文适用于教育科普行业进行学习，有错误之处请指出我会修改。大家好呀！今天我们来聊聊HarmonyOS开发中超级重要的HiLog日志系统~为什么我们需要日志系统？在应用开发过程中，日志就像是我们开发的"黑匣子"✈️。它能帮我们：检查应用是否正常运行追踪代码执行时序验证逻辑分支是否
设计模式 | 单例模式 @hdd 设计模式单例模式
单例模式（SingletonPattern）是设计模式中最简单却最常用的模式之一，它确保一个类只有一个实例，并提供全局访问点。本文将深入探讨单例模式的核心思想、实现技巧以及在C++中的多种实现方式。为什么需要单例模式？在软件开发中，我们经常遇到需要全局唯一对象的场景：资源共享：如数据库连接池、线程池配置管理：全局配置信息日志系统：统一的日志记录器设备驱动：打印机、文件系统等硬件资源管理在这些场景中
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
Spring Boot 日志配置混乱？Logback 使用避坑指南 you的日常 Java spring boot logback 后端 java spring
日志系统是应用程序不可或缺的一部分，它记录了程序的运行状态、错误信息和关键业务数据，为问题排查、性能监控和业务分析提供了重要依据。SpringBoot默认集成了强大的日志框架——Logback，并通过spring-boot-starter-logging为我们提供了开箱即用的日志配置。然而，尽管SpringBoot已经做了很多简化，但如果对Logback的配置机制、SpringBoot的日志自动配
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
日志系统项目问题回答 wws7920 面试 C++日志
一、项目整体与模块认知你这个日志系统支持哪些核心功能？和常见的日志库（如spdlog）相比，有哪些亮点或不足？核心功能就是向指定目标方向写入日志数据，1.支持多日志级别输出DEBUDINFOWARNERROR，通过设置日志器的默认输出等级，只输出大于等于日志器等级的日志2.用户可以自定义格式格式化字符串3.有两种落地方式同步和异步，同步直接输出到指定方向，异步先输出到内存中，再有异步工作线程输出到
Zephyr 调试实用指南：日志系统、Shell CLI 与 GDB 全面解析 damo王 #为何选择Zephyr？zephyr 日志系统内置命令行 GDB
本文深入讲解Zephyr的调试利器，包括统一日志系统（loggingsubsystem）、内置命令行（ShellCLI）、与GDB调试集成方法，帮助开发者快速定位问题、分析运行时行为，实现高效开发与排障。一、日志系统LoggingSubsystem1.1功能概述Zephyr提供统一的日志系统，支持多模块、分级、异步/同步、后端可插拔等特性，是系统级调试的重要入口。1.2启用配置CONFIG_LOG
从C++编程入手设计模式——责任链模式 charlie114514191 基于C++的设计模式 c++设计模式责任链模式
从C++编程入手设计模式——责任链模式当我们的一个请求需要多个对象去处理，但具体由谁来处理，是根据情况动态决定的。例如，一个日志系统中，可能希望把错误信息写入文件，把提示信息输出到控制台，而不是每个消息都写到所有地方。再比如，用户输入的表单需要经过多个字段的验证，每个验证器处理一项，验证失败就可以中断。面对这些问题，我们希望有一种方式，让多个处理者自动接力，把请求传下去，直到有人愿意接住它，或者最
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

flume搭建调试

你可能感兴趣的:(flume,日志系统)