tiantang_1986

Flume相关技术汇总

这些知识基本来源网络，我自己收集了一下做个汇总。

1、简介

Flume支持在日志系统中定制各类数据发送方，用于收集数据。Flume最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。

Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力 Flume提供了从console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日志系统，支持TCP和UDP等2种模式），exec（命令执行）等数据源上收集数据的能力。

官网：http://flume.apache.org/。源码可以从git 获取，地址：https://git-wip-us.apache.org/repos/asf/flume.git，或者从官网获取：http://flume.apache.org/download.html。解压即可，下面是解压后得到的文件：

bin目录放的是启动脚本，conf目录放的是配置文件，lib是放的是所必须的jar包，logs是日志目录。其他几个基本上不会使用到。

2、原理

flume-ng 是由一个个agent组成的。一个agent就像一个细胞一样。

每个agent里都有三部分构成：source、channel和sink。

就相当于source接收数据，通过channel传输数据，sink把数据写到下一端。其中source有很多种可以选择，channel有很多种可以选择，sink也同样有多种可以选择，并且都支持自定义。同时，agent还支持选择器，就是一个source支持多个channel和多个sink，这样就完成了数据的分发。其架构图如下：

当然可以自由组合，如下图：

时序图如下：

Flume为了保证数据的完整性和一致性，在每个agent里面都加了事务。

当然，也可以这么配：

3、组件

Flume-ng（现网使用的是1.5.2）支持的主要几个组件如下：

组件	类型	描述	实现类
Channel	memory	写入内存，特点快，容易内存溢出	MemoryChannel
Channel	file	写入文件，特点稳定、慢	FileChannel
Channel	spillablememory	内存与文件结合使用	SpillableMemoryChannel
Channel	jdbc	基于jdbc的持久化传输(derby)	JDBCChannel
Channel	recoverablememory	持久化结合本地文件存储	RecoverableMemoryChannel
Channel	org.apache.flume.channel.PseudoTxnMemoryChannel	用于测试，不适合生产使用。	PseudoTxnMemoryChannel
Channel	(custom FQCN)	自定义channel实现	(custom FQCN)
Source	avro	使用Avro Netty RPC协议	AvroSource
Source	exec	从Unix读取tail -F	ExecSource
Source	netcat	网关数据源	NetcatSource
Source	seq	单调递增序列发生器的事件源	SequenceGeneratorSource
Source	org.apache.flume.source.StressSource	用于测试，不适合生产使用。	org.apache.flume.source.StressSource
Source	syslogtcp		SyslogTcpSource
Source	syslogudp		SyslogUDPSource
Source	org.apache.flume.source.avroLegacy. AvroLegacySource		AvroLegacySource
Source	org.apache.flume.source.thriftLegacy. ThriftLegacySource		ThriftLegacySource
Source	org.apache.flume.source.scribe.ScribeSource		ScribeSource
Source	(custom FQCN)	自定义source	(custom FQCN)
Sink	hdfs	写入HDFS	HDFSEventSink
Sink	org.apache.flume.sink.hbase.HBaseSink	写入HBase	org.apache.flume.sink.hbase.HBaseSink
Sink	org.apache.flume.sink.hbase.AsyncHBaseSink		org.apache.flume.sink.hbase. AsyncHBaseSink
Sink	logger	写入日志	LoggerSink
Sink	avro	使用AVRO RPC机制	AvroSink
Sink	file_roll		RollingFileSink
Sink	irc		IRCSink
Sink	null	丢弃所有events	NullSink
Sink	(custom FQCN)	自定义sink	(custom FQCN)
ChannelSelector	replicating		ReplicatingChannelSelector
ChannelSelector	multiplexing		MultiplexingChannelSelector
ChannelSelector	(custom type)	自定义ChannelSelector 实现	(custom FQCN)
SinkProcessor	default		DefaultSinkProcessor
SinkProcessor	failover	failover的机器是一直发送给其中一个优先级高的sink，当这个sink不可用的时候，自动发送到下一个sink	FailoverSinkProcessor
SinkProcessor	load_balance	处理一个sink的group组，为每个sink 提供了负载平衡流的能力。	LoadBalancingSinkProcessor
SinkProcessor	(custom FQCN)	自定义SinkProcessor 实现	(custom FQCN)
Interceptor$Builder	host	使用IP或hostname拦截	HostInterceptor$Builder
Interceptor$Builder	timestamp	使用时间戳拦截	TimestampInterceptor$Builder
Interceptor$Builder	static	可以自定义event的header的value	StaticInterceptor$Builder
Interceptor$Builder	regex_filter	提取正则表达式匹配组	RegexFilteringInterceptor$Builder
Interceptor$Builder	(custom FQCN)	自定义 Interceptor$Builder实现	(custom FQCN)

* 1.6的版本还提供了kafkaChannel，性能比memoryChannel差，但比fileChannel好；而且稳定性不输fileChannel，比memoryChannel更稳定。

Flume1.5.2提供的jar包：

4、实现

实现很简单，通过配置。

案例1、avro

a1.channels = c1
a1.sources = r1
a1.sinks = k1
a1.channels.c1.type = memory
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 41414
 a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

案例2：Spool

a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
a1.sources.r1.type = spooldir
a1.sources.r1.channels = c1
a1.sources.r1.spoolDir = /home/hadoop/flume-1.5.0-bin/logs
a1.sources.r1.fileHeader = true
 
a1.sinks.k1.type = logger
a1.sinks.k1.channel = c1
 
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

案例3：Exec

a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
a1.sources.r1.type = exec
a1.sources.r1.channels = c1
a1.sources.r1.command = tail -F /home/hadoop/flume-1.5.0-bin/log_exec_tail
 
a1.sinks.k1.type = logger
a1.sinks.k1.channel = c1
 
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

案例4：Syslogtcp

a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
a1.sources.r1.type = syslogtcp
a1.sources.r1.port = 5140
a1.sources.r1.host = localhost
a1.sources.r1.channels = c1
 
a1.sinks.k1.type = logger
a1.sinks.k1.channel = c1
 
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

案例5：JSONHandler

a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
a1.sources.r1.type = org.apache.flume.source.http.HTTPSource
a1.sources.r1.port = 8888
a1.sources.r1.channels = c1
 
a1.sinks.k1.type = logger
a1.sinks.k1.channel = c1
 
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

启动脚本：

bin/flume-ng agent --conf ./conf/ -f conf/flume.conf -Dflume.root.logger=DEBUG,console -n a1

对应的agent名字a1 ，依赖的环境JDK1.6+。

5、自定义组件

如果是自定义的source、sink，（channel不建议自定义），可以这么配置：

agent01.sources = kafka0 
agent01.channels = ch0
agent01.sinks = sink0
 
agent01.sources.kafka0.type = cn.com.coreware.source.KafkaSource
agent01.sources.kafka0.channels = ch0
agent01.sources.kafka0.zookeeper.connect = 127.0.0.1:2181
agent01.sources.kafka0.batchSize = 15000
 
agent01.channels.ch3.type = memory  
agent01.channels.ch3.keep-alive = 30  
agent01.channels.ch3.transactionCapacity = 10000
agent01.channels.ch3.capacity = 100000
 
agent01.sinks.sink0.type = cn.com.coreware.sink.ScalaSink
agent01.sinks.sink0.channel = ch0
agent01.sinks.sink0.batchsize = 1000

红色部分是自定义的类（全包名），把自定义的类打成jar包，放到lib目录。

为了减少IO访问，提高性能。一般都要设置batchSize。

自定义的source类需要继承org.apache.flume.source.AbstractSource，并实现org.apache.flume.conf.Configurable、org.apache.flume.EventDrivenSource接口。

重写父类的方法：configure（初始化配置）、start（启动入口，非必须）、stop（停止）、process（处理）。

自定义sink也是一样需要继承需要继承org.apache.flume.sink.AbstractSink，并实现Configurable接口。

重写父类的方法：configure（初始化配置）、start（启动入口，非必须）、stop（停止）、process（处理）。

自定义拦截器Interceptor都实现了org.apache.flume.interceptor.Interceptor接口，该接口有四个方法以及一个内部接口：

1、public void initialize()运行前的初始化，一般不需要实现（上面的几个都没实现这个方法）；

2、public Event intercept(Event event)处理单个event；

3、public List<Event> intercept(List<Event> events)批量处理event，实际上市循环调用上面的2；

4、public void close()可以做一些清理工作，上面几个也都没有实现这个方法；

5、public interface Builder extends Configurable 构建Interceptor对象，外部使用这个Builder来获取Interceptor对象。

Builder类是构造interceptor对象的，它会首先通过configure(Context context)方法获取配置文件中interceptor的参数，然后方法build()用来返回一个interceptor对象

public static class Builder implements Interceptor.Builder {
@Override  
public Interceptor build() { 
     return new Interceptor();    
}
 
@Override    
public void configure(Context context) {      
	//TO-DO  
    }
}

自定义拦截器的配置

a1.sources.r1.interceptors=i1  
a1.sources.r1.interceptors.i1.type=com.coreware.flume.RegexInterceptor$Builder
a1.sources.r1.interceptors.i1.regex=(.*)\\.(.*)\\.(.*)  
a1.sources.r1.interceptors.i1.extractorHeader=true  
a1.sources.r1.interceptors.i1.extractorHeaderKey=basename  
a1.sources.r1.interceptors.i1.serializers=s1 s2 s3  
a1.sources.r1.interceptors.i1.serializers.s1.name=one  
a1.sources.r1.interceptors.i1.serializers.s2.name=two  
a1.sources.r1.interceptors.i1.serializers.s3.name=three

正则表达式按“.”分隔抽取三部分，分别放到header中的key:one,two,three当中去，如：event body有这样的内容

a.log.2014-07-31，通过拦截器后，在header当中就会增加三个key: one=a,two=log,three=2014-07-31。

6、Flume 内置监控

Flume的内置监控可以使用Cloudera Manager、Ganglia有图形的监控工具，以及从浏览器获取json串(Http)，或者自定义向其他监控系统汇报信息。

Flume天生支持这两种监控方式：HTTP方式(就是json串)和Ganglia，后者需要安装Ganglia，前者非常简单，只需要在Flume的启动命令中加上：-Dflume.monitoring.type=http -Dflume.monitoring.port=XXXX ，最后的XXXX是你需要设置的端口！然后你就可以在浏览器上通过访问这个Flume所在节点的IP：XXXX/metrics，不断刷新就可以看到最新的组件统计信息。关于Ganglia的请读者自行组建Ganglia集群并参考用户指南来操作。

目前只对三大组件：source、sink、channel进行统计分别是SourceCounter、SinkCounter、ChannelCounter，这三个计数器的统计项是固定的，就是你不能自己设置自己的统计项；他们都继承自MonitoredCounterGroup。

(1)、构造方法MonitoredCounterGroup(Type type, String name, String... attrs)，这个方法主要是设置组件的类型、名称；然后将所有的attrs(这是设定的各个统计项)加入Map<String, AtomicLong> counterMap，值设定为0；然后初始化计数器的开始时间和结束时间，都设为0。

(2)、start()方法，会先注册计数器，然后对所有统计项的统计值设为0；将开始时间设置为当前时间

(3)、register()方法，如果这个计数器还未注册，将这个计数器的MBean进行注册，就可以进行跟踪了

(4)、stop()方法，会设置结束时间为当前时间；输出各个统计项的信息。

三个组件中各种统计项及其含义：

一、SourceCounter，主要统计项如下：

(1)、"src.events.received"，表示source接受的event个数；

(2)、"src.events.accepted"，表示source处理成功的event个数，和上面的区别就是上面虽然接受了可能没处理成功；

(3)、"src.append.received"，表示调用append次数，在avrosource和thriftsource中调用；

(4)、"src.append.accepted"，表示append处理成功次数；

(5)、"src.append-batch.received"，表示appendBatch被调用的次数，在avrosource和thriftsource中调用；

(6)、"src.append-batch.accepted"，表示appendBatch处理成功次数；

(7)、"src.open-connection.count"，用在avrosource中表示打开连接的数量；

一般source调用都集中在前俩。

一、SinkCounter，主要统计项如下：

(1)、"sink.connection.creation.count"，这个调用的地方颇多，都表示“链接”创建的数量，比如与HBase、avrosource建立链接以及文件的打开等；

(2)、"sink.connection.closed.count"，对应于上面的stop操作、destroyConnection、close文件操作等。

(3)、"sink.connection.failed.count"，表示上面所表示“链接”时异常、失败的次数；

(4)、"sink.batch.empty"，表示这个批次处理的event数量为0的情况；

(5)、"sink.batch.underflow"，表示这个批次处理的event的数量介于0和配置的batchSize之间；

(6)、"sink.batch.complete"，表示这个批次处理的event数量等于设定的batchSize；

(7)、"sink.event.drain.attempt"，准备处理的event的个数；

(8)、"sink.event.drain.sucess"，这个表示处理成功的event数量，与上面不同的是上面的是还未处理的。

三、ChannelCounter，主要统计项如下：

(1)、"channel.current.size"，这个表示这个channel的当前容量；

(2)、"channel.event.put.attempt"，一般指的是在channel的事务当中，source的put操作中记录尝试发送event的个数；

(3)、"channel.event.take.attempt"，一般指的是在channel的事务中，sink的take操作记录尝试拿event的个数；

(4)、"channel.event.put.success"，一般指的是在channel的事务中，put成功的event的数量；

(5)、"channel.event.take.success"，一般指的是channel事务中，take成功的event的数量；

(6)、"channel.capacity"，指的是channel的容量，在channel的start方法中设置。

上面这些统计项都是固定的，我们可以根据需要增加相应项的值，可以在监控中查看组件的变化情况，从而掌握flume进程的运行情况。比如可以查看channel的容量从而了解到source和sink的相对处理速度，还有可以看source或者sink每个批次处理成功与失败的次数，了解组件的运行状况等等。

自定义Counter必须要继承MonitoredCounterGroup这个抽象类并实现SourceCounterMBean接口，设定自己的统计项，然后将统计项设置成数组调用MonitoredCounterGroup的构造函数；然后在自定义的计数器中增加更新数值的方法。最后在自定义的组件中构造自定义的计数器，并启用它的start方法，剩下的就是在该更新统计项数值的地方更新就可以了。例：

private static final String COUNTER_KAFKA_SEND_FLOW = "sink.kafka.send.flow";
private static final String[] ATTRIBUTES = {COUNTER_KAFKA_SEND_FLOW };
public KafkaSinkCounter(String name) {
   super(name, ATTRIBUTES);
}
public long countKafkaSendFlow(long delta) {
   return addAndGet(COUNTER_KAFKA_SEND_FLOW, delta);
}
public long getKafkaSendFlowCount() {
   return get(COUNTER_KAFKA_SEND_FLOW);
}

然后将计数器、监控类、自定义组件(source、sink、channel)打包放到lib下，在启动命令后加-Dflume.monitoring.type=AAAAA -Dflume.monitoring.node=BBBB，就可以了

7、实现案例

我们来看source是怎么把数据msg放到channel的：

ChannelProcessor channelProcessor = source.getChannelProcessor();
Event eTmp = EventBuilder.withBody(msg.getBytes());
channelProcessor.processEvent(eTmp);

sink又是怎么取出来的：

Channel channel = getChannel();
Transaction tx = channel.getTransaction();
tx.begin();//事务
List<KeyedMessage<byte[], byte[]>> batch = Lists.newLinkedList();
for (int i = 0; i < batchSize; i++) {
   Event event = channel.take();//获取event（一条日志）
   byte[] bs=event.getBody();
   batch.add(new KeyedMessage<byte[], byte[]>(topic, bs));
}
producer.send(batch);//发送给kafka
tx.commit();//提交事务

之前介绍flume可以配置多个channel和sink，在flume的设计上，实现这一点是很容易的，下面是我们的实际的案例：

agent01.sources = kafka0 
agent01.channels = ch0 ch1
agent01.sinks = sink0 sink1
 
agent01.sources.kafka0.type = cn.com.coreware.source.KafkaSource
agent01.sources.kafka0.channels = ch0 ch1
agent01.sources.kafka0.zookeeper.connect = 192.168.117.131:2181
agent01.sources.kafka0.zookeeper.session.timeout.ms = 50000
agent01.sources.kafka0.zookeeper.connection.timeout.ms = 40000
#replicating,multiplexing
agent01.sources.kafka0.selector.type= replicating
 
agent01.channels.ch0.type = memory
agent01.channels.ch0.capacity = 40000
agent01.channels.ch0.transactionCapacity = 10000
 
agent01.channels.ch1.type = memory
agent01.channels.ch1.capacity = 40000
agent01.channels.ch1.transactionCapacity = 10000
 
agent01.sinks.sink0.channel = ch0
agent01.sinks.sink0.type=FILE_ROLL
agent01.sinks.sink0.sink.directory=Z:/flume/data
agent01.sinks.sink0.sink.rollSize=1000000
 
agent01.sinks.sink1.channel = ch1
agent01.sinks.sink1.type = hdfs
agent01.sinks.sink1.hdfs.useLocalTimeStamp = true  
agent01.sinks.sink1.hdfs.path = hdfs://127.0.0.1:9000/flume/events/%y/%m/%d  
agent01.sinks.sink1.hdfs.filePrefix = flume-%H%M
agent01.sinks.sink1.hdfs.batchSize = 5000
#DataStream,SequenceFile,CompressedStream
agent01.sinks.sink1.hdfs.fileType = DataStream
#HEADER_AND_TEXT,TEXT,AVRO_EVENT
agent01.sinks.sink1.hdfs.writeFormat = TEXT
agent01.sinks.sink1.hdfs.minBlockReplicas = 1  
agent01.sinks.sink1.hdfs.rollInterval = 3600  
agent01.sinks.sink1.hdfs.rollSize = 0  
agent01.sinks.sink1.hdfs.rollCount = 0  
agent01.sinks.sink1.hdfs.idleTimeout = 0

Agent Source的selector.type有两种方式：replicating，multiplexing。

采用replicating的方式进行复制，对收到的报文复制成两份，发往不同的channel，最终送给相应的sink。如上面的配置

采用multiplexing的方式进行选择，对收到的报文进行分类，发往不同的channel，最终送给相应的sink。

agent1.sources.kafka0.channels = ch0 ch1
agent1.sources.kafka0.header = LOG_TYPE 
agent1.sources.kafka0.selector.type = multiplexing
agent1.sources.kafka0.selector.header = LOG_TYPE
agent1.sources.kafka0.selector.mapping.CREDIT = ch0
agent1.sources.kafka0.selector.mapping.OTHER = ch1
agent1.sources.kafka0.selector.default = ch1

这里标红的header 是指在获取的报文里面的header属性。一个event分为header和body两部分。在header里面有一个LOG_TYPE字段，LOG_TYPE字段有两个值：CREDIT 、OTHER ，针对CREDIT 的发送到ch0，而OTHER 的发送到ch1，默认是选择ch1。使用这种方式需要对数据进行加工，把LOG_TYPE放入到header里面。

Event event = channel.take();
event.getHeaders().put("LOG_TYPE","CREDIT");
//event.getHeaders().put("LOG_TYPE","OTHER");

为了数据的可靠性及程序的性能，可以在多个sink里面设置成sinkgroups，实现如下：

实现load balance功能(处理一个sink的group组，为每个sink提供了负载均衡的能力)

a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2 k3
a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.backoff = true
a1.sinkgroups.g1.processor.selector = round_robin
a1.sinkgroups.g1.processor.selector.maxTimeOut=10000

实现 failover 功能 ( failover的机器是一直发送给其中一个优先级高的sink，当这个sink不可用的时候，自动发送到下一个sink)

a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2 k3
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 7
a1.sinkgroups.g1.processor.priority.k3 = 6
a1.sinkgroups.g1.processor.maxpenalty = 20000

我们只要稍微修改一下配置，就可以实现不同的功能需求，在这点flume非常适用。

8、Flume-NG的一些注意事项

A、关于Source：

1、spool-source：适合静态文件，即文件本身不是动态变化的；

2、avro source可以适当提高线程数量来提高此source性能；

3、ThriftSource在使用时有个问题需要注意，使用批量操作时出现异常并不会打印异常内容而是"Thrift source %s could not append events to the channel."，这是因为源码中在出现异常时，它并未捕获异常而是获取组件名称，这是源码中的一个bug，也可以说明thrift很少有人用，否则这个问题也不会存在在很多版本中；

4、如果一个source对应多个channel，默认就是每个channel是同样的一份数据，会把这批数据复制N份发送到N个channel中，所以如果某个channel满了会影响整体的速度的哦；

5、ExecSource官方文档已经说明是异步的，可能会丢数据哦，尽量使用tail -F，注意是大写的；

B、关于Channel：

1、采集节点建议使用新的复合类型的SpillableMemoryChannel，汇总节点建议采用memory channel，具体还要看实际的数据量，一般每分钟数据量超过120MB大小的flume agent都建议用memory channel(自己测的file channel处理速率大概是2M/s，不同机器、不同环境可能不同，这里只提供参考)，因为一旦此agent的channel出现溢出情况，将会导致大多数时间处于file channel(SpillableMemoryChannel本身是file channel的一个子类，而且复合channel会保证一定的event的顺序的使得读完内存中的数据后，再需要把溢出的拿走，可能这时内存已满又会溢出。。。)，性能大大降低，汇总一旦成为这样后果可想而知；

2、调整memory 占用物理内存空间，需要两个参数byteCapacityBufferPercentage(默认是20)和byteCapacity(默认是JVM最大可用内存的0.8)来控制，计算公式是：byteCapacity = (int)((context.getLong("byteCapacity", defaultByteCapacity).longValue() * (1 - byteCapacityBufferPercentage * .01 )) /byteCapacitySlotSize)，很明显可以调节这两个参数来控制，至于byteCapacitySlotSize默认是100，将物理内存转换成槽(slot)数，这样易于管理，但是可能会浪费空间；

3、还有一个有用的参数"keep-alive"这个参数用来控制channel满时影响source的发送，channel空时影响sink的消费，就是等待时间，默认是3s，超过这个时间就甩异常，一般不需配置，但是有些情况很有用，比如你得场景是每分钟开头集中发一次数据，这时每分钟的开头量可能比较大，后面会越来越小，这时你可以调大这个参数，不至于出现channel满了得情况；

C、关于Sink：

1、avro sink的batch-size可以设置大一点，默认是100，增大会减少RPC次数，提高性能；

2、内置hdfs sink的解析时间戳来设置目录或者文件前缀非常损耗性能，因为是基于正则来匹配的，可以通过修改源码来替换解析时间功能来极大提升性能；

3、RollingFileSink文件名不能自定义，而且不能定时滚动文件，只能按时间间隔滚动，可以自己定义sink，来做定时写文件；

4、hdfs sink的文件名中的时间戳部分不能省去，可增加前缀、后缀以及正在写的文件的前后缀等信息；"hdfs.idleTimeout"这个参数很有意义，指的是正在写的hdfs文件多长时间不更新就关闭文件，建议都配置上，比如你设置了解析时间戳存不同的目录、文件名，而且rollInterval=0、rollCount=0、rollSize=1000000，如果这个时间内的数据量达不到rollSize的要求而且后续的写入新的文件中了，就是一直打开，类似情景不注意的话可能很多；"hdfs.callTimeout"这个参数指的是每个hdfs操作(读、写、打开、关闭等)规定的最长操作时间，每个操作都会放入"hdfs.threadsPoolSize"指定的线程池中得一个线程来操作；

如果启用压缩，则rollSize指的是未压缩文件大小，压缩后大小未知。

5、关于HBase sink(非异步hbase sink：AsyncHBaseSink)，rowkey不能自定义，而且一个serializer只能写一列，一个serializer按正则匹配多个列，性能可能存在问题，建议自己根据需求写一个hbase sink；

6、avro sink可以配置failover和loadbalance，所用的组件和sinkgroup中的是一样的，而且也可以在此配置压缩选项，需要在avro source中配置解压缩；

D、关于SinkGroup：

1、不管是loadbalance或者是failover的多个sink需要共用一个channel；

2、loadbalance的多个sink如果都是直接输出到同一种设备，比如都是hdfs，性能并不会有明显增加，因为sinkgroup是单线程的它的process方法会轮流调用每个sink去channel中take数据，并确保处理正确，使得是顺序操作的，但是如果是发送到下一级的flume agent就不一样了，take操作是顺序的，但是下一级agent的写入操作是并行的，所以肯定是快的；

3、其实用loadbalance在一定意义上可以起到failover的作用，生产环境量大建议loadbalance；

E、关于监控monitor：

1、监控我这边做得还是比较少的，但是目前已知的有以下几种吧：cloudera manager（前提是你得安装CDH版本）、ganglia(这个天生就是支持的)、http(其实就是将统计信息jmx信息，封装成json串，使用jetty展示在浏览器中而已)、再一个就是自己实现收集监控信息，自己做(可以收集http的信息或者自己实现相应的接口实现自己的逻辑，具体可以参考我以前的博客)；

2、简单说一下cloudera manager这种监控，最近在使用，确实很强大，可以查看实时的channel进出数据速率、channel实时容量、sink的出速率、source的入速率等等，图形化的东西确实很丰富很直观，可以提供很多flume agent整体运行情况的信息和潜在的一些信息；

3、自定义的监控要放到包：org.apache.flume 的包里面，否则不会加载。

F、关于flume启动：

1、flume组件启动顺序：channels——>sinks——>sources，关闭顺序：sources——>sinks——>channels；

2、自动加载配置文件功能，会先关闭所有组件，再重启所有组件；

3、关于AbstractConfigurationProvider中的Map<Class<? extends Channel>, Map<String, Channel>> channelCache这个对象，始终存储着agent中得所有channel对象，因为在动态加载时，channel中可能还有未消费完的数据，但是需要对channel重新配置，所以用以来缓存channel对象的所有数据及配置信息；

4、通过在启动命令中添加"no-reload-conf"参数为true来取消自动加载配置文件功能；

你可能感兴趣的:(大数据,Flume)

基于Python大数据的王者荣耀战队数据分析及可视化系统计算机学姐大数据精选实战项目源码 Python精选实战项目源码 Vue源码 1024程序员节 python 大数据数据分析数据挖掘 django vue.js
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于大数据+大屏可视化+Python+D
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
基于微信小程序的健身房预约管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot vue.js java mysql 后端
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）青云交大数据新视界 Java 大视界大数据文本分析自然语言处理文本挖掘机器翻译智能对话智能客服 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据物联网应用：数据处理与设备管理（八）青云交大数据新视界 Java 大视界大数据物联网数据处理设备管理车联网智能家居预测性维护 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据分布式缓存：提升数据访问性能（五）青云交大数据新视界 Java 大视界大数据分布式缓存数据访问性能 Redis Memcached 缓存一致性缓存击穿 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 微服务架构在大数据应用中的实践：服务拆分与数据交互（一）青云交大数据新视界 Java 大视界 Java 微服务架构大数据应用服务拆分数据交互性能优化安全考量分布式事务处理 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 驱动大数据流处理：Storm 与 Flink 入门（六）青云交大数据新视界 Java 大视界 Flink Storm 大数据流处理实时数据处理架构实时监控数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Impala 性能优化：基于数据特征的存储格式选择（上）（19/30）青云交大数据新视界 #Impala 之道大数据 Impala 存储格式选择数据特征性能优化社交媒体数据金融数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Hudi 数据湖框架性能提升：高效处理大数据变更青云交 Hudi 之道大数据新视界大数据 Hudi 数据湖框架大数据变更数据版本控制性能提升数据存储优化
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
【Delete 删除数据语法合集】.NET开源ORM框架 SqlSugar 系列 Microi风闲【ORM】‌SqlSugar .net 开源微软技术后端 sqlsugar orm
系列文章目录.NET开源ORM框架SqlSugar系列文章目录系列文章目录前言一、根据实体删除1.1强类型实体2.2无主键实体删除2.3Object、接口、抽象类删除二、根据主键三、根据主键数组四、根据表达式五、联表删除六、无实体删除七、全局过滤器八、逻辑删除8.1逻辑删除方式1：8.2逻辑删除方式2：九、初始化表十、导航删除十一、常用案例11.1除最新N条清空11.2N到N条删除11.3大数据删
【大数据】Flink CDC 实时同步mysql数据小码农叔叔 springboot 入门到精通大数据 Flink CDC Flink CDC同步数据 Flink CDC数据同步
目录一、前言二、FlinkCDC介绍2.1什么是FlinkCDC2.2FlinkCDC特点2.3FlinkCDC核心工作原理2.4FlinkCDC使用场景三、常用的数据同步方案对比3.1数据同步概述3.1.1数据同步来源3.2常用的数据同步方案汇总3.3为什么推荐FlinkCDC3.4FlinkCDC适用范围3.5FlinkCDC不同版本对比3.5.1FlinkCDC1.x3.5.2FlinkCD
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
《守护数据隐私的堡垒：构建基于差分隐私的MySQL匿名化处理系统》墨夶数据库学习资料2 mysql android 数据库
在大数据时代，个人隐私保护的重要性日益凸显。随着全球范围内对用户信息保护意识的增强以及相关法律法规（如GDPR、CCPA等）的出台，企业面临着前所未有的挑战——如何在利用海量数据创造价值的同时，确保这些数据不会泄露用户的敏感信息。为了应对这一难题，差分隐私（DifferentialPrivacy,DP）作为一种强大的数学工具应运而生。它不仅能够有效地抵御各种形式的重识别攻击，而且还可以保持数据集统
R语言的并发编程技术的探险家包罗万象 golang 开发语言后端
R语言的并发编程引言在现代计算中，如何有效地利用计算资源进行数据处理和分析已成为一个重要的研究方向。尤其在大数据时代，数据量的急剧增加让单线程处理方式显得力不从心。为了解决这一问题，各种编程语言都开展了并发编程的研究和应用。R语言作为一种广泛应用于统计分析和数据科学的语言，也为并发编程提供了强大的支持。本文将介绍R语言的并发编程，包括其基本概念、常用包、应用示例以及实用技巧。一、并发编程基础并发编
Azure Synapse Dedicated SQL Pool通过配置选项和参数优化性能 weixin_30777913 云计算 azure
配置选项与参数分布键（DistributionKey）：•选择：在大数据量表中，选择经常用于JOIN、WHERE条件中的列作为分布键，如Date、ID等。•策略：对于范围查询，使用HASH分布避免数据倾斜；对于维度表，通常选择ROUND-ROBIN分布。索引：•类型：聚集列存储索引（CCI）针对大型数据扫描和聚合进行了优化。•策略：始终对大型事实表使用CCI，避免在大型表上使用传统的行存储索引。分
大数据最新医学图像分割 3D nnUNet全流程快速实现_医学图像分割步骤 2401_84182020 程序员大数据
第一步：选择一个你能找的路径位置（这很重要），在这个位置打开终端，输入gitclonehttps://github.com/MIC-DKFZ/nnUNet.git，将nnUNet的代码下载到这个位置第二步：终端内定位到下载的nnUNet文件夹cdnnUNet，或者直接在对应位置打开终端第三步：开始安装，pipinstall-e.2数据整理2.1数据存放形式首先，nnUNet有自己的一套数据文件夹的
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
LabVIEW 蔬菜精密播种监测系统 LabVIEW开发 LabVIEW开发案例 LabVIEW开发案例
在当前蔬菜播种工作中，存在着诸多问题。一方面，播种精度难以达到现代农业的高标准要求，导致种子分布不均，影响作物的生长发育和最终产量；另一方面，对于小粒径种子，传统的监测手段难以实现有效监测，使得播种过程中的质量把控成为难题。为了攻克这些难题，设计了一套基于光纤传感器与LabVIEW的单粒精密播种监测系统。该系统充分发挥高精度传感器的感知能力以及先进软件的强大数据处理与控制能力，显著提高了播种作业的
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【大数据学习 | kafka】kafka的组件架构 Vez'nan的幸福生活大数据 mysql oracle json sql kafka
broker:每个kafka的机器节点都会运行一个进程，这个进程叫做broker，负责管理自身的topic和partition，以及数据的存储和处理，因为kafka是集群形式的，所以一个集群中会存在多个broker，但是kafka的整体又不是一个主从集群，需要选举出来一个broker节点为主节点，管理整个集群中所有的数据和操作，以及所有节点的协同工作。每个broker上面都存在一个controll
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
产品解读 | 构建数智融合时代下的一站式大数据平台
随着智能化技术的飞速发展，尤其是以生成式AI为代表的技术快速应用，推动了数据与智能的深化融合，给数据基础设施带来了新的变革和挑战。如何简化日益复杂的系统架构，提高数据处理效率，降低开发运维成本，促进数据开放共享和创新应用，成为企业关注的核心问题。一站式大数据平台，旨在通过一个平台即可满足各类业务需求，成为数智融合时代下数据基础设施的发展趋势，并从四个维度向四个“一体化”方向演进：数据架构-湖仓集一
小北的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试（初级） Stitch . C语言 HUAWEI 算法人工智能华为大数据 HUAWEI AScend c语言 NPU
前言哈喽哈喽友友们，这里是zyll~（小北）智慧龙阁的创始人及核心技术开发者。在技术的广阔天地里，我专注于大数据与全栈开发，并致力于成为这一领域的新锐力量。通过智慧龙阁这个平台，我期望能与大家分享我的技术心得，共同探索技术的无限可能。AscendC编程：小北的技术之旅近期，我深入研究了AscendC编程，并整理了一系列关于AscendC算子开发能力认证考试（初级）的题目及其答案。我希望这些内容能为
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Linux内核性能调优：让系统飞起来的秘籍深度Linux 性能优化 linux LInux内核 c++
在当今数字化时代，Linux系统凭借其强大的稳定性、开放性和灵活性，广泛应用于服务器、云计算、大数据等诸多领域。然而，随着业务量的不断增长和应用场景的日益复杂，Linux内核的性能面临着巨大挑战。哪怕是微小的性能瓶颈，都可能像滚雪球一样，在高负载运行时被无限放大，进而引发一系列严重问题。想象一下，一个电商网站在购物高峰期，由于Linux内核性能不佳，导致服务器响应迟缓。用户点击商品详情，页面却迟迟
星环科技×恒生电子，联合打造反洗钱解决方案人工智能
随着反洗钱行为更具隐蔽性、多样性和跨区域性，金融机构的反洗钱能力也相应面临新一轮升级。将大数据技术应用于反洗钱领域，可借助大数据平台高效整合、分析海量客户身份信息和交易数据，保障反洗钱系统有效开展客户风险等级评定、可疑交易筛查、黑名单监测等工作，为反洗钱工作赋能。近日，星环科技与恒生电子联合发布反洗钱解决方案，系统覆盖金融机构全业务全客户全流程，满足客户尽调、大额可疑交易检测、名单筛查、自评估等各
Transwarp Data Studio 4.0 ：适应AI新时代实现三大能力提升人工智能
企业数据资产管理能力建设需要经历资源化、资产化和资本化三个阶段，对应数据底座建设、资产管理平台建设、流通运营平台建设三大任务。星环科技大数据开发工具TranswarpDataStudio，在此过程中发挥着承上启下的关键作用。近日，星环科技重磅发布大数据开发工具TranswarpDataStudio4.0版本，新版针对数据资产运营和语料管理的过程实现了三大能力提升。第一，提升了数据管理的广度：为应对
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，Django@Python2.x 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f