yutao_Struggle

Flume基本概念及入门

1 Flume简介

1.1 Flume概述

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume的使用不仅限于日志数据聚合，由于数据源是可定制的，因此Flume可用于传输大量事件数据，包括但不限于网络流量数据，社交媒体生成的数据，电子邮件消息以及几乎所有可能的数据源。Flume基于流式架构，灵活简单。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og（Cloudera Flume），Flume1.X版本的统称Flume-ng（Apache Flume）。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

1.2 架构

Flume事件定义为具有字节有效负载和可选字符串属性集的数据流单位。Flume Agent是一个（JVM）进程，承载了组件，事件通过这些组件从外部源流到下一个目标（hop）。

外部Source（如Web服务器）以目标Flume Source可以识别的格式将事件发送到Flume。例如，Avro Flume Source可用于从Avro Client或另一个Flume agent的Avro Sink接收Avro事件。可以使用Thrift Flume Source定义类似的流程，以接收来自Thrift Sink或Flume Thrift Rpc客户端或以Flume Thrift协议生成的任何语言编写的Thrift客户端的事件，Flume Source收到事件后，会将其存储到一个或多个Channel，该Channel是一个被动存储，用于保留事件，直到被Flume Sink消耗为止，Sink从通道中删除事件，并将其放入HDFS之类的外部存储库（通过Flume HDFS Sink），或将其转发到流中下一个Flume Agent的Flume Source。给定Agent中的Source和Sink与通道中上传的事件异步运行。

1.2.1 Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的，是Flume数据传输的基本单元。Agent主要有3个部分组成，Source、Channel、Sink。　Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

1.2.2 Source

Source是负责接收数据到Flume Agent的组件，用于将数据封装成一个个Event。Source组件可以处理各种类型、各种格式的日志数据。包括：

Avro Source：RPC框架，接收Avro客户端的消息
Thrift Source
Exec Source：通过Linux命令行获取数据，如tail -f命令
JMS Source：JMS消息
Spooling Directory Source：监控某个文件夹内追加的文件
Taildir Source：监控某个文件夹内文件追加的内容，相对于Exec更好，可以实现断点续传
Twitter 1% firehose Source
Kafka Source：Kafka消息
NetCat Source：NetCat支持TCP和UDP，接收NetCat客户端的消息
Sequence Generator Source
Syslog Sources
Http Source：接收Http消息
legacy Sources
Scribe Source
Custom Source：用户自定义Source

同一个Source可以关联多个Channel。

1.2.3 Channel

Channel是位于Source和Sink之间的缓冲区。Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume支持的Channel有：

Memory Channel：内存中的队列。在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
JDBC Channel
Kafka Channel
File Channel：所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。
Spillable Memory Channel
Pseudo Transaction Channel
Custom Channel

1.2.4 Sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。

Flume支持的Sink有：

HDFS Sink
Hive Sink
Logger Sink
Avro Sink
Thrift Sink
IRC Sink
File Roll Sink
Null Sink
HBase Sinks
MorphlineSolr Sink
ElasticSearch Sink
Kite Dataset Sink
Kafka Sink
Http Sink
Custom Sink

1.2.5 Event

传输单元， Flume 数据传输的基本单元，以 Event 的形式将数据从源头送至目的地。Event 由 Header 和 Body 两部分组成， Header 用来存放该 event 的一些属性，为 K-V 结构，Body 用来存放该条数据，形式为字节数组。

1.2.6 Interceptors

在Flume中允许使用拦截器对传输中的event进行拦截和处理（在source将event放入到channel之前拦截），拦截器必须实现org.apache.flume.interceptor.Interceptor接口。拦截器可以根据开发者的设定修改甚至删除event，Flume同时支持拦截器链，即由多个拦截器组合而成，通过指定拦截器链中拦截器的顺序，event将按照顺序依次被拦截器进行处理。

官方文档：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-interceptors

1.2.7 Channel Selectors

Channel Selectors用于source组件将event传输给多个channel的场景。常用的有replicating（默认）和multiplexing两种类型。replicating负责将event复制到多个channel，而multiplexing则根据event的属性和配置的参数进行匹配，匹配成功则发送到指定的channel。

官方文档：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-channel-selectors

1.2.8 Sink Processors

用户可以将多个sink组成一个整体（sink组），Sink Processors可用于提供组内的所有sink的负载平衡功能，或在时间故障的情况下实现从一个sink到另一个sink的故障转移。

官方文档：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#flume-sink-processors

1.3 特点

复杂流动（Complex flows）：支持构建multi-hop流程，事件在到达最终目的地前可通过多个Agent传递，同时支持fan-in和fan-out流程，上下文路由和备份路由（故障转移）。
可靠性（Reliability）：Flume使用事务性方法来确保事件的可靠传递。当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Besteffort（数据发送到接收方后，不会进行确认）。
可恢复性（Reliability）：支持File Channel。

2 数据获取方式

Flume支持多种机制来从外部源获取数据。

2.1 RPC

Flume发行版中包含的Avro客户端可以使用avro RPC机制将给定文件发送到Flume Avro Source

#将/usr/logs/log.10发送到localhost:41414的Avro Source
$ bin/flume-ng avro-client -H localhost -p 41414 -F /usr/logs/log.10

2.2 Exec

exec source执行一个给定的命令并使用输出。单个“行”输出（文字后跟回车符（’\ r’）或换行符（’\ n’）或两者一起）。如：

a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /tmp/root/hive.log
a2.sources.r2.shell = /bin/bash -c

source将通过linux命令去获取数据

2.3 Network streams

Flume支持以下机制从常用的日志流类型读取数据，例如：

Avro
Thrift
Syslog
Netcat

3 快速入门

#flume-ng是flume的运行命令，支持一下参数
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# bin/flume-ng help
Usage: bin/flume-ng <command> [options]...

commands:
  help                      display this help text
  agent                     run a Flume agent
  avro-client               run an avro Flume client
  version                   show Flume version info

global options:
  --conf,-c <conf>          use configs in <conf> directory
  --classpath,-C <cp>       append to the classpath
  --dryrun,-d               do not actually start Flume, just print the command
  --plugins-path <dirs>     colon-separated list of plugins.d directories. See the
                            plugins.d section in the user guide for more details.
                            Default: $FLUME_HOME/plugins.d
  -Dproperty=value          sets a Java system property value
  -Xproperty=value          sets a Java -X option

agent options:
  --name,-n <name>          the name of this agent (required)
  --conf-file,-f <file>     specify a config file (required if -z missing)
  --zkConnString,-z <str>   specify the ZooKeeper connection to use (required if -f missing)
  --zkBasePath,-p <path>    specify the base path in ZooKeeper for agent configs
  --no-reload-conf          do not reload config file if changed
  --help,-h                 display help text

avro-client options:
  --rpcProps,-P <file>   RPC client properties file with server connection params
  --host,-H <host>       hostname to which events will be sent
  --port,-p <port>       port of the avro source
  --dirname <dir>        directory to stream to avro source
  --filename,-F <file>   text file to stream to avro source (default: std input)
  --headerFile,-R <file> File containing event headers as key/value pairs on each new line
  --help,-h              display help text

  Either --rpcProps or both --host and --port must be specified.

Note that if <conf> directory is specified, then it is always included first
in the classpath.

3.1 安装部署Flume

将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下

解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下

[root@iZnq8v4wpstsagZ software]# tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

将apache-flume-1.7.0-bin/conf下的flume-env.sh.template文件修改为flume-env.sh，并配置flume-env.sh文件

[root@iZnq8v4wpstsagZ conf]# mv flume-env.sh.template flume-env.sh
[root@iZnq8v4wpstsagZ conf]# vi flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

3.2 Flume入门案例

3.2.1 监控端口数据官方案例

官方文档：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#a-simple-example
需求： 使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。
思路：

通过NetCat TCP Source监听某个端口，然后使用NetCat客户端工具向指定端口发送数据。
将数据打印到控制台，Flume提供了logger Sink用于将数据输出到控制台。

实现步骤：

安装netcat客户端工具

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# sudo yum install -y nc

在apache-flume-1.9.0-bin目录下创建job/flume-netcat-logger.conf文件夹及文件

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# mkdir job
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# touch job/flume-netcat-logger.conf

编写flume-netcat-logger.conf配置文件

[root@iZnq8v4wpstsagZ job]# vim flume-netcat-logger.conf
＃flume-netcat-logger.conf：单节点Flume配置

＃命名Agent组件的名称为a1
a1.sources  =  r1 
a1.sinks  =  k1 
a1.channels  =  c1

＃配置source
a1.sources.r1.type  =  netcat 
a1.sources.r1.bind  =  127.0.0.1
a1.sources.r1.port  =  44444

＃配置sink
a1.sinks.k1.type  =  logger

＃缓存事件到Memory Channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000 
a1.channels.c1.transactionCapacity = 100

＃将source和sink绑定到channel
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1

运行flume

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# bin/flume-ng agent -c conf -f job/flume-netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console

参数说明：

–conf/-c：表示配置文件存储在 conf/目录
–name/-n：表示给 agent 起名为 a1
–conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的flume-netcat-logger.conf
-Dflume.root.logger=INFO,console ：-D 表示 flume 运行时动态修改 flume.root.logger
参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、 info、 warn、 error

使用netcat客户端测试

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# nc -v 127.0.0.1 44444
hello

3.2.2 实时监控单个追加文件

需求： 实时监控 Hive 日志，并上传到 HDFS 中。
思路：

在Unix系统中可以通过tail -f实时监控某个文件，而Flume提供了Exec Source。Exec Source在启动时会运行一个给定的Unix命令，并期望该进程在标准输出时连续生成数据（stderr会被丢弃，除非设置logStdErr=true），将标准输出封装为Event。如果Unix进程因任何原因退出，则Source也将退出，并且不会生成进一步的数据，这意味着像cat [named pipe]或tail -F [file]这样的配置将产生所需的结果，而像date可能不会产生这样的结果：前两个命令生成持续数据流，后者生成一个事件并退出。
Flume提供了HDFS Sink用于将数据输出到HDFS上。目前只支持创建TEXT和sequenceFile这两种类型文件，这两种类型文件都可以使用压缩。写入HDFS的文件可以基于运行时间、数据大小或事件数量周期性滚动文件（关闭当前文件并创建新文件），它还支持按时间戳或事件发生的机器等属性对数据进行分桶/分区。HDFS目录路径可能包含格式化转义序列，这些转义序列将被HDFS Sink替换，以生成用于存储事件的目录/文件名。使用这个Sink需要安装hadoop，以便Flume可以使用hadoop jars与HDFS集群通信。请注意，需要一个支持sync()调用的Hadoop版本。

实现步骤：

Flume 要想将数据输出到 HDFS，须持有 Hadoop 相关 jar 包，将以下jar包copy到/opt/module/apache-flume-1.9.0-bin/lib目录下

commons-configuration-1.6.jar
hadoop-auth-2.7.2.jar
hadoop-common-2.7.2.jar
hadoop-hdfs-2.7.2.jar
commons-io-2.4.jar
htrace-core-3.1.0-incubating.jar

在apache-flume-1.9.0-bin/job目录下创建flume-file-hdfs.conf配置文件

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# vim job/flume-file-hdfs.conf
# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /tmp/root/hive.log
a2.sources.r2.shell = /bin/bash -c

# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://127.0.0.1:9000/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#时间戳是否应该向下舍入,与roundValue、roundUnit一起使用
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 30
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

对于所有与时间相关的转义序列， Event Header 中必须存在以 “timestamp”的 key（除非
hdfs.useLocalTimeStamp = true，此方法会使用 TimestampInterceptor 自动添加timestamp）。
a2.sinks.k2.hdfs.useLocalTimeStamp = true

运行Flume

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

运行Hive并产生日志

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# hive
hive (default)> select * from dept order id;

注意：
ExecSource和其他异步源的问题是，source不能保证如果将event放入channel失败了，让客户端知道它，在这种情况下，数据将丢失。例如，tail -F [file]用例，如果channel内存满了，Flume不能发送事件，Flume无法向写入日志文件的应用程序指示它需要保留日志，或者通知它由于某种原因事件尚未发送。当使用单向异步接口（如ExecSource）时，应用程序永远无法保证数据已被接收！为了获得更强的可靠性保证，可以考虑使用Spooling Directory Source、Taildir Source、或通过SDK直接与Flume集成。

3.2.3 实时监控目录下多个新文件

需求： 使用 Flume 监听整个目录的文件，并上传至 HDFS。
思路：

Flume提供的Spooling Directory Source，SpoolingDirSource指定本地磁盘的一个目录为"Spooling(自动收集)"的目录！这个source可以读取目录中新增的文件，将文件的内容封装为event。SpoolingDirSource在读取一整个文件到channel之后，它会采取策略，要么删除文件(是否可以删除取决于配置)，要么对文件进行一个完成状态的重命名，这样可以保证source持续监控新的文件。SpoolingDirSource和execsource不同的是SpoolingDirSource是可靠的，即使flume被杀死或重启，依然不丢数据；但是为了保证这个特性，付出的代价是，一旦flume发现以下情况，flume就会报错，停止！
①一个文件已经被放入目录，在采集文件时，不能被修改
②文件的名在放入目录后又被重新使用（出现了重名的文件）
要求：必须已经封闭的文件才能放入到SpoolingDirSource，在同一个SpoolingDirSource中都不能出现重名的文件。

实现步骤：

在apache-flume-1.9.0-bin/job目录下创建flume-dir-hdfs.conf配置文件

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# vim job/flume-dir-hdfs.conf
a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/apache-flume-1.9.0-bin/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true
#忽略所有以.tmp 结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path =hdfs://127.0.0.1:9000/flume/upload/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a3.sinks.k3.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是 128M,略小于block比较好
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a3.sinks.k3.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

运行Flume

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

向 upload 文件夹中添加文件

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# mkdir upload
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# touch upload/test.txt
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# touch upload/test.tmp
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# touch upload/test.log

spooldir Source监控的目录下文件名不可以重名，不然会导致Flume报错无法正常运行。不要在监控目录中创建并持续修改文件，Flume扫描到第一次保存的文件上传完成后会以.COMPLETED结尾，之后修改将不会触发事件，被监控文件夹每500ms扫描一次文件变动。

3.2.4 实时监控目录下的多个追加文件

需求： 使用 Flume 监听整个目录的实时追加文件，并上传至 HDFS。
思路： Exec source 适用于监控一个实时追加的文件，但不能保证数据不丢失； Spooldir Source 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控文件改动；而 TailDir Source 既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控文件改动。Taildir Source 可以读取多个文件最新追加写入的内容，Taildir Source是可靠的，即使flume出现了故障或挂掉。Taildir Source在工作时，会将读取文件的最后的位置记录在一个json文件中，一旦agent重启，会从之前已经记录的位置，继续执行tail操作，Json文件中，位置是可以修改，修改后，Taildir Source会从修改的位置进行tail操作，如果JSON文件丢失了，此时会重新从每个文件的第一行，重新读取，这会造成数据的重复。Taildir Source目前只能读文本文件。

实现步骤：

在apache-flume-1.9.0-bin/job目录下创建flume-taildir-hdfs.conf配置文件

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# vim job/flume-taildir-hdfs.conf
a4.sources = r4
a4.sinks = k4
a4.channels = c4

# Describe/configure the source
a4.sources.r4.type = TAILDIR
#记录每个文件的传输位置的索引点
a4.sources.r4.positionFile = /opt/module/apache-flume-1.9.0-bin/tail_dir.json
a4.sources.r4.filegroups = f1
a4.sources.r4.filegroups.f1 = /opt/module/apache-flume-1.9.0-bin/files/file.*

# Describe the sink
a4.sinks.k4.type = hdfs
a4.sinks.k4.hdfs.path = hdfs://127.0.0.1:9000/flume/upload/%Y%m%d/%H
#上传文件的前缀
a4.sinks.k4.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a4.sinks.k4.hdfs.round = true
#多少时间单位创建一个新的文件夹
a4.sinks.k4.hdfs.roundValue = 1
#重新定义时间单位
a4.sinks.k4.hdfs.roundUnit = hour
#是否使用本地时间戳
a4.sinks.k4.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a4.sinks.k4.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a4.sinks.k4.hdfs.fileType = DataStream
#多久生成一个新的文件
a4.sinks.k4.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是 128M
a4.sinks.k4.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a4.sinks.k4.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a4.channels.c4.type = memory
a4.channels.c4.capacity = 1000
a4.channels.c4.transactionCapacity = 100

# Bind the source and sink to the channel
a4.sources.r4.channels = c4
a4.sinks.k4.channel = c4

运行Flume

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# bin/flume-ng agent --conf conf/ --name a4 --conf-file job/flume-taildir-hdfs.conf

向 files 文件夹中追加内容

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# mkdir files
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# echo hello >> file1.txt
[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# echo world >> file2.txt

Taildir Source 维护了一个 json 格式的 position File，其会定期的往 position File中更新每个文件读取到的最新的位置，因此能够实现断点续传。Position File 的格式如下：

{"inode":2496272,"pos":12,"file":"/opt/module/apache-flume-1.9.0-bin/files/file1.txt"}
{"inode":2496275,"pos":12,"file":"/opt/module/apache-flume-1.9.0-bin/files/file2.txt"}

Linux 中储存文件元数据的区域就叫做 inode，每个 inode 都有一个号码，操作系统用 inode 号码来识别不同的文件， Unix/Linux 系统内部不使用文件名，而使用 inode号码来识别文件。

常见问题：TailDir Source采集的文件，不能随意重命名。如果日志在正在写入时，名称为 xxxx.tmp，写入完成后，滚动改名为xxx.log，此时一旦匹配规则可以匹配上述名称，就会发生数据的重复采集。

3.3 在配置文件中使用环境变量

Flume可以替换配置中值的环境变量，如：

a1.sources = r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = ${NC_PORT}
a1.sources.r1.channels = c1

可以在代理调用上通过设置Java系统属性（propertiesImplementation = org.apache.flume.node.EnvVarResolverProperties）来启用，如：

[root@iZnq8v4wpstsagZ apache-flume-1.9.0-bin]# NC_PORT=44444 bin/flume-ng agent -c conf/ -f job/netcat-flume-logger.conf -n a1 -Dflume.root.logger=INFO,console -DpropertiesImplementation=org.apache.flume.node.EnvVarResolverProperties

也可以用其他方式配置环境变量，包括在conf/flume-env.sh中设置

3.4 第三方插件

Flume具有完全基于插件的体系结构。Flume拥有很多开箱即用的sources、channels、sinks、serializers，并且提供许多与Flume解耦的实现方案。虽然Flume可以通过在flume-env.sh文件添加用户自定义的Flume组件jars到FLUME_CLASSPATH中，但Flume支持在$FLUME_HOME/plugins.d目录下自动获取特定格式打包的插件，这使插件的管理更加容易。

每个插件目录在plugins.d目录下最多可以有三个子目录：

lib：插件的jar(s)
libext：该插件的依赖jar(s)
native：任何所需的本地库，如的.so文件

你可能感兴趣的:(big,data,flume)

二进制部署ETCD单机版神奇的海马体 #ETCD etcd 数据库
文章目录一、签发etcd证书二、搭建etcd单机版三、测试ETCD服务一、签发etcd证书注意：在操作签发证书操作时一定要检查服务器时间、时区是否一致，会导致证书不可用！！1、创建etcd目录mkdir/etc/etcd/{ssl,data}-p2、安装签发证书工具wgethttps://pkg.cfssl.org/R1.2/cfssl_linux-amd64wgethttps://pkg.cfs
LeetCode第43题_字符串相乘 @蓝莓果粒茶算法 leetcode linux 算法数据结构 c#unity 游戏程序
LeetCode第43题：字符串相乘题目描述给定两个以字符串形式表示的非负整数num1和num2，返回num1和num2的乘积，它们的乘积也表示为字符串形式。注意：不能使用任何内置的BigInteger库或直接将输入转换为整数。难度中等题目链接点击在LeetCode中查看题目示例示例1：输入：num1=“2”,num2=“3”输出：“6”示例2：输入：num1=“123”,num2=“456”输出
前端大文件上传爱学习的前端er 前端
1.开场概述“大文件上传是前端开发中常见的需求，但由于文件体积较大，直接上传可能会遇到网络不稳定、服务器限制等问题。因此，通常需要采用分片上传、断点续传、并发控制等技术来优化上传体验”2.核心实现方案“我通常会采用以下方案来实现大文件上传：文件分片：将大文件切割成固定大小的块（例如1MB或5MB），通过Blob.slice()方法实现。分片上传：通过FormData将每个分片上传到服务器，使用ax
HTTP 和RESTful API 基础，答疑 2301_79306982 http restful 网络协议 api
一文搞懂RESTfulAPI-bigsai-博客园1.API路径开头必须/，表示绝对路径，不支持.或..（相对路径）。API结尾/通常不需要，但部分框架会自动处理/→无/。✅推荐GET/api/v1/products#资源集合GET/api/v1/products/123#具体资源避免GET./api/v1/products#❌API不能用`.`开头GET/api/v1/products/#❌可能
uniApp小程序保存图片canvas 裴嘉靖 uni-app 画布
邀请好友领积分微信好友保存图片保存图片exportdefault{components:{},data(){return{app:getApp().globalData.peiImg,result:'',//生成海报的urler:'',imgurl:'',canvasShow:true,canvasercode:'',bj:'',writePhotosAlbum:undefined};},onSh
hcia华为认证学习 CC.2021 网络
第一节-网络的基本概念2021年11月8日Datacom-数通数通：数据通信。某台设备产生了数据，借助整体的网络抵达目的地的过程。1946年：第一台计算机诞生军事、科研--高速运算1962年：古巴导弹危机-1969年：ARPA-阿帕网ARPANET（全世界的第一个网络）---“万物互联”前瞻性厂商--垄断--不能普及IBM垄断了通信业务才支持标准--每个厂商都有自己的标准不同厂商想要通信不可能全世
微构科技《VigorData一站式企业大数据平台产品白皮书》皙姑娘微构大数据微构科技微构大数据 VigorData 一站式企业大数据平台产品白皮书
本白皮书阐述了微构科技VigorData一站式企业大数据平台的定位与应用场景、系统架构、产品特性。VigorData满足企业从数据采集、存储、计算、分析挖掘到可视化展示的一站式数据处理需求，并融合前沿AI科技机器深度学习自我进化，直至与企业自身状况深度契合，帮助企业借力大数据优势深化自身业务价值体系。01产品概述1.1.产品目标一站式企业大数据平台VigorData提供了端到端一站式数据处理服务,
《机器学习实战》专栏 No12：项目实战—端到端的机器学习项目Kaggle糖尿病预测带娃的IT创业者机器学习实战机器学习人工智能分类算法 python
《机器学习实战》专栏第12集：项目实战——端到端的机器学习项目Kaggle糖尿病预测本集为专栏最后一集，本专栏的特点是短平快，聚焦重点，不长篇大论纠缠于理论，而是在介绍基础理论框架基础上，快速切入实战项目和代码，所有代码都经过实践检验，是读者入门和熟悉上手的上佳知识材料在本集中，我们将通过Kaggle平台的经典糖尿病预测（PimaIndiansDiabetesDataset）数据集，系统回顾完整的
C++ 设计模式-模板方法模式 ox0080 #北漂+滴滴出行 C++设计模式 VIP 激励 c++设计模式
文件处理#include//抽象基类：定义模板方法和抽象步骤classDataProcessor{public://模板方法（固定流程）voidProcess(){OpenFile();ProcessData();//由子类实现CloseFile();}protected:virtualvoidProcessData()=0;//纯虚函数：子类必须实现voidOpenFile(){std::cou
MySQL中ddl操作或创建索引防止锁表的一些建议或解决方案拄杖忙学轻声码 MySQL Oracle PostgreSQL mysql
一、DDL操作【说明】目前没有任何一种办法可以保证在DDL操作下能完全避免锁表。MySQL需要确保数据的一致性和完整性，这意味着在执行DDL操作时需要获取锁【建议】（1）建议在生产环境中进行任何重大DDL更改，都要在测试环境充分测试验证（2）在生产环境中对数据量较大的表进行DDL操作，选择在流量较小的时段执行较为合适二、创建索引表结构示例createtablet_verify(idbigintau
Oracle 12c 中的 CDB和PDB的启动和关闭安呀智数据 Oracle oracle 数据库多租户管理 PDB启停 pdb 12c
一、简介Oracle12c引入了多租户架构，允许一个容器数据库（ContainerDatabase,CDB）托管多个独立的可插拔数据库（PluggableDatabase,PDB）。本文档旨在详细描述如何启动和关闭CDB及PDB。二、容器数据库(CDB)2.1启动和关闭CDB启动和关闭容器数据库的操作与传统的实例相同。通过SQL*Plus中的STARTUP和SHUTDOWN命令来完成这些操作，当以
使用Python matplotlib绘制第一个图表大数据张老师 python matplotlib 开发语言
下面的代码展示了如何使用matplotlib来绘制一个简单的图表。我们将一步步地讲解每一行代码的功能，帮助学生理解整个过程。importnumpyasnpimportmatplotlib.pyplotasplt#准备数据data=np.array([1,2,3,4,5])#创建代表画布的Figure类的对象figfig=plt.figure()#在画布fig上添加坐标系风格的绘图区域axax=fi
Spring Data JPA：使用JSON数据初始化仓库的实战 t0_54program json 个人开发
在现代软件开发中，数据初始化是一个常见的需求，尤其是在开发阶段和测试环境中。SpringData提供了一种与存储无关的方式来填充仓库，类似于通过SQL脚本初始化DataSource的方式，但它支持更灵活的XML和JSON格式。本文将通过一个实际案例，展示如何使用JSON数据初始化JPA实体。一、项目背景与需求假设我们正在开发一个企业资源管理系统，需要在应用启动时自动加载员工数据到数据库中。为了实现
自存放忘 angular 动态加载子节点 2301_78916954 angular.js 前端 javascript
html{{treeControl.isExpanded(node)?"expand_more":"chevron_right"}}tsimport{Component,OnInit,Injectable}from'@angular/core';import{CollectionViewer,SelectionChange,DataSource,}from'@angular/cdk/collect
【UDS诊断（ReadDataByIdentifier0x22服务）测试用例CAPL代码全解析⑦】车端域控测试工程师测试用例汽车学习经验分享 CANoe
ISO14229-1:2023UDS诊断【ReadDataByIdentifier0x22服务】_TestCase07作者：车端域控测试工程师更新日期：2025年02月22日关键词：UDS诊断协议、0x22服务、ReadDataByIdentifier、DID读取、ECU测试、ISO14229-1:2023TC22-007测试用例用例ID测试场景验证要点参考条款预期结果TC22-007跨会话模式权
【UDS诊断（ReadDataByIdentifier0x22服务）测试用例CAPL代码全解析⑤】车端域控测试工程师测试用例学习汽车经验分享 CAPL
ISO14229-1:2023UDS诊断【ReadDataByIdentifier0x22服务】_TestCase05作者：车端域控测试工程师更新日期：2025年02月20日关键词：UDS诊断协议、0x22服务、ReadDataByIdentifier、DID读取、ECU测试、ISO14229-1:2023TC22-005测试用例用例ID测试场景验证要点参考条款预期结果TC22-005多DID批量
数据管道设计与实现：从源到目标的全流程解析 Echo_Wish 实战高阶大数据数据库服务器 linux
数据管道设计与实现：从源到目标的全流程解析大家好，我是Echo_Wish，今天我们来探讨一下数据管道的设计与实现。从数据源到目标数据存储的整个过程是数据分析和大数据处理中的关键环节。数据管道的设计不仅影响数据处理的效率，还决定了数据的质量和可用性。本文将详细介绍如何设计和实现高效的数据管道，并通过代码示例说明具体实现。1.数据管道的概念数据管道（DataPipeline）是指数据从源头（数据源）到
Java毕业设计——＞ Thymeleaf+SpringBoot+SpringDataJPA实现的中小医院信息管理系统 Java天下第1 Java毕业设计（源码和数据库部分有lunwen）医院管理系统SSM 医院信息管理系统药房管理系统 SSM医院医院SSM
本系统是基于Thymeleaf+SpringBoot+SpringDataJPA实现的的中小医院信息管理系统。简单实现了挂号收费，门诊管理，划价收费，药房取药，体检管理，药房管理，系统维护等基础功能。难度等级：中等技术栈编辑器IntelliJIDEA2019.1.1(UltimateEdition)前端技术基础：html+css+JavaScript框架：Bootstrap+JQuery后端技术S
Oracle Database 23ai 新特性： UPDATE 和 DELETE 语句的直接联接安呀智数据 Oracle 数据库 oracle
OracleDatabase23c引入了一系列令人振奋的新特性，其中一项尤为引人注目的是对UPDATE和DELETE语句支持直接联接（DirectJoin）。这一新功能极大地简化了复杂数据操作的实现，提升了性能，并为数据库开发者提供了更强大的工具来管理数据。一、背景在传统的SQL操作中，当需要根据其他表中的数据更新或删除记录时，通常需要借助子查询或临时表来完成任务。这种方式不仅编写复杂，而且执行效
10-R数组 qwy715229258163 R语言 r语言 python 算法
R数组数组也是R语言的对象，R语言可以创建一维或多维数组。R语言数组是一个同一类型的集合，前面我们学的矩阵matrix其实就是一个二维数组。向量、矩阵、数组关系可以看下图：R语言数组创建使用array()函数，该函数使用向量作为输入参数，可以使用dim设置数组维度。array()函数语法格式如下：array(data=NA,dim=length(data),dimnames=NULL)参数说明：d
MyBatis一些学习的记录黄昏难掩秋色2315 mybatis
MyBatis是一款基于JDBC来开发的持久层框架.一、配置spring:datasource:url:jdbc:mysql://127.0.0.1:3306/mybatis_test?characterEncoding=utf8&useSSL=false//数据库的urlusername:root//用户名password:root//密码driver-class-name:com.mysql.
【YashanDB 知识库】YCP 高可用部署离线升级 -rpc 升级详细步骤数据库rpc
以23.2.4.100版本升级到23.2.11.100版本为例升级前先对YCP主备节点执行备份1、主节点执行/opt/ycm/ycm/scripts/backup.sh-nycm-i/opt/ycm/ycm-cyashandb-y/data1/dugg/yasdb_home/yashandb/23.2.2.100--cata-log/data1/dugg/yasdb_home/yashandb/2
pgsql用户和权限管理我是西瓜王数据库运维 dba
1.用户基本操作1.1创建用户创建用户命令结构postgres=#\hcreateuserCommand:CREATEUSERDescription:defineanewdatabaseroleSyntax:CREATEUSERname[[WITH]option[...]]whereoptioncanbe:SUPERUSER|NOSUPERUSER|CREATEDB|NOCREATEDB|CREA
docker—私有仓库搭建 Stride Max Zz blogs 云原生 docker docker 云原生
docker—私有仓库搭建HTTP部署dockerrun-d\-p5000:5000\--restart=always\--nameregistry\-v/opt/data/registry:/var/lib/registry\registry:2使用官方的registry镜像来启动私有仓库。默认情况下，仓库会被创建在容器的/var/lib/registry目录下。你可以通过-v参数来将镜像文件存
Pytest配置文件pytest.ini如何编写生成日志文件？神即道道法自然如来 pytest
1、新建pytest.ini文件[pytest]log_cli=truelog_leveL=NOTSETlog_format=%(asctime)s%(levelname)s%(message)s%(filename)s%(funcName)s%(lineno)dlog_date_format=%Y-%m-%d%H:%M:%Slog_file=./logdata/log.loglog_file_l
pandas中的apply() yimoxi_no1 pandas python 开发语言
apply()基本用法对列应用函数：默认情况下，apply()方法会对DataFrame的每一列应用函数。如果你想对行应用函数，需要设置axis=1。返回值：apply()方法返回一个新的Series（如果沿着列应用）或DataFrame（如果沿着行应用，且函数返回多个值）。函数：你可以传递任何可调用对象（如函数、lambda表达式或方法）给apply()。示例对列应用函数610.判断三角形173
媒体声音｜专访阿里云数据库周文超博士：AI就绪的智能数据平台设计思路数据库人工智能mysql
文章转载自：CSDN编辑：宋慧在生成式AI的浪潮中，数据的重要性日益凸显。大模型在实际业务场景的落地过程中，必须有海量数据的支撑：经过训练、推理和分析等一系列复杂的数据处理过程，才能最终产生业务价值。事实上，大模型本身就是数据处理后的产物，以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题，这正是以阿里云为代表的企业推动“Data+AI”融合战略的核心动因。那么，“Data
c语言之分块打印我不是程序员~~~~ C&C++java 算法前端
intmain(){intbufsize=6;char*data=(char*)"1234567890";chartemp[1024]={0};intdata_len=strlen(data);for(inti=0;i<(data_len/bufsize+1);i++){memset(temp,0,sizeof(temp));if(i==(data_len/bufsize)){if(data_le
美团一面：说说synchronized的实现原理？ K&&K 面试 java
在Java中，synchronized是用于实现线程同步的关键字，其底层实现原理涉及对象头、监视器锁（Monitor）以及锁升级机制。以下是详细解析：1.对象头与MarkWord每个Java对象在内存中由三部分组成：对象头（Header）：存储对象的元数据，包括锁状态、GC分代年龄等。实例数据（InstanceData）：对象的成员变量。对齐填充（Padding）：确保对象内存对齐。MarkWor
【原创】谈谈redis的热key问题如何解决 qdwd888 Java 经验分享面试 java
ps:hotkey和bigkey问题，大家一定要有所了解。本文预计分为如下几个部分热key问题如何发现业内方案正文–热Key问题上面提到，所谓热key问题就是，突然有几十万的请求去访问redis上的某个特定key。那么，这样会造成流量过于集中，达到物理网卡上限，从而导致这台redis的服务器宕机。那接下来这个key的请求，就会直接怼到你的数据库上，导致你的服务不可用。怎么发现热key方法一:凭借业
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option