.道不虚行

大数据辅助工具--Flume 数据采集组件

1、数据收集工具系统产生背景
2、专业的数据收集工具
- 2.1、Chukwa
- 2.2、Scribe
- 2.3、Fluentd
- 2.4、Logstash
- 2.5、Apache Flume
3、Flume 概述
- 3.1、Flume 概念
- 3.2、Flume 版本介绍
4、Flume 体系结构/核心组件
- 4.1、概述
- 4.2、Flume 核心组件
- - 4.2.1、Event
  - 4.2.2、Client
  - 4.2.3、Agent
  - 4.2.4、Source
  - 4.2.5、Agent 之 Channel
  - 4.2.6、Agent 之 Sink
  - 4.2.7、Iterator
  - 4.2.8、Channel Selector
  - 4.2.9、Sink Processor
- 4.3、Flume 经典部署方案
- - 4.3.1、单 Agent 采集数据
  - 4.3.2、多 Agent 串联
  - 4.3.3、多 Agent 合并串联
  - 4.3.4、多路复用
5、Flume 实战案例
- 5.1、安装部署 Flume
- 5.2、Flume 实战案例
- - 5.2.1、采集目录下文件到 HDFS
  - 5.2.2、采集文件中信息到 HDFS
  - 5.2.3、多 agent 串联采集
  - 5.2.4、高可用部署采集
  - 5.2.5、更多 Source 和 Sink 组件
6、综合案例
- 6.1、案例场景/需求
- 6.2、场景分析
- 6.3、数据处理流程分析
- 6.4、需求实现

1、数据收集工具系统产生背景

（1）Hadoop 业务的整体开发流程：

（2）任何完整的大数据平台，一般都会包括以下的基本处理过程：
① 数据采集；
② 数据 ETL；
③ 数据存储；
④ 数据计算/分析；
⑤ 数据展现。
⑥⑦⑧
其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括：
① 数据源多种多样；
② 数据量大，变化快；
③ 如何保证数据采集的可靠性的性能；
④ 如何避免重复数据；
⑤ 如何保证数据的质量。

我们今天就来看看当前可用的一些数据采集的产品，重点关注一些它们是如何做到高可靠，高性能和高扩展。

2、专业的数据收集工具

2.1、Chukwa

Apache Chukwa 是 Apache 旗下另一个开源的数据收集平台，它远没有其他几个有名。Chukwa 基于 Hadoop 的 HDFS 和 MapReduce 来构建（显而易见，它用 Java 来实现），提供扩展性和可靠性。Chukwa 同时提供对数据的展示，分析和监视。很奇怪的是它的上一次 Github 的更新是差不多 10 年前左右了。可见该项目应该已经不活跃了。
官网：http://chukwa.apache.org/

2.2、Scribe

Scribe 是 Facebook 开源的日志收集系统，在 Facebook 内部已经得到的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是 NFS，HDFS，或者其他分布式文件系统等）上，以便于进行集中统计分析处理。
官网：https://www.scribesoft.com/

2.3、Fluentd

Fluentd 是另一个开源的数据收集框架。Fluentd 使用 C/Ruby 开发，使用 JSON 文件来统一日志数据。它的可插拔架构，支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。
官网：https://www.fluentd.org/

2.4、Logstash

Logstash 是著名的开源数据栈 ELK（ElasticSearch，Logstash，Kibana）中的那个 L。几乎在大部分的情况下 ELK 作为一个栈是被同时使用的。所有当你的数据系统使用 ElasticSearch 的情况下，Logstash 是首选。Logstash 用 JRuby 开发，所以运行时依赖 JVM。
官网：https://www.elastic.co/cn/products/logstash

2.5、Apache Flume

Flume 是 Apache 旗下，开源，高可靠，高扩展，容易管理，支持客户扩展的数据采集系统。Flume 使用 JRuby 来构建，所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计用于合并日志数据的系统，后来逐渐发展用于处理流数据事件。
官网：http://flume.apache.org/

3、Flume 概述

3.1、Flume 概念

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

Flume 是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据，同时，Flume 提供对数据的简单处理，并写到各种数据接收方的能力。

（1）Apache Flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统，和 Sqoop 同属于数据采集系统组件，但是 Sqoop 用来采集关系型数据库数据，而 Flume 用来采集流动型数据。

（2）Flume 名字来源于原始的近乎实时的日志数据采集工具，现在被广泛用于任何流事件数据的采集，它支持从很多数据源聚合数据到 HDFS。

（3）一般的采集需求，通过对 flume 的简单配置即可实现。Flume 针对特殊场景也具备良好的自定义扩展能力，因此，flume 可以适用于大部分的日常数据采集场景。

（4）Flume 最初由 Cloudera 开发，在 2011 年贡献给了 Apache 基金会，2012 年变成了 Apache的顶级项目。Flume OG（Original Generation）是 Flume 最初版本，后升级换代成 Flume NG（Next/New Generation）。

（5）Flume 的优势：可横向扩展、延展性、可靠性。

3.2、Flume 版本介绍

Flume 在 0.9.x and 1.x 之间有较大的架构调整，1.x 版本之后的改称 Flume NG，0.9.x 的称为 Flume OG。

官网文档：http://flume.apache.org/FlumeUserGuide.html

4、Flume 体系结构/核心组件

4.1、概述

Flume 的数据流由事件(Event)贯穿始终。Event 是 Flume 的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些 Event 由 Agent 外部的 Source 生成，当 Source 捕获 Event 后会进行特定的格式化，然后 Source 会把 Event 推入(单个或多个) Channel 中。你可以把 Channel 看作是一个缓冲区，它将保存事件直到 Sink 处理完该事件。Sink 负责持久化日志或者把事件推向另一个 Source。

Flume 以 agent 为最小的独立运行单位。一个 agent 就是一个 JVM。单个 agent 由 Source、Sink 和 Channel 三大组件构成，如下图：

组件	功能
Agent	使用 JVM 运行 Flume。每台机器运行一个 agent，但是可以在一个 agent 中包含多个 sources 和 sinks。
Client	生产数据，运行在一个独立的线程。
Source	从 Client 收集数据，传递给 Channel。
Sink	从 Channel 收集数据，运行在一个独立线程。
Channel	连接 sources 和 sinks，这个有点像一个队列。
Events	可以是日志记录、avro 对象等。

4.2、Flume 核心组件

4.2.1、Event

Event（事件）是 Flume 数据传输的基本单元。Flume 以事件的形式将数据从源头传送到最终的目的。
Event 由可选的 header 和载有数据的一个 byte array 构成。
（1）载有的数据度 flume 是不透明的。
（2）Header 是容纳了 key-value 字符串对的无序集合，key 在集合内是唯一的。
（3）Header 可以在上下文路由中使用扩展。

4.2.2、Client

Client 是一个将原始 log 包装成 events 并且发送他们到一个或多个 agent 的实体。目的是从数据源系统中解耦 Flume，在 flume 的拓扑结构中不是必须的。
Client 实例：
（1）flume log4j Appender。
（2）可以使用 Client SDK（org.apache.flume.api）定制特定的 Client。

4.2.3、Agent

agent 是 flume 流的基础部分。一个 Agent 包含 source，channel，sink 和其他组件。它利用这些组件将 events 从一个节点传输到另一个节点或最终目的地。 flume 为这些组件提供了配置，声明周期管理，监控支持。

4.2.4、Source

Source 负责接收 event 或通过特殊机制产生 event，并将 events 批量的放到一个或多个 Channel，包含 event 驱动和轮询两种类型。
不同类型的 Source：
（1）与系统集成的 Source：Syslog、Netcat、监测目录池。
（2）自动生成事件的 Source：Exec。
（3）用于 Agent 和 Agent 之间通信的 IPC source：avro、thrift。
（4）source 必须至少和一个 channel 关联。

4.2.5、Agent 之 Channel

Channel 位于 Source 和 Sink 之间，用于缓存进来的 event。当 sink 成功的将 event 发送到下一个的 channel 或最终目的后， event 从 channel 删除。
不同的 channel 提供的持久化水平也是不一样的。
（1）Memory channel：volatile (不稳定的）。
（2）File Channel：基于 WAL（预写式日志 Write-Ahead logging)实现。
（3）JDBC channel：基于嵌入式 database 实现。
channel 支持事务，提供较弱的顺序保证，可以和任何数量的 source 和 sink 工作。

4.2.6、Agent 之 Sink

Silk 负责将 event 传输到下一跳或最终目的地，成功后将 event 从 channel 移除。
不同类型的 silk：
（1）存储 event 到最终目的地终端 sink，比如 HDFS、HBase。
（2）自动消耗的 sink 比如 null sink。
（3）用于 agent 间通信的 IPC：sink：Avro。
（4）必须作用于一个确切的 channel。

4.2.7、Iterator

Iterator 作用于 Source，按照预设的顺序在必要地方装饰和过滤 events。

4.2.8、Channel Selector

Channel Selector 允许 Source 基于预设的标准，从所有 channel 中，选择一个或者多个 channel。

4.2.9、Sink Processor

多个 sink 可以构成一个 sink group，sink processor 可以通过组中所有 sink 实现负载均衡，也可以在一个 sink 失败时转移到另一个。

4.3、Flume 经典部署方案

4.3.1、单 Agent 采集数据

4.3.2、多 Agent 串联

4.3.3、多 Agent 合并串联

4.3.4、多路复用

5、Flume 实战案例

5.1、安装部署 Flume

（1）安装包下载 apache-flume-1.8.0-bin.tar.gz：
链接：https://pan.baidu.com/s/1wxfczarvqJt4D03n512X8w
提取码：ass7

官网下载：http://flume.apache.org/download.html
（2）Flume 的安装非常简单，只需要解压即可，当然，前提是已有 Hadoop 环境。
上传安装包到数据源所在节点上，然后解压：

tar -zxvf apache-flume-1.8.0-bin.tar.gz -C ~/apps

然后进入 flume 的目录，修改 conf 下的 flume-env.sh，在里面配置 JAVA_HOME，再配置 fume 环境变量 FLUME_HOME，更新环境变量。
（3）根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)。
（4）指定采集方案配置文件，在相应的节点上启动 flume agent。
（5）先用一个最简单的例子来测试一下程序环境是否正常：
① 在 $FLUME_HOME/agentconf 目录下创建一个数据采集方案，该方案就是从一个网络端口收集数据，也就是创一个任意命名的配置文件如下：netcat-logger.properties
文件内容如下：

# 定义这个 agent 中各个组件的名字(此 agent 别名为 a1)
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 描述和配置 source 组件：r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# 描述和配置 sink 组件：k1
a1.sinks.k1.type = logger
# 描述和配置 channel 组件，此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 描述和配置 source channel sink 之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

② 启动 agent 去采集数据：
在 $FLUME_HOME 下执行如下命令：

bin/flume-ng agent -c conf -f agentconf/netcat-logger.properties -n a1 -Dflume.root.logger=INFO,console

A、-c conf：指定 flume 自身的配置文件所在目录；
B、-f agentconf/netcat-logger.properties：指定我们所描述的采集方案文件；
C、-n a1：指定我们这个 agent 的名字。

③ 测试：
先要往 agent 的 source 所监听的端口上发送数据，让 agent 有数据可采。
例如在本机节点，使用 telnet localhost 44444 命令就可以输入两行数据：
zhang san
1 2 3 4

④ Flume-Agent 接收的结果：

5.2、Flume 实战案例

5.2.1、采集目录下文件到 HDFS

（1）采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到 HDFS 中去。

（2）根据需求，首先定义以下 3 大要素：
A、数据源组件，即 source ——> 监控文件目录 : spooldir。
spooldir 特性：
① 监视一个目录，只要目录中出现新文件，就会采集文件中的内容。
② 采集完成的文件，会被 agent 自动添加一个后缀：.COMPLETED。
③ 所监视的目录中不允许重复出现相同文件名的文件。
B、下沉组件，即 sink ——> HDFS 文件系：hdfs sink。
C、通道组件，即 channel ——> 可用 file channel 也可以用内存 channel。

（3）配置文件编写：spooldir-hdfs.properties.

#定义三大组件的名称
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# 配置 source 组件
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /home/hadoop/logs/flume/spooldir
agent1.sources.source1.fileHeader = false

#配置拦截器
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = host
agent1.sources.source1.interceptors.i1.hostHeader = hostname

# 配置 sink 组件
agent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path=hdfs://myha01/logs/flume/%y-%m-%d/%H-%M
agent1.sinks.sink1.hdfs.filePrefix = events
agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
agent1.sinks.sink1.hdfs.batchSize= 100
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat =Text
agent1.sinks.sink1.hdfs.rollSize = 102400
agent1.sinks.sink1.hdfs.rollCount = 1000000
agent1.sinks.sink1.hdfs.rollInterval = 60
#agent1.sinks.sink1.hdfs.round = true
#agent1.sinks.sink1.hdfs.roundValue = 10
#agent1.sinks.sink1.hdfs.roundUnit = minute
agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
agent1.channels.channel1.type = memory
agent1.channels.channel1.keep-alive = 120
agent1.channels.channel1.capacity = 500000
agent1.channels.channel1.transactionCapacity = 600

# Bind the source and sink to the channel
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

其中 /home/hadoop/logs/flume/spooldir 目录要存在。

Channel 参数解释：
① capacity：默认该通道中最大的可以存储的 event 数量。
② trasactionCapacity：每次最大可以从 source 中拿到或者送到 sink 中的 event 数量。
③ keep-alive：event 添加到通道中或者移出的允许时间。

（4）启动：

bin/flume-ng agent -c conf -f agentconf/spooldir-hdfs.properties -n agent1 -Dflume.root.logger=INFO,console

（5）测试：
① 如果 HDFS 集群是高可用集群，那么必须要放入 core-site.xml 和 hdfs-site.xml 文件到 $FLUME_HOME/conf 目录中。
② 查看监控的 /home/hadoop/logs/flume/spooldir 文件夹中的文件是否被正确上传到 HDFS 上。
③ 在该目录中创建文件，或者从其他目录往该目录加入文件，验证是否新增的文件能被自动的上传到 HDFS 上。

5.2.2、采集文件中信息到 HDFS

（1）采集需求：比如业务系统使用 log4j 生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到 HDFS 上。
根据需求，首先定义以下 3 大要素：
A、采集源，即 source ——> 监控文件内容更新：exec ‘tail -F file’。
B、下沉目标，即 sink ——> HDFS 文件系：hdfs sink。
C、Source 和 sink 之间的传递通道 ——> channel，可用 file channel 也可以用内存 channel。

（2）配置文件编写：tail-hdfs.properties.

# 定义三大组件的名称
agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# Describe/configure tail -F source1
agent1.sources.source1.type = exec
agent1.sources.source1.command = tail -F /home/hadoop/logs/flume/catalina.out
agent1.sources.source1.channels = channel1

#configure host for source
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = host
agent1.sources.source1.interceptors.i1.hostHeader = hostname

# Describe sink1
agent1.sinks.sink1.type = hdfs
#a1.sinks.k1.channel = c1
agent1.sinks.sink1.hdfs.path =hdfs://myha01/logs/flume-event/%y-%m-%d/%H-%M
agent1.sinks.sink1.hdfs.filePrefix = tomcat_
agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
agent1.sinks.sink1.hdfs.batchSize= 100
agent1.sinks.sink1.hdfs.fileType = DataStream
agent1.sinks.sink1.hdfs.writeFormat =Text
agent1.sinks.sink1.hdfs.rollSize = 102400
agent1.sinks.sink1.hdfs.rollCount = 1000000
agent1.sinks.sink1.hdfs.rollInterval = 60
agent1.sinks.sink1.hdfs.round = true
agent1.sinks.sink1.hdfs.roundValue = 10
agent1.sinks.sink1.hdfs.roundUnit = minute
agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
agent1.channels.channel1.type = memory
agent1.channels.channel1.keep-alive = 120
agent1.channels.channel1.capacity = 500000
agent1.channels.channel1.transactionCapacity = 600

# Bind the source and sink to the channel
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

（3）启动：

bin/flume-ng agent -c conf -f agentconf/tail-hdfs.properties -n agent1 -Dflume.root.logger=INFO,console

（4）测试：
① 模拟像指定的日志文件 /home/hadoop/logs/flume/catalina.out 中追加内容。
② 验证 HDFS 上的对应文件是否有新增内容。

5.2.3、多 agent 串联采集

（1）分发 flume 到其它机器节点：
scp -r flume-1.8.0/ hadoop@hadoop02:~/apps
scp -r flume-1.8.0/ hadoop@hadoop03:~/apps
scp -r flume-1.8.0/ hadoop@hadoop04:~/apps
scp -r flume-1.8.0/ hadoop@hadoop05:~/apps

（2）架构设计：
从 hadoop05 的 flume agent 传送数据到 hadoop04 的 flume agent：

如现在我在两台机器上的测试，hadoop04 和 hadoop05 上面做 agent 的传递，分别是：
hadoop04：tail-avro.properties。
① 使用 exec “tail -F /home/hadoop/logs/flume/date.log” 获取采集数据。
② 使用 avro sink 数据到下一个 agent。
hadoop05：avro-hdfs.properties。
① 使用 avro 接收采集数据。
② 使用 hdfs sink 数据到目的地。

（3）准备 hadoop04：tail-avro.properties。

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/hadoop/logs/flume/date.log
a1.sources.r1.channels = c1

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.channel = c1
a1.sinks.k1.hostname = hadoop05
a1.sinks.k1.port = 4141
a1.sinks.k1.batch-size = 2

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（4）准备 hadoop05：avro-hdfs.properties。

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 4141

# Describe k1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path =hdfs://myha01/logs/flume-event/%y-%m-%d/%H-%M
a1.sinks.k1.hdfs.filePrefix = date_
a1.sinks.k1.hdfs.maxOpenFiles = 5000
a1.sinks.k1.hdfs.batchSize= 100
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat =Text
a1.sinks.k1.hdfs.rollSize = 102400
a1.sinks.k1.hdfs.rollCount = 1000000
a1.sinks.k1.hdfs.rollInterval = 60
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（5）最终测试：
第 1 步测试：首先启动 hadoop05 机器上的 agent。

bin/flume-ng agent -c conf -n a1 -f agentconf/avro-hdfs.properties -Dflume.root.logger=INFO,console

第 2 步测试：再启动 hadoop04 上的 agent。

bin/flume-ng agent -c conf -n a1 -f agentconf/tail-avro.properties -Dflume.root.logger=INFO,console

第 3 步测试：执行一个普通的脚本 date.sh 往 hadoop04 的 /home/hadoop/logs/flume/date.log 中追加数据：

#!/bin/bash
for((x=0; x<=60; x++));
do
	echo `date` >> /home/hadoop/logs/flume/date.log
	sleep 1
done

第 4 步测试：至此会发现在 hadoop04 agent 发送的数据会转到 hadoop05 agent，然后被 sink 到了 HDFS 的对应目录 hdfs://myha01/logs/flume-event/ 下。

5.2.4、高可用部署采集

（1）Flume-NG 的高可用架构图：

图中，我们可以看出，Flume 的存储可以支持多种，这里只列举了 HDFS 和 Kafka（如：存储最新的一周日志，并给 Storm 系统提供实时日志流）。

（2）节点分配，Flume 的 Agent 和 Collector 分布如下表所示：

名称	Host	角色
Agent1	hadoop02	日志服务器
Agent2	hadoop03	日志服务器
Agent3	hadoop04	日志服务器
Collector1	hadoop04	AgentMaster1
Collector1	hadoop05	AgentMaster2

表中所示，Agent1，Agent2，Agent3 数据分别流入到 Collector1 和 Collector2，Flume NG 本身提供了 Failover 机制，可以自动切换和恢复。在上表中，有 3 个产生日志服务器分布在不同的机房，要把所有的日志都收集到一个集群中存储。下面我们开发配置 Flume NG 集群。

（3）配置信息，在下面单点 Flume 中，基本配置都完成了，我们只需要新添加两个配置文件，它们是 ha_agent.properties 和 ha_collector.properties，其配置内容如下所示：
ha_agent.properties 配置：

#agent name: agent1
agent1.channels = c1
agent1.sources = r1
agent1.sinks = k1 k2

#set gruop
agent1.sinkgroups = g1

#set channel
agent1.channels.c1.type = memory
agent1.channels.c1.capacity = 1000
agent1.channels.c1.transactionCapacity = 100
agent1.sources.r1.channels = c1
agent1.sources.r1.type = exec
agent1.sources.r1.command = tail -F /home/hadoop/logs/flume/testha.log
agent1.sources.r1.interceptors = i1 i2
agent1.sources.r1.interceptors.i1.type = static
agent1.sources.r1.interceptors.i1.key = Type
agent1.sources.r1.interceptors.i1.value = LOGIN
agent1.sources.r1.interceptors.i2.type = timestamp

# set sink1
agent1.sinks.k1.channel = c1
agent1.sinks.k1.type = avro
agent1.sinks.k1.hostname = hadoop04
agent1.sinks.k1.port = 52020

# set sink2
agent1.sinks.k2.channel = c1
agent1.sinks.k2.type = avro
agent1.sinks.k2.hostname = hadoop05
agent1.sinks.k2.port = 52020

#set sink group
agent1.sinkgroups.g1.sinks = k1 k2

#set failover
agent1.sinkgroups.g1.processor.type = failover
agent1.sinkgroups.g1.processor.priority.k1 = 10
agent1.sinkgroups.g1.processor.priority.k2 = 1
agent1.sinkgroups.g1.processor.maxpenalty = 10000

ha_collector.properties 配置：

#set agent name
a1.sources = r1
a1.channels = c1
a1.sinks = k1

#set channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# other node,nna to nns
a1.sources.r1.type = avro

# 当前主机为什么，就修改成什么主机名（复制一份到 hadoop05,注意修改）
a1.sources.r1.bind = hadoop04
a1.sources.r1.port = 52020
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = static
a1.sources.r1.interceptors.i1.key = Collector

# 当前主机为什么，就修改成什么主机名，（复制一份到 hadoop05,注意修改）
a1.sources.r1.interceptors.i1.value = hadoop04
a1.sources.r1.channels = c1

#set sink to hdfs
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path= hdfs://myha01/logs/flume_ha/loghdfs
a1.sinks.k1.hdfs.fileType=DataStream
a1.sinks.k1.hdfs.writeFormat=TEXT
a1.sinks.k1.hdfs.rollInterval=10
a1.sinks.k1.channel=c1
a1.sinks.k1.hdfs.filePrefix=%Y-%m-%d

注意：在把 ha_collector.properties 文件拷贝到另外一台 collector 的时候，记得更改该配置文件中的主机名。在该配置文件中有注释。

（4）启动：先启动 hadoop04 和 hadoop05 上的 collector 角色：

bin/flume-ng agent -c conf -f agentconf/ha_collector.properties -n a1 -Dflume.root.logger=INFO,console

然后启动 hadoop02，hadoop03，hadoop04 上的 agent 角色：

bin/flume-ng agent -c conf -f agentconf/ha_agent.properties -n agent1 -Dflume.root.logger=INFO,console

5.2.5、更多 Source 和 Sink 组件

（1）更多 Sources：http://flume.apache.org/FlumeUserGuide.html#flume-sources
（2）更多 Channels：http://flume.apache.org/FlumeUserGuide.html#flume-channels
（3）更多 Sinks：http://flume.apache.org/FlumeUserGuide.html#flume-sinks

6、综合案例

6.1、案例场景/需求

A、B 两台日志服务机器实时生产日志主要类型为 access.log、nginx.log、web.log。
现在要求：
把 A、B 机器中的 access.log、nginx.log、web.log 采集汇总到 C 机器上然后统一收集到 hdfs 中。
但是在 hdfs 中要求的目录为：
/source/logs/access/20210323/**
/source/logs/nginx/20210323/**
/source/logs/web/20210323/**

6.2、场景分析

6.3、数据处理流程分析

6.4、需求实现

（1）准备 3 台服务器：
服务器 A 对应的 IP 为 192.168.123.103，主机名为 hadoop03；
服务器 B 对应的 IP 为 192.168.123.104，主机名为 hadoop04；
服务器 C 对应的 IP 为 192.168.123.105，主机名为 hadoop05。

（2）设计采集方案 exec_source_avro_sink.properties：
在服务器 hadoop03 和服务器 hadoop04 上的 $FLUME_HOME/agentconf 创建采集方案的配置文件 exec_source_avro_sink.properties，文件内容为：


# 指定各个核心组件
a1.sources = r1 r2 r3
a1.sinks = k1
a1.channels = c1

# 准备数据源
## static 拦截器的功能就是往采集到的数据的 header 中插入自己定义的 key-value 对
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/hadoop/flume_data/access.log
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = static
a1.sources.r1.interceptors.i1.key = type
a1.sources.r1.interceptors.i1.value = access
a1.sources.r2.type = exec
a1.sources.r2.command = tail -F /home/hadoop/flume_data/nginx.log
a1.sources.r2.interceptors = i2
a1.sources.r2.interceptors.i2.type = static
a1.sources.r2.interceptors.i2.key = type
a1.sources.r2.interceptors.i2.value = nginx
a1.sources.r3.type = exec
a1.sources.r3.command = tail -F /home/hadoop/flume_data/web.log
a1.sources.r3.interceptors = i3
a1.sources.r3.interceptors.i3.type = static
a1.sources.r3.interceptors.i3.key = type
a1.sources.r3.interceptors.i3.value = web

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop05
a1.sinks.k1.port = 41414

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 20000
a1.channels.c1.transactionCapacity = 10000

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sources.r2.channels = c1
a1.sources.r3.channels = c1
a1.sinks.k1.channel = c1

（3）准备 avro_source_hdfs_sink.properties 配置文件：
在服务器 C 上的 $FLUME_HOME/agentconf 中创建配置文件 avro_source_hdfs_sink.properties，文件内容为：

#定义 agent 名， source、channel、sink 的名称
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#定义 source
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port =41414

#添加时间拦截器
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type=org.apache.flume.interceptor.TimestampInterceptor$Builder
#定义 channels
a1.channels.c1.type = memory
a1.channels.c1.capacity = 20000
a1.channels.c1.transactionCapacity = 10000

#定义 sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path=hdfs://myha01/source/logs/%{type}/%Y%m%d
a1.sinks.k1.hdfs.filePrefix =events
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.writeFormat = Text

#时间类型
a1.sinks.k1.hdfs.useLocalTimeStamp = true

#生成的文件不按条数生成
a1.sinks.k1.hdfs.rollCount = 0

#生成的文件按时间生成
a1.sinks.k1.hdfs.rollInterval = 30

#生成的文件按大小生成
a1.sinks.k1.hdfs.rollSize = 10485760

#批量写入 hdfs 的个数
a1.sinks.k1.hdfs.batchSize = 20

#flume 操作 hdfs 的线程数（包括新建，写入等）
a1.sinks.k1.hdfs.threadsPoolSize=10

#操作 hdfs 超时时间
a1.sinks.k1.hdfs.callTimeout=30000

#组装 source、channel、sink
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（4）启动：
配置完成之后，在服务器 A 和 B 上的 /home/hadoop/data 有数据文件 access.log、nginx.log、web.log。
先启动服务器 C（hadoop05）上的 flume，启动命令：在 flume 安装目录下执行：

bin/flume-ng agent -c conf -f agentconf/avro_source_hdfs_sink.properties -name a1 -Dflume.root.logger=DEBUG,console

然后在启动服务器上的 A（hadoop03）和 B（hadoop04），启动命令：在 flume 安装目录下执行：

bin/flume-ng agent -c conf -f agentconf/exec_source_avro_sink.properties -name a1 -Dflume.root.logger=DEBUG,console

（5）测试：
自行测试。

你可能感兴趣的:(hadoop,flume,Flume体系结构,Flume部署方案,数据采集组件)

Unity基础包刚体FPS RigidbodyFirstPersonController 脚本研究暗光之痕 Unity起航 unity u3d 基础包脚本
版本：unity5.3.4语言：C#今天又研究了一个脚本。刚体的第一人称，不过这个脚本没有像之前的FPS脚本一样，加那么多另外的脚本，唯一一个就是MouseLook，这个脚本我们之前分析过了，就不再赘述了。所以整个看下来都是一个比较完整的FPS模型，个人喜欢用这个刚体实现，因为以后用其他什么力都比较方便。下面上代码：//刚体FPS移动主脚本，用刚体和胶囊组件代替了CharacterControll
Helm Chart 实战指南 ivwdcwso 运维 Heml k8s kubernetes 云原生包管理容器
Helm是Kubernetes的包管理工具，而HelmChart是Helm的核心概念，用于定义、安装和升级Kubernetes应用。本文将带你从零开始，通过实战演练，掌握HelmChart的创建、配置和部署，帮助你高效管理Kubernetes应用。1.环境准备在开始之前，确保你已经具备以下环境：Kubernetes集群：可以是本地集群（如Minikube）或云服务（如GKE、EKS）。Helm：安
开源邮箱套件介绍系列1：SOGo 小胡子大魔王邮件系统开源软件 SOGo
项目网站：SOGo|FreeOpenSourceWebmail提示：如下内容大部分来自官方网站，通过AI智能翻译而来。1.SOGo功能概述SOGo提供了多种访问日历和消息数据的方式。您的用户可以使用网页浏览器、MicrosoftOutlook、MozillaThunderbird、AppleiCal或移动设备来访问相同的信息。由于SOGo采用并推广开放标准，因此它是一个高度互操作性的解决方案。其中
【Julia】在Julia中优雅地配置Artifacts x66ccff julia julia 开发语言
引言在Julia包开发中，我们经常需要处理外部依赖和数据文件。Julia的Artifacts系统提供了一个优雅的解决方案，让我们可以轻松管理这些依赖。本文将介绍如何在Julia项目中正确配置和使用Artifacts。什么是Artifacts？Artifacts是Julia包管理系统的一个特性，它允许我们：管理二进制依赖处理数据文件自动下载和缓存资源⬇️跨项目共享资源步骤指南1.创建Artifact
Python中9个常见字典与异常处理错误与解决方案很酷的站长 Python python 开发语言
今天，我们将一起发现并解决在使用字典时遇到的15个常见陷阱，让你的编程之旅更加顺畅。第一部分：字典基础与常见错误1.创建字典的误解错误场景：尝试用列表推导式创建字典时，键重复导致覆盖。#错误示范keys=['a','b','a']values=[1,2,3]my_dict={k:vfork,vinzip(keys,values)}print(my_dict)#输出可能不是预期，因为'a'键被覆盖了
小程序搜索组件功能与吸顶效果实现全解析阿贾克斯的黎明前端前端
目录小程序搜索组件功能与吸顶效果实现全解析一、创建搜索页面并实现跳转功能（一）新建搜索页面（二）实现跳转逻辑二、在首页使用搜索组件并实现吸顶效果（一）添加搜索组件到首页（二）实现吸顶效果在小程序开发过程中，搜索组件是提升用户体验、增强内容查找便捷性的关键元素。本文将详细介绍如何在小程序中实现点击搜索组件跳转到搜索页面，以及为搜索组件添加吸顶效果的方法，并附上完整代码示例，助你快速掌握这些实用技能。
FFMpeg的基本介绍海峰丶丶丶 ffmpeg 音视频
1FFMpeg的基本概念1.1FFMpeg是什么FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。FFmpeg在Linux平台下开发，但它同样也可以在其它操作系统环境中编译运行，包括Windows、MacOSX等。这个项目最早由FabriceBellard发起，2004年至2015年间由
logstash（自动拉取，过滤，推送日志的应用，也是elk架构中的l）长东737 elk 架构
elk是指elasticsearch，logstash，kibana三款软件搭配组成的架构logstash是一个数据采集加工处理以及传输的工具logstash类似于流水线，有三个模块，分辨是input>filter>output，input模块负责收集数据，filter负责处理数据，output负责输出数据logstash需要先保证web集群和ela集群运行正常才能搭建，运行logstash需要先
Django ORM解决Oracle表多主键的问题 zZeal django python 后端 oracle
现状以Django3.2为例DjangoORM设计为默认使用单一主键（通常是自增的id字段），这一选择主要基于以下核心原因：简化ORM设计与操作统一访问方式外键关联简化避免歧义冲突主键语义明确防止隐式依赖性能与数据库兼容索引效率优化跨数据库兼容替代方案成熟unique_together约束Oracle现状原始业务表，很多都使用多主键。使用Django映射现有Oracle数据库无法处理多主键问题。O
Day29（补）-【AI思考】-精准突围策略——从“时间贫困“到“效率自由“的逆袭方案一个一定要撑住的学习者 #AI深度思考学习方法人工智能 unity 游戏引擎
文章目录精准突围策略——从"时间贫困"到"效率自由"的逆袭方案**第一步：目标熵减工程（建立四维坐标）**与其他学习方法的结合**第二步：清华方法本土化移植**与其他工具对比**~~第三步：游戏化改造方案~~****第四步：环境重塑工程****第五步：技术杠杆矩阵****第六步：风险对冲策略**可行性验证模型甘特图OKR看板精准突围策略——从"时间贫困"到"效率自由"的逆袭方案让思想碎片重焕生机的
计算机毕业设计JAVA房屋租赁系统mybatis 煦洋cxsj985 mybatis java 开发语言
计算机毕业设计JAVA房屋租赁系统mybatis计算机毕业设计JAVA房屋租赁系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https://pan
大sql如果不能加索引，还能怎么优化 —— hint学习 ckh_user 数据库 sql 数据库 oracle
大sql如果不能加索引，还能怎么优化当前问题：要执行简单查询sql【select字段1，字段2，……，字段40from表where条件groupby字段1，字段2，……，字段40】，但对应表里数据量大，且查询字段和groupby字段是由动态配置的，于是这里不方便加索引，普通查询耗时2个小时以上。解决方案：这里便用hint的并行解决，新的sql【select/*+parallel(8)*/字段1，字
《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》 Yimuzhizi 网络安全 web安全安全网络安全人工智能架构网络搜索引擎
项目：《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》姓名：飞花似梦Flydream日期：2024年11月21日目录蓝队基础企业网络架构高层管理IT管理中央技术团队安全部门企业管理技术信息安全管理成熟度模型（ISM3）安全职能安全团队成员典型企业网络分区模糊的边界外部攻击面身份管理识别Windows典型应用识别Linux典型应用识别WEB服务识别客户端设备身份和访问管理目录服务企业数据存
Formality：黑盒(black box) 日晨难再 Synopsys #Formality 数字IC 硬件工程
相关阅读Formalityhttps://blog.csdn.net/weixin_45791458/category_12841971.html?spm=1001.2014.3001.5482简介在使用Formality时，黑盒(blackbox)的概念很重要，指的是一个其功能未知的设计。黑盒通常用于设计中不可综合的组件，包括RAM、ROM、模拟电路和硬核IP等。它也是需要匹配的对象之一，必须确
【手写数据库内核组件】0301 缓存模型介绍，缓存分层架构与缓存映射算法，以及缓存淘汰替换算法，同步一致的策略韩楚风 C语言实战-手写数据库内核组件数据库缓存架构 c语言数据结构
0301缓存介绍专栏内容：postgresql使用入门基础手写数据库toadb并发编程个人主页：我的主页管理社区：开源数据库座右铭：天行健，君子以自强不息；地势坤，君子以厚德载物.文章目录0301缓存介绍一、概述二、多样的数据造就各异的缓存三、缓存的架构四、缓存算法4.1缓存组织算法4.2缓存映射算法4.3缓存替换算法4.4缓存同步算法五、总结结尾
Cocos Creator 3.8 2D 游戏开发知识点整理寻找优秀的自己 cocos
目录CocosCreator3.82D游戏开发知识点整理1.CocosCreator3.8概述2.2D游戏核心组件(1)节点（Node）与组件（Component）(2)渲染组件(3)UI组件3.动画系统(1)传统帧动画(2)动画编辑器(3)Spine和DragonBones4.物理系统(1)物理引擎(2)刚体（RigidBody2D）(3)碰撞检测5.输入系统(1)触摸与鼠标事件(2)键盘输入(
《告别监控焦虑！Kylin系统Zabbix保姆级安装手册》入眼皆含月 kylin zabbix 大数据
一、概况Zabbix是一个广泛使用的企业级开源监控解决方案，能够监控网络、服务器、虚拟机和云服务等IT基础设施。它通过灵活的通知机制，使用户能够为几乎所有事件配置基于电子邮件的警报，从而快速响应服务器问题。二、Zabbix的主要功能（1）全面的监控能力：能够监控几乎所有类型的IT组件，包括操作系统性能、网络设备、数据库、应用程序等。（2）灵活的数据收集方式：支持多种数据收集方法，如SNMP、IPM
Kafka常见问题之 org.apache.kafka.common.errors.RecordTooLargeException 王多鱼的梦想～ Kafka修炼手册 kafka apache 分布式运维
文章目录Kafka常见问题之org.apache.kafka.common.errors.RecordTooLargeException:Themessageis1,048,576byteswhenserializedwhichislargerthanthemaximumrequestsize.1.错误解析2.错误原因3.错误复现案例3.1生产者发送超大消息4.解决方案4.1方法1：调整Kafka
PostgreSQL的一主一从集群搭建部署 (同步) keep__go PostgreSQL postgresql 数据库
一、实验环境虚拟机名IP身份简称keep-postgres12-node1192.168.122.87主节点node1keep-postgres12-node2192.168.122.89备节点node2二、安装数据库源码包方式（主）1、创建用户[root@keep-postgres12-node1~]#groupaddpostgres[root@keep-postgres12-node1~]#u
搭建 PostgreSQL 阿杰技术数据库数据库 postgresql
端口：5432代理备份端口：6432下载postgresql-15.0-1-windows-x64乱码显示配置环境变量PGDATA=数据目录位置找到postgresql.conf文件，修改参数lc_messages='UTF8'max_connections=1000shared_buffers=4GBwork_mem=8MB问题：远程易掉线方案：修改配置信息tcp_keepalives_idle
【2025美赛D题】为更美好的城市绘制路线图建模｜建模过程+完整代码论文全解全析小天数模 25美赛数学建模
你是否在寻找数学建模比赛的突破点？数学建模进阶思路！作为经验丰富的美赛O奖、国赛国一的数学建模团队，我们将为你带来本次数学建模竞赛的全面解析。这个解决方案包不仅包括完整的代码实现，还有详尽的建模过程和解析，帮助你全面理解并掌握如何解决类似问题。详见文末问题一：第一步：数据整理与处理在处理数据时，可能会遇到以下问题：1.数据清洗：确保每个数据集都是干净的，删除无关的列、处理缺失值，确保数据的格式一致
Nginx配置反向代理我是小白 nginx 运维代理模式云计算
背景：现实生产环境中，部署的环境经常是离线的，通常要经过跳板机才能到生产机器上，且生产机器不带web界面，导致需要进行测试web的时候无法测试，这时候就很需要一个nginx代理机器环境：a为windows或带web的linux，充当客户端，b为跳板机，c为生产机器在线/离线安装nginx在线安装#安装所需环境[root@nginxdata]#yuminstall-yopenssl-develpcr
华为ipd项目管理流程_IPD产品开发与管理术语大全 weixin_39801991 华为ipd项目管理流程
IPD相关术语BB，buildingblock，组件BG，businessgroup，业务群BLM，businessleadershipmodel，业务领先模型BMT，businessmanagementteam，业务管理团队BP，businessplanning，业务计划CB，capabilitybaseline，能力基线CBB，commonbuildingblock，通用构建模块CDP，cha
volcengine 库装不上 #25 LiuPig刘皮哥 python
https://github.com/volcengine/volc-sdk-python/issues/25在Dockerpython3.10-slim中volcengine安装时报错,其依赖pycryptodome显示gcc相关错误调研发现pycryptodome3.19.0不会报错,volcengine依赖的pycryptodome3.9.9会报错修改方案是手动为volcengine安装依赖
深入解析现代计算机内存访问机制：从虚拟地址到物理地址的转换与缓存优化 109702008 #linux系统编程 #linux内核人工智能 linux c语言
在现代计算机系统中，内存访问是一个复杂而高效的过程，涉及到多个硬件和软件组件的协同工作。本文将深入探讨从虚拟地址到物理地址的转换过程，以及缓存机制如何优化这一过程，确保数据访问的高效性。1.虚拟内存与虚拟地址在现代操作系统中，每个进程都有自己的虚拟地址空间。虚拟内存是一种抽象机制，它允许每个进程看到一个独立的、连续的内存空间，而无需关心物理内存的实际布局。虚拟地址是进程看到的内存地址，而物理地址是
Vue.js组件开发-实现全屏背景图片滑动切换特效 LCG元前端 vue.js 前端 javascript
使用Vue实现全屏背景图片滑动切换特效的详细步骤、代码、注释和使用说明。步骤创建Vue项目：使用VueCLI创建一个新的Vue项目。准备图片资源：准备好要用于背景切换的图片，并将它们放在项目的合适目录下。编写HTML结构：创建一个包含图片容器和导航按钮的HTML结构。编写CSS样式：设置全屏背景和图片切换动画效果。编写Vue组件逻辑：实现图片切换的逻辑。详细代码1.创建Vue项目首先，确保已经安装
VMware vSphere VDP 安装部署漫无目的行走的月亮
一、VDP是什么vSphereDataProtection(VDP)是一个基于磁盘的备份和恢复解决方案,可靠且易于部署。vSphereDataProtection与VMwarevCenterServer完全集成,可以对备份作业执行有效的集中式管理,同时将备份存储在经过重复数据消除的目标存储中。二、安装步骤安装包含三个大步骤：1、配置DNS2、在VCenter中配置用户权限3、部署OVF模板4、注册
多版本cuda+多版本cudnn+gcc+cmake+opencv+darknet爬坑记录 LMM_AI 系统学习深度学习
本次针对darknet框架部署—centos7.x一、CUDA多版本安装1、很早前安装了很多cuda现在忘了步骤了，这里不再安装，下次再补上，可以看其他贴安装，记清楚自己的安装目录，一般默认在/usr/local/cuda(cuda10.0、cuda10.2)，用哪个切换环境变量就行，很方便二、CUDNN版本安装1、下载cudnn并解压，官网上下载与CUDA相匹配的版本，下载难点需要注册个帐号，有
Nuxt：利用public-ip这个npm包来获取公网IP 前端白袍前端学习笔记——Vue篇 tcp/ip npm 网络协议
目录一、安装public-ip包1.在Vue组件中使用2.在Nuxt.js插件中使用public-ip一、安装public-ip包npminstallpublic-ip1.在Vue组件中使用你可以在Nuxt.js的任意组件或者插件中使用public-ip来获取公网IP。下面是在一个Vue组件中如何使用它的例子：你的公网IP是：{{ip}}import{publicIp,publicIpv4,pub
用vue写一个内网请求chatgpt的网页可以返回图片请求【内含一个key】 steamedbread321 vue.js chatgpt javascript
最近不是chatgpt很活吗？可是必须要科技上网才可以进入，所以我就参考其他人写的页面改写了一个网页版不需要chatgpt请求的网页，还可以请求图片哦。部署以后就可以直接使用废话不多说了直接上代码海洋生物详情{{x.msg}}{{x.msg}}{{sentext}}{{sentexttp}}const{createApp}=VuecreateApp({data(){return{api:'',ms
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后