十二翼堕落天使

【Flume】笔记

一、Flume 概述

1.1 Flume 定义

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。

1.2 Flume 基础架构

Agent

Agent 是一个 JVM 进程，它以事件的形式将数据从源头传送至目的地。

Agent 主要由三个部分组成：Source、Channel、Sink。

Source

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。

Sink

Sink 不断第轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统。或者被发送到另一个 Flume Agent。

Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、hbase、solr、自定义。

Channel

Channel 是位于 Source 和 Sink 之间的缓冲区。因此 Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个 Sink 的读取操作。

Flume 自带两种 Channel：

Memory Channel

Memory Channel 是内存中的队列。Memory Channel 在不需要关系数据丢失的情景下适用。如果需要关系数据丢失，那么 Memory Channel 就不应该适用，因为程序死亡、及其宕机或者重启都会导致数据丢失。
File Channel

File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

Event

Flume 数据传输的基本单元，以 Event 的形式将数据从源头送至目的地。Event 由 Header 和 Body 两部分组成，Header 用来存放该 Event 的一些属性，为 K-V 结构，Body 用来存放该条数据，形式为字节数组。

二、Flume 入门

2.1 Flume 安装部署

下载解压

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt
mv /opt/apache-flume-1.9.0-bin.tar.gz /opt/flume

配置环境变量

echo 'export FLUME_HOME=/opt/flume' >> /etc/bash.profile
source /etc/profile

兼容 Guava 依赖

rm $(find $FLUME_HOME/lib -name 'guava-*')
cp $(find $HADOOP_HOME/share/hadoop/common/lib -name 'guava-*' | head -n 1) $FLUME_HOME/lib

兼容 SLF4J 依赖

rm $(find $FLUME_HOME/lib -name 'slf4j-*')

调整内存

cd $FLUME_HOME

cp conf/flume-env.sh.template conf/flume-env.sh

vim conf/flume-env.sh

修改相应注释行为：

export JAVA_OPTS="-Xms1024m -Xmx1024m -Dcom.sun.management.jmxremote"

2.2 Flume 入门案例

2.2.1 监控端口数据官方案例

案例需求

使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。

实现步骤

检查 44444 端口是否被占用
```
netstat -nlp | grep 44444
```

创建 Flume 配置文件 jobs/flume-netcat-logger.conf

cd $FLUME_HOME

mkdir -p jobs

vim jobs/flume-netcat-logger.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# NetCat TCP Source
a1.sources.r1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind=localhost
a1.sources.r1.port = 44444

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

启动任务

bin/flume-ng agent                          \
  --conf conf/                              \
  --conf-file jobs/flume-netcat-logger.conf \
  --name a1                                 \
  -Dflume.root.logger=INFO,console

向本机 44444 端口发送数据
```
nc localhost 44444
```

2.2.2 实时监控单个追加文件

案例需求

实时监控 /opt/flume/input/a.txt 文件，并上传至 HDFS。

实现步骤

创建 Flume 配置文件 jobs/flume-file-hdfs.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Exec Source
a1.sources.r1.channels = c1
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/flume/input/a.txt
a1.sources.r1.shell = /bin/bash -c

# HDFS Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node6:9000/flume/%Y-%m-%d/%H
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.useLocalTimeStamp = true

启动任务

bin/flume-ng agent -c conf/ -f jobs/flume-file-hdfs.conf -n a1

追加文件

mkdir -p /opt/flume/input
echo $RANDOM >> /opt/flume/input/a.txt

2.2.3 实时监控目录下的多个新文件

案例需求

使用 Flume 监听 /opt/flume/input整个目录的文件，并上传至 HDFS。

实现步骤

创建 Flume 配置文件 jobs/flume-dir-hdfs.conf

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Spooling Directory Source
a1.sources.r1.channels = c1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /opt/flume/input
a1.sources.r1.fileHeader = true

# HDFS Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node6:9000/flume/%Y-%m-%d/%H
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.useLocalTimeStamp = true

启动任务

bin/flume-ng agent -c conf/ -f jobs/flume-dir-hdfs.conf -n a1

新建文件

touch /opt/flume/input/1.txt
touch /opt/flume/input/2.txt

查看目录变化
```
watch ls /opt/flume/input
```

说明

spoolDir 不支持 ~ 路径。比如 ~/input 会报错：

java.lang.IllegalStateException: Directory does not exist: /opt/flume/~/input

在使用 Spooling Directory Source 时：

不要再监控目录中创建并持续修改文件
上传完成的文件会以 .COMPLETED 结尾
被监控文件夹每 500 毫秒扫描一次文件变动

2.2.4 实时监控目录下的多个追加文件

介绍

Exec Source 适用于监控一个实时追加的文件，不能实现断点续传；Spooling Directory Source 适用于同步新文件，但不适合对实时追加日志的文件进行监听并同步；而 Taildir Source 适合用于监听多个实时追加的文件，并且能够实现断点续传。

案例需求

使用 Flume 监听整个目录的实时追加文件，并上传至 HDFS。

实现步骤

创建 Flume 配置文件 jobs/flume-taildir-hdfs.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Taildir Source
a1.sources.r1.channels = c1
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/flume/input/.*txt.*
a1.sources.r1.positionFile = /opt/flume/taildir_position.json
a1.sources.r1.fileHeader = true

# HDFS Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node6:9000/flume/%Y-%m-%d/%H
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.useLocalTimeStamp = true

启动任务

bin/flume-ng agent -c conf/ -f jobs/flume-taildir-hdfs.conf -n a1

追加文件

echo $RANDOM >> /opt/flume/input/a.txt
echo $RANDOM >> /opt/flume/input/b.txt

说明

Taildir Source 维护了一个 JSON 格式的 Position File，会定期的往 Position File 中更新每个文件读取到的最新的位置，因此能够实现断点续传。Position File 格式如下：

[
  { "inode": 1579598, "pos": 12, "file": "/opt/flume/input/a.txt" },
  { "inode": 1579593, "pos": 6, "file": "/opt/flume/input/b.txt" }
]

Linux 中存储文件元数据区域叫做 inode，每个 inode 都有一个号码，操作系统用 inode 号码识别不同的文件，Unix/Linux 系统内部不使用文件名，而使用 inode 号码来识别文件。

三、Flume 进阶

3.1 Flume 事务

3.2 Flume Agent 内部原理

ChannelSelector

ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型，分别是 Replicating（复制）和 Multiplexing（多路复用）。

ReplicatingSelector 会将同一个 Event 发往所有的 Channel，MultiplexingSelector 会根据相应的原则，将不同的 Event 发往不同的 Channel。

SinkProcessor

SinkProcessor 共有三种类型，分别是：

DefaultSinkProcessor：对应的是单个的 Sink。
LoadBalancingSinkProcessor：对应的是 Sink Group，可以实现负载均衡的功能。
FailoverSinkProcessor：对应的是 Sink Group，可以实现故障恢复的功能。

3.3 Flume 拓扑结构

简单串联

这种模式是将多个 Flume 顺序连接起来了，从最初的 Source 开始到最终 Sink 传送的目的存储系统。

此模式不建议桥接过多的 Flume 数量，Flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 Flume 宕机，会影响整个传输系统。

复制和多路复用

Flume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个 Channel 中，或者将不同数据分发到不同的 Channel 中，Sink 可以选择传送到不同的目的地。

负载均衡和故障转移

Flume 支持使用多个 Sink 逻辑上分到一个 Sink 组，Sink 组配合不同的 SinkProcessor 可以实现负载均衡和故障恢复的功能。

聚合

这种模式是我们最常见的，也非常实用，日常 Web 应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。

用 Flume 的这种组合方式能很好的解决这一问题，每台服务器都部署一个 Flume 采集系统，传送到一个集中收集日志的 Flume，再由此 Flume 上传至 HDFS、Hive、Hbase 等，进行日志分析。

3.4 Flume 开发案例

3.4.1 复制和多路复用

案例需求

使用 Flume1 监控文件变动，Flume1 将变动内容传递给 Flume2，Flume2 负责存储到 HDFS。同时 Flume1 将变动内容传递给 Flume3，Flume3 负责输出到 Local File System。

实现步骤

创建接收文件的 Flume 配置文件 jobs/flume1-file-flume.conf

# Agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2

# Memory Channel
a1.channels.c1.type = memory

# Memory Channel
a1.channels.c2.type = memory

# Exec Source
a1.sources.r1.selector.type = replicating
a1.sources.r1.channels = c1 c2
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/flume/input/a.txt
a1.sources.r1.shell = /bin/bash -c

# Avro Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = localhost
a1.sinks.k1.port = 4141

# Avro Sink
a1.sinks.k2.channel = c2
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = localhost
a1.sinks.k2.port = 4142

创建输入到 HDFS 的 Flume 配置文件 jobs/flume2-flume-hdfs.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4141

# HDFS Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node6:9000/flume/%Y-%m-%d/%H
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 1
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.useLocalTimeStamp = true

创建输出到本地目录的 Flume 配置文件 jobs/flume3-flume-dir.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4142

# File Roll Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = /opt/flume/output

注意：输出的目录必须数已经存在的目录，如果该目录不存在，并不会自动创建目录。

mkdir -p /opt/flume/output

按顺序启动任务

bin/flume-ng agent -c conf/ -f jobs/flume3-flume-dir.conf -n a1

bin/flume-ng agent -c conf/ -f jobs/flume2-flume-hdfs.conf -n a1

bin/flume-ng agent -c conf/ -f jobs/flume1-file-flume.conf -n a1

写入文件
```
echo $RANDOM >> /opt/flume/input/a.txt
```
查看 HDFS 和本地目录
```
watch ls /opt/flume/output
```

3.4.2 负责均衡和故障转移

案例需求

使用 Flume1 监控一个端口，其 Sink 组中的 Sink 分别对接 Flume2 和 Flume3，采用 FailoverSinkProcessor 实现故障转移。

实现步骤

创建接收端口数据的 Flume 配置文件 jobs/flume1-netcat-flume.conf

# Agent
a1.sources = r1
a1.sinkgroups = g1
a1.sinks = k1 k2
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# NetCat TCP Source
a1.sources.r1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Sink Group
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 10
a1.sinkgroups.g1.processor.maxpenalty = 10000

# Avro Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = localhost
a1.sinks.k1.port = 4141

# Avro Sink
a1.sinks.k2.channel = c1
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = localhost
a1.sinks.k2.port = 4142

创建两个输出到本地控制台的 Flume 配置文件 jobs/flume2-flume-console.conf、jobs/flume3-flume-console.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4141

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4142

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

顺序启动任务

bin/flume-ng agent -c conf/ -f jobs/flume2-flume-console.conf -n a1 -Dflume.root.logger=INFO,console

bin/flume-ng agent -c conf/ -f jobs/flume3-flume-console.conf -n a1 -Dflume.root.logger=INFO,console

bin/flume-ng agent -c conf/ -f jobs/flume1-netcat-flume.conf -n a1

向本机端口发送数据
```
nc loclahost 44444
```
查看 Flume2 及 Flume3 控制台日志打印情况
停止 Flume2 查看 Flume3 控制台日志打印情况

3.4.3 聚合

案例需求

Flume1 监控文件 /opt/flume/input/a.txt
Flume2 监控端口 44444
Flume1 与 Flume2 将数据发送给 Flume3，Flume3 将最终数据打印到控制台

实现步骤

监控文件的 Flume1 配置文件 jobs/flume1-file-flume.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Exec Source
a1.sources.r1.channels = c1
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/flume/input/a.txt
a1.sources.r1.shell = /bin/bash -c

# Avro Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = localhost
a1.sinsk.k1.port = 4141

Hadoop102 上监控端口数据的 Flume2 配置文件 jobs/flume2-netcat-flume.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# NetCat TCP Source
a1.sources.r1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Avro Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = localhost
a1.sinsk.k1.port = 4141

Hadoop103 上聚合输出到控制台的 Flume3 配置文件 jobs/flume3-flume-logger.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = arvo
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4141

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

启动任务

# Flume3
bin/flume-ng agent -c conf/ -f jobs/flume3-flume-logger.conf -n a1 -Dflume.root.logger=INFO,console

# Flume2
bin/flume-ng agent -c conf/ -f jobs/flume2-netcat-flume.conf -n a1

# Flume1
bin/flume-ng agent -c conf/ -f jobs/flume1-file-flume.conf -n a1

追加文件并向端口发送数据

# Flume1
echo $RANDOM >> /opt/flume/input/a.txt

# Flume1
nc localhost 44444

查看 Flume3 控制台打印情况

3.5 自定义 Interceptor

案例需求

使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同的日志发往不同的分析系统。

需求分析

在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。

此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Multiplexing 的原理是：根据 Event 中 Header 的某个 Key 的值，将不同的 Event 发送到不同的 Channel。所以我们需要自定义一个 Interceptor，为不同类型的 Event 的 Header 的 Key 赋予不同的值。

实现步骤

创建 Maven 项目并引入依赖

<dependency>
  <groupId>org.apache.flumegroupId>
  <artifactId>flume-ng-coreartifactId>
  <version>1.9.0version>
dependency>

创建自定义 Interceptor 并实现 Interceptor 接口

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

public class MyInterceptor implements Interceptor {
    private List<Event> eventList;

    @Override
    public void initialize() {
        eventList = new ArrayList<>();
    }

    // 单个事件拦截
    @Override
    public Event intercept(Event event) {
        Map<String, String> headers = event.getHeaders();
        String body = new String(event.getBody());
        if (body.contains("info")) {
            headers.put("type", "info");
        } else if (body.contains("error")) {
            headers.put("type", "error");
        }
        return event;
    }

    // 批量事件拦截
    @Override
    public List<Event> intercept(List<Event> events) {
        eventList.clear();
        for (Event event : events) {
            eventList.add(intercept(event));
        }
        return eventList;
    }

    @Override
    public void close() { }

    public static class Builder implements Interceptor.Builder {
        @Override
        public Interceptor build() {
            return new MyInterceptor();
        }

        @Override
        public void configure(Context context) { }
    }
}

Flume 配置文件 flume1-netcat-flume.conf

# Agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2

# Memory Channel
a1.channels.c1.type = memory

# Memory Channel
a1.channels.c2.type = memory

# NetCat TCP Source
a1.sources.r1.channels = c1 c2
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = xyz.icefery.demo.interceptor.MyInterceptor$Builder
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = type
a1.sources.r1.selector.mapping.info = c1
a1.sources.r1.selector.mapping.error = c2

# Avro Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = localhost
a1.sinks.k1.port = 4141

# Avro Sink
a1.sinks.k2.channel = c2
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = localhost
a1.sinks.k2.port = 4142

Flume 配置文件 flume2-flume-logger.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4141

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

Flume 配置文件 flume3-flume-logger.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Avro Source
a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 4142

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

启动任务 Flume2、Flume3、Flume1
向端口发送数据
```
echo 'info' | nc localhost 44444
```

3.6 自定义 Source

介绍

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 Avro、Thrift、Exec、JMS、Spooling Directory、NetCat、Sequence Generator、Syslog、HTTP、Legacy。

官方提供的 Source 类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些 Source。

需求

使用 Flume 接收数据，并给每条数据添加前缀，输出到控制台。前缀课从 Flume 配置文件中配置。

编码

自定义 Source，继承 AbstractSource 类，实现 Configurable 和 PollableSource 接口

public class MySource extends AbstractSource implements Configurable, PollableSource {
    private Long delay;
    private String field;

    @Override
    public void configure(Context context) {
        delay = context.getLong("delay");
        field = context.getString("field");
    }

    @Override
    public Status process() throws EventDeliveryException {
        try {
            Map<String, String> headers = new HashMap<>();
            Event event = new SimpleEvent();
            for (int i = 0; i < 5; i++) {
                event.setHeaders(headers);
                event.setBody((field + i).getBytes());
                getChannelProcessor().processEvent(event);
                TimeUnit.MILLISECONDS.sleep(delay);
            }
            return Status.READY;
        } catch (InterruptedException e) {
            e.printStackTrace();
            return Status.BACKOFF;
        }
    }

    @Override
    public long getBackOffSleepIncrement() {
        return 0;
    }

    @Override
    public long getMaxBackOffSleepInterval() {
        return 0;
    }
}

打包并上传至 Flume 的 lib 目录下。

配置文件 flume-custom-logger.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# Custom Source
a1.sources.r1.channels = c1
a1.sources.r1.type = xyz.icefery.demo.source.MySource
a1.sources.r1.prefix = custom-

# Logger Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = logger

3.7 自定义 Sink

介绍

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。

Sink 是完全事务性的，在从 Channel 批量删除数据之前，每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent，Sink 就利用 Channel 提交事务。事务一旦被提交，该 Channel 从自己的内部缓冲区删除事件。

Sink 组件目的地包括 HDFS、Avro、Thrift、IPC、File、Null、HBase、Solr、自定义。官方提供的 Sink 类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些 Sink。

需求

使用 Flume 接收数据，并在 Sink 端给每条数据天添加前缀和后缀，输出到控制台。前后缀可在 Flume 任务配置文件中配置。

编码

自定义 Sink，继承 AbstractSink，实现 Configurable 接口

import org.apache.flume.Channel;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.Transaction;
import org.apache.flume.conf.Configurable;
import org.apache.flume.sink.AbstractSink;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class MySink extends AbstractSink implements Configurable {
    private static final Logger log = LoggerFactory.getLogger(AbstractSink.class);

    private String prefix;
    private String suffix;

    @Override
    public void configure(Context context) {
        prefix = context.getString("prefix");
        suffix = context.getString("suffix");
    }

    @Override
    public Status process() throws EventDeliveryException {
        Channel channel = getChannel();
        Transaction tx = channel.getTransaction();
        tx.begin();
        // 读取 Channel 中的事件
        Event event;
        while (true) {
            event = channel.take();
            if (event != null) {
                break;
            }
        }
        // 处理事件
        Status status;
        try {
            log.info(prefix + new String(event.getBody()) + suffix);
            tx.commit();
            status = Status.READY;
        } catch (Exception e) {
            tx.rollback();
            status = Status.BACKOFF;
        } finally {
            tx.close();
        }
        return status;
    }
}

打包上传至 Flume 的 lib 目录。

配置文件 flume-netcat-custom.conf

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Memory Channel
a1.channels.c1.type = memory

# NetCat TCP Source
a1.sources.r1.channels = c1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Custom Sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = xyz.icefery.demo.sink.MySink
a1.sinks.k1.prefix = custom-
a1.sinks.k1.suffix = -custom

四、面试题

4.1 你是如何实现 Flume 数据传输的监控的？

使用第三方框架 Ganglia 实时监控 Flume。

4.2 Flume 的 Source、Sink、Channel 的作用？你们 Source 是什么类型？

作用

Source 组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括 Avro、Thrift、Exec、JMS、Spooling Directory、NetCat、Sequence Generator、Syslog、HTTP、Legacy。
Sink 组件是用于把数据发送到目的地的组件，目的地包括 HDFS、Logger、Avro、Thrift、IPC、File、HBase、Solor、自定义。
Channel 组件对采集到的数据进行缓存，可以存放在 Memory 或在 File 中。

Source 类型

监控后台日志：Exec
监控后台产生日志的端口：NetCat

4.3 Flume 的 Channel Selectors

4.4 Flume 参数调优

Source

增加 Source 个数可以增加 Source 读取数据的能力（使用 Taildir Source 时可增加 FileGroup 个数）。例如：当一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录，同时配置好多个 Source 以保证 Source 有足够的能力获取到新产生的数据。

batchSize参数决定 Source 一次批量运输到 Channel 的 Event 条数，适当调大这个参数可以提高 Source 搬运 Event 到 Channel 时的性能。

Channel

type 选择 memory 时 Channel 的性能最好，但是如果 Flume 进程意外挂掉可能会丢失数据。type 选择 file时 Channel 的容错性更好，但是性能会比 Memory Channel 差。

使用 File Channel 时 dataDirs 配置多个不同盘下的目录可以提高性能。

capacity 参数决定 Channel 可容纳最大的 Event 条数。transactionCapacity 参数决定每次 Source 往 Channel 里面写的最大 Event 条数和每次 Sink 从 Channel 里面读的最大的 Event 条数。transactionCapacity 需要大于 Source 和 Sink 的 batchSize 参数。

Sink

增加 Sink 的个数可以增加 Sink 消费 Event 的能力。Sink 也不是越多越好，够用就行，过多的 Sink 会占用系统资源，造成系统资源不必要的浪费。

batchSize 参数决定 Sink 一次批量从 Channel 读取的 Event 条数，适当调大这个参数可以提高 Sink 从 Channel 搬出 Event 的性能。

4.5 Flume 的事务机制

Flume 使用两个独立的事务分别负责从 Source 到 Channel，以及从 Channel 到 Sink 的事件传递。

比如 Spooling Directory Source 为文件的每一行创建一个事件，一旦事务中所有的事件全部传递到 Channel 且提交成功，那么 Source 就将该文件标记为完成。

同理，事务以类似的方式处理 Channel 到 Sink 的传递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会保持到 Channel 中，等待重新传递。

4.6 Flume 采集数据会丢失吗？

根据 Flume 的架构原理，Flume 是不可能丢失数据的，其内部有完善的事务机制， Source 到 Channel 是事务性的，Channel 到 Sink 是事务性的，因此这两个环节不会出现数据的丢失，唯一可能丢失数据的情况是 Channel 采用 Memory Channel，Agent 宕机导致数据丢失，或者 Channel 存储数据已满，导致 Source 不再写入，未写入的数据丢失。

Flume 不会丢失数据，但是有可能造成数据的重复，例如数据已经由 Sink 发出，但是没有接收到响应，Sink 会再次发送数据，此时可能会导致数据的重复。

你可能感兴趣的:(大数据,flume,big,data,大数据)

Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
vue如何实现Cascader 级联选择器(二级全部选中只展示一级，三级全部选中只展示二级) 小周同学: vue vue.js
select提交重置级联exportdefault{data(){return{ruleForm:{selectLabel:[],idList:[],},citiesList:[],rules:{selectLabel:[{type:'array',required:true,message:'多选不能为空',trigger:'change'}],},props:{multiple:true,va
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Redis第五讲：详解 Redis 中 BigKey、HotKey 的发现与处理程序员 jet_qi 深入理解数据库 redis 数据库缓存大key 热点key
简介：在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。本文详解Redis中BigKey、HotKey的发现与处理。文章目录1、大Key与热Key的定义1.1、什么是大Key1.2、什么是热Key2、大Key与热Key带来
如何发现Redis中的bigkey？代码中の快捷键 redis 数据库缓存
如何发现Redis中的bigkey？我主要用这几个方法：redis-cli--bigkeys(最常用，最省事)：直接在命令行敲这个命令：redis-cli-h你的redis地址-p端口--bigkeys作用：它会自动扫描整个数据库。结果：告诉你每种数据类型（String,Hash,List,Set,ZSet）里最大的那个key是什么，有多大（比如String多大，List有多少元素）。优点：简单、
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
MyBatis-Plus 使用wrapper自定义SQL
MyBatis-Plus使用wrapper自定义SQL，以下是单表查询。官方文档官方的例子：//mapper接口@Select("select*frommysql_data${ew.customSqlSegment}")ListgetAll(@Param(Constants.WRAPPER)Wrapperwrapper);//xmlListgetAll(Wrapperew);SELECT*FROM
Mysql数据库可以使用命令行msyql -u root -p连接，但是Navicat连不上 2501_92753117 数据库 mysql
1.Mysql服务启动1.1输入命令回车输入密码可以正常连接msyql-uroot-p1.1.2Navicat连不上2.解决方案2.1连接mysqlmsyql-uroot-p1.2.2查询所有数据库showdatabases;1.2.3切换到mysql数据库usemysql;1.2.4查询hostSELECThost,userFROMuserWHEREuser='root';1.2.5更新任意ip
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23