Hello.Reader

Apache Storm实时流处理的核心技术

1. 引言

Apache Storm 是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm 具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm 可以适用于多种编程语言，具有高度的灵活性。

1.1 什么是Apache Storm？

Apache Storm 是一个流处理引擎，它可以持续处理不断到来的数据流（streams）。Storm 允许用户构建拓扑（Topology）来定义数据流的路径以及处理的逻辑。在这种拓扑中，数据从源（Spout）开始流入，通过一系列的处理节点（Bolt）进行转换或处理，最终得到输出结果。Storm 的架构基于并行执行的理念，支持高吞吐量和低延迟的数据处理。

Storm 提供以下几个核心功能：

分布式数据流处理：Storm 可以在分布式环境下处理大量数据，支持大规模的集群部署。
容错和高可用性：Storm 的设计保证了即使在节点或进程出现故障时，数据流的处理也不会中断。
支持实时和复杂事件处理：Storm 被广泛用于处理流数据的实时分析，如日志处理、物联网数据分析、金融交易监控等。

1.2 Apache Storm的历史与背景

Apache Storm 最早由 Nathan Marz 于2011年开发，最初作为 BackType 公司的一部分，旨在解决社交媒体分析中的实时数据处理问题。后来，Storm 被 Twitter 收购并用于其内部的数据处理需求。随着 Storm 的快速发展和成功，Twitter 于2013年将 Storm 开源，并捐赠给了 Apache 基金会，成为了 Apache 顶级项目之一。

自开源以来，Storm 一直在不断改进，逐渐成为大规模流数据处理系统中的佼佼者。它被广泛应用于许多互联网公司和传统企业中，用于处理实时分析、监控、在线推荐系统等任务。

1.3 Apache Storm的典型应用场景

Apache Storm 被广泛应用于需要处理连续流数据并作出快速决策的领域，以下是几个典型的应用场景：

实时日志处理：用于分析大量服务器日志、应用日志或监控日志，检测异常或分析系统性能。
实时推荐系统：在电商、社交媒体或广告系统中，实时分析用户的行为数据，生成个性化的推荐内容。
物联网数据分析：处理物联网设备的实时数据流，如传感器数据、设备健康状态监测等。
金融交易监控：实时监控金融交易，检测异常交易或欺诈行为。
社交媒体数据分析：处理社交媒体上实时发布的内容，如 Twitter 流数据，用于趋势分析和情感分析。
实时流媒体处理：处理视频或音频流数据，支持实时编码、转码或质量分析。

这些应用场景展示了 Storm 在实时性、分布式数据处理方面的优势，能够帮助企业在数据驱动的决策中保持高效和快速反应。

2. Apache Storm架构

Apache Storm 的架构设计为高度并行和分布式，旨在支持大规模流数据的实时处理。Storm 的核心组件包括 Nimbus、Supervisor、Worker、Executor、Spout 和 Bolt，它们共同协作实现实时数据流的高效处理。

2.1 Nimbus的作用与工作机制

Nimbus 是 Storm 集群的主控节点，类似于 Hadoop 中的 JobTracker。它的主要职责包括：

任务分配：接收用户提交的 Topology，并负责将其分配到集群中的不同节点。
资源调度：根据集群的资源情况，为每个任务分配计算资源（如 Executor 和 Worker）。
任务监控：Nimbus 实时监控各个任务的执行状态，跟踪任务的运行情况，确保任务按预期执行。
容错机制：当某个节点或进程失败时，Nimbus 会将失败的任务重新分配给其他可用节点，确保系统的高可用性。

Nimbus 并不会直接参与实际的流处理，它更像是一个管理和协调者。数据流的具体处理由集群中的 Worker 完成。

2.2 Supervisor的角色与任务分配

Supervisor 是运行在集群每个工作节点上的进程。它的主要作用是接收 Nimbus 的指令，并启动或停止 Worker 进程。Supervisor 负责以下任务：

监听任务调度：Supervisor 持续监听 Nimbus 发出的任务分配请求，当接收到新的任务时，它会在本地启动相应的 Worker 进程。
管理 Worker 生命周期：Supervisor 监控本地的 Worker 进程，确保它们按计划运行，并在需要时进行重启或销毁。
资源分配：Supervisor 根据节点的资源情况（如 CPU 和内存）启动适量的 Worker。

2.3 Worker和Executor的关系

Worker 和 Executor 是 Storm 中实际执行任务的组件：

Worker：Worker 是运行在每个节点的 JVM 进程，负责执行实际的数据处理任务。一个 Worker 可能会处理一个或多个 Executor。
Executor：Executor 是线程级别的执行单元，每个 Executor 负责处理一个或多个特定的任务（如 Spout 或 Bolt）。

具体来说，Worker 是 Storm 中分配并行度的物理容器，而 Executor 则是逻辑上的并行执行单位。Executor 通过线程的方式执行任务，而 Worker 则为这些线程提供运行环境和资源。

2.4 Topology：核心概念与组成部分

Topology 是 Apache Storm 中处理流数据的核心概念。它定义了数据从输入到输出的处理流程。Topology 通常包含多个数据流处理节点，这些节点通过有向无环图（DAG）的形式连接在一起，形成一条完整的数据流管道。

Topology 的两大核心组成部分是 Spout 和 Bolt。

2.4.1 Spout：数据源

Spout 是 Storm 中的数据源组件，负责从外部系统（如消息队列、数据库、文件系统等）读取数据并生成数据流。Spout 会将数据流中的每个数据单元封装为一个 Tuple，并将这些 Tuple 发射到下一层的 Bolt 中进行处理。

Spout 还可以设计为可靠模式或不可靠模式：

可靠模式：Spout 能够追踪每个 Tuple 的处理情况，确保每个数据单元都被完整处理并得到确认。
不可靠模式：Spout 只负责发射数据，而不关心是否成功处理，适用于不需要严格数据处理保障的场景。

2.4.2 Bolt：数据处理节点

Bolt 是实际进行数据处理的节点。数据经过 Spout 发射后，被传递到 Bolt 进行处理，Bolt 可以进行数据过滤、聚合、转换、分组等操作。Bolt 也可以发射新的 Tuple 到下游的 Bolt，构建复杂的数据处理逻辑。

Bolt 通常会以流水线的方式排列，一个 Bolt 可以接收来自多个 Spout 或其他 Bolt 的数据流，并进行多级处理。

2.5 数据流的生命周期：从Spout到Bolt

在 Apache Storm 中，数据流的生命周期从 Spout 开始，经过多级 Bolt 的处理，最后形成处理结果。其生命周期可总结为以下几个步骤：

数据源读取（Spout）：Spout 从外部数据源读取数据，生成数据流，并将每个数据单元封装为 Tuple。
Tuple发射：Spout 将 Tuple 发射到下游 Bolt 进行处理。此时，Spout 可能会跟踪每个 Tuple 的处理状态。
数据处理（Bolt）：Bolt 接收来自 Spout 或其他 Bolt 的 Tuple，进行计算、聚合、转换等操作，处理后的数据可以发射到下一个 Bolt。
数据传递：经过多级 Bolt 处理后，最终形成结果数据。Bolt 可以选择将处理结果发射到外部系统（如数据库或消息队列）中。
确认机制：如果 Spout 处于可靠模式，整个数据流处理完成后，Spout 会收到来自 Bolt 的确认，确保数据已经成功处理。

这种数据流的生命周期设计使得 Storm 能够以流式方式持续处理海量数据，确保低延迟、高吞吐和数据处理的可靠性。

3. Apache Storm的工作原理

Apache Storm 是一个分布式实时计算框架，支持大规模流数据处理。它的工作原理基于数据流的并行处理机制，通过 Spout 生成的数据流（Tuple）在多个节点（Bolt）之间传输和处理。在整个处理过程中，Storm 提供了可靠的确认机制（Acker）来确保每一个 Tuple 都能够被完整处理或在处理失败时进行补偿。

3.1 数据流的并行处理机制

Storm 的核心特点之一是它的并行处理能力，依赖于 Executor 和 Worker 的分布式执行机制。并行处理机制的核心概念包括以下几个方面：

并行度（Parallelism）：每个 Spout 和 Bolt 都可以配置并行度，决定了这些组件在集群中以多少个实例执行。并行度越高，处理能力越强。
Task：Spout 和 Bolt 的实例化任务，每个 Task 处理特定数量的数据流。在多个节点上分布的 Task 可以同时并行处理大量数据。
Worker 和 Executor：多个 Task 会在 Executor 线程中执行，而 Executor 则运行在 Worker 进程内。Worker 是独立的 JVM 进程，负责承载和执行多个 Executor，分布在集群中的不同节点上。

通过合理配置拓扑的并行度，Storm 能够横向扩展，在集群中高效处理海量的实时数据流。这种并行处理机制使得 Storm 在处理实时流数据时表现出色。

3.2 Tuple的传输与处理

在 Storm 中，Tuple 是最小的传输和处理单元。每个 Tuple 包含了一个或多个字段，表示数据流中的单个数据记录。在 Spout 和 Bolt 之间，Tuple 被持续传递和处理。

Tuple 的传输和处理可以分为以下几个步骤：

生成 Tuple：Spout 从外部数据源中读取数据并将其封装为 Tuple。
发射 Tuple：Spout 将生成的 Tuple 发射到下游的 Bolt，或根据拓扑结构发射到多个 Bolt。
处理 Tuple：Bolt 接收 Tuple 后，根据逻辑对其进行处理（如过滤、转换、聚合等）。一个 Bolt 也可以生成新的 Tuple 并将其发射给其他 Bolt。
传输策略：Storm 支持多种传输策略，包括 Shuffle Grouping（随机分配），Field Grouping（按字段分组），Global Grouping（全部发射到一个 Bolt 实例）等。选择合适的传输策略能够提高数据处理的效率。

Tuple 的传输是 Storm 数据流处理的核心，确保数据能够在多个处理节点之间快速高效地传递。

3.3 Acker的确认机制：保证数据处理的可靠性

为了保证数据处理的可靠性，Storm 引入了Acker机制，用于跟踪每个 Tuple 的处理进度，确保数据不会丢失。Acker 的工作原理如下：

跟踪 Tuple 的处理路径：当 Spout 发射一个 Tuple 时，Acker 会为该 Tuple 分配一个唯一的消息 ID，并跟踪该 Tuple 的处理路径。每个 Bolt 在处理 Tuple 时，会将处理信息反馈给 Acker。
更新处理状态：当 Bolt 处理完 Tuple 后，会发出一个 ACK（确认）或 FAIL（失败）消息。Acker 会在接收到 ACK 时更新该 Tuple 的处理状态。如果所有处理节点都返回了 ACK，Acker 会通知 Spout 该 Tuple 已成功处理。
处理失败：如果某个 Bolt 返回 FAIL，Acker 会标记该 Tuple 为处理失败，并通知 Spout 重发该 Tuple。

这种确认机制确保了数据处理的可靠性，即便在集群节点发生故障或部分任务失败的情况下，Acker 也能保证所有数据最终都会被完整处理。

3.4 如何处理失败的Tuple

在 Storm 的数据流处理中，Tuple 可能因为各种原因（如节点故障、网络问题、逻辑错误）导致处理失败。为了应对这种情况，Storm 提供了几种处理失败 Tuple 的机制：

重试机制：当某个 Tuple 在处理过程中发生错误时，Bolt 会将处理失败的信息发送给 Acker，Acker 会通知 Spout 重新发射该 Tuple。通过配置重试次数和重试间隔，系统可以在一定的容错范围内自动恢复数据处理。
超时处理：如果某个 Tuple 在指定时间内没有得到确认，Acker 会将其标记为超时并通知 Spout。Spout 可以选择重发超时的 Tuple，或者记录日志以进行进一步分析。
FAIL 处理逻辑：开发者可以在 Spout 中自定义对失败 Tuple 的处理逻辑。例如，可以根据失败次数来决定是继续重发还是放弃该 Tuple；也可以将失败的 Tuple 记录在日志中，用于后续的手动处理。
保证处理语义：Storm 默认提供至少一次处理语义（At-least-once），即每个 Tuple 至少会被处理一次。如果需要更高的可靠性，开发者可以设计支持精确一次处理语义（Exactly-once）的拓扑。

通过上述机制，Storm 能够灵活处理数据处理过程中的失败，确保系统具备较强的容错能力，能够在高并发环境下保证数据处理的准确性和完整性。

4. Storm集群搭建

Apache Storm 的分布式架构要求在集群环境中运行。通常，Storm 需要与 Zookeeper 协同工作，用于节点之间的协调与同步。在这部分，我们将详细介绍如何安装和配置单节点和多节点的 Storm 集群，以及 Zookeeper 在集群中的作用。

4.1 单节点Storm集群的安装与配置

在开始搭建单节点 Storm 集群之前，确保系统已经安装好 Java（JDK 8 或以上）和 Zookeeper，因为 Storm 依赖于 Zookeeper 进行分布式协调。

步骤：

安装 Zookeeper：

下载 Zookeeper 安装包并解压：

wget https://downloads.apache.org/zookeeper/zookeeper-x.x.x/apache-zookeeper-x.x.x-bin.tar.gz
tar -xzf apache-zookeeper-x.x.x-bin.tar.gz
cd apache-zookeeper-x.x.x-bin

配置 Zookeeper：
修改 conf/zoo.cfg 文件，配置如下：
```
tickTime=2000
dataDir=/var/lib/zookeeper
clientPort=2181
```
启动 Zookeeper：
```
bin/zkServer.sh start
```

安装 Storm：

下载 Apache Storm：

wget https://downloads.apache.org/storm/apache-storm-x.x.x/apache-storm-x.x.x.tar.gz
tar -xzf apache-storm-x.x.x.tar.gz
cd apache-storm-x.x.x

配置 Storm：
修改 conf/storm.yaml 文件，添加以下配置：

storm.zookeeper.servers:
    - "localhost"
nimbus.seeds: ["localhost"]
storm.local.dir: "/var/storm"
supervisor.slots.ports:
    - 6700
    - 6701
    - 6702

启动 Nimbus 和 Supervisor：
```
bin/storm nimbus
bin/storm supervisor
```
启动 UI 界面：
```
bin/storm ui
```

通过浏览器访问 http://localhost:8080 可以查看 Storm 集群的状态。

4.2 多节点Storm集群的搭建与配置

多节点 Storm 集群可以同时运行多个 Nimbus 和 Supervisor 进程，以实现更高的并发处理能力。多节点集群配置与单节点类似，但需要根据每个节点的角色进行适当调整。

步骤：

Zookeeper 安装与配置：
在多节点环境中，Zookeeper 通常是集群化部署的。每个节点上的 zoo.cfg 配置文件应该类似如下：
```
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/var/lib/zookeeper
clientPort=2181
server.1=zookeeper1:2888:3888
server.2=zookeeper2:2888:3888
server.3=zookeeper3:2888:3888
```
配置完成后，启动 Zookeeper 集群中的每个实例。

配置 Nimbus 节点：
在 Nimbus 节点的 storm.yaml 文件中，设置以下内容：

storm.zookeeper.servers:
    - "zookeeper1"
    - "zookeeper2"
    - "zookeeper3"
nimbus.seeds: ["nimbus1", "nimbus2"]
storm.local.dir: "/var/storm"
supervisor.slots.ports:
    - 6700
    - 6701

多个 Nimbus 节点可以作为备份，确保 Nimbus 进程出现故障时，系统仍然可以正常运行。

配置 Supervisor 节点：
每个 Supervisor 节点的 storm.yaml 文件类似于 Nimbus 节点，唯一的区别是每个 Supervisor 节点无需配置 nimbus.seeds，但需要配置 supervisor.slots.ports 来指定可以使用的端口号。
启动 Storm 集群：
- 在 Nimbus 节点上启动 Nimbus：
```
bin/storm nimbus
```
- 在 Supervisor 节点上启动 Supervisor：
```
bin/storm supervisor
```
- 启动 UI 服务监控集群：
```
bin/storm ui
```
使用 http://nimbus1:8080 或 http://nimbus2:8080 来访问 Storm UI 界面，监控集群的运行情况。

4.3 Zookeeper在Storm中的作用

Zookeeper 是 Storm 集群的核心协调组件。它在分布式环境下负责节点之间的状态同步、任务分配以及故障恢复。具体来说，Zookeeper 在 Storm 集群中起到以下作用：

节点注册与协调：Nimbus 和 Supervisor 通过 Zookeeper 进行通信，Nimbus 使用 Zookeeper 来分配任务，并确保 Supervisor 节点按照规划执行。
任务分配与状态管理：Zookeeper 存储 Storm 拓扑的状态信息，包括每个任务的执行状态和元数据信息。Nimbus 使用 Zookeeper 来跟踪任务的执行情况，并确保即使某个 Supervisor 节点崩溃，也能及时将任务重新分配给其他可用节点。
故障恢复：当某个节点或进程发生故障时，Zookeeper 负责通知 Nimbus，并协调新的任务调度和资源分配，保证系统的高可用性。
集群配置管理：Zookeeper 存储 Storm 集群中的配置信息，Nimbus 和 Supervisor 可以通过 Zookeeper 动态获取集群的配置信息，确保配置的同步性和一致性。

Zookeeper 在 Storm 集群中扮演着协调者的角色，确保集群中各个节点的有序运行，并通过容错机制实现集群的高可用性。

5. 编写与提交Topology

在 Apache Storm 中，Topology 是一个数据处理流程的定义，它由一组 Spout 和 Bolt 组成，负责处理从数据源读取的数据流。编写和提交 Topology 是使用 Storm 的核心部分。以下介绍如何从编写简单的 Topology 开始，到如何优化和部署 Topology 到 Storm 集群。

5.1 创建一个简单的Topology：从代码到提交

在 Storm 中，Topology 由多个 Spout 和 Bolt 组成，通过流的方式将它们连接起来。我们将从创建一个简单的 Topology 开始，其中包含一个 Spout（生成数据源）和一个 Bolt（处理数据）。

示例代码：

import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.tuple.Fields;
import org.apache.storm.utils.Utils;

public class SimpleTopology {
    public static void main(String[] args) {
        // 创建一个 TopologyBuilder 实例
        TopologyBuilder builder = new TopologyBuilder();

        // 设置 Spout：RandomSentenceSpout 会生成随机句子
        builder.setSpout("sentence-spout", new RandomSentenceSpout(), 1);

        // 设置 Bolt：SplitSentenceBolt 会将句子分割成单词
        builder.setBolt("split-bolt", new SplitSentenceBolt(), 2)
               .shuffleGrouping("sentence-spout");

        // 配置 Topology
        Config conf = new Config();
        conf.setDebug(true);

        // 启动本地集群（用于开发测试）
        LocalCluster cluster = new LocalCluster();
        cluster.submitTopology("simple-topology", conf, builder.createTopology());

        // 运行一段时间后停止集群
        Utils.sleep(10000);
        cluster.shutdown();
    }
}

步骤概述：

创建 TopologyBuilder：通过 TopologyBuilder 类定义 Spout 和 Bolt 的拓扑结构。
设置 Spout 和 Bolt：调用 setSpout 和 setBolt 方法，定义数据源和数据处理节点，并配置并行度。
配置 Topology：通过 Config 类设置拓扑的运行参数（如是否开启调试模式）。
提交到本地集群：使用 LocalCluster 提交拓扑到本地运行环境中，适合调试和开发。

5.2 Spout和Bolt的编写

Spout 和 Bolt 是 Storm 中的两个核心组件，负责数据流的生成和处理。

Spout 编写：Spout 从外部系统（如消息队列或数据库）读取数据，并将其转化为 Tuple 发送到下游的 Bolt。

示例：RandomSentenceSpout：

import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values;
import java.util.Map;
import java.util.Random;

public class RandomSentenceSpout extends BaseRichSpout {
    private SpoutOutputCollector collector;
    private Random random;

    @Override
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
        this.random = new Random();
    }

    @Override
    public void nextTuple() {
        String[] sentences = {"Storm is awesome", "Big data processing", "Real time analytics"};
        String sentence = sentences[random.nextInt(sentences.length)];
        collector.emit(new Values(sentence));
    }

    @Override
    public void declareOutputFields(org.apache.storm.topology.OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("sentence"));
    }
}

Bolt 编写：Bolt 接收 Spout 或其他 Bolt 发送的 Tuple，进行处理（如过滤、聚合、转换等）。

示例：SplitSentenceBolt：

import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.BasicOutputCollector;
import org.apache.storm.topology.base.BaseBasicBolt;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;

public class SplitSentenceBolt extends BaseBasicBolt {
    @Override
    public void execute(Tuple input, BasicOutputCollector collector) {
        String sentence = input.getStringByField("sentence");
        for (String word : sentence.split(" ")) {
            collector.emit(new Values(word));
        }
    }

    @Override
    public void declareOutputFields(org.apache.storm.topology.OutputFieldsDeclarer declarer) {
        declarer.declare(new org.apache.storm.tuple.Fields("word"));
    }
}

5.3 Topology的配置与调优

为了提高 Topology 的性能，我们可以对 Topology 进行配置和调优。调优的关键点包括：

并行度配置：合理设置 Spout 和 Bolt 的并行度，以充分利用集群资源。可以通过 setSpout 和 setBolt 的第二个参数指定并行度。
```
builder.setBolt("split-bolt", new SplitSentenceBolt(), 2)
       .shuffleGrouping("sentence-spout");
```
批量处理：如果需要处理大量数据，可以配置 Bolt 以批量处理数据，减少 Tuple 处理的开销。
资源分配：可以通过配置指定每个组件的 CPU 和内存使用量，确保重要组件获得足够的资源。
```
topology.worker.cpu: 2.0
topology.worker.memory.mb: 4096
```
容错配置：配置 Storm 的 Acker 机制来确保数据处理的可靠性，防止数据丢失。
优化数据传输策略：使用合适的分组策略（如 Shuffle Grouping、Fields Grouping），根据数据流的特点优化数据传输路径。

5.4 如何部署Topology到Storm集群

在开发环境中，我们通常在本地运行拓扑进行测试，但在生产环境中，需要将拓扑提交到 Storm 集群中运行。

部署步骤：

打包代码：首先将项目打包为 JAR 文件，Storm 支持通过 JAR 文件来运行和提交拓扑。
```
mvn clean package
```
提交 Topology 到集群：
通过 storm jar 命令将拓扑提交到 Storm 集群中。假设打包生成的 JAR 文件为 storm-topology.jar，使用以下命令提交拓扑：
```
storm jar target/storm-topology.jar com.example.SimpleTopology simple-topology
```
查看集群状态：
提交拓扑后，可以通过 Storm 的 UI 查看集群中正在运行的拓扑状态，URL 通常为 http://:8080。
停止或更新拓扑：
如果需要停止或更新拓扑，可以使用 storm kill 命令：
```
storm kill simple-topology
```

通过这些步骤，您可以成功编写、优化并部署一个运行在 Storm 集群中的拓扑。

6. Storm的容错与可靠性机制

Apache Storm 作为一个实时流处理系统，设计上能够处理大规模数据流并在故障发生时保持高可用性。它通过容错机制和可靠性保证策略来确保每条数据在分布式集群中的正确处理。Storm 主要通过 At-least-once 和 Exactly-once 语义来保证数据的可靠处理，并具备强大的故障恢复机制。

6.1 数据的可靠性保证：At-least-once 与 Exactly-once

Storm 提供了两种主要的处理语义来确保数据的可靠性：

At-least-once（至少一次）：
- 描述：At-least-once 语义确保每条数据至少被处理一次。如果某个数据在处理过程中失败，系统会重新处理该数据。
- 优点：能够保证数据不丢失，即便某个组件发生故障或数据处理超时，Storm 会重发该数据，确保最终被处理。
- 缺点：可能会导致同一条数据被处理多次，从而可能会产生重复的结果。在不需要严格去重的场景下，这是默认的可靠性保证。
工作原理：
- 当 Spout 发射一个数据 Tuple 时，它会分配一个唯一的消息 ID，并在每一步处理完成后收到处理节点的 ACK 确认。
- 如果在规定时间内没有收到确认或处理失败，Spout 会重新发射该 Tuple，从而保证数据被处理至少一次。
Exactly-once（精准一次）：
- 描述：Exactly-once 语义确保每条数据仅被处理一次，适用于对结果准确性要求极高的场景。
- 优点：保证数据不会被重复处理，避免了数据重复带来的不准确性。
- 缺点：Exactly-once 的实现比较复杂，通常会导致性能开销，只有在严格需要保证数据唯一处理的场景下才推荐使用。
实现方法：
- 通过外部存储系统（如事务性数据库）来记录 Tuple 的处理状态，确保 Tuple 只被处理一次并且不会产生重复结果。

6.2 Storm的容错策略

为了保证系统在面对节点故障或任务失败时能够继续处理数据流，Storm 提供了多种容错策略：

任务重试：
- 当某个任务（如 Bolt 或 Spout）由于网络问题、节点崩溃或逻辑错误而失败时，Storm 会自动重新分配任务，重启任务并恢复数据处理。
- Storm 通过 Acker 机制 跟踪每个 Tuple 的处理路径，确保所有数据流经过的节点都被成功处理。Acker 负责跟踪每个 Tuple 的处理进度，如果某个节点失败，它会触发重试机制。
节点故障恢复：
- 当 Supervisor 节点或 Nimbus 节点发生故障时，Storm 可以通过 Zookeeper 重新分配任务。Nimbus 检测到某个 Supervisor 节点不可用时，会将该节点的任务重新分配给其他 Supervisor。
- 如果某个 Worker 进程崩溃，Supervisor 会自动重启该进程，并且数据处理会从故障点恢复。
可靠数据传输：
- Storm 支持可靠的数据传输机制，通过 Acker 跟踪每个 Tuple 的生命周期。如果某个 Bolt 没有发送 ACK 确认，Spout 会重新发射该数据，直到数据被成功处理。
拓扑容错：
- 如果整个拓扑发生故障（如 Nimbus 节点崩溃），Storm 会自动重启拓扑，并从保存的状态恢复数据处理，确保拓扑能够继续正常运行。

6.3 如何配置和监控任务的重试机制

Storm 提供了多种配置选项来控制任务的重试行为，以及如何监控任务的执行情况。以下是相关配置与监控方法：

任务重试次数：
Storm 允许你配置 Tuple 在失败后可以重试的次数和重试间隔。

配置项示例：
- topology.message.timeout.secs：指定 Tuple 需要在多少秒内被完全处理。如果在这个时间内 Tuple 没有被确认，Spout 会认为该 Tuple 处理失败并进行重发。
```
topology.message.timeout.secs: 30
```
- topology.max.spout.pending：设置每个 Spout 允许同时处理的最大 Tuple 数量。这可以防止系统在任务失败时因为过多的重试而造成过载。
```
topology.max.spout.pending: 1000
```
Acker 配置：
Storm 的 Acker 机制负责追踪每个 Tuple 的处理情况。通过配置 Acker 数量，可以调整系统的可靠性和容错能力。

配置项：
- topology.acker.executors：设置 Acker 的执行器数量。通常，Acker 数量根据数据流的规模和处理的复杂性来决定，更多的 Acker 可以减少重试失败带来的数据丢失风险。
```
topology.acker.executors: 2
```
监控任务状态：
- Storm UI：Storm 提供了一个 Web 界面（通常在 Nimbus 节点上访问 http://:8080），可以查看拓扑的运行状态。通过 UI，你可以监控每个 Spout 和 Bolt 的任务成功率、失败率、处理延迟等信息。
- 日志监控：Storm 会记录每个组件的执行日志，开发者可以通过日志监控任务的重试情况和失败原因。Nimbus 和 Supervisor 节点的日志包含了拓扑的任务分配、状态变更和故障恢复的信息。
自动任务恢复：
- Storm 支持自动恢复任务失败后的机制。当某个 Bolt 或 Spout 处理失败时，系统会自动触发重试，直到任务成功或达到重试限制。
重试时间间隔配置：
- topology.retry.interval.secs：配置任务重试的时间间隔，确保系统不会频繁重试导致过载。可以根据拓扑的负载和系统的稳定性调整重试间隔。
```
topology.retry.interval.secs: 5
```

通过配置这些选项并监控任务执行情况，开发者可以确保 Storm 在遇到故障时能够有效恢复，并且保证数据的可靠处理。在高可用性和数据准确性要求较高的环境下，合理配置容错机制和重试策略至关重要。

7. 性能优化

为了确保 Apache Storm 在高负载的流处理场景下能够高效运行，性能优化是非常关键的一环。性能优化涵盖了多个方面，包括提高吞吐量、优化内存使用、管理资源、以及监控系统运行状态。通过合理配置这些要素，可以显著提升拓扑的处理能力和系统的稳定性。

7.1 并行度与吞吐量的调优

并行度 是决定 Storm 处理能力的关键因素。通过调优并行度可以有效提升吞吐量，但需要找到合适的平衡点，避免过高或过低的并行度影响性能。

Spout 和 Bolt 的并行度配置：
- Spout 和 Bolt 的并行度直接决定了数据处理的并行性。在 TopologyBuilder 中可以通过指定并行度参数来设置任务的并发级别。
```
builder.setSpout("spout-name", new MySpout(), 4);  // 设置 Spout 并行度为 4
builder.setBolt("bolt-name", new MyBolt(), 8)      // 设置 Bolt 并行度为 8
       .shuffleGrouping("spout-name");
```
- 任务分配：在配置拓扑时，Spout 的并行度通常小于或等于 Bolt 的并行度，以确保 Bolt 能够及时处理从 Spout 发射的数据。
Worker 的数量：
- 每个 Storm 集群的 Worker 数量决定了可以并行处理的拓扑数目。可以在 Storm 配置中指定 Worker 数量，以支持更高的并行性和吞吐量。
```
topology.workers: 4  # 设置为 4 个 Worker
```
吞吐量调优：
- 批量处理：在某些场景中，可以将 Tuple 进行批量处理而不是一条条处理。通过减少网络传输次数，可以提高系统的吞吐量。
- 传输策略优化：选择合适的数据传输策略（如 Shuffle Grouping、Fields Grouping）可以提高吞吐量。尤其是 fieldsGrouping 按特定字段分组，可以减少数据传输的开销。

7.2 内存和资源的管理

内存和资源管理是确保拓扑高效运行的基础。合理的资源分配可以避免内存溢出、线程阻塞等问题。

配置 Worker 的资源使用：
- 可以为每个 Worker 分配 CPU 和内存，以确保不同的 Worker 不会因资源不足而产生瓶颈。可以在 storm.yaml 中进行资源管理配置：
```
topology.worker.cpu: 2.0  # 每个 Worker 分配 2 个 CPU
topology.worker.memory.mb: 4096  # 每个 Worker 分配 4GB 内存
```
JVM 内存管理：
- 调整 Storm 中 JVM 的堆内存设置，确保 Worker 在处理大量数据时有足够的内存空间。
- 可以在拓扑启动脚本或配置中设置 JVM 参数：
```
export STORM_WORKER_HEAPSIZE=4096  # 设置 Worker JVM 堆内存大小为 4GB
```
避免内存泄漏：
- 确保 Bolt 和 Spout 实现中没有内存泄漏，特别是在长时间运行的拓扑中。如果对象没有及时释放或垃圾回收，可能会导致系统内存不足。
垃圾回收调优：
- 在高负载场景下，JVM 的垃圾回收频率可能影响系统性能。可以通过调整 JVM 的 GC 参数来优化垃圾回收策略，例如使用 G1 GC 来提高 GC 效率。

7.3 优化Tuple传输与序列化

Tuple 是 Storm 中的数据传输单元，因此优化 Tuple 的传输和序列化能够有效减少网络开销，提高数据处理速度。

减少 Tuple 大小：
- Tuple 包含的字段应尽量简洁。避免在 Tuple 中传输过大的数据，如大文件或未压缩的文本，尽量将数据压缩或转换成轻量格式再进行传输。
```
collector.emit(new Values(compactData));  // 传输经过压缩处理的数据
```

自定义序列化机制：

Storm 默认使用 Java 的序列化机制，但可以根据需求自定义 Tuple 的序列化方式。可以通过实现 org.apache.storm.serialization.Serializer 接口，优化序列化效率，尤其在处理复杂数据结构时效果明显。

示例：自定义序列化：

public class CustomSerializer implements Serializer {
    @Override
    public void serialize(Object obj, OutputStream out) throws IOException {
        // 自定义序列化逻辑
    }

    @Override
    public Object deserialize(InputStream in) throws IOException {
        // 自定义反序列化逻辑
        return object;
    }
}

批量传输：
- 使用批量处理技术可以减少频繁的网络调用。通过在 Bolt 内部累积数据后再批量发送，可以显著减少网络传输的开销。
避免无效数据传输：
- 使用过滤机制（如通过字段分组）减少无效数据的传输。确保只有必要的 Bolt 节点接收相关数据，而不是将所有数据广播到所有节点。

7.4 Storm的监控与日志管理

有效的监控和日志管理可以帮助开发者了解系统运行状态，并及时发现和解决性能问题。

Storm UI 监控：
- Storm 提供了内置的 Web UI 来监控拓扑的状态。通过 UI 可以查看每个 Spout 和 Bolt 的处理速率、延迟、失败率等关键指标。
- 通过 UI 可以动态调整拓扑的并行度，并观察调整后的性能变化。
指标收集与告警：
- Storm Metrics：Storm 支持内置的指标收集系统，可以收集如 Tuple 处理时间、队列深度、处理延迟等性能数据。
- 通过配置可以将这些指标导出到外部监控系统（如 Prometheus 或 Grafana），用于设置实时告警和生成性能报表。
示例：Prometheus 集成：
```
metrics.reporters:
  - class: "org.apache.storm.metrics2.reporters.PrometheusReporter"
```
日志管理：
- 日志是调试和排查性能问题的重要工具。可以通过配置日志级别来控制日志的输出。一般情况下，将日志级别设置为 WARN 或 ERROR，以减少不必要的日志开销。
日志配置示例：
```
topology.debug: false  # 关闭调试日志
topology.workers: 3
```
- 使用集中式日志管理工具（如 ELK 堆栈或 Splunk）来统一管理和分析分布式集群中的日志信息。通过这些工具可以方便地过滤、搜索和分析日志，迅速定位性能问题。
任务重试监控：
- 通过 Storm UI 或外部监控系统，可以监控拓扑中任务的重试情况，分析重试次数是否过多，进而优化拓扑结构或资源配置。

通过合理的并行度配置、资源管理、优化 Tuple 传输以及建立良好的监控机制，Apache Storm 可以在高负载的环境中保持高效稳定的运行，确保实时数据处理的性能和可靠性。

8. Storm与其他流处理框架的对比

随着大数据处理技术的发展，实时流处理框架逐渐成为企业处理海量数据的重要工具。Apache Storm、Apache Flink 和 Apache Spark Streaming 是目前常见的流处理框架，每个框架都在不同的场景下有着独特的优势和特性。下面将通过对比 Apache Storm 与 Apache Flink 以及 Apache Spark Streaming，帮助理解它们的优缺点和适用场景。

8.1 Apache Storm与Apache Flink的对比

Apache Storm 和 Apache Flink 都是分布式流处理框架，但它们在设计理念和处理方式上存在显著差异。

特性	Apache Storm	Apache Flink
处理模型	基于 Tuple 的数据流处理，提供 At-least-once 和 Exactly-once 语义	基于事件驱动的流式和批处理，支持事件时间处理，天然提供 Exactly-once 语义
处理类型	专注于流式数据处理，批处理支持较弱	同时支持流处理和批处理，提供统一的 API 接口
时间语义	基于处理时间（Processing Time）	支持事件时间（Event Time）、处理时间等多种时间语义
窗口机制	Storm 支持有限的窗口功能	Flink 提供强大的窗口机制（滚动窗口、滑动窗口、会话窗口等）
状态管理	依赖外部存储进行状态管理，支持 Exactly-once 但较为复杂	内置状态管理，支持大型状态的低延迟 Exactly-once 语义
吞吐量与延迟	通常 Storm 的延迟较低，适合实时性要求高的应用	Flink 在大规模批量处理时吞吐量和性能更优，但延迟略高
容错机制	通过 Acker 机制追踪 Tuple，进行重试	通过 Checkpoint 机制实现容错，数据不会丢失
生态系统	依赖其他组件如 Kafka、Zookeeper 实现集成	原生集成 Kafka、HDFS 等系统，提供完整的生态体系
适用场景	适用于简单实时处理、数据监控、低延迟的场景	适用于复杂流计算、大规模批处理和状态管理丰富的应用

总结：Apache Storm 是低延迟、轻量级的流处理框架，适合对延迟要求严格的应用。Apache Flink 则更强大，提供了更灵活的窗口机制、丰富的时间语义和状态管理，适合处理复杂流计算和状态较大的场景。

8.2 Apache Storm与Apache Spark Streaming的对比

Apache Spark Streaming 是 Spark 生态系统中的流处理组件，它基于微批处理（Micro-batching）模型，而 Apache Storm 则是基于事件驱动的实时流处理。

特性	Apache Storm	Apache Spark Streaming
处理模型	基于事件驱动的实时流处理（Tuple-by-Tuple）	基于微批处理模型（将数据流分割为小批次进行处理）
延迟	低延迟，处理每个 Tuple 实时发射	相对较高，由于微批模型，延迟与批次大小有关
吞吐量	吞吐量较低，专注低延迟处理	吞吐量较高，尤其在批处理场景下更高效
容错机制	基于 Acker 机制，支持 At-least-once 和 Exactly-once	通过 RDD 的 DAG 容错模型实现自动重试和容错
状态管理	依赖外部存储进行状态管理	基于 Spark 的原生内存管理，支持持久化和恢复
时间语义	支持处理时间语义	支持事件时间和处理时间
编程复杂度	较为复杂，要求开发者自行管理重试和容错逻辑	基于 Spark API 的批处理模型，编程简单
集成性	原生集成 Kafka 和 Zookeeper	集成 Spark 生态系统，支持与 Spark SQL、MLlib 结合
适用场景	实时监控、低延迟数据处理	大规模批量数据处理、需要结合其他 Spark 模块的场景

总结：Storm 更加关注低延迟的实时处理，适合对延迟要求极高的应用场景，如金融交易监控、物联网数据流处理。而 Spark Streaming 适合那些既需要处理实时流数据又需要批处理功能的场景，如数据仓库中的增量数据处理。

8.3 选择合适的流处理框架的建议

选择合适的流处理框架取决于业务场景、技术要求以及现有的技术栈。以下几点建议可以帮助选择合适的流处理框架：

实时性 vs 批处理需求：
- 如果你的应用需要 超低延迟 且是完全基于事件驱动的处理，如 实时监控 或 金融交易系统，那么 Apache Storm 是一个好的选择。
- 如果需要一个既能处理实时流数据又能处理批量数据的框架，或者需要复杂的状态管理和丰富的窗口操作，Apache Flink 更加适合。
- 如果你的工作流中有大量的批处理任务，同时你想使用同样的框架来处理流数据，Apache Spark Streaming 是个不错的选择，因为它与 Spark 的批处理功能无缝集成。
吞吐量与数据规模：
- 对于大规模、复杂数据处理需求，且需要强大的状态管理和吞吐量支持，Apache Flink 由于其出色的状态管理和高吞吐量能力更具优势。
- Apache Storm 更适合处理中小规模的数据流，尤其是低延迟处理场景，但吞吐量相对较低。
开发复杂度：
- Apache Spark Streaming 提供了易于理解的 API 和编程模型，尤其适合已有 Spark 经验的开发者。
- Apache Flink 提供了更灵活的时间语义和状态管理功能，但相应的学习曲线较陡峭，适合复杂流处理的需求。
- Apache Storm 在容错处理和并行度调优上可能需要更多的开发和运维工作，但对延迟敏感的应用依然具备较大的吸引力。
生态系统与集成：
- 如果你的架构已经采用了 Spark 生态系统，那么 Spark Streaming 是一个合适的选择，因为它能够与 Spark SQL、MLlib、GraphX 等模块无缝集成。
- 如果需要原生的实时流处理，且期望与 Kafka 或 Zookeeper 等工具集成，Storm 是一种简洁的解决方案。
- 对于需要完整的事件时间管理、复杂的窗口处理、以及自带丰富状态管理的场景，Flink 提供了更强大的功能集。

选择流处理框架时，关键在于平衡 实时性需求、吞吐量要求、开发成本 和 集成性。每个框架在不同场景下有其特定的优势，理解应用的需求和框架的特性是做出正确选择的关键。

9. 实际案例分析

在这一部分，我们将通过实际案例，展示 Apache Storm 在实时数据处理中的应用，包括实时日志分析等具体场景，并探讨在生产环境中的实践经验。

9.1 实时数据处理的案例演示

案例：实时流数据处理——用户行为分析

场景描述：某电商平台需要监控用户的实时行为（如点击、浏览、下单等），分析用户的操作路径，实时推荐产品，并在异常行为（如刷单、欺诈）发生时进行预警。这个系统需要低延迟、高吞吐量的实时处理能力。

解决方案：

数据源：用户的操作事件数据通过消息队列（如 Kafka）发送到 Storm 进行处理。
数据处理逻辑：
- Spout 从 Kafka 消费用户行为数据，生成事件流。
- Bolt 1 进行数据清洗，去除无效或重复事件。
- Bolt 2 实时分析用户行为，计算用户点击率、转化率等。
- Bolt 3 实现实时推荐算法，根据用户当前行为推荐相关商品。
- Bolt 4 检测异常行为，如频繁重复下单、可疑的购买行为等，触发预警机制。
处理结果：实时推荐结果通过 REST API 接口反馈给前端系统，异常行为通过通知系统进行告警。

示例代码（简化版）：

TopologyBuilder builder = new TopologyBuilder();

// Spout 从 Kafka 消费用户事件数据
builder.setSpout("kafka-spout", new KafkaSpout(), 2);

// Bolt 1: 数据清洗
builder.setBolt("cleaning-bolt", new CleaningBolt(), 4)
       .shuffleGrouping("kafka-spout");

// Bolt 2: 实时用户行为分析
builder.setBolt("analysis-bolt", new UserAnalysisBolt(), 4)
       .shuffleGrouping("cleaning-bolt");

// Bolt 3: 实时推荐
builder.setBolt("recommendation-bolt", new RecommendationBolt(), 4)
       .shuffleGrouping("analysis-bolt");

// Bolt 4: 异常行为检测
builder.setBolt("anomaly-detection-bolt", new AnomalyDetectionBolt(), 2)
       .shuffleGrouping("analysis-bolt");

Config conf = new Config();
conf.setNumWorkers(4);

// 提交拓扑到集群
StormSubmitter.submitTopology("user-behavior-analysis", conf, builder.createTopology());

效果：

实时监控用户行为，低延迟推荐产品，提升用户体验。
异常行为预警，保障平台的安全性和业务合规性。

9.2 在生产环境中的实际应用场景分享

案例：金融交易监控

场景描述：金融行业的交易系统对实时性有极高的要求，需要在短时间内处理海量的交易数据，监控异常交易和价格波动。该系统不仅需要极低的延迟，还要保证高吞吐量，避免数据丢失。

解决方案：

数据源：交易数据通过 Kafka 或其他消息队列流入 Storm 进行处理。
拓扑结构：
- Spout 读取交易数据流（包括买入、卖出、价格变动等）。
- Bolt 1 解析交易数据，提取关键字段（如股票代码、交易量、交易时间等）。
- Bolt 2 实时计算股票价格波动率，检测价格异常波动。
- Bolt 3 检测异常交易行为（如短时间内的大量交易、洗单行为等），触发预警。
- Bolt 4 将分析结果写入数据库，供后台展示。

关键点：

低延迟：金融交易对延迟极为敏感，Storm 的事件驱动模型能够实现亚秒级的延迟处理。
高可用性与容错：通过 Acker 机制确保所有交易事件都能被成功处理或重试，保证系统在节点故障时的高可用性。

实际效果：

实时捕捉交易异常，防止市场操纵和欺诈行为。
提供稳定、高效的交易监控系统，保障金融市场的安全与合规。

9.3 使用Storm进行实时日志分析

案例：Web服务器的实时日志分析

场景描述：大型网站需要分析海量的实时日志，以便及时监控服务器的运行状态、用户访问情况，并在发现异常（如大量 404 错误、访问超时等）时自动告警。日志分析系统需要低延迟和高吞吐量，以处理数百台服务器产生的日志。

解决方案：

数据源：Web 服务器的日志通过 Kafka 发送到 Storm 进行实时分析。
处理流程：
1. Spout：从 Kafka 读取日志条目。
2. Bolt 1：日志预处理，解析日志内容（如请求时间、请求方法、状态码等）。
3. Bolt 2：按字段统计数据（如统计每分钟的 404 错误数、请求总数、平均响应时间等）。
4. Bolt 3：根据设定的阈值检测异常（如大量 404 错误、响应时间过长等），并触发告警系统。
5. Bolt 4：将分析结果存储到 HBase 或 Elasticsearch 中，供数据可视化展示。

示例代码：

TopologyBuilder builder = new TopologyBuilder();

// Spout 从 Kafka 中读取日志
builder.setSpout("log-spout", new KafkaSpout(), 2);

// Bolt 1: 解析日志条目
builder.setBolt("log-parser-bolt", new LogParserBolt(), 4)
       .shuffleGrouping("log-spout");

// Bolt 2: 日志分析
builder.setBolt("log-analysis-bolt", new LogAnalysisBolt(), 4)
       .fieldsGrouping("log-parser-bolt", new Fields("log-type"));

// Bolt 3: 异常检测
builder.setBolt("anomaly-detection-bolt", new AnomalyDetectionBolt(), 2)
       .shuffleGrouping("log-analysis-bolt");

// Bolt 4: 数据存储
builder.setBolt("storage-bolt", new StorageBolt(), 2)
       .shuffleGrouping("log-analysis-bolt");

Config conf = new Config();
conf.setNumWorkers(3);

// 提交拓扑到集群
StormSubmitter.submitTopology("real-time-log-analysis", conf, builder.createTopology());

效果：

实时分析数百台服务器的日志，识别系统中的问题（如请求失败、性能下降）。
当检测到异常时，及时触发告警，并通过实时可视化系统展示服务器状态。

实际场景的应用：

大型电商平台可以通过这种实时日志分析系统，及时了解网站运行状况，快速响应用户问题，提升用户体验。
云服务提供商可以通过日志分析，实时监控服务状态，确保云服务的稳定性和高可用性。

通过以上案例展示，Apache Storm 在处理实时流数据、日志分析、金融交易监控等场景中展现了其强大的处理能力和灵活性。Storm 的低延迟、高吞吐量和容错机制，使其成为了许多企业实时数据处理的首选工具。

10. 总结与展望

Apache Storm 作为一种强大的实时流处理框架，已经被广泛应用于多个领域，如金融交易监控、实时日志分析、用户行为分析等场景。Storm 的事件驱动模型、低延迟处理能力、分布式容错机制，使其在处理实时数据流时具有明显的优势。尽管 Storm 在低延迟和高可靠性方面表现出色，随着流处理领域的发展和用户需求的演变，Storm 也面临着进一步发展的机遇与挑战。

10.1 Apache Storm的未来发展方向

性能优化与资源利用提升：
- 虽然 Apache Storm 在低延迟处理上表现优异，但在高吞吐量和大规模数据处理时，资源利用效率仍有提升空间。未来 Storm 可能会引入更高效的调度算法、改进内存和 CPU 资源管理，以提升集群的整体性能。
- 批量处理的引入：未来的优化方向可能包括将流处理与批量处理相结合，通过适当的批量处理减少数据传输频率，提高吞吐量，同时保持低延迟的处理特点。
简化编程模型与开发体验：
- 当前 Storm 的编程模型较为底层，开发者需要处理较多的拓扑配置和容错机制。未来，Storm 可能会引入更高层次的抽象和 API 简化，降低开发复杂度，使开发者能够更加专注于业务逻辑，而非底层配置。
- 与其他系统的集成简化：未来的 Storm 版本可能会进一步增强与其他大数据系统（如 Kafka、Elasticsearch、HBase 等）的集成，提供开箱即用的连接器和工具库，简化系统间的数据传输和处理。
状态管理的改进：
- 相较于 Apache Flink 等其他流处理框架，Storm 的状态管理相对较弱。未来，Storm 可能会增强其状态管理功能，支持更大规模的状态持久化和恢复功能，以满足复杂流处理应用的需求。
- Exactly-once 的强化：虽然 Storm 支持 Exactly-once 处理语义，但其实现相对复杂，未来版本可能会进一步简化和优化这个过程，提高数据一致性的保证，减少开发者的操作负担。
容错机制和高可用性增强：
- Apache Storm 的容错机制依赖于 Acker，虽然其可靠性较高，但在大规模分布式环境下，容错机制的扩展性仍有改进空间。未来可能会引入更轻量的容错机制，减少因故障恢复而导致的性能开销。
- 多活架构与跨区域容灾：未来 Storm 的发展方向还包括多区域、多活部署，使其在跨区域的分布式环境下依旧能够提供可靠的服务和数据一致性。
集成云原生技术：
- 随着云原生技术的普及，未来的 Storm 可能会更加注重与容器技术（如 Docker、Kubernetes）的无缝集成，提供更强大的云原生支持，使得在云环境中的扩展和部署变得更加容易。

10.2 实时流处理的趋势

统一的流处理与批处理框架：
- 未来流处理的一个重要趋势是批处理与流处理的统一。随着框架的演进，更多的框架会提供统一的 API 来同时处理批量和流数据。例如 Apache Flink 已经实现了这方面的融合。用户能够根据业务需求动态选择是以流式处理还是批量处理方式来操作数据，这将使数据处理更加灵活且高效。
事件驱动架构（EDA）的广泛应用：
- 实时流处理正逐渐成为企业架构中的关键部分。事件驱动架构（EDA）作为现代分布式系统的核心理念，正在被越来越多的企业采用。实时处理系统将在这种架构中发挥核心作用，成为数据处理的中心，通过快速响应事件流提升业务的响应速度和智能化水平。
边缘计算与物联网数据处理：
- 随着物联网（IoT）设备数量的爆发式增长，边缘计算和实时流处理结合的场景将更加普遍。数据在边缘设备上产生后，需要迅速进行处理和分析，才能做出实时决策。未来的流处理框架将更多支持边缘计算场景，包括处理低功耗设备产生的数据、支持分布式地理位置的流处理等。
低延迟与高吞吐量的平衡：
- 实时流处理技术的核心是低延迟，但随着数据量的不断增大，系统也需要具备足够的吞吐能力。未来的流处理框架将致力于在保证极低延迟的同时，进一步提升系统的吞吐能力，处理大规模数据流时更加高效。
人工智能与流处理的结合：
- 随着人工智能（AI）技术的快速发展，AI 与流处理的结合将成为趋势。实时数据流不仅限于简单的统计和监控，还将被用于训练和推理机器学习模型。例如，利用流处理框架直接处理和训练来自物联网设备、社交媒体、用户行为的数据流，并实时生成预测和推荐结果。
更强的容错性与一致性保证：
- 对于关键业务场景，流处理系统的容错性和数据一致性至关重要。未来，Exactly-once 语义将成为更多框架的标准配置，系统将更加注重确保数据不会丢失或重复处理，并能在系统故障或宕机后迅速恢复。
自动化运维与智能调度：
- 随着流处理框架的复杂性增加，自动化运维和智能调度成为企业的重要需求。未来，流处理框架将更多集成智能化的资源调度、故障自动恢复、任务重试机制等，减少对人工干预的依赖。基于 AI 的系统监控和自优化功能也会逐渐发展。

总结

Apache Storm 已经证明了自己在实时流处理领域的价值，尤其在低延迟、事件驱动的场景中。随着流处理领域的不断发展，未来的流处理框架将更加智能、高效，能够更好地处理大规模数据流，支持更多场景和技术需求。Apache Storm 作为流处理技术的先驱者之一，也将随着这些趋势的变化不断演进，继续为实时数据处理提供可靠的解决方案。

你可能感兴趣的:(大数据,apache,storm,大数据)

java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
B/S 架构通信原理详解步行cgn JavaWeb 架构
B/S架构通信原理详解一、核心架构Browser/Server（浏览器/服务器）模型：前端：浏览器作为统一客户端（Chrome/Firefox/Edge等）后端：服务器处理业务逻辑+数据存储（Nginx/Apache/Tomcat等）通信协议：基于HTTP/HTTPS的请求-响应模型二、完整通信流程sequenceDiagramparticipant用户participant浏览器particip
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
MySQL(149)如何进行数据清洗？辞暮尔尔-烟火年年 MySQL mysql python 数据库
数据清洗在数据处理和分析过程中至关重要，确保数据质量和一致性。以下是一个详细的指南，展示如何使用Java进行数据清洗，包括处理缺失值、重复值、异常值、数据类型转换以及标准化等步骤。一、准备工作确保安装有Java开发环境（JDK）和Maven或Gradle等依赖管理工具。我们将使用ApacheCommonsCSV库来处理CSV文件，并使用Java标准库进行数据清洗操作。二、加载数据首先，我们加载数据
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
今日欧美圈：全英音乐奖获奖名单速递，哈卷情人节遭持刀抢劫胡萝卜音乐
今天凌晨进行的2020年全英音乐奖完整获奖名单如下：年度专辑:Dave-"PSYCHODRAMA"年度单曲:LewisCapaldi-"SomeoneYouLoved"最佳男歌手:Stormzy最佳女歌手:Mabel最佳组合:Foals最佳新人:LewisCapaldi最佳国际男歌手:Tyler,TheCreator最佳国际女歌手:BillieEilish潜力新星:Celeste英媒报道Harry
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
commons-pool2对象池原理简析月落亦莫离
所谓对象池，即一个放对象的池子。目的是为了复用对象，以减少创建对象的开销，如连接池、线程池等。commons-pool2是apache下的一款对象池开源组件，在学习它的原理前，首先考虑下如果我们自实现对象池，会有哪些问题需要考虑？底层用什么数据结构来做对象池的容器？对象池要有什么属性，支持哪些方法？对象在对象池中的生命周期是什么样的？从对象池获取/归还的步骤？接下来我们带着这些问题去学习commo
看完《这就是街舞》，潮男潮女你鞋穿对了吗？肃一街舞工作室
谈恋爱不如跳舞，跳舞你得穿这双《这！就是街舞》这档全新的综艺节目，虽然现在只更新了第一集，但其中可挖的点还真不少；其中最大的亮点就是四位明星队长和焦点选手的穿搭了！今天工作室小编想先跟大家聊聊他们的“鞋”，然后再推荐鞋子给想去学街舞的你。易烊千玺身穿超拽的红白oversize套装，搭配一双RevengexStorm球鞋，以帅气的街舞模式霸气登场！第二个出场的是最近吸粉无数的黄子韬，黄子韬继续大走高
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Apache与Nginx服务器区别简述 camellia_halo_
Apache与Nginx服务器区别1）nginx和apache的软件底层架构不一样。①：Nginx的并发性要比apache好很多；②：nginx属于轻量级服务器软件，apache属于重量级软件；③：nginx在处理静态页的效率要比apache好很多，apache在处理动态页面上的效率要比nginx高④：apache在安全性要比nginx要好。因此有一种不常用的组合：lnamp。2）运行模式不同的。
Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
前端开发好用的AI工具介绍爱分享的程序员人工智能AI相关人工智能
以下是前端开发中提升效率的AI工具推荐，涵盖代码生成、UI设计、调试优化等场景：一、代码生成与辅助工具工具名称特点适用场景GitHubCopilot基于OpenAI，智能代码补全（支持JS/TS/React/Vue）快速生成代码片段、函数逻辑Codeium免费开源，多语言支持，IDE插件丰富（VSCode/WebStorm）代码补全、注释生成AmazonCodeWhispererAWS生态集成，支
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出