茉菇

【Apache Storm】

一、Storm简介

1、概述

官网地址：https://storm.apache.org/index.html
Apache Storm 是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm 具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm 可以适用于多种编程语言，具有高度的灵活性。

2、核心功能

分布式数据流处理：Storm 可以在分布式环境下处理大量数据，支持大规模的集群部署。
容错和高可用性：Storm 的设计保证了即使在节点或进程出现故障时，数据流的处理也不会中断。
支持实时和复杂事件处理：Storm 被广泛用于处理流数据的实时分析，如日志处理、物联网数据分析、金融交易监控等。

3、历史

Apache Storm 最早由 Nathan Marz 于2011年开发，最初作为 BackType 公司的一部分，旨在解决社交媒体分析中的实时数据处理问题。后来，Storm 被 Twitter 收购并用于其内部的数据处理需求。随着 Storm 的快速发展和成功，Twitter 于2013年将 Storm 开源，并捐赠给了 Apache 基金会，成为了 Apache 顶级项目之一。
自开源以来，Storm 一直在不断改进，逐渐成为大规模流数据处理系统中的佼佼者。它被广泛应用于许多互联网公司和传统企业中，用于处理实时分析、监控、在线推荐系统等任务。

4、应用场景

Apache Storm 被广泛应用于需要处理连续流数据并作出快速决策的领域，以下是几个典型的应用场景：

实时日志处理：用于分析大量服务器日志、应用日志或监控日志，检测异常或分析系统性能。
实时推荐系统：在电商、社交媒体或广告系统中，实时分析用户的行为数据，生成个性化的推荐内容。
物联网数据分析：处理物联网设备的实时数据流，如传感器数据、设备健康状态监测等。
金融交易监控：实时监控金融交易，检测异常交易或欺诈行为。
社交媒体数据分析：处理社交媒体上实时发布的内容，如 Twitter 流数据，用于趋势分析和情感分析。
实时流媒体处理：处理视频或音频流数据，支持实时编码、转码或质量分析。
这些应用场景展示了 Storm 在实时性、分布式数据处理方面的优势，能够帮助企业在数据驱动的决策中保持高效和快速反应。

5、分布式流处理开源框架

Apache Flink
- 特点：支持真正的流处理（事件驱动）、有状态计算、精确一次（Exactly-once）语义，低延迟高吞吐，适用于复杂事件处理。
- 场景：实时ETL、复杂事件分析、实时风控。
Apache Kafka Streams
- 特点：轻量级库，直接集成Kafka，提供DSL和Processor API，适合构建微服务化的流处理应用。
- 场景：实时数据转换、Kafka数据流的轻量级处理。
Apache Storm
- 特点：最早的流处理框架之一，极低延迟（毫秒级），但吞吐量较低，容错基于记录确认（At-least-once）。
- 场景：实时监控、简单实时计算。
Spark Streaming
- 特点：基于微批处理（默认），提供DStream API，与Spark生态无缝集成，适合批流混合场景。
- 扩展：Structured Streaming支持连续处理模式（近似流式）。
- 场景：实时报表、机器学习实时化。
Apache Samza
- 特点：与Kafka深度集成，基于YARN部署，状态管理简单，适合有状态任务。
- 场景：LinkedIn的日志处理、用户行为跟踪。
Apache Beam
- 特点：统一编程模型，可运行在Flink、Spark等引擎上，支持批流统一。
- 场景：跨平台流处理开发，避免引擎绑定。
Faust
- 特点：基于Python的流处理库，使用类似Kafka Streams的API，适合Python生态。
- 场景：Python开发者的轻量级流处理。

二、Storm集群搭建

Apache Storm 的分布式架构要求在集群环境中运行。
Storm 通常需要与 Zookeeper 协同工作，用于节点之间的协调与同步。
在开始搭建单节点 Storm 集群之前，确保系统已经安装好 Java（JDK 8 或以上）和 Zookeeper。

【Java】Linux、Mac、Windows 安装 Oracle JDK
【Linux】Zookeeper 部署

1、单节点Storm集群的安装与配置

# 下载 
[appuser@localhost app]$ curl -O https://dlcdn.apache.org/storm/apache-storm-2.8.0/apache-storm-2.8.0.tar.gz
# 解压
[appuser@localhost app]$ tar -zxvf apache-storm-2.8.0.tar.gz
# 进入安装目录
[appuser@localhost app]$ cd apache-storm-2.8.0
# 修改配置
# 注意zookeeper的ip
# 配置说明见官网：https://storm.apache.org/releases/2.8.0/Configuration.html
[appuser@localhost apache-storm-2.8.0]$ tee -a conf/storm.yaml << 'EOF'
storm.zookeeper.servers:
    - "localhost"
nimbus.seeds: ["localhost"]
storm.local.dir: "/app/apache-storm-2.8.0/data"        
supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
EOF
# 启动 nimbus、supervisor 进程
[appuser@localhost apache-storm-2.8.0]$ bin/storm nimbus &
[appuser@localhost apache-storm-2.8.0]$ bin/storm supervisor &
# 启动UI
[appuser@localhost apache-storm-2.8.0]$ bin/storm ui &

通过浏览器访问 http://localhost:8080 可以查看 Storm 集群的状态。
若是部署在虚拟机，想在主机访问，记得先关闭下firewalld（或者开放8080端口），然后使用ip访问（ip a 查询下下虚拟机ip）。

# 添加端口规则
sudo firewall-cmd --zone=public --add-port=<端口号>/tcp --permanent  # 如 80 或 8080
sudo firewall-cmd --reload
# 关闭firewalld：systemctl stop firewalld

2、多节点Storm集群的搭建与配置

多节点 Storm 集群可以同时运行多个 Nimbus 和 Supervisor 进程，以实现更高的并发处理能力。多节点集群配置与单节点类似，但需要根据每个节点的角色进行适当调整。

Nimbus 节点：多个 Nimbus 节点可以作为备份，确保 Nimbus 进程出现故障时，系统仍然可以正常运行。

storm.yaml 配置：

storm.zookeeper.servers:
    - "zookeeper1"
    - "zookeeper2"
    - "zookeeper3"
nimbus.seeds: ["nimbus1", "nimbus2", "nimbus3"]
storm.local.dir: "/var/storm"

启动 nimbus
```
bin/storm nimbus &
```

Supervisor 节点

storm.yaml 配置：

storm.zookeeper.servers:
    - "zookeeper1"
    - "zookeeper2"
    - "zookeeper3"
storm.local.dir: "/var/storm"
supervisor.slots.ports:
  - 6700
  - 6701
  - 6702
  - 6703

启动 supervisor
```
bin/storm supervisor &
```
启动 UI 服务监控集群：

bin/storm ui

使用 http://nimbus1:8080 或 http://nimbus2:8080 来访问 Storm UI 界面，监控集群的运行情况。

3、storm.yaml 配置文件

配置文件位置：storm.yaml文件通常位于Storm安装目录下的conf文件夹中。
配置更新：修改storm.yaml文件后，需要重启Storm服务以使新的配置生效。
默认值：每个配置项在Storm代码库的defaults.yaml文件中都有一个默认值，可以通过在storm.yaml中进行覆盖。
优先级：配置信息的优先级依次为：defaults.yaml < storm.yaml < 拓扑配置 < 内置型组件信息配置 < 外置型组件信息配置。

ZooKeeper配置

# 指定ZooKeeper服务器列表，Storm使用ZooKeeper进行集群的协调和管理。
storm.zookeeper.servers:
  - "zookeeper1.example.com"
  - "zookeeper2.example.com"
  - "zookeeper3.example.com"
# ZooKeeper服务器的连接端口，默认为2181。
storm.zookeeper.port: 2181
# 在ZooKeeper中Storm的根目录位置，用于存储Storm的元数据。
storm.zookeeper.root: "/storm"
# ZooKeeper会话超时时间（毫秒）。
storm.zookeeper.session.timeout: 20000
# 连接到ZooKeeper的超时时间（毫秒）。
storm.zookeeper.connection.timeout: 15000

Nimbus配置

# Nimbus 主节点的主机名或 IP 地址列表（通常为单节点，但可配置高可用）。
nimbus.seeds: ["nimbus1.example.com", "nimbus2.example.com"]
# Nimbus进程的JVM启动参数。
nimbus.childopts: "-Xmx1024m"

Supervisor配置

# 定义 Supervisor 节点上可用的 Worker 端口列表（每个端口对应一个 Worker 进程）。
supervisor.slots.ports: [6700, 6701, 6702, 6703] 
# Supervisor进程的JVM启动参数。
supervisor.childopts: "-Xmx768m"
# Supervisor在本地存储临时数据的目录。
supervisor.local.dir: "/var/lib/storm/supervisor"
# Supervisor 节点可分配的总内存（MB）。Worker 的内存请求不能超过此值。
supervisor.memory.capacity.mb: 8192
# Supervisor 节点可分配的 CPU 核心数（需启用资源感知调度）。
supervisor.cpu.capacity: 16.0

Worker

# 单个 Worker 进程的堆内存大小（MB）。需根据任务负载调整。
worker.heap.memory.mb: 2048
# Worker 进程的 JVM 垃圾回收参数。
worker.gc.childopts: "-XX:+UseG1GC -XX:MaxGCPauseMillis=100"
# 指定拓扑启动时的 Worker 数量（可在提交拓扑时覆盖）。
topology.workers: 4

UI配置

# Storm UI服务的端口号，默认为8080。Storm UI提供了一个Web界面，用于监控集群状态和任务执行情况。
ui.port: 8080

Topology

# 消息在被认为失败之前可以被重试的最大秒数。这个设置影响消息处理的容错能力。
topology.message.timeout.secs: 30
# 每个executor（即Spout或Bolt实例）使用的线程数。通过调整这个值可以优化并发性能。
topology.executor.threads: 1
# 为每个executor分配的内存量（MB）。合理设置这个值可以避免内存溢出或资源浪费。
topology.executor.memory.mb: 1024
# 为每个task分配的CPU核心数。这个设置有助于充分利用多核CPU的计算能力。
topology.task.cpu.cores: 1
# 单个 Spout Task 允许的最大未完成消息数（避免内存溢出）。
topology.max.spout.pending: null（无限制）
# 指定拓扑中 Ackers 的数量（负责消息可靠性）。设为 0 可禁用可靠性。
topology.acker.executors: 1

集群模式配置

# 设置Storm集群的运行模式，可以是distributed（分布式模式）或local（本地模式）。在本地模式下，所有组件都在单个节点上执行，通常用于开发和测试。
storm.cluster.mode: "distributed"

日志配置

# Storm日志文件的存储目录。
storm.log.dir: "/var/log/storm"
# 日志查看器服务的端口号。
logviewer.port: 8000
# Worker 进程的日志级别（如 INFO, DEBUG）。
worker.log.level: INFO
# Log4j2 配置文件目录，用于自定义日志格式和策略。
storm.log4j2.conf.dir: "/etc/storm/log4j2"

数据存储配置

# 指定Storm在本地存储临时数据的目录，如jars、confs等。该目录必须存在，且Storm进程需要具有读写权限。
storm.local.dir: "/usr/local/storm/data"

网络配置

# DRPC 服务的监听端口（若启用分布式 RPC）。
drpc.port: 3772
# Nimbus Thrift服务的端口号，默认为6627。
nimbus.thrift.port: 6627
# Netty消息传输的缓冲区大小（字节）。
storm.messaging.netty.buffer_size: 5242880
# Netty消息传输的最大重试次数。
storm.messaging.netty.max_retries: 30
# Netty消息传输的最小等待时间（毫秒）。
storm.messaging.netty.min_wait_ms: 1000
# Netty消息传输的最大等待时间（毫秒）。
storm.messaging.netty.max_wait_ms: 60000

安全配置

# 简单认证机制的用户名。
storm.security.auth.transport.simple.user: "storm"
# 简单认证机制的密码。
storm.security.auth.transport.simple.password: "password"
# ZooKeeper 认证机制（如 digest）。
storm.zookeeper.auth.scheme: "digest"
storm.zookeeper.auth.payload: "user:password"
# 定义允许模拟其他用户提交拓扑的 ACL 列表。
nimbus.impersonation.acl: ["user1", "user2"]

BlobStore

# 指定 BlobStore 类型为 HDFS
storm.blobstore.type: hdfs

# HDFS 的根目录路径（所有拓扑的 JAR 文件将存储在此路径下）
storm.blobstore.hdfs.path: "/storm/blobstore"

# HDFS 的 NameNode 地址（根据实际集群配置填写）
storm.blobstore.hdfs.host: "hdfs://namenode:8020"

# HDFS 客户端配置（可选，指向 Hadoop 配置文件目录）
storm.blobstore.hdfs.config.dir: "/path/to/hadoop/conf"

# HDFS 文件副本数（默认 3，按需调整）
storm.blobstore.replication.factor: 3

其他配置

#指定资源调度器, 启用资源感知调度（需配置 Worker 内存和 CPU
storm.scheduler: org.apache.storm.scheduler.resource.ResourceAwareScheduler
# 定义消息传输协议（如 org.apache.storm.messaging.netty.Context 使用 Netty）。
storm.messaging.transport: org.apache.storm.messaging.netty.Context
# 集成 LDAP/AD 等用户组映射服务。
storm.group.mapping.service: "org.apache.storm.security.auth.ShellBasedGroupsMapping"

4、编写与提交Topology（Java）

在 Apache Storm 中，Topology 是一个数据处理流程的定义，它由一组 Spout 和 Bolt 组成，负责处理从数据源读取的数据流。编写和提交 Topology 是使用 Storm 的核心部分。以下介绍如何从编写简单的 Topology 开始，到如何优化和部署 Topology 到 Storm 集群。

4.1 storm 开发模式

4.1.1 本地模式（Local Mode）

定义：在本地模式下，Storm拓扑结构（Topology）运行在本地计算机的Java虚拟机（JVM）进程上。
用途：这个模式主要用于开发、测试以及调试工作，是观察所有组件协同工作的一种最简单的方法。
特点：
- 本地模式是在进程中模拟一个Storm集群的所有功能。
- 与在集群环境运行类似，需要确认所有组件是否线程安全。
- 可以通过调整参数，观察拓扑结构如何在不同的Storm配置环境下运行。

4.1.2 远程模式（Remote Mode）

定义：在远程模式下，开发者将本地测试好的Topology发布到远程Storm集群里，并启动。
用途：这个模式用于正式的生产环境。
特点：
- Storm的所有组件都是线程安全的，因为它们都会运行在不同的JVM或物理机器上。
- 远程模式不出现调试信息。
- 部署到远程模式时，组件可能运行在不同的JVM进程甚至不同的物理机上，这时它们之间没有直接的通信和共享的内存。

4.1.3 提交方式的区别

本地模式：使用LocalCluster.submitTopology方法提交Topology。
远程模式：使用StormSubmitter.submitTopology方法将Topology打成jar包，通过客户端提交到Storm集群。

4.1.4 使用场景

在开发初期，开发者通常会在本地模式下运行Topology，以便快速迭代和调试。
当Topology开发完成并经过充分测试后，它会被部署到远程Storm集群上，以远程模式运行，用于正式的数据处理任务。

4.2 创建 Topology（Java）

在 Storm 中，Topology 由多个 Spout 和 Bolt 组成，通过流的方式将它们连接起来。我们将从创建一个简单的 Topology 开始，其中包含一个 Spout（生成数据源）和一个 Bolt（处理数据）。

4.2.1 Topology

import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.topology.TopologyBuilder;
import org.apache.storm.tuple.Fields;
import org.apache.storm.utils.Utils;
public class SimpleTopology {
    public static void main(String[] args) {
        // 创建一个 TopologyBuilder 实例
        TopologyBuilder builder = new TopologyBuilder();
        // 设置 Spout：RandomSentenceSpout 会生成随机句子
        builder.setSpout("sentence-spout", new RandomSentenceSpout(), 1);
        // 设置 Bolt：SplitSentenceBolt 会将句子分割成单词
        builder.setBolt("split-bolt", new SplitSentenceBolt(), 2)
               .shuffleGrouping("sentence-spout");
        // 配置 Topology
        Config conf = new Config();
        conf.setNumWorkers(3);
        conf.setDebug(true);
        
        try {
            StormSubmitter.submitTopology("simple-topology", conf, builder.createTopology());
        } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {
            LOG.error(e.getMessage());
        }
        // 启动本地集群（用于开发测试）
        // LocalCluster cluster = new LocalCluster();
        // cluster.submitTopology("simple-topology", conf, builder.createTopology());
    }
}

步骤概述：

创建 TopologyBuilder：通过 TopologyBuilder 类定义 Spout 和 Bolt 的拓扑结构。
设置 Spout 和 Bolt：调用 setSpout 和 setBolt 方法，定义数据源和数据处理节点，并配置并行度。
配置 Topology：通过 Config 类设置拓扑的运行参数（如是否开启调试模式）。
提交到本地集群：使用 LocalCluster 提交拓扑到本地运行环境中，适合调试和开发。

4.2.2 Spout

Spout：从外部系统（如消息队列或数据库）读取数据，并将其转化为 Tuple 发送到下游的 Bolt。

import org.apache.storm.spout.SpoutOutputCollector;
import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values;
import java.util.Map;
import java.util.Random;
public class RandomSentenceSpout extends BaseRichSpout {
    private SpoutOutputCollector collector;
    private Random random;
    @Override
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
        this.random = new Random();
    }
    @Override
    public void nextTuple() {
        String[] sentences = {"Storm is awesome", "Big data processing", "Real time analytics"};
        String sentence = sentences[random.nextInt(sentences.length)];
        collector.emit(new Values(sentence));
    }
    @Override
    public void declareOutputFields(org.apache.storm.topology.OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("sentence"));
    }
}

Spout通常继承自BaseRichSpout或实现IRichSpout接口。推荐使用BaseRichSpout。
主要方法：

open(Map conf, TopologyContext context, SpoutOutputCollector collector)：在Spout初始化时调用，用于设置Spout运行所需的环境。
nextTuple()：生成下一个元组。Storm框架会不断调用这个方法，直到它返回一个非空的元组或抛出异常。
declareOutputFields(OutputFieldsDeclarer declarer)：声明Spout输出的字段。
close()：在Spout关闭时调用，用于执行清理工作。
activate()和deactivate()：用于控制Spout的激活和去激活状态。在去激活状态下，nextTuple()方法不会被调用。
ack(Object msgId)和fail(Object msgId)：用于确认或失败处理。在可靠的消息处理中，这些方法用于通知Storm元组是否被成功处理。

4.2.3 Bolt

Bolt 接收 Spout 或其他 Bolt 发送的 Tuple，进行处理（如过滤、聚合、转换等）。
Bolt通常继承自BaseRichBolt或实现IRichBolt接口。推荐使用BaseRichBolt，因为它提供了更多便利的方法。

import org.apache.storm.task.OutputCollector;
import org.apache.storm.task.TopologyContext;
import org.apache.storm.topology.BasicOutputCollector;
import org.apache.storm.topology.base.BaseRichSpout;
import org.apache.storm.tuple.Tuple;
import org.apache.storm.tuple.Values;
public class SplitSentenceBolt extends BaseRichSpout {
    @Override
    public void execute(Tuple input, BasicOutputCollector collector) {
        String sentence = input.getStringByField("sentence");
        for (String word : sentence.split(" ")) {
            collector.emit(new Values(word));
        }
    }
    @Override
    public void declareOutputFields(org.apache.storm.topology.OutputFieldsDeclarer declarer) {
        declarer.declare(new org.apache.storm.tuple.Fields("word"));
    }
}

主要方法:

prepare(Map stormConf, TopologyContext context, OutputCollector collector)：在Bolt初始化时调用，用于设置Bolt运行所需的环境，如获取配置信息和输出收集器。
execute(Tuple input)：处理输入的元组（Tuple）。每个元组代表一个数据流中的一条记录。
declareOutputFields(OutputFieldsDeclarer declarer)：声明Bolt输出的字段。这是定义拓扑中数据流模式的重要步骤。
cleanup()：在Bolt关闭时调用，用于执行清理工作，但该方法不一定会被调用，特别是在使用kill -9命令强制终止进程时。

4.3 Topology提交到Storm集群

在开发环境中，我们通常在本地运行拓扑进行测试，但在生产环境中，需要将拓扑提交到 Storm 集群中运行。
部署步骤：

打包代码：首先将项目打包为 JAR 文件，Storm 支持通过 JAR 文件来运行和提交拓扑。
```
mvn clean package
```
提交 Topology 到集群：通过 storm jar 命令将拓扑提交到 Storm 集群中。假设打包生成的 JAR 文件为 storm-topology.jar，使用以下命令提交拓扑：
```
storm jar target/storm-topology.jar com.example.SimpleTopology simple-topology
```
查看集群状态：提交拓扑后，可以通过 Storm 的 UI 查看集群中正在运行的拓扑状态，URL 通常为 http://:8080。
停止或更新拓扑：如果需要停止或更新拓扑，可以使用 storm kill 命令：
```
storm kill simple-topology
```

4.3.1 storm jar命令详解

storm jar target/storm-topology.jar com.example.SimpleTopology simple-topology

（1）命令解析

storm jar：Storm 客户端命令，用于提交 JAR 包中的拓扑。
target/storm-topology.jar：打包好的拓扑 JAR 文件路径（通常由 Maven/Gradle 构建生成）。
com.example.SimpleTopology：JAR 包中的主类，负责定义和提交拓扑。
simple-topology：用户指定的拓扑名称（在集群中需唯一）。
（2）执行过程
客户端提交
- 加载 JAR 文件：Storm 客户端会启动一个 JVM 进程，加载 target/storm-topology.jar。
- 调用主类的 main 方法：com.example.SimpleTopology 类的 main 方法被调用。
Nimbus 接收请求
- 提交到 Storm Nimbus：客户端通过 Thrift RPC 将 JAR 包和拓扑配置发送到 Storm Nimbus（主控节点）。
- 分配任务：Nimbus 解析拓扑结构，生成任务分配计划，写入 ZooKeeper。
Supervisor 启动 Worker
- Supervisor 拉取任务：各个 Supervisor 节点从 ZooKeeper 获取分配的任务信息。
- 启动 Worker 进程：Supervisor 启动独立的 JVM Worker 进程，执行具体的 Spout/Bolt 逻辑。
- 数据流处理：Worker 中的线程（Executor）开始处理数据流，按拓扑定义进行实时计算。
  （3）可能的结果
成功情况
- 日志输出：客户端显示 Submitted topology: simple-topology，表明提交成功。
- 集群状态
  - 通过 storm list 命令或 Storm UI 可看到 simple-topology 处于 ACTIVE 状态。
    - Worker 进程在 Supervisor 节点上运行，处理数据。
失败情况
- 配置错误
  - Nimbus 不可达：若 storm.yaml 中 Nimbus 地址错误，会抛出 Could not submit topology。
  - ZooKeeper 连接失败：日志显示连接超时。
- 代码问题
  - 主类未找到：ClassNotFoundException: com.example.SimpleTopology（类名拼写错误或未打包到 JAR 中）。
  - 拓扑重复提交：若 simple-topology 已存在，报错 Topology with name 'simple-topology' already exists。
- 依赖问题
  - 缺少依赖库：运行时抛出 NoClassDefFoundError（需确保 JAR 包包含所有依赖）。

4.3.2 任务分配计划

任务分配计划（Assignment）是Nimbus为Topology生成的执行蓝图，主要包括以下内容：

Worker分配
- Worker进程列表：每个Worker进程的host:port信息（如host1:6700）。
- Worker机器分配：指定每个Worker运行在哪个物理节点（Supervisor节点）上。
Executor到Worker的映射
- Executor分布：每个Executor（线程）被分配到哪个Worker进程，以及其关联的Task ID范围。
  - 例如：Executor [1-3] 运行在Worker host1:6700，负责处理Task ID 1001-1003。
Task全局分布
- Spout/Bolt的Task ID列表：每个Spout或Bolt组件的所有Task ID（如[1001, 1002, 1003]）。
- Task与组件的映射：Task ID对应哪个Spout或Bolt组件。
Topology配置与依赖
- 序列化配置：Topology的运行时配置（如storm.yaml中的参数）。
- 代码依赖路径：Topology的JAR包在Nimbus本地文件系统的存储路径（供Supervisor下载）。
资源分配
- CPU/内存约束（若启用资源感知调度）：指定Worker或Executor的资源配额。

4.3.3 负载均衡与动态调整

Storm 的调度器会尽量将 executor 均匀分配到不同的 worker 和 Supervisor 节点上，以实现负载均衡。
如果集群的资源状况发生变化（如某些节点过载或新节点加入），Nimbus 可以重新分配任务，调整 executor 和 worker 的分布。
此外，通过 Storm 的 Rebalance 机制，用户也可以手动调整拓扑的并行度和任务分配。

4.4 Topology的配置与调优

为了提高 Topology 的性能，我们可以对 Topology 进行配置和调优。调优的关键点包括：

并行度配置：合理设置 Spout 和 Bolt 的并行度，以充分利用集群资源。可以通过 setSpout 和 setBolt 的第二个参数指定并行度。
```
builder.setBolt("split-bolt", new SplitSentenceBolt(), 2)
       .shuffleGrouping("sentence-spout");
```
批量处理：如果需要处理大量数据，可以配置 Bolt 以批量处理数据，减少 Tuple 处理的开销。
资源分配：可以通过配置指定每个组件的 CPU 和内存使用量，确保重要组件获得足够的资源。
```
topology.worker.cpu: 2.0
topology.worker.memory.mb: 4096
```
容错配置：配置 Storm 的 Acker 机制来确保数据处理的可靠性，防止数据丢失。
优化数据传输策略：使用合适的分组策略（如 Shuffle Grouping、Fields Grouping），根据数据流的特点优化数据传输路径。

三、Apache Storm 架构

Apache Storm 的架构设计为高度并行和分布式，旨在支持大规模流数据的实时处理。Storm 的核心组件包括 Nimbus、Supervisor、Worker、Executor、Task（Spout / Bolt），它们共同协作实现实时数据流的高效处理。
Apache Storm 是一个流处理引擎，它可以持续处理不断到来的数据流（streams）。Storm 允许用户构建拓扑（Topology）来定义数据流的路径以及处理的逻辑。在这种拓扑中，数据从源（Spout）开始流入，通过一系列的处理节点（Bolt）进行转换或处理，最终得到输出结果。Storm 的架构基于并行执行的理念，支持高吞吐量和低延迟的数据处理。

1、主控节点与工作节点

Storm 集群中有两类节点：主控节点(Master Node)和工作节点(Worker Node)。

主控节点运行一个称为Nimbus 的守护进程。Nimbus 负责在集群中分发代码，对节点分配任务，并监视主机故障。
工作节点运行一个称为 Supervisor 的守护进程。Supervisor 监听其主机上已经分配的主机的作业，启动和停止 Nimbus 已经分配的工作进程。

2、Nimbus

Nimbus是集群的核心协调组件，负责任务调度、监控和故障恢复。
Nimbus 职责：

拓扑提交时
- 验证配置：检查拓扑结构（Spout/Bolt）及并行度合法性。
- 生成任务：将拓扑拆分为Task（每个组件实例对应一个或多个Task）。
- 分配计划：调度器生成任务分配方案，写入ZooKeeper（路径如/assignments/）。
- 存储代码：将拓扑的JAR包保存至本地文件系统，供Supervisor下载。
运行时监控
- 心跳检测：通过ZooKeeper的/workers和/supervisors节点监控组件活跃状态。
- 故障恢复：若 Supervisor/Worker 失联（心跳超时），重新分配其任务至其他节点。
拓扑终止时
- 状态清理：删除ZooKeeper中的拓扑元数据（如/storms/）。
- 资源释放：通知 Supervisor 停止相关Worker，清理本地存储的拓扑文件。
Nimbus自身故障
- 无状态设计：Nimbus依赖ZooKeeper持久化集群状态，重启后可从ZooKeeper恢复。
- 高可用（HA）：通过多Nimbus实例+ZooKeeper Leader选举避免单点故障（需手动配置）。

3、Supervisor

Supervisor 是 Storm 集群的工作节点执行引擎，核心职责是动态管理 Worker 生命周期，确保实时任务的高效运行。其通过 ZooKeeper 与 Nimbus 协同，实现分布式环境下的任务调度、故障恢复和资源管理。

4、Worker

Worker 是一个 JVM 进程，运行在 Supervisor 节点上，负责执行拓扑（Topology）中的任务（Task）。每个 Worker 属于一个特定的拓扑，一个 Supervisor 可以运行多个 Worker。
Worker 负责实际的数据处理与传输。其内部通过高效的线程模型（Executor）、队列机制（Disruptor）和网络通信（Netty）实现高吞吐、低延迟的数据流处理。
特点：

一个拓扑（Topology）可以跨多个 Worker 运行，Worker 数量决定了拓扑占用的集群资源（如机器数量）。
每个 Worker 内部会启动多个线程（Executor），共享该进程的 CPU 和内存资源。
Worker 之间通过进程隔离，避免单点故障影响全局（如某个 Worker 崩溃不会直接杀死其他 Worker）。
Worker 在整个拓扑生命周期中参与多个关键阶段：
启动阶段
- 加载分配信息：
  - 从Supervisor传递的参数中读取分配给当前Worker的Task列表（例如：需运行Task ID 3、5、7的Bolt实例）。
  - 解析拓扑代码和配置（序列化的Topology JAR包）。
- 创建Executor和Task：
  - Executor线程数由分配计划决定。
  - Task实例化：根据Task ID创建对应的Spout或 Bolt对象（通过反射调用用户代码的declareOutputFields和prepare方法）。
- 初始化通信组件：
  - 绑定指定端口（如6700），通过Netty建立与其他Worker的连接。
  - 初始化输入/输出队列（如Disruptor队列），准备接收和发送元组。
- 注册到集群：
  - 将Worker的元数据（如主机、端口、Task列表）写入ZooKeeper，供Nimbus监控。
数据处理阶段
- 元组接收与分发：
  - 从 Spout 或上游 Bolt 接收元组，放入输入队列。
  - Executor 线程从队列中拉取元组，分发给对应的 Task 处理。
- 可靠性机制：
  - 若启用 Ackers，跟踪元组的处理状态（成功或失败）。
  - 失败时触发重发（通过 fail 方法）或回滚（Spout 重放数据）。
心跳与容错
- 定期心跳：向 Nimbus 发送心跳，确认存活状态。
- 故障处理：
  - 若 Worker 崩溃，Nimbus 会重新分配其任务到其他 Worker。
  - 若 Executor 失败，Worker 会尝试重启（根据配置策略）。
关闭阶段
- 停止接收新数据，处理完队列中的剩余元组。
- 释放资源（关闭线程、断开网络连接等）。
- 状态清理：从 ZooKeeper 注销自身信息。

4、Executor

Executor 是 Worker 进程中的一个JVM线程，负责执行一个或多个 Task（减少线程切换开销）。
Executor 之间通过线程间通信（如 Disruptor 队列）传递数据，避免跨进程的网络延迟。
Executor 工作流程：

初始化阶段
- 根据任务分配计划（Assignment），加载对应的Spout/Bolt代码。
- 创建内部消息队列（接收上游消息或外部数据源的数据）。
消息循环（Main Loop）
- 轮询消息队列：检查是否有待处理的消息（如来自其他组件的Tuple或外部数据源的数据）。
- 流控判断：根据系统压力（如下游处理速度、内存占用等）决定是否允许发送新消息。
- 调用Spout/Bolt方法：
  - 对Spout：若条件允许，调用nextTuple()生成新Tuple并发射。
  - 对Bolt：若队列中有待处理的Tuple，调用execute()方法处理。
Ack/Fail机制
- 跟踪已发射的Tuple，处理来自下游的ack（成功）或fail（失败）信号。
- 如果是Spout，失败时可能触发重发（取决于可靠性配置）。
  Executor 伪代码：

while True:
    # 1. 检查流控是否允许发送
    if not flow_control_allowed():
        sleep(interval)
        continue
    # 2. 检查是否有待处理的Ack（可靠性模式）
    if reliability_enabled and pending_tuples >= max_spout_pending:
        sleep(interval)
        continue
    # 3. 调用Spout的nextTuple()发射新数据
    spout.nextTuple()
    # 4. 记录已发送的Tuple（可靠性模式）
    if reliability_enabled:
        track_pending(tuple_id)
    # 5. 短暂休眠避免空转（根据配置调整）
    sleep(next_tuple_delay)

Storm Executor 内部使用 Disruptor 队列（高性能无锁队列）处理消息，其休眠行为由队列的 Wait Strategy（等待策略） 决定。不同策略直接影响线程的 CPU 占用率和延迟：

等待策略	行为	适用场景
BlockingWaitStrategy	线程在无消息时进入阻塞（通过锁和条件变量），释放 CPU。	资源敏感场景（默认策略）
BusySpinWaitStrategy	线程忙等待（空循环），持续占用 CPU，但响应延迟最低。	极端低延迟需求（如高频交易）
YieldingWaitStrategy	线程在循环中主动调用 `Thread.yield()`，尝试让出 CPU。	平衡吞吐和延迟
TimeoutBlockingWaitStrategy	带超时的阻塞等待（如阻塞 10ms），超时后唤醒检查。	折中方案，避免长时间阻塞
配置参数：通过 `topology.disruptor.wait.strategy` 指定（默认 `BlockingWaitStrategy`）。
Executor 进入休眠的条件与消息队列状态和流控机制直接相关：

队列空闲（无消息可处理）
- 当 Disruptor 队列为空时，根据等待策略决定休眠方式（如阻塞或忙等）。
- 唤醒条件：
  - 新消息到达队列
    - 上游组件（如 Spout 或其他 Bolt）发射了新的 Tuple，消息被推送到该 Executor 的队列中。
    - Disruptor 队列的生产者（例如 Spout 的消息发射线程）会调用 ringBuffer.publish()，触发等待的消费者线程（Executor）唤醒。
  - 定时唤醒检查（如 TimeoutBlockingWaitStrategy）
    - 若配置了带超时的等待策略，即使无新消息，Executor 也会周期性唤醒（例如每隔 10ms）检查队列状态。
流控反压（Backpressure）
- 下游处理能力不足时，上游 Spout 停止发射新 Tuple，Executor 可能进入休眠。
- 触发条件：topology.max.spout.pending 达到上限，或下游 Bolt 的内部队列积压。
- 唤醒条件：
  - 下游处理完成积压消息
    - Bolt 处理完部分积压的 Tuple，释放队列空间。
    - Storm 的反压控制器检测到下游压力下降，解除反压，允许 Spout 重新发射新 Tuple。
  - 可靠性模式下的 Ack 确认
    - 若启用了 Ack 机制（ackers），当未确认的 Tuple（pending）数量低于 max.spout.pending时，Spout 恢复调用 nextTuple()。
资源限制
- 场景：若启用资源感知调度（RAS），当 Worker/Executor 的 CPU 或内存超限时，Storm 会主动限制线程活动。
- 唤醒条件：
  - 资源使用率回落
    - 当 Worker 的 CPU 或内存占用降至阈值以下时，Storm 重新允许 Executor 处理消息。
  - 动态资源调整
    - 若集群资源扩容（如添加新 Supervisor 节点），Storm 可能重新分配任务，释放资源压力。
Spout 无数据导致的休眠
- 场景：Spout 的 nextTuple() 没有新数据可发射（如 Kafka 分区无新消息），Executor 根据 topology.sleep.spout.wait.strategy.time.ms 进入休眠。
- 唤醒条件：
  - 外部数据到达
    - 数据源产生新数据（如 Kafka Topic 有新消息写入），Spout 的轮询机制（如 Kafka Consumer 的 poll()）获取到数据，触发 nextTuple() 发射。
  - 定时唤醒检查
    - 即使无数据，Executor 也会根据 topology.sleep.spout.wait.strategy.time.ms（默认 1ms）周期性唤醒，调用 nextTuple() 检查数据源。

5、Task

Task 是 Spout 或 Bolt 的具体实例，直接处理元组（Tuple），是实际执行业务逻辑的最小单元。
Task 是逻辑上的处理单元，一个 Executor 线程可以顺序执行多个 Task（通过循环调度）。
Task 数量可以大于 Executor 数量，此时每个 Executor 会负责多个 Task，但 Task 本身是串行执行的（无并行）。
Task 的分配：当 Topology 被提交到 Storm 集群时，Storm 的 Nimbus 组件会根据配置的并行度参数（parallelism_hint 和 setNumTasks()）生成 Task 列表，并为每个 Executor 分配一组 Task。

builder.setBolt("my-bolt", new MyBolt(), 4).setNumTasks(8); // 4 个 Executor、8 个 Task

每个 Executor 会被分配 ceil(numTasks / numExecutors) 个 Task。

若 numExecutors=2，numTasks=5，则 Executor1 分配 3 个 Task，Executor2 分配 2 个 Task。
Task ID 按顺序分配，例如：Executor1 负责 Task ID 1,2,3；Executor2 负责 Task ID 4,5。
Task 实例隔离：
每个 Task 是独立的实例，拥有自己的状态（如计数器、数据库连接）。
注意线程安全：若多个 Task 共享资源（如静态变量），需手动同步。

6、Topology

拓扑(Topology)是 Storm 中运行的一个实时应用程序，因为各个组件间的消息流动而形成逻辑上的拓扑结构。
把实时应用程序的运行逻辑打成jar 包后提交到 Storm 的拓扑(Topology)。Storm 的拓扑类似于 MapReduce 的作业(Job)。其主要的区别是，MapReduce 的作业最终会完成，而一个拓扑永远都在运行直到它被杀死。
Topology 通常包含多个数据流处理节点，这些节点通过有向无环图（DAG）的形式连接在一起，形成一条完整的数据流管道。
Topology 的两大核心组成部分是 Spout 和 Bolt。

6.1 Spout

Spout 是 Storm 中的数据源组件，负责从外部系统（如消息队列、数据库、文件系统等）读取数据并生成数据流。Spout 会将数据流中的每个数据单元封装为一个 Tuple，并将这些 Tuple 发射到下一层的 Bolt 中进行处理。
Spout 还可以设计为可靠模式或不可靠模式：

可靠模式：Spout 能够追踪每个 Tuple 的处理情况，确保每个数据单元都被完整处理并得到确认。
不可靠模式：Spout 只负责发射数据，而不关心是否成功处理，适用于不需要严格数据处理保障的场景。

6.2 Bolt

Bolt 是实际进行数据处理的节点。数据经过 Spout 发射后，被传递到 Bolt 进行处理，Bolt 可以进行数据过滤、聚合、转换、分组等操作。Bolt 也可以发射新的 Tuple 到下游的 Bolt，构建复杂的数据处理逻辑。
Bolt 通常会以流水线的方式排列，一个 Bolt 可以接收来自多个 Spout 或其他 Bolt 的数据流，并进行多级处理。

三、Apache Storm的工作原理

Apache Storm 是一个分布式实时计算框架，支持大规模流数据处理。它的工作原理基于数据流的并行处理机制，通过 Spout 生成的数据流（Tuple）在多个节点（Bolt）之间传输和处理。在整个处理过程中，Storm 提供了可靠的确认机制（Acker）来确保每一个 Tuple 都能够被完整处理或在处理失败时进行补偿。

1、流分组(Stream grouping)

在Apache Storm中，流分组（Stream Grouping）决定了数据流中的元组（Tuple）如何在不同的任务（Bolt）之间分发。不同的分组策略适用于不同的场景，直接影响拓扑（Topology）的性能和数据处理逻辑。
Storm 内置了8种流分组方式，通过实现 CustomStreamGrouping 接口可以实现自定义的流分组。

Shuffle Grouping（随机分组）
- 机制：元组被随机均匀分发到下游Bolt的任务（Task）中，确保每个任务接收的元组数量大致相同。
- 适用场景：无状态处理或需要负载均衡的场景（如简单的过滤、转换操作）。
- 注意事项：无法保证相同字段的元组发送到同一个任务。
Fields Grouping（字段分组）
- 机制：根据指定字段（Field）的哈希值进行分组，相同字段值的元组会被发送到同一个下游任务。
- 适用场景：需要按字段聚合的场景（如统计某个单词的出现次数）。
- 注意事项：可能导致数据倾斜（如某个字段值出现频率极高）。可通过Combiner Bolt预聚合或加盐（Salt）分散热点。
- 示例：
```
builder.setBolt("count-bolt", new CountBolt(), 3).fieldsGrouping("split-bolt", new Fields("word"));
```
All Grouping（广播分组）
- 机制：所有元组被复制并发送到所有下游Bolt的任务。
- 适用场景：需要广播全局信息（如配置更新、规则同步）。
- 缺点：网络开销大，下游任务数多时性能下降。
Global Grouping（全局分组）
- 机制：所有元组被发送到下游Bolt的同一个任务（通常是ID最小的任务）。
- 适用场景：全局汇总（如计算全量数据的Top-N）。
- 缺点：单点瓶颈，可能导致该任务过载。
Direct Grouping（直接分组）
- 机制：由元组的生产者（Spout/Bolt）指定下游消费者的具体任务（Task ID）。
- 适用场景：需要精确控制元组路由（如自定义负载均衡）。
- 实现要求：需在代码中显式调用emitDirect()方法。
Local or Shuffle Grouping（本地或随机分组）
- 机制：优先将元组发送到同一Worker进程内的下游任务，若不存在则退化为Shuffle Grouping。
- 适用场景：减少跨进程通信开销，提升性能。
None Grouping（无分组）
- 机制：等同于Shuffle Grouping，由Storm自动选择策略（可能随版本变化）。
- 注意：不推荐显式使用，未来可能被移除。

Custom Grouping（自定义分组）

机制：通过实现CustomStreamGrouping接口，自定义元组分发逻辑。

示例：根据业务规则将元组分发到指定任务。

public class CustomGrouping implements CustomStreamGrouping {
    @Override
    public void prepare(WorkerTopologyContext context, GlobalStreamId stream, List<Integer> targetTasks) {
        // 初始化逻辑
    }

    @Override
    public List<Integer> chooseTasks(int taskId, List<Object> values) {
        // 返回目标Task ID列表
        return Arrays.asList(targetTaskId);
    }
}

如何选择流分组？

数据均匀性：若需负载均衡，优先用Shuffle；若需按字段聚合，用Fields。
状态管理：有状态处理（如计数、窗口统计）必须使用Fields Grouping。
性能考量：减少网络传输可尝试Local or Shuffle，避免All Grouping广播。
特殊需求：需要全局汇总用Global，精确控制路由用Direct。

2、数据流的生命周期：从Spout到Bolt

在 Apache Storm 中，数据流的生命周期从 Spout 开始，经过多级 Bolt 的处理，最后形成处理结果。其生命周期可总结为以下几个步骤：

数据源读取（Spout）：Spout 从外部数据源读取数据，生成数据流，并将每个数据单元封装为 Tuple。
Tuple发射：Spout 将 Tuple 发射到下游 Bolt 进行处理。此时，Spout 可能会跟踪每个 Tuple 的处理状态。
数据处理（Bolt）：Bolt 接收来自 Spout 或其他 Bolt 的 Tuple，进行计算、聚合、转换等操作，处理后的数据可以发射到下一个 Bolt。
数据传递：经过多级 Bolt 处理后，最终形成结果数据。Bolt 可以选择将处理结果发射到外部系统（如数据库或消息队列）中。
确认机制：如果 Spout 处于可靠模式，整个数据流处理完成后，Spout 会收到来自 Bolt 的确认，确保数据已经成功处理。
这种数据流的生命周期设计使得 Storm 能够以流式方式持续处理海量数据，确保低延迟、高吞吐和数据处理的可靠性。

3、数据流的并行处理机制

Storm 的核心特点之一是它的并行处理能力，依赖于 Executor 和 Worker 的分布式执行机制。并行处理机制的核心概念包括以下几个方面：

并行度（Parallelism）：每个 Spout 和 Bolt 都可以配置并行度，决定了这些组件在集群中以多少个实例执行。并行度越高，处理能力越强。
Task：Spout 和 Bolt 的实例化任务，每个 Task 处理特定数量的数据流。在多个节点上分布的 Task 可以同时并行处理大量数据。
Worker 和 Executor：多个 Task 会在 Executor 线程中执行，而 Executor 则运行在 Worker 进程内。Worker 是独立的 JVM 进程，负责承载和执行多个 Executor，分布在集群中的不同节点上。
通过合理配置拓扑的并行度，Storm 能够横向扩展，在集群中高效处理海量的实时数据流。这种并行处理机制使得 Storm 在处理实时流数据时表现出色。

4、Tuple的传输与处理

在 Storm 中，Tuple 是最小的传输和处理单元。每个 Tuple 包含了一个或多个字段，表示数据流中的单个数据记录。在 Spout 和 Bolt 之间，Tuple 被持续传递和处理。
Tuple 的传输和处理可以分为以下几个步骤：

生成 Tuple：Spout 从外部数据源中读取数据并将其封装为 Tuple。
发射 Tuple：Spout 将生成的 Tuple 发射到下游的 Bolt，或根据拓扑结构发射到多个 Bolt。
处理 Tuple：Bolt 接收 Tuple 后，根据逻辑对其进行处理（如过滤、转换、聚合等）。一个 Bolt 也可以生成新的 Tuple 并将其发射给其他 Bolt。
Tuple 的传输是 Storm 数据流处理的核心，确保数据能够在多个处理节点之间快速高效地传递。
Storm 支持多种传输策略，包括 Shuffle Grouping（随机分配），Field Grouping（按字段分组），Global Grouping（全部发射到一个 Bolt 实例）等。选择合适的传输策略能够提高数据处理的效率。

5、Acker确认机制

Apache Storm 的 Acker 机制是其实现消息可靠性处理（Reliability）的核心设计，用于确保每条消息（Tuple）在拓扑（Topology）中被完全处理（即所有相关 Bolt 均成功处理）。该机制通过跟踪消息的处理链路，解决了分布式环境下可能因节点故障、网络波动等原因导致的消息丢失问题。

5.1 核心原理

Storm 的可靠性基于"至少一次"（At-least-once）语义，通过以下步骤确保消息不丢失：

消息派发与随机 ID 生成
- 当 Spout 发射一个 Tuple 时，Storm 会为该 Tuple 生成一个 64 位的随机 ID（Message ID）。
- Acker 任务（一种特殊的 Bolt）负责跟踪该 ID 的整个处理链路。
Acker 的创建与跟踪
- 每个 Tuple 会绑定到一个 Acker 线程（默认每个 Worker 进程一个 Acker，可配置）。
- Acker 维护一个哈希表，记录每个 Tuple ID 的校验值（初始为 0）。
异或（XOR）校验机制
- 锚定（Anchoring）：当 Bolt 处理 Tuple 并发射新 Tuple 时，需通过 emit(inputTuple, newTuple) 显式锚定到原始 Tuple，形成树状依赖。
- 校验值更新：
  - 每个新生成的 Tuple 会分配一个 64 位随机 ID。
  - Acker 对原始 Tuple ID 和新 Tuple ID 进行异或运算（XOR），更新校验值。
  - 当 Bolt 处理完 Tuple 后，需调用 ack(inputTuple) 通知 Acker，触发 XOR 运算。
完成确认
- 当所有衍生出的 Tuple 均被处理完成（即所有相关 Bolt 均调用 ack），最终的 XOR 结果应为 0。
  - 由于每个tuple在发射和确认时都会进行XOR运算，因此，当一个tuple树中的所有tuple都被成功处理并确认时，每个tuple的ID都出现了两次（一次在发射时，一次在确认时）。根据XOR运算的自反性，所有ID的XOR结果最终会变为0。
- 此时，Acker 向 Spout 发送完成信号，Spout 可调用 ack 方法确认该 Tuple 已成功处理。
超时与重发
- 若 Tuple 在指定超时时间（默认 30 秒）内未完成处理，Acker 会标记为失败。
- Spout 的 fail 方法被触发，原始 Tuple 会被重新发射（需 Spout 实现重发逻辑）。

5.2 关键代码示例

// Spout 发射 Tuple 时指定 Message ID
collector.emit(new Values("data"), messageId);
// Bolt 处理 Tuple 时锚定并发射新 Tuple
collector.emit(inputTuple, new Values("processed_data"));
collector.ack(inputTuple); // 显式确认处理完成

5.3 Acker 机制的优缺点

优点：

保证至少一次处理，避免消息丢失。
无需持久化中间状态，实现轻量级容错。
适用于对延迟敏感但允许少量重复的场景（如实时监控）。
缺点：
资源开销较大（每个 Tuple 需维护校验值）。
高吞吐场景下可能成为性能瓶颈（需合理配置 Acker 数量）。
不直接支持“恰好一次”（Exactly-once）语义。

5.4 配置与优化建议

调整 Acker 数量：默认每个 Worker 一个 Acker，可通过 topology.acker.executors 增加数量，提升吞吐。
关闭可靠性机制：若允许消息丢失（如某些统计场景），可通过 topology.enable.message.timeouts=false 禁用 Acker。
超时时间设置：通过 topology.message.timeout.secs 调整超时阈值，避免过早重发。
避免过度锚定：
仅对关键 Tuple 锚定，减少校验链路的复杂性。

5.5 与其他框架的对比

框架	容错机制	语义	适用场景
Storm	Acker + 异或校验	At-least-once	低延迟、简单处理逻辑
Flink	Checkpoint + 状态快照	Exactly-once	高吞吐、有状态复杂计算
Kafka	偏移量提交 + 消费者重试	At-least-once	消息队列场景，依赖外部存储

6、BlobStore

Storm的BlobStore是一个用于存储和分发大型二进制文件（如JAR包、配置文件等）的分布式存储组件，确保集群中的各个节点能够高效访问这些资源。
（1）作用

存储拓扑依赖的资源文件（如JAR包、配置文件等）。
自动分发文件到所有Supervisor节点，支持动态更新。
提供容错机制，保证文件的高可用性。
（2）存储后端
本地文件系统：默认存储方式，适合小型集群。
HDFS：适合大规模集群，需配置HDFS参数。
云存储（如S3）**：通过插件支持，需额外配置访问密钥等信息。
（3）权限管理
通过ACLs控制用户/角色的上传、下载、删除权限。
结合Kerberos实现安全认证（企业级场景）。
（4）关键参数配置（storm.yaml）

存储路径与后端

本地文件系统（默认）

storm.blobstore.dir: "/var/storm/blobs"  # Blob存储目录

HDFS

storm.blobstore.hdfs.uri: "hdfs://namenode:8020"  # HDFS地址
storm.blobstore.hdfs.user: "storm"                # HDFS操作用户
storm.blobstore.hdfs.buffer.size: 65536           # 读写缓冲区大小（字节）

Amazon S3（需插件）

storm.blobstore.s3.bucket: "my-storm-blobs"       # S3桶名称
storm.blobstore.s3.access.key: "AKIAXXX"         # 访问密钥
storm.blobstore.s3.secret.key: "secretKeyXXX"    # 私有密钥

副本与容错

副本数量（HDFS）：

storm.blobstore.replication.factor: 3  # 默认值通常为3

超时与重试

storm.blobstore.timeout.seconds: 60  # 上传/下载超时时间（默认30秒）

清理策略：

自动清理未使用Blob：

storm.blobstore.cleanup.interval.secs: 86400  # 清理间隔（默认1天）
storm.blobstore.max.unused.blob.age.secs: 604800  # 保留未使用Blob的最长时间（默认7天）

权限控制：

ACLs配置：

blobstore.users:
  - name: "user1"
    type: "user"
    permissions: ["READ", "WRITE"]  # 允许读写
  - name: "group1"
    type: "group"
    permissions: ["READ"]           # 仅允许读取

（5）操作示例

上传Blob：

storm blobstore upload --file myfile.jar --key myblob

下载Blob：

storm blobstore download --key myblob --file local_copy.jar

删除Blob**：
```
storm blobstore delete --key myblob
```

（6）注意事项

性能调优：HDFS或云存储适合大规模集群，本地存储仅限测试。
安全：生产环境启用Kerberos或SSL加密通信。
监控：通过Storm UI或日志监控Blob传输状态。

五、Storm的容错与可靠性机制

Apache Storm 作为一个实时流处理系统，设计上能够处理大规模数据流并在故障发生时保持高可用性。它通过容错机制和可靠性保证策略来确保每条数据在分布式集群中的正确处理。Storm 主要通过 At-least-once 和 Exactly-once 语义来保证数据的可靠处理，并具备强大的故障恢复机制。

1、数据的可靠性保证

Storm 提供了两种主要的处理语义来确保数据的可靠性：

At-least-once（至少一次）：
- 描述：At-least-once 语义确保每条数据至少被处理一次。如果某个数据在处理过程中失败，系统会重新处理该数据。
- 工作原理：
  - 当 Spout 发射一个数据 Tuple 时，它会分配一个唯一的消息 ID，并在每一步处理完成后收到处理节点的 ACK 确认。
  - 如果在规定时间内没有收到确认或处理失败，Spout 会重新发射该 Tuple，从而保证数据被处理至少一次。
- 优点：能够保证数据不丢失，即便某个组件发生故障或数据处理超时，Storm 会重发该数据，确保最终被处理。
- 缺点：可能会导致同一条数据被处理多次，从而可能会产生重复的结果。在不需要严格去重的场景下，这是默认的可靠性保证。
Exactly-once（精准一次）：
- 描述：Exactly-once 语义确保每条数据仅被处理一次，适用于对结果准确性要求极高的场景。
- 实现方法：通过外部存储系统（如事务性数据库）来记录 Tuple 的处理状态，确保 Tuple 只被处理一次并且不会产生重复结果。
- 优点：保证数据不会被重复处理，避免了数据重复带来的不准确性。
- 缺点：Exactly-once 的实现比较复杂，通常会导致性能开销，只有在严格需要保证数据唯一处理的场景下才推荐使用。

2、Storm的容错策略

为了保证系统在面对节点故障或任务失败时能够继续处理数据流，Storm 提供了多种容错策略：

任务重试：
- 当某个任务（如 Bolt 或 Spout）由于网络问题、节点崩溃或逻辑错误而失败时，Storm 会自动重新分配任务，重启任务并恢复数据处理。
- Storm 通过 Acker 机制跟踪每个 Tuple 的处理路径，确保所有数据流经过的节点都被成功处理。Acker 负责跟踪每个 Tuple 的处理进度，如果某个节点失败，它会触发重试机制。
节点故障恢复：
- 当 Supervisor 节点或 Nimbus 节点发生故障时，Storm 可以通过 Zookeeper 重新分配任务。Nimbus 检测到某个 Supervisor 节点不可用时，会将该节点的任务重新分配给其他 Supervisor。
- 如果某个 Worker 进程崩溃，Supervisor 会自动重启该进程，并且数据处理会从故障点恢复。
可靠数据传输：
- Storm 支持可靠的数据传输机制，通过 Acker 跟踪每个 Tuple 的生命周期。如果某个 Bolt 没有发送 ACK 确认，Spout 会重新发射该数据，直到数据被成功处理。
拓扑容错：
- 如果整个拓扑发生故障（如 Nimbus 节点崩溃），Storm 会自动重启拓扑，并从保存的状态恢复数据处理，确保拓扑能够继续正常运行。

3、如何配置和监控任务的重试机制

Storm 提供了多种配置选项来控制任务的重试行为，以及如何监控任务的执行情况。以下是相关配置与监控方法：

任务重试次数：Storm 允许你配置 Tuple 在失败后可以重试的次数和重试间隔。

# 指定 Tuple 需要在多少秒内被完全处理。如果在这个时间内 Tuple 没有被确认，Spout 会认为该 Tuple 处理失败并进行重发。
topology.message.timeout.secs: 30
# 设置每个 Spout 允许同时处理的最大 Tuple 数量。这可以防止系统在任务失败时因为过多的重试而造成过载。
topology.max.spout.pending: 1000

Acker 配置：Storm 的 Acker 机制负责追踪每个 Tuple 的处理情况。通过配置 Acker 数量，可以调整系统的可靠性和容错能力。

# 设置 Acker 的执行器数量。通常，Acker 数量根据数据流的规模和处理的复杂性来决定，更多的 Acker 可以减少重试失败带来的数据丢失风险。
topology.acker.executors: 2

监控任务状态：
- Storm UI：Storm 提供了一个 Web 界面（通常在 Nimbus 节点上访问 http://:8080），可以查看拓扑的运行状态。通过 UI，你可以监控每个 Spout 和 Bolt 的任务成功率、失败率、处理延迟等信息。
- 日志监控：Storm 会记录每个组件的执行日志，开发者可以通过日志监控任务的重试情况和失败原因。Nimbus 和 Supervisor 节点的日志包含了拓扑的任务分配、状态变更和故障恢复的信息。
自动任务恢复：Storm 支持自动恢复任务失败后的机制。当某个 Bolt 或 Spout 处理失败时，系统会自动触发重试，直到任务成功或达到重试限制。

重试时间间隔配置：

# 配置任务重试的时间间隔，确保系统不会频繁重试导致过载。可以根据拓扑的负载和系统的稳定性调整重试间隔。
topology.retry.interval.secs: 5

通过配置这些选项并监控任务执行情况，开发者可以确保 Storm 在遇到故障时能够有效恢复，并且保证数据的可靠处理。在高可用性和数据准确性要求较高的环境下，合理配置容错机制和重试策略至关重要。

六、Zookeeper 在Storm 中的作用

Zookeeper 是 Storm 集群的核心协调组件。它在分布式环境下负责节点之间的状态同步、任务分配以及故障恢复。

1、Zookeeper的作用

节点注册与协调：Nimbus 和 Supervisor 通过 Zookeeper 进行通信，Nimbus 使用 Zookeeper 来分配任务，并确保 Supervisor 节点按照规划执行。
任务分配与状态管理：Zookeeper 存储 Storm 拓扑的状态信息，包括每个任务的执行状态和元数据信息。Nimbus 使用 Zookeeper 来跟踪任务的执行情况，并确保即使某个 Supervisor 节点崩溃，也能及时将任务重新分配给其他可用节点。
故障恢复：当某个节点或进程发生故障时，Zookeeper 负责通知 Nimbus，并协调新的任务调度和资源分配，保证系统的高可用性。
集群配置管理：Zookeeper 存储 Storm 集群中的配置信息，Nimbus 和 Supervisor 可以通过 Zookeeper 动态获取集群的配置信息，确保配置的同步性和一致性。

2、为什么选择 ZooKeeper 而非直接通信

解耦组件：
- Nimbus 无需维护与所有 Supervisor/Worker 的直接连接，避免成为性能瓶颈。
- ZooKeeper 的分布式特性保障了状态同步的一致性。
容错性：
- 即使 Nimbus 临时不可用，Supervisor 和 Worker 仍能继续运行并更新心跳。
- Nimbus 恢复后，可通过 ZooKeeper 快速重建集群状态。
扩展性：
- 支持多 Nimbus 的高可用（HA）模式，所有 Nimbus 实例通过 ZooKeeper 共享状态。

3、Zookeeper 上的Storm节点信息

/storm/assignments/{topology-id}

内容：存储完整的Assignment对象（序列化为二进制或JSON）。
- 包含Worker分配、Executor映射、Task分布、代码路径等。
作用：Supervisor定期读取该节点，获取需要启动的Worker及任务信息。

/storm/tasks/{topology-id}

子节点：
- /storm/tasks/{topology-id}/bolts：存储所有Bolt组件的Task ID列表。
- /storm/tasks/{topology-id}/spouts：存储所有Spout组件的Task ID列表。
作用：Worker通过此节点获取需要处理的Task列表。

/storm/workerbeats/{topology-id}/{worker-id}

内容：每个Worker的心跳信息（最后一次心跳时间、统计信息等）。
作用：Nimbus和Supervisor监控Worker的健康状态。

/storm/errors/{topology-id}/{component-id}

内容：Topology运行时的错误日志（如Task异常信息）。
作用：供UI或外部工具展示错误详情。

/storm/logconfigs/{topology-id}

内容：Topology的日志配置（如日志级别）。
作用：动态调整日志行为。

4、基于 ZooKeeper 的状态同步

Storm 利用 ZooKeeper 作为分布式协调服务，所有组件（Nimbus、Supervisor、Worker）的状态信息均通过 ZooKeeper 共享。这种设计解耦了组件之间的直接通信，提高了系统的可靠性。

4.1 Supervisor 的心跳

Supervisor 上线：
- Supervisor 启动后，向 ZooKeeper 注册自身信息（/storm/supervisors/）。
- Supervisor 定期（默认间隔为 supervisor.heartbeat.frequency.secs，通常 10 秒）向 ZooKeeper 写入自身状态。
  - 状态信息包括：
    - 存活时间戳（time-secs）
    - 主机名、IP 地址
    - 可用端口列表（即当前可启动 Worker 的端口）
    - 资源使用情况（如内存、CPU，取决于配置）
Nimbus 的监控：
- Nimbus 监听 /storm/supervisors 目录，通过检查最新写入时间戳判断 Supervisor 是否存活。
- 若 Supervisor 超过 supervisor.heartbeat.timeout.secs（默认 30 秒）未更新状态，Nimbus 认为其已离线，标记其所有 Worker 为失效。Nimbus 重新生成任务分配计划，将失效 Worker 的 Task 迁移到其他 Supervisor。

4.2 Worker 的心跳

Worker 启动：
- Supervisor 根据 Nimbus 的分配计划启动 Worker。
- Worker 启动后，向 ZooKeeper 注册心跳（/storm/workerbeats//:）。
- 每个 Worker 进程定期（默认间隔为 worker.heartbeat.frequency.secs，通常 10 秒）向 ZooKeeper 写入心跳。
  - 心跳信息包括：
    - 存活时间戳
    - Worker 进程 ID（PID）
    - 当前负载（如队列积压量、处理延迟等指标）
    - 分配的 Task 列表
Nimbus 的监控：
- Nimbus 监听 /storm/workerbeats/，检测 Worker 是否存活。
- 若 Worker 超过 worker.heartbeat.timeout.secs（默认 30 秒）未更新心跳，Nimbus 会标记该 Worker 为失效，并触发任务重新分配。

4.3 Nimbus 的状态

写入路径：/storm/nimbus
- Nimbus 自身也会在 ZooKeeper 中注册，其他组件可通过该路径判断 Nimbus 是否存活。
- 若 Nimbus 崩溃，需通过外部机制（如手动重启或 HA 配置）恢复。

5、通信机制的技术细节

ZooKeeper Watcher 机制
- Supervisor 在关键路径（如 /assignments、/storms）注册 Watcher，通过回调（Callback）实现事件驱动式通信。
- 例如：当 Nimbus 更新 /assignments/topo-123 时，ZooKeeper 会触发 Watcher 通知所有监听该路径的 Supervisor。
临时节点（Ephemeral Nodes）
- Supervisor 和 Worker 的存活状态通过临时节点维护。若节点崩溃，ZooKeeper 自动删除其临时节点，触发集群状态更新。
数据序列化
- Storm 使用 Thrift 或 JSON 序列化任务分配和状态信息。例如，/assignments 下的数据是序列化后的 Assignment 对象。

6、Zookeeper与Storm 通信场景

6.1 Zookeeper 与 Nimbus 通信场景

发布任务分配（Assignments）
- 场景：Nimbus 将拓扑（Topology）的任务分配信息写入 ZooKeeper，供 Supervisor 节点拉取并执行。
- 通信路径：/assignments/{topology-id}
  - 每个拓扑的分配信息存储在此节点下，包含 Worker 的端口分配、Executor 分布、组件映射等。
- 通信方式
  - Nimbus 使用 Thrift 序列化 Assignment 对象，将其写入 /assignments/{topology-id}。
  - 若拓扑需要扩缩容或重新平衡，Nimbus 会更新该节点的数据，触发 Supervisor 的 Watcher 通知。
管理拓扑生命周期
- 场景：Nimbus 通过 ZooKeeper 记录拓扑的提交、启动、停止和删除状态。
- 通信路径：/storms/{topology-id}
  - 存储拓扑的元信息（如名称、状态、提交时间、配置参数等）。
- 通信方式
  - 提交拓扑：Nimbus 在 /storms 下创建节点（如 /storms/topo-123），并写入拓扑的元数据（序列化为 JSON 或 Thrift）。
  - 杀死拓扑：将拓扑状态标记为 KILLED，触发 Supervisor 清理相关 Worker。
  - 更新拓扑：修改拓扑配置或代码后，更新节点数据并触发重新分配。
监控 Supervisor 存活状态
- 场景：Nimbus 需要感知集群中 Supervisor 节点的在线/离线状态，以便重新分配故障节点的任务。
- 通信路径：/supervisors/{supervisor-id}
  - 每个 Supervisor 在此路径下创建临时节点（Ephemeral Node），包含其元数据（如主机名、端口列表、启动时间等）。
- 通信方式
- - Nimbus 监听 /supervisors 的子节点变更：
- 当 Supervisor 启动时，创建临时节点并定期更新心跳。
- 当 Supervisor 离线（会话超时），ZooKeeper 自动删除其节点，Nimbus 触发任务重新分配。
跟踪 Worker 和 Executor 状态
- 场景： Nimbus 需要监控 Worker 和 Executor 的运行状态，以处理故障或性能瓶颈。
- 通信路径
  - Worker 状态：/workers/{supervisor-id}/{worker-port}
  - Executor 心跳：/workerbeats/{topology-id}/{worker-port}
- 通信方式
  - Worker 注册：Supervisor 启动 Worker 时，在 /workers 下创建临时节点，Nimbus 监听这些节点以跟踪 Worker 存活状态。
  - Executor 心跳：Worker 定期在 /workerbeats 下写入心跳数据（如统计信息），Nimbus 通过读取这些数据判断 Executor 是否健康。
存储分布式文件（BlobStore）元数据
- 场景：Nimbus 将拓扑的代码包（JAR 文件）和配置文件的元数据存储在 ZooKeeper 中，供 Supervisor 下载。
- 通信路径： /storm/blobstore/{topology-id}
  - 记录代码包在分布式存储（如 HDFS 或本地文件系统）中的位置和版本信息。
- 通信方式
  - 提交拓扑时，Nimbus 将代码包上传到 BlobStore（如 HDFS），并在 ZooKeeper 中写入其元数据路径。
  - Supervisor 根据该路径从 BlobStore 下载代码包。
实现分布式锁
- 场景： Nimbus 需要保证对集群操作的原子性（如拓扑提交、任务分配），避免多实例冲突（若启用 Nimbus HA）。
- 通信路径： /nimbus_lock
  - 通过 ZooKeeper 的分布式锁机制，确保同一时间只有一个 Nimbus 主节点活跃。
- 通信方式
  - Nimbus 启动时尝试获取 /nimbus_lock 节点的独占锁（通过 ZooKeeper.create() 创建临时有序节点）。
  - 若当前已有活跃 Nimbus，备用节点会监听锁节点的变更，并在主节点失效时接管。
容错与故障恢复
- 场景：Nimbus 需处理 Supervisor 或 Worker 故障，重新分配任务。
- 通信方式
  - 当检测到 Supervisor 节点消失（ZooKeeper 临时节点被删除）时，Nimbus 重新计算任务分配，更新 /assignments。
  - 若 Worker 心跳超时（/workerbeats 数据未更新），Nimbus 通知对应 Supervisor 重启 Worker。

6.2 ZooKeeper 与 Supervisor 通信场景

监听任务分配（Assignments）
- 场景：Nimbus 将拓扑（Topology）的任务（Worker 分配）写入 ZooKeeper，Supervisor 需要实时获取这些信息以启动或停止 Worker。
- 通信路径：/assignments/{topology-id}
  - 每个拓扑的分配信息存储在此路径下，包含该拓扑需要的 Worker 数量、端口分配、任务分布等。
- 通信方式：
  - Supervisor 在 ZooKeeper 的 /assignments 路径上注册 Watcher，监听子节点（拓扑 ID）的创建、删除或更新。
  - 当 Nimbus 更新某个拓扑的分配信息时，Supervisor 会收到通知，拉取最新的分配数据，并根据需要调整 Worker。
上报节点状态（心跳）
- 场景：Supervisor 需要定期向 ZooKeeper 上报自身存活状态，供 Nimbus 判断节点是否在线。
- 通信路径：/supervisors/{supervisor-id}
  - 每个 Supervisor 在 ZooKeeper 中有一个持久节点（Ephemeral Node），存储其元数据（如启动时间、主机名、端口列表等）。
- 通信方式：
  - Supervisor 启动时，在 /supervisors 下创建自己的节点（如 /supervisors/sup-001）。
  - 定期（默认约 20 秒）更新该节点的数据（时间戳），维持会话活性。
  - 若 Supervisor 崩溃或断连，ZooKeeper 会因会话超时自动删除该节点，Nimbus 据此判定节点失效。
同步 Worker 状态
- 场景：Supervisor 需要将本节点 Worker 的运行状态同步到 ZooKeeper，供 Nimbus 或其他监控工具查看。
- 通信路径：/workers/{supervisor-id}/{worker-port}
- 每个 Worker 对应一个节点，记录其所属拓扑、端口、启动时间等信息。
- 通信方式：
  - 启动 Worker 时，Supervisor 在 /workers 路径下创建对应的临时节点。
  - 若 Worker 崩溃或被终止，Supervisor 负责删除该节点；若 Supervisor 本身崩溃，ZooKeeper 会自动清理其临时节点。
获取拓扑代码包（Topology JAR）
- 场景：Supervisor 需要从 Nimbus 下载拓扑代码包（JAR 文件）以启动 Worker。
- 通信路径：/storm/blobstore/{topology-id}
  - Storm 的分布式文件系统（BlobStore）元数据存储在 ZooKeeper 中，包含代码包的位置和版本信息。
- 通信方式：
  - Supervisor 通过 ZooKeeper 获取代码包存储路径（如 HDFS 或本地路径），然后从 Nimbus 或其他 BlobStore 源下载代码包。
处理拓扑删除或更新
- 场景：当拓扑被杀死（Kill）或更新时，Supervisor 需要清理相关资源。
- 通信路径： /storms/{topology-id}
  - 存储拓扑的元数据（如状态、提交时间等）。当拓扑被杀死时，该节点会被标记为 KILLED。
- 通信方式：
  - Supervisor 监听 /storms 路径，若发现某拓扑状态变为 KILLED，则停止其所有 Worker 并清理本地文件。
容错与故障恢复
- 场景：Supervisor 崩溃后重启时，需要从 ZooKeeper 恢复任务分配信息。
- 通信方式：
  - 重启后，Supervisor 重新读取 /assignments 下的所有分配信息，并根据最新的数据重建 Worker 进程。
  - 若发现某些 Worker 已由其他节点接管（因原节点心跳超时），则不再启动这些 Worker。

7、Zookeeper 与 Storm 通信示例

（1）Nimbus 提交拓扑的完整流程

接收用户提交的拓扑 JAR 和配置。
将 JAR 上传到 BlobStore（如 HDFS），并在 ZooKeeper 的 /storm/blobstore/{topology-id} 记录元数据。
在 /storms/{topology-id} 创建节点，写入拓扑元信息（状态为 ACTIVE）。
计算任务分配（Task → Executor → Worker 的映射），将 Assignment 对象写入 /assignments/{topology-id}。
Supervisor 监听到分配信息后启动 Worker，Nimbus 通过 /workers 和 /workerbeats 监控 Worker 运行状态。
（2）Supervisor 启动 Worker 的完整流程
监听 /assignments → 发现新拓扑 topo-123。
从 /assignments/topo-123 读取分配信息，获取本节点需启动的 Worker 端口（如 6700）。
检查本地端口是否可用，若可用则启动 Worker 进程。
在 /workers/sup-001/6700 创建临时节点，记录 Worker 元数据。
定期更新 /supervisors/sup-001 的心跳时间戳。

七、性能优化

为了确保 Apache Storm 在高负载的流处理场景下能够高效运行，性能优化是非常关键的一环。性能优化涵盖了多个方面，包括提高吞吐量、优化内存使用、管理资源、以及监控系统运行状态。通过合理配置这些要素，可以显著提升拓扑的处理能力和系统的稳定性。

1、并行度与吞吐量的调优

并行度是决定 Storm 处理能力的关键因素。通过调优并行度可以有效提升吞吐量，但需要找到合适的平衡点，避免过高或过低的并行度影响性能。

Spout 和 Bolt 的并行度配置
Spout 和 Bolt 的并行度直接决定了数据处理的并行性。在 TopologyBuilder 中可以通过指定并行度参数来设置任务的并发级别。
```
builder.setSpout("spout-name", new MySpout(), 4);  // 设置 Spout 并行度为 4
builder.setBolt("bolt-name", new MyBolt(), 8)      // 设置 Bolt 并行度为 8
       .shuffleGrouping("spout-name");
```
任务分配：在配置拓扑时，Spout 的并行度通常小于或等于 Bolt 的并行度，以确保 Bolt 能够及时处理从 Spout 发射的数据。
Worker 的数量：
每个 Storm 集群的 Worker 数量决定了可以并行处理的拓扑数目。可以在 Storm 配置中指定 Worker 数量，以支持更高的并行性和吞吐量。
```
topology.workers: 4  # 设置为 4 个 Worker
```
吞吐量调优：
- 批量处理：在某些场景中，可以将 Tuple 进行批量处理而不是一条条处理。通过减少网络传输次数，可以提高系统的吞吐量。
- 传输策略优化：选择合适的数据传输策略（如 Shuffle Grouping、Fields Grouping）可以提高吞吐量。尤其是 fieldsGrouping 按特定字段分组，可以减少数据传输的开销。

2、内存和资源的管理

内存和资源管理是确保拓扑高效运行的基础。合理的资源分配可以避免内存溢出、线程阻塞等问题。

配置 Worker 的资源使用：
可以为每个 Worker 分配 CPU 和内存，以确保不同的 Worker 不会因资源不足而产生瓶颈。可以在 storm.yaml 中进行资源管理配置：
```
topology.worker.cpu: 2.0  # 每个 Worker 分配 2 个 CPU
topology.worker.memory.mb: 4096  # 每个 Worker 分配 4GB 内存
```
JVM 内存管理：
调整 Storm 中 JVM 的堆内存设置，确保 Worker 在处理大量数据时有足够的内存空间。
可以在拓扑启动脚本或配置中设置 JVM 参数：
```
export STORM_WORKER_HEAPSIZE=4096  # 设置 Worker JVM 堆内存大小为 4GB
```
避免内存泄漏：
确保 Bolt 和 Spout 实现中没有内存泄漏，特别是在长时间运行的拓扑中。如果对象没有及时释放或垃圾回收，可能会导致系统内存不足。
垃圾回收调优：
在高负载场景下，JVM 的垃圾回收频率可能影响系统性能。可以通过调整 JVM 的 GC 参数来优化垃圾回收策略，例如使用 G1 GC 来提高 GC 效率。

3、优化Tuple传输与序列化

Tuple 是 Storm 中的数据传输单元，因此优化 Tuple 的传输和序列化能够有效减少网络开销，提高数据处理速度。

减少 Tuple 大小：
Tuple 包含的字段应尽量简洁。避免在 Tuple 中传输过大的数据，如大文件或未压缩的文本，尽量将数据压缩或转换成轻量格式再进行传输。
```
collector.emit(new Values(compactData));  // 传输经过压缩处理的数据
```

自定义序列化机制：
Storm 默认使用 Java 的序列化机制，但可以根据需求自定义 Tuple 的序列化方式。可以通过实现 org.apache.storm.serialization.Serializer 接口，优化序列化效率，尤其在处理复杂数据结构时效果明显。

public class CustomSerializer implements Serializer {
    @Override
    public void serialize(Object obj, OutputStream out) throws IOException {
        // 自定义序列化逻辑
    }

    @Override
    public Object deserialize(InputStream in) throws IOException {
        // 自定义反序列化逻辑
        return object;
    }
}

批量传输：
使用批量处理技术可以减少频繁的网络调用。通过在 Bolt 内部累积数据后再批量发送，可以显著减少网络传输的开销。
避免无效数据传输：
使用过滤机制（如通过字段分组）减少无效数据的传输。确保只有必要的 Bolt 节点接收相关数据，而不是将所有数据广播到所有节点。

4、Storm的监控与日志管理

有效的监控和日志管理可以帮助开发者了解系统运行状态，并及时发现和解决性能问题。

Storm UI 监控：
- Storm 提供了内置的 Web UI 来监控拓扑的状态。通过 UI 可以查看每个 Spout 和 Bolt 的处理速率、延迟、失败率等关键指标。
- 通过 UI 可以动态调整拓扑的并行度，并观察调整后的性能变化。
指标收集与告警：
- Storm Metrics：Storm 支持内置的指标收集系统，可以收集如 Tuple 处理时间、队列深度、处理延迟等性能数据。
- 通过配置可以将这些指标导出到外部监控系统（如 Prometheus 或 Grafana），用于设置实时告警和生成性能报表。
- 示例：Prometheus 集成：
```
metrics.reporters:
  - class: "org.apache.storm.metrics2.reporters.PrometheusReporter"
```
日志管理：
- 日志是调试和排查性能问题的重要工具。可以通过配置日志级别来控制日志的输出。一般情况下，将日志级别设置为 WARN 或 ERROR，以减少不必要的日志开销。
- 日志配置示例：
```
topology.debug: false  # 关闭调试日志
topology.workers: 3
```
- 使用集中式日志管理工具（如 ELK 堆栈或 Splunk）来统一管理和分析分布式集群中的日志信息。通过这些工具可以方便地过滤、搜索和分析日志，迅速定位性能问题。
任务重试监控：
- 通过 Storm UI 或外部监控系统，可以监控拓扑中任务的重试情况，分析重试次数是否过多，进而优化拓扑结构或资源配置。
  通过合理的并行度配置、资源管理、优化 Tuple 传输以及建立良好的监控机制，Apache Storm 可以在高负载的环境中保持高效稳定的运行，确保实时数据处理的性能和可靠性。

八、实际案例分析

在这一部分，我们将通过实际案例，展示 Apache Storm 在实时数据处理中的应用，包括实时日志分析等具体场景，并探讨在生产环境中的实践经验。

1、实时数据处理的案例演示

案例：实时流数据处理——用户行为分析
场景描述：某电商平台需要监控用户的实时行为（如点击、浏览、下单等），分析用户的操作路径，实时推荐产品，并在异常行为（如刷单、欺诈）发生时进行预警。这个系统需要低延迟、高吞吐量的实时处理能力。
解决方案：

数据源：用户的操作事件数据通过消息队列（如 Kafka）发送到 Storm 进行处理。
数据处理逻辑：
- Spout 从 Kafka 消费用户行为数据，生成事件流。
- Bolt 1 进行数据清洗，去除无效或重复事件。
- Bolt 2 实时分析用户行为，计算用户点击率、转化率等。
- Bolt 3 实现实时推荐算法，根据用户当前行为推荐相关商品。
- Bolt 4 检测异常行为，如频繁重复下单、可疑的购买行为等，触发预警机制。
处理结果：实时推荐结果通过 REST API 接口反馈给前端系统，异常行为通过通知系统进行告警。
示例代码（简化版）：

TopologyBuilder builder = new TopologyBuilder();
// Spout 从 Kafka 消费用户事件数据
builder.setSpout("kafka-spout", new KafkaSpout(), 2);
// Bolt 1: 数据清洗
builder.setBolt("cleaning-bolt", new CleaningBolt(), 4)
       .shuffleGrouping("kafka-spout");
// Bolt 2: 实时用户行为分析
builder.setBolt("analysis-bolt", new UserAnalysisBolt(), 4)
       .shuffleGrouping("cleaning-bolt");
// Bolt 3: 实时推荐
builder.setBolt("recommendation-bolt", new RecommendationBolt(), 4)
       .shuffleGrouping("analysis-bolt");
// Bolt 4: 异常行为检测
builder.setBolt("anomaly-detection-bolt", new AnomalyDetectionBolt(), 2)
       .shuffleGrouping("analysis-bolt");
Config conf = new Config();
conf.setNumWorkers(4);
// 提交拓扑到集群
StormSubmitter.submitTopology("user-behavior-analysis", conf, builder.createTopology());

效果：

实时监控用户行为，低延迟推荐产品，提升用户体验。
异常行为预警，保障平台的安全性和业务合规性。

2、在生产环境中的实际应用场景分享

案例：金融交易监控
场景描述：金融行业的交易系统对实时性有极高的要求，需要在短时间内处理海量的交易数据，监控异常交易和价格波动。该系统不仅需要极低的延迟，还要保证高吞吐量，避免数据丢失。
解决方案：

数据源：交易数据通过 Kafka 或其他消息队列流入 Storm 进行处理。
拓扑结构：
- Spout 读取交易数据流（包括买入、卖出、价格变动等）。
- Bolt 1 解析交易数据，提取关键字段（如股票代码、交易量、交易时间等）。
- Bolt 2 实时计算股票价格波动率，检测价格异常波动。
- Bolt 3 检测异常交易行为（如短时间内的大量交易、洗单行为等），触发预警。
- Bolt 4 将分析结果写入数据库，供后台展示。
  关键点：
低延迟：金融交易对延迟极为敏感，Storm 的事件驱动模型能够实现亚秒级的延迟处理。
高可用性与容错：通过 Acker 机制确保所有交易事件都能被成功处理或重试，保证系统在节点故障时的高可用性。
实际效果：
实时捕捉交易异常，防止市场操纵和欺诈行为。
提供稳定、高效的交易监控系统，保障金融市场的安全与合规。

3、使用Storm进行实时日志分析

案例：Web服务器的实时日志分析
场景描述：大型网站需要分析海量的实时日志，以便及时监控服务器的运行状态、用户访问情况，并在发现异常（如大量 404 错误、访问超时等）时自动告警。日志分析系统需要低延迟和高吞吐量，以处理数百台服务器产生的日志。
解决方案：

数据源：Web 服务器的日志通过 Kafka 发送到 Storm 进行实时分析。
处理流程：
- Spout：从 Kafka 读取日志条目。
- Bolt 1：日志预处理，解析日志内容（如请求时间、请求方法、状态码等）。
- Bolt 2：按字段统计数据（如统计每分钟的 404 错误数、请求总数、平均响应时间等）。
- Bolt 3：根据设定的阈值检测异常（如大量 404 错误、响应时间过长等），并触发告警系统。
- Bolt 4：将分析结果存储到 HBase 或 Elasticsearch 中，供数据可视化展示。
  示例代码：

TopologyBuilder builder = new TopologyBuilder();
// Spout 从 Kafka 中读取日志
builder.setSpout("log-spout", new KafkaSpout(), 2);
// Bolt 1: 解析日志条目
builder.setBolt("log-parser-bolt", new LogParserBolt(), 4)
       .shuffleGrouping("log-spout");
// Bolt 2: 日志分析
builder.setBolt("log-analysis-bolt", new LogAnalysisBolt(), 4)
       .fieldsGrouping("log-parser-bolt", new Fields("log-type"));
// Bolt 3: 异常检测
builder.setBolt("anomaly-detection-bolt", new AnomalyDetectionBolt(), 2)
       .shuffleGrouping("log-analysis-bolt");
// Bolt 4: 数据存储
builder.setBolt("storage-bolt", new StorageBolt(), 2)
       .shuffleGrouping("log-analysis-bolt");
Config conf = new Config();
conf.setNumWorkers(3);
// 提交拓扑到集群
StormSubmitter.submitTopology("real-time-log-analysis", conf, builder.createTopology());

效果：

实时分析数百台服务器的日志，识别系统中的问题（如请求失败、性能下降）。
当检测到异常时，及时触发告警，并通过实时可视化系统展示服务器状态。
实际场景的应用：
大型电商平台可以通过这种实时日志分析系统，及时了解网站运行状况，快速响应用户问题，提升用户体验。
云服务提供商可以通过日志分析，实时监控服务状态，确保云服务的稳定性和高可用性。
通过以上案例展示，Apache Storm 在处理实时流数据、日志分析、金融交易监控等场景中展现了其强大的处理能力和灵活性。Storm 的低延迟、高吞吐量和容错机制，使其成为了许多企业实时数据处理的首选工具。

九、Storm与其他流处理框架的对比

随着大数据处理技术的发展，实时流处理框架逐渐成为企业处理海量数据的重要工具。Apache Storm、Apache Flink 和 Apache Spark Streaming 是目前常见的流处理框架，每个框架都在不同的场景下有着独特的优势和特性。下面将通过对比 Apache Storm 与 Apache Flink 以及 Apache Spark Streaming，帮助理解它们的优缺点和适用场景。

1、Apache Storm与Apache Flink的对比

Apache Storm 和 Apache Flink 都是分布式流处理框架，但它们在设计理念和处理方式上存在显著差异。

特性	Apache Storm	Apache Flink
处理模型	基于 Tuple 的数据流处理，提供 At-least-once 和 Exactly-once 语义	基于事件驱动的流式和批处理，支持事件时间处理，天然提供 Exactly-once 语义
处理类型	专注于流式数据处理，批处理支持较弱	同时支持流处理和批处理，提供统一的 API 接口
时间语义	基于处理时间（Processing Time）	支持事件时间（Event Time）、处理时间等多种时间语义
窗口机制	Storm 支持有限的窗口功能	Flink 提供强大的窗口机制（滚动窗口、滑动窗口、会话窗口等）
状态管理	依赖外部存储进行状态管理，支持 Exactly-once 但较为复杂	内置状态管理，支持大型状态的低延迟 Exactly-once 语义
吞吐量与延迟	通常 Storm 的延迟较低，适合实时性要求高的应用	Flink 在大规模批量处理时吞吐量和性能更优，但延迟略高
容错机制	通过 Acker 机制追踪 Tuple，进行重试	通过 Checkpoint 机制实现容错，数据不会丢失
生态系统	依赖其他组件如 Kafka、Zookeeper 实现集成	原生集成 Kafka、HDFS 等系统，提供完整的生态体系
适用场景	适用于简单实时处理、数据监控、低延迟的场景	适用于复杂流计算、大规模批处理和状态管理丰富的应用

Apache Storm 是低延迟、轻量级的流处理框架，适合对延迟要求严格的应用。
Apache Flink 则更强大，提供了更灵活的窗口机制、丰富的时间语义和状态管理，适合处理复杂流计算和状态较大的场景。

2、Apache Storm与Apache Spark Streaming的对比

Apache Spark Streaming 是 Spark 生态系统中的流处理组件，它基于微批处理（Micro-batching）模型，而 Apache Storm 则是基于事件驱动的实时流处理。

特性	Apache Storm	Apache Spark Streaming
处理模型	基于事件驱动的实时流处理（Tuple-by-Tuple）	基于微批处理模型（将数据流分割为小批次进行处理）
延迟	低延迟，处理每个 Tuple 实时发射	相对较高，由于微批模型，延迟与批次大小有关
吞吐量	吞吐量较低，专注低延迟处理	吞吐量较高，尤其在批处理场景下更高效
容错机制	基于 Acker 机制，支持 At-least-once 和 Exactly-once	通过 RDD 的 DAG 容错模型实现自动重试和容错
状态管理	依赖外部存储进行状态管理	基于 Spark 的原生内存管理，支持持久化和恢复
时间语义	支持处理时间语义	支持事件时间和处理时间
编程复杂度	较为复杂，要求开发者自行管理重试和容错逻辑	基于 Spark API 的批处理模型，编程简单
集成性	原生集成 Kafka 和 Zookeeper 集成	Spark 生态系统，支持与 Spark SQL、MLlib 结合
适用场景	实时监控、低延迟数据处理	大规模批量数据处理、需要结合其他 Spark 模块的场景

Storm 更加关注低延迟的实时处理，适合对延迟要求极高的应用场景，如金融交易监控、物联网数据流处理。
Spark Streaming 适合那些既需要处理实时流数据又需要批处理功能的场景，如数据仓库中的增量数据处理。

3、选择合适的流处理框架的建议

选择合适的流处理框架取决于业务场景、技术要求以及现有的技术栈。以下几点建议可以帮助选择合适的流处理框架：
实时性 vs 批处理需求：

如果你的应用需要超低延迟且是完全基于事件驱动的处理，如实时监控或金融交易系统，那么 Apache Storm 是一个好的选择。
如果需要一个既能处理实时流数据又能处理批量数据的框架，或者需要复杂的状态管理和丰富的窗口操作，Apache Flink 更加适合。
如果你的工作流中有大量的批处理任务，同时你想使用同样的框架来处理流数据，Apache Spark Streaming 是个不错的选择，因为它与 Spark 的批处理功能无缝集成。
吞吐量与数据规模：
对于大规模、复杂数据处理需求，且需要强大的状态管理和吞吐量支持，Apache Flink 由于其出色的状态管理和高吞吐量能力更具优势。
Apache Storm 更适合处理中小规模的数据流，尤其是低延迟处理场景，但吞吐量相对较低。
开发复杂度：
Apache Spark Streaming 提供了易于理解的 API 和编程模型，尤其适合已有 Spark 经验的开发者。
Apache Flink 提供了更灵活的时间语义和状态管理功能，但相应的学习曲线较陡峭，适合复杂流处理的需求。
Apache Storm 在容错处理和并行度调优上可能需要更多的开发和运维工作，但对延迟敏感的应用依然具备较大的吸引力。
生态系统与集成：
如果你的架构已经采用了 Spark 生态系统，那么 Spark Streaming 是一个合适的选择，因为它能够与 Spark SQL、MLlib、GraphX 等模块无缝集成。
如果需要原生的实时流处理，且期望与 Kafka 或 Zookeeper 等工具集成，Storm 是一种简洁的解决方案。
对于需要完整的事件时间管理、复杂的窗口处理、以及自带丰富状态管理的场景，Flink 提供了更强大的功能集。
选择流处理框架时，关键在于平衡实时性需求、吞吐量要求、开发成本和集成性。每个框架在不同场景下有其特定的优势，理解应用的需求和框架的特性是做出正确选择的关键。

十、总结与展望

Apache Storm 作为一种强大的实时流处理框架，已经被广泛应用于多个领域，如金融交易监控、实时日志分析、用户行为分析等场景。Storm 的事件驱动模型、低延迟处理能力、分布式容错机制，使其在处理实时数据流时具有明显的优势。尽管 Storm 在低延迟和高可靠性方面表现出色，随着流处理领域的发展和用户需求的演变，Storm 也面临着进一步发展的机遇与挑战。

1、Apache Storm的未来发展方向

性能优化与资源利用提升：
- 虽然 Apache Storm 在低延迟处理上表现优异，但在高吞吐量和大规模数据处理时，资源利用效率仍有提升空间。未来 Storm 可能会引入更高效的调度算法、改进内存和 CPU 资源管理，以提升集群的整体性能。
- 批量处理的引入：未来的优化方向可能包括将流处理与批量处理相结合，通过适当的批量处理减少数据传输频率，提高吞吐量，同时保持低延迟的处理特点。
简化编程模型与开发体验：
- 当前 Storm 的编程模型较为底层，开发者需要处理较多的拓扑配置和容错机制。未来，Storm 可能会引入更高层次的抽象和 API 简化，降低开发复杂度，使开发者能够更加专注于业务逻辑，而非底层配置。
- 与其他系统的集成简化：未来的 Storm 版本可能会进一步增强与其他大数据系统（如 Kafka、Elasticsearch、HBase 等）的集成，提供开箱即用的连接器和工具库，简化系统间的数据传输和处理。
状态管理的改进：
- 相较于 Apache Flink 等其他流处理框架，Storm 的状态管理相对较弱。未来，Storm 可能会增强其状态管理功能，支持更大规模的状态持久化和恢复功能，以满足复杂流处理应用的需求。
- Exactly-once 的强化：虽然 Storm 支持 Exactly-once 处理语义，但其实现相对复杂，未来版本可能会进一步简化和优化这个过程，提高数据一致性的保证，减少开发者的操作负担。
容错机制和高可用性增强：
- Apache Storm 的容错机制依赖于 Acker，虽然其可靠性较高，但在大规模分布式环境下，容错机制的扩展性仍有改进空间。未来可能会引入更轻量的容错机制，减少因故障恢复而导致的性能开销。
- 多活架构与跨区域容灾：未来 Storm 的发展方向还包括多区域、多活部署，使其在跨区域的分布式环境下依旧能够提供可靠的服务和数据一致性。
集成云原生技术：
- 随着云原生技术的普及，未来的 Storm 可能会更加注重与容器技术（如 Docker、Kubernetes）的无缝集成，提供更强大的云原生支持，使得在云环境中的扩展和部署变得更加容易。

2、实时流处理的趋势

统一的流处理与批处理框架：
- 未来流处理的一个重要趋势是批处理与流处理的统一。随着框架的演进，更多的框架会提供统一的 API 来同时处理批量和流数据。例如 Apache Flink 已经实现了这方面的融合。用户能够根据业务需求动态选择是以流式处理还是批量处理方式来操作数据，这将使数据处理更加灵活且高效。
事件驱动架构（EDA）的广泛应用：
- 实时流处理正逐渐成为企业架构中的关键部分。事件驱动架构（EDA）作为现代分布式系统的核心理念，正在被越来越多的企业采用。实时处理系统将在这种架构中发挥核心作用，成为数据处理的中心，通过快速响应事件流提升业务的响应速度和智能化水平。
边缘计算与物联网数据处理：
- 随着物联网（IoT）设备数量的爆发式增长，边缘计算和实时流处理结合的场景将更加普遍。数据在边缘设备上产生后，需要迅速进行处理和分析，才能做出实时决策。未来的流处理框架将更多支持边缘计算场景，包括处理低功耗设备产生的数据、支持分布式地理位置的流处理等。
低延迟与高吞吐量的平衡：
- 实时流处理技术的核心是低延迟，但随着数据量的不断增大，系统也需要具备足够的吞吐能力。未来的流处理框架将致力于在保证极低延迟的同时，进一步提升系统的吞吐能力，处理大规模数据流时更加高效。
人工智能与流处理的结合：
- 随着人工智能（AI）技术的快速发展，AI 与流处理的结合将成为趋势。实时数据流不仅限于简单的统计和监控，还将被用于训练和推理机器学习模型。例如，利用流处理框架直接处理和训练来自物联网设备、社交媒体、用户行为的数据流，并实时生成预测和推荐结果。
更强的容错性与一致性保证：
- 对于关键业务场景，流处理系统的容错性和数据一致性至关重要。未来，Exactly-once 语义将成为更多框架的标准配置，系统将更加注重确保数据不会丢失或重复处理，并能在系统故障或宕机后迅速恢复。
自动化运维与智能调度：
- 随着流处理框架的复杂性增加，自动化运维和智能调度成为企业的重要需求。未来，流处理框架将更多集成智能化的资源调度、故障自动恢复、任务重试机制等，减少对人工干预的依赖。基于 AI 的系统监控和自优化功能也会逐渐发展。
  总结：Apache Storm 已经证明了自己在实时流处理领域的价值，尤其在低延迟、事件驱动的场景中。随着流处理领域的不断发展，未来的流处理框架将更加智能、高效，能够更好地处理大规模数据流，支持更多场景和技术需求。Apache Storm 作为流处理技术的先驱者之一，也将随着这些趋势的变化不断演进，继续为实时数据处理提供可靠的解决方案。

二十、资料

Apache Storm实时流处理的核心技术
Storm实战常见问题及解决方案

你可能感兴趣的:(apache,storm,大数据)

为什么YashanDB数据库是大数据处理的理想选择？数据库
在当今大数据时代，如何高效管理和处理海量数据成为了许多企业的首要挑战。针对这一问题，选择合适的数据库系统至关重要。尤其是在大数据场景中，诸如数据存储、数据访问效率和并发控制等技术要求提高，给数据库的选择带来了更高的标准。YashanDB作为一款高性能数据库，以其独特的架构设计与一系列优秀的功能，成为大数据处理的理想选择。高度可扩展的部署架构YashanDB支持多种部署形态，包括单机部署、分布式集群
企业如何构建基于YashanDB的数据分析系统数据库
随着大数据时代的到来，企业面临的一个核心技术问题是如何有效、快速地进行数据分析以指导决策。一个重要的性能瓶颈在于数据库的查询速度和存储结构的设计。尤其在处理海量数据时，如何在保证数据查询性能的同时确保数据的准确性和完整性，这问题显得尤为重要。YashanDB作为一个高性能的数据库系统，通过其独特的体系架构和强大的数据存储及访问机制，为企业构建高效的数据分析系统提供了可靠的技术支持。YashanDB
AI+大数据：社交网络分析在金融风控中的完整流程 AI智能应用 AI大模型应用入门实战与进阶人工智能大数据 ai
AI+大数据：社交网络分析在金融风控中的完整流程关键词：AI、大数据、社交网络分析、金融风控、完整流程摘要：本文详细讲述了在金融风控领域运用AI和大数据进行社交网络分析的完整流程。通过通俗易懂的语言，从背景知识入手，解释核心概念，阐述算法原理，分享项目实战经验，探讨实际应用场景，推荐相关工具资源，展望未来发展趋势与挑战，旨在让读者全面了解这一复杂技术在金融风控中的应用。背景介绍目的和范围我们的目的
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
65、【OS】【Nuttx】【启动】链接脚本：地址布局（上） HIT_Weston 【OS】【Nuttx】OS Nuttx 启动
【声明】本博客所有内容均为个人业余时间创作，所述技术案例均来自公开开源项目（如Github，Apache基金会），不涉及任何企业机密或未公开技术，如有侵权请联系删除背景接之前blog【OS】【Nuttx】【启动】向量表：指定内存段分析了链接脚本里面关于section的一些内容，下面看下section的地址布局地址布局上篇blog提到_stext=ABSOLUTE(.);，下面继续来分析这个修饰词A
MapReduce分布式计算框架：从原理到实战 AI妈妈手把手 mapreduce 前端大数据分布式计算 python 人工智能
大家好！今天我们来聊聊大数据处理领域的一个重要框架——MapReduce。作为Google提出的经典分布式计算模型，MapReduce极大地简化了海量数据的处理流程。无论你是大数据新手还是有一定经验的开发者，这篇文章都会让你对MapReduce有更深入的理解。我们还会通过实际代码示例来展示它的强大功能！一、MapReduce是什么？想象你有一个装满10亿本书的图书馆，现在需要统计所有书中"大数据"
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
Redis总结傲祥Ax redis 数据库 Redis重点总结
一、Redis是什么？key-value形式的非关系型数据库，基于内存（64位系统默认是物理内存的四分之三），单线程多路io复用，通常当缓存使用，提高查询效率。二、为什么使用Redis？2.1快（内单异高算）内存存储，单线程模型，异步操作，高效的网络通信，优化的算法和数据结构2.2作用2.2.1五大数据类型Redis存储，key-value形式，value的五种数据类型String，List，Se
2025年智能计算与人机交互国际会议（ICHCI 2025）
2025InternationalConferenceonIntelligentComputingandHumanComputerInteraction【一】、大会信息会议简称：ICHCI2025大会地点：中国·温州收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等【二】、会议简介2025年智能计算与人机交互国际会议将在中国温州隆重召开。旨在为全球从事大数据、人
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
机器学习在智能制造业中的应用：质量检测与设备故障预测 Blossom.118 机器学习与人工智能机器学习人工智能深度学习神经网络机器人 sklearn tensorflow
随着工业4.0和智能制造的推进，制造业正经历着一场深刻的数字化转型。智能制造业通过整合物联网（IoT）、大数据和机器学习等先进技术，实现从生产计划到质量控制的全流程优化。机器学习技术在智能制造业中的应用尤为突出，尤其是在质量检测和设备故障预测方面。本文将探讨机器学习在智能制造业中的应用，并分析其带来的机遇和挑战。一、智能制造业中的质量检测（一）传统质量检测方法的局限性传统的质量检测主要依赖于人工检
喜讯！Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖 SeaTunnel SeaTunnel 开源数据同步大数据 etl
近日，在2025上海开源创新菁英荟上，ApacheSeaTunnel凭借信创生态适配与智能化技术突破，荣获「优秀开源项目奖」。这个由中国团队孵化的开源项目，已成为全球数据集成领域的标杆。信创生态：支持20+国产数据库的无缝对接SeaTunnel深度适配华为OpenGauss、阿里OceanBase等20+主流国产数据库，支持CDC（变更数据捕获）与高性能加载。在证券行业信创转型中，SeaTunne
【编辑器】.editorconfig统一代码风格七灵微基本理论编辑器
概念定义：用于统一和规范不同开发者编辑器（IDE）中的代码格式设置的配置文件。作用保证团队成员用不同编辑器（VSCode、WebStorm、SublimeText、Vim等）编辑代码时，保持统一的代码风格和格式避免因编辑器默认设置不同，导致代码风格不一致、无意义的格式差异兼容性：不是所有编辑器都“天生”支持.editorconfig，但现在主流编辑器大多数都能识别，或者通过插件支持。原理.edit
基于 SASL/SCRAM 让 Kafka 实现动态授权认证 zlt2000 Java java springboot kafka
一、说明在大数据处理和分析中ApacheKafka已经成为了一个核心组件。然而在生产环境中部署Kafka时，安全性是一个必须要考虑的重要因素。SASL（简单认证与安全层）和SCRAM（基于密码的认证机制的盐化挑战响应认证机制）提供了一种方法来增强Kafka集群的安全性。本文将从零开始部署ZooKeeper和Kafka并通过配置SASL/SCRAM和ACL（访问控制列表）来增强Kafka的安全性。二
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
springboot+微信小程序接入微信小程序支付（使用证书与JSAPI）小杨HPDay！ spring boot 微信小程序后端
1、maven引入依赖com.github.wechatpay-apiv3wechatpay-apache-httpclient0.4.52、配置文件application.yml#微信支付相关参数wx-pay:#商户id(微信支付商户平台获取)mch-id:xxxxxxxxx#公众号appid(和商户id绑定过后，微信支付商户平台或者微信公众平台获取)appid:xxxxxxxxx#商户证书序列
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
大数据项目-Django基于大数据技术实现的农产品销售系统 IT实战课堂-玲琳娜计算机毕业设计大数据 java spark 爬虫
《[含文档+PPT+源码等]Django基于大数据技术实现的农产品销售系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScrip
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
从开源小白到 Apache Member，我的成长之路开源小秘书云栖社区 Apache 高并发
我们走过的每一步路，都会留下印记，越坚实，越清晰。近日，Apache软件基金会（ASF）官方Blog宣布全球新增40位ApacheMember，张乎兴有幸成为其中一位。目前，全球共有771位ASFMember，中国仅13位。本文将分享作者从0基础的开源小白，一路走来的感触，希望把期间的经历分享出来，让更多的人看到，世界开源舞台的中国力量。只要有持续的付出，总会有所收获。初次参与开源2014年，我加
提名 Apache ShardingSphere Committer，说说方法
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统文章首发在公众号（龙台的技术笔记），之后同步到博客园和个人网站：xiaomage.info就在前几天，收到了ApacheS
Apache Seata ＜ 2.3.0 raft反序列化漏洞墨菲安全 Apache Seata 反序列化漏洞 CVE-2025-32897
【高危】ApacheSeata<2.3.0raft反序列化漏洞漏洞描述ApacheSeata(incubating)是一款开源的分布式事务解决方案，用于在微服务架构下提供高性能和简单易用的分布式事务服务。受影响版本中，SeataServer的Raft模块的CustomDeserializer直接通过Class.forName()加载用户可控的类名，未做安全校验，攻击者可借此利用服务端已有的恶意链实
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round