Storm 折腾杂记

Date: Nov 17-24, 2017

1. 目的

积累Storm为主的流式大数据处理平台对实时数据处理的相关技术
积累快捷的Storm部署、开发方式，例如Python和Java。

2. 阅读资料

Apache Storm官网Tutorial
阿里巴巴JStorm文档
intsmaze's blog
Java 基础 Serializable 的使用
Java 高级 Serializable 序列化的源码分析
ITindex Storm 系列

3. 阅读笔记

3.1 Apache Storm官网

3.1.1 Storm主要结构概览

Storm主要结构

如上图所示，Storm是一个流数据处理平台。它与Hadoop相近，采用Map-Reduce的计算框架，区别在于Hadoop的worker在完成工作后被释放，而Storm的worker在完成工作后进入等待状态——等待“上级”分配下一个任务。

Storm的本质是定义一个计算的过程，类似于设计中的数据流图，即先定义数据处理的流程，再分模块实现数据处理的细节，结果由末端的节点返回或输出。

Storm的核心是Clojure编写、提供Java开发接口，核心离工业解主流编程语言(Java、C/C++)相对遥远，阿里巴巴的工程师团队用Java重写了Storm的核心，即为JStorm。

3.2 阿里巴巴JStorm

3.2.1 JStorm定位

JStorm 是一个分布式实时计算引擎。

JStorm 是一个类似Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务递交给JStorm系统，JStorm将这个任务跑起来，并且按7 * 24小时运行起来，一旦中间一个Worker 发生意外故障，调度器立即分配一个新的Worker替换这个失效的Worker。

因此，从应用的角度，JStorm应用是一种遵守某种编程规范的分布式应用。从系统角度， JStorm是一套类似MapReduce的调度系统。从数据的角度，JStorm是一套基于流水线的消息处理机制。

	JStorm	Hadoop
角色	Nimubs	JobTracker
	Supervisor	TaskTracker
	Worker	Child
应用名称	Topology	Job
编程接口	Spout/Bolt	Mapper/Reducer
“设计模式”	资本主义	恐怖主义

3.2.2 优点

在Storm和JStorm出现以前，市面上出现很多实时计算引擎，但自Storm和JStorm出现后，基本上可以说一统江湖：究其优点:

开发非常迅速：接口简单，容易上手，只要遵守Topology、Spout和Bolt的编程规范即可开发出一个扩展性极好的应用，底层RPC、Worker之间冗余，数据分流之类的动作完全不用考虑
扩展性极好：当一级处理单元速度，直接配置一下并发数，即可线性扩展性能
健壮强：当Worker失效或机器出现故障时， 自动分配新的Worker替换失效Worker
数据准确性：可以采用Ack机制，保证数据不丢失。如果对精度有更多一步要求，采用事务机制，保证数据准确。
实时性高： JStorm 的设计偏向单行记录，因此，在时延较同类产品更低

3.2.3 应用场景

JStorm处理数据的方式是基于消息的流水线处理，因此特别适合无状态计算，也就是计算单元的依赖的数据全部在接受的消息中可以找到，并且最好一个数据流不依赖另外一个数据流。

因此，常常用于:

日志分析，从日志中分析出特定的数据，并将分析的结果存入外部存储器如数据库。目前，主流日志分析技术就使用JStorm或Storm
管道系统，将一个数据从一个系统传输到另外一个系统，比如将数据库同步到Hadoop
消息转化器，将接受到的消息按照某种格式进行转化，存储到另外一个系统如消息中间件
统计分析器，从日志或消息中，提炼出某个字段，然后做count或sum计算，最后将统计值存入外部存储器。中间处理过程可能更复杂。
实时推荐系统，将推荐算法运行在jstorm中，达到秒级的推荐效果

3.2.4 基本概念

[站外图片上传中...(image-96ea41-1511406796108)]

Spout (中文意为水龙头)即数据的来源、出水口，来源可以是Kafka、DB、HBase、HDFS等。
Bolt(中文意为插销)即数据流向过程中的关键点、数据流处理点。
Topology(中文意为拓扑结构)即上述图中所示的数据处理流程形成的数据流网络结构。

3.2.5 组件接口

Spout组件接口：nextTuple 拉取下一条消息，执行时JStorm框架回不停调用该接口从数据源拉取数据发往Bolt。
Bolt组件接口：execute 执行处理逻辑

3.2.6 调度和执行

对于一个Topology，JStorm调度一个/多个Worker (每个Worker对应操作系统的进程)，分布到集群的一台或多台机器上并行执行。

在一个Worker (进程) 中，分为多个Task (线程)，每个线程对应于Spout/Bolt的实现。

工作流程：

根据业务设计Topology

根据业务流程实现Spout的 nextTuple 接口中的数据输入

根据业务细节实现Bolt的 execute 接口中的处理逻辑

提交Topology开始执行

3.2.6.1 提交Topology时的参数

总Worker数目

if #worker <= 10 then
    _topology_master 以Task形式存在，不独占Worker
else
    _topology_master 以Task形式存在，独占Worker
end

每个component的并行度

并行度(parallelism) 代表有多少个Task线程来执行这个Spout/Bolt。

同一个Component中的Task id一定是连续的。

每个Component之间的关系

声明Spout和Bolt之间的对应关系，JStorm使用均匀调度算法，奇偶不同数目的Spout/Bolt会存在某个进程只有Spout或只有Bolt的情形。若topology运行过程中挂掉，JStorm会不断尝试重启进程。

3.2.7 消息通信

Spout发消息

JStorm 计算消息目标 Task Id列表

   if Task_id 在本进程 then
     直接将消息放入目标Task执行队列
   else
     netty跨进程发送至目标Task中
   end

3.2.8 实时计算结果输出

JStorm的Spout或Bolt中会有一个定时往外部存储写计算结果的逻辑，将数据按照业务需求被实时或近似实时地输出。

3.2.9 小结

JStorm是阿里巴巴平台的产品，相对来说适用于大量数据集群的情况，目前我现有的资源很难使用。因此，选择Python系的streamparser进行阅读。

3.3 折腾Storm平台部署

3.3.1 部署storm平台

下载[Java 8/9][1]、maven、zookeeper、storm、[lein][2]的release并依次安装。(以上库除lein外为storm运行所必须，由于服务器在国外，下载时间较长)

将 JDK、maven、zookeeper、storm 等拷贝至/opt 目录下，在~/.bash_profile中将相应目录加入PATH:

export JAVA_HOME="/opt/jdk8"
export MAVEN_HOME="/opt/maven"
export ZOO_KEEPER_HOME="/opt/zookeeper"
export STORM_HOME="/opt/storm"
PATH=$STORM_HOME/bin:$ZOO_KEEPER_HOME/bin:$MAVEN_HOME/bin:JAVA_HOME/bin:$PATH
export PATH

- 进入/opt/zookeeper/conf目录，编辑zoo.cfg配置文件，如下：

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/var/zookeeper # 注意需要对该目录有写权限
clientPort=2181

进入/opt/storm/conf目录，编辑storm.yaml配置文件，如下：

storm.zookeeper.servers: # 注意此处有空格
  - "10.211.55.37"  # 填入配置机器的IP，若为集群则在下一行以同样格式列出
  # - "other server ip"
  
# 此处为Nimbus服务器地址，单机运行时无效，系统自动使用本地hostname，[原因待求证]
# nimbus.seeds:["host1","host2","host3"] 

storm.local.dir: "/var/storm" # 需要保证该目录有写权限，此处使用root账户所以不考虑。

# 设置supervisor slots
supervisor.slots.ports: # 注意此处有空格
  - 6700
  - 6701
  - 6702
  - 6702
# 此处在storm 1.1.1版的配置模板文件中未提及，但配置后在集群中能看到，[原因待求证]

启动zookeeper集群
```
bin/zkServer.sh start
```

在[Master服务器][3]上启动storm nimbus服务
```
bin/storm nimbus >> /dev/null &
```
在[Worker服务器][3]上启动storm supervisor服务
```
bin/storm supervisor >> /dev/null &
```
在[Master服务器][3]上启动storm UI工具
```
bin/storm ui &
```
在[Master服务器][3]上采用jps查看服务的启动情况，若显示config_value则表示服务正在初始化；若显示nimbus、supervisor、core、jps、QuorumPeerMain则说明初始化完毕，打开浏览器输入http://server_host:8080即可进入Storm UI查看相关信息。

[1] Java8/9 推荐安装Oracle官网下载的完整版JDK，因为后续的 lein 需要完整的JDK。解压JDK之后配置系统变量即可。(本次Linux机器采用 Java 8)

[2] lein全称为leiningen，是自动化管理Clojure脚本的工具，类似于Cargo。lein目前的脚本下载会出现证书不匹配的问题，解决方案为export HTTP_CLIENT="wget --no-check-certificate -O"。而且，上述设置后，下载release依旧很慢、需要代理，可以直接wget下载对应的release，放到~/.lein/self-installs/leiningen-2.5.3-standalone.jar即可，参考这里。lein是一个可执行脚本，需要放到/usr/bin或者/usr/local/bin下面，然后命令行中运行./lein和lein repl完成安装。

[3] 本地测试则仅仅在本机即可

3.3.2 案例工程 WordCount

主要参照《Get Started with Storm》一书，网上有中文版，此处参照为英文原版。

3.3.2.1 前提准备

maven编译工具，建立pom.xml来声明该工程的编译结构，包括注明编译需要的maven版本、编译所需的storm依赖库在线地址、以及依赖的storm版本。
```
  
        
        
            clojars.org
            http://clojars.org/repo
        
  
```

3.3.2.2 编写对应代码文件

1. 建立文件结构

建立对应的文件结构src/main/java/{spouts,bolts}、/src/main/resources等，其中resources文件夹要存放相应的资源文件。

2. 编写`spouts`实例

package spouts;
import ....;

public class WordReader implements IRichSpout {
    private .....;
     public void ack(Object msgId) {...;}
     public void fail(Object msgId) {...;}
     public void nextTuple() {...;}
  // first method called in ANY spout    
  public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {...;}
     public void close() {}
     public void declareOutputFields(OutputFieldsDeclarer declarer) {...;}
}

3. 编写`bolts`实例

package bolts;
import ...;

public class WordNormalizer implements IRichBolt {
    private ...;
     public void cleanup(){}
     public void execute(Tuple input) {...;}
     public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {...;}
     public void declareOutputFields(OutputFieldsDeclarer declarer) {...;}
}

4. 编写`topology`结构

import ...;

public class TopologyMain {
    public static void main(String[] args) throws InterruptedException {
        // Topology definition
         TopologyBuilder builder = new TopologyBuilder();
         builder.setSpout();
         builder.setBolt().shuffleGrouping();
         builder.setBolt().fieldGrouping();
         // Configuration
         Config conf = new Config();
         conf.put("xxx", args[0]);
         conf.setDebug(false);
         // Topology run
         conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);
         LocalCluster cluster = new LocalCluster();
         cluster.submitTopology("xxxx",conf, builder.createTopology());
         Thread.sleep(1000); // sleep to reduce server load
         cluster.shutdown();
    }
}

5. 使用`mvm`带好相应参数运行

mvn clean install # maven会自动下载相关的包
cd target # 注意目录下有 `pom.xml` 中标识的输出的jar包
storm jar output-jar.jar path.to.your.topology # LocalCluster 执行，然后关闭
storm jar output-jar.jar path.to.your.topology name-of-storm # 提交jar至storm集群，循环执行，可在UI中查看

3.4 运行Storm例子程序的问题记录

3.4.1 存在问题以及解答记录

1. 程序中的`collector`是指的什么？

collector是用来追踪处理逻辑上每个emit的数据是否在下游bolt中被成功处理。collector是与storm通信的工具，反馈每个任务的处理情况。

2. 程序中`collector`最后`emit`的`Value(…)`是什么结构？

官方文档解释：A convenience class for making tuple values using new Values("field1", 2, 3) syntax.

Value是构建Tuple的一个元组类，该类实现了Serializable, Cloneable, Iterable

名称	解释
Nimbus	负责资源分配和任务调度，Nimbus分配任务到Zookeeper指定目录。
Supervisor	去Zookeeper指定目录接受Nimbusf分配的任务，启停自己的Worker进程。
Worker	运行具体处理组件逻辑的进程(process)，Worker的任务分为Spout和Bolt两种。
Task	Worker启动相应的物理线程(Executor)，Worker执行的每一个Spout/Bolt线程成为一个Task，0.8版本后Spout/Bolt的Task可能共享一个Executor。
Topology	拓扑，Storm集群，即定义的数据流处理的DAG。
Spout	Storm集群的数据源
Bolt	Storm任务的处理逻辑单元，在集群多个机器上并发执行。
Tuple	消息元组，Spout、Bolt用来与Storm集群通信、反馈任务处理成功与否的载体。恒定为20Bit。
Stream groupings	数据流的分组策略，分7种，常见为`shuffleGrouping()`、`fieldsGrouping()`。
Executor	Worker启动的实际物理线程，一般一个Executor执行一个Task，但也能执行多个Task。
Configuration	Topology的配置

Storm 折腾杂记

1. 目的

2. 阅读资料

3. 阅读笔记

3.1 Apache Storm官网

3.1.1 Storm主要结构概览

3.2 阿里巴巴JStorm

3.2.1 JStorm定位

3.2.2 优点

3.2.3 应用场景

3.2.4 基本概念

3.2.5 组件接口

3.2.6 调度和执行

3.2.6.1 提交Topology时的参数

总Worker数目

每个component的并行度

每个Component之间的关系

3.2.7 消息通信

3.2.8 实时计算结果输出

3.2.9 小结

3.3 折腾Storm平台部署

3.3.1 部署storm平台

3.3.2 案例工程 WordCount

3.3.2.1 前提准备

3.3.2.2 编写对应代码文件

1. 建立文件结构

2. 编写spouts实例

3. 编写bolts实例

4. 编写topology结构

5. 使用mvm带好相应参数运行

3.4 运行Storm例子程序的问题记录

3.4.1 存在问题以及解答记录

1. 程序中的collector是指的什么？

2. 程序中collector最后emit的Value(…)是什么结构？

3. Storm中的Ack/Fail机制中对fail情形的处理？

4. Storm中的Ack原理

5. Fail注意点小结

6. Anchoring 锚定概念

7. Storm组件与编程时遇到的概念

8. 序列化与反序列化

9. declareOutputFields() 函数的具体作用

3.5 Windows 平台部署本地测试环境的注意事项

3.5.1 所需安装包

3.5.2 环境变量配置

3.5.3 配置文件设定

3.5.6 启动集群

你可能感兴趣的:(Storm 折腾杂记)

2. 编写`spouts`实例

3. 编写`bolts`实例

4. 编写`topology`结构

5. 使用`mvm`带好相应参数运行

1. 程序中的`collector`是指的什么？

2. 程序中`collector`最后`emit`的`Value(…)`是什么结构？

3. Storm中的Ack/Fail机制中对`fail`情形的处理？

6. `Anchoring` 锚定概念

9. `declareOutputFields()` 函数的具体作用