storm topology生命周期

转述自:Lifecycle of a Storm Topology

本文介绍的storm topology生命周期是基于0.7.1版本的,之后版本可能已发生了一些变化

我们从执行storm jar命令提交topology给nimbus开始,到supervisor启动或停止worker,再到task执行整个过程进行描述,这其中也包括nimbus是如何监控topology的。

关于topology的两点说明:

1. 实际运行中的topology与我们看到的是不同的。运行过程中会有stream和acker bolt加入进来以保证数据处理的可靠性,system-topology函数负责topology的创建

2.system-topology用在a. nimbus创建task时 b.worker route消息时

启动topology


storm jar命令会设置storm.jar环境变量在StormSubmitter上传jar时使用,�然后带着命令行参数执行指定的class。StormSubmitter.submitTopology按以下步骤执行:

    *  upload未上传过的jar文件

    * 使用nimbus的thrift接口实现uploading jars

    * uploadChunk每次上传15kb的数据

    * 上传完毕时调用finishFileUpload

    * topology的配置用json格式序列化


nimbus接收topology提交的请求,并对每个topology的配置进行规范格式化,完成topology一些静态属性的设置:

    * jars和configs存放在本地文件系统中,具体为:{nimbus local dir}/stormdist/{topology id}

    * setup-storm-static 将task--->component的映射写入zookeeper

    * setup-heartbeats在zk中创建一个目录来存放task心跳


nimbus调用mk-assignment给各个节点机分配任务,使用到以下信息:

    * master-code-dir:  supervisors用来下载jars/configs

    * task->node+port: 任务id到worker的映射关系,worker由(node,port)对来标识

    * node->host: node id到hostname的映射关系。workers用这个映射关系来与其他worker进行通信,node id用来标识supervisors,因为多个supervisors可以运行在同一台机器上

    * task->start-time-secs: 任务启动的时间戳,nimbus用来监控topology,launch time out需要设置的比心跳超时时间大一些,因为启动时有很多初始任务要做,由nimbus.task.launch.secs设定

任务分配完处于deactivated模式,start-storm将相关数据写到zk之后进入active模式spouts开始emit tuples


supervisor默默的做两件事:

    * 调用synchronize-supervisor,zk任务分配变化时就会执行,另外每10s也会定时执行,执行时下载新的topology jars,将node要执行的任务写到本地文件系统,其实是一个映射关系 port->localAssignment, LocalAssignment包含一个topo id还有task ids

    * 调用sync-processes,  读取第一件事写到本地文件的内容并与运行的topology对比以决定启停worker

mk-worker函数用来启动worker

    * worker之间互连并启动一个线程监控变化,如果worker任务变更会与启停worker重连

    * 监控topology是否active并将这个状态赋给storm-active-atom变量,task根据这个变量决定是否调用spouts的nextTuple

    * worker启动线程来执行具体的tasks

mk-task函数用来启动task

    * task启动一个routing函数,接收stream输出tuple返回task ids(用来发送tuple)

    * task执行spout和bolt业务逻辑


Topology监控

nimbus对topology的整个生命周期进行监控

    * 定时线程执行日常任务的检查

    * nimbus按一个有限状态机转动,包含:active\inactive\killed\rebalancing五个状态

    * nimbus.monitor.freq.secs设定检测周期,调用reassign-topology触发monitor事件完成

    * reassign-topology调用mk-assignments来执行topology的更新,更新时会启停workers


杀掉Topology

storm kill调用nimbus thrift接口完成这个任务,可以用-w 指定remove topology的timeout,

也给workers时机来处理完正在执行的指令。kill命令是fault-tolerant的,当nimbus恢复时会remove killed状态的topology,之后删除zk中该topology的信息和心跳目录\jars\configs,这个由单独的线程do-cleanup 完成

你可能感兴趣的:(storm topology生命周期)