Storm

1.storm是什么?
storm是一个免费的开源分布式实时计算系统。
2.storm用于那些场景?
信息流处理
连续计算
要求纯实时的,达到毫秒级
3.storm架构
master-slaver架构
主节点:Nimbus
负责分发用户代码,指派给具体的Supervisor节点上的Worker节点,去运行Topology对应的组件(Spout/Bolt)的Task。
从节点:Supervisor
负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。
4.组件
Worker
运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。
Task
worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后,task不再与物理线程对应,不同spout/bolt的task可能会共享一个物理线程,该线程称为executor。
ZooKeeper
用来协调Nimbus和Supervisor,如果Supervisor因故障出现问题而无法运行Topology,Nimbus会第一时间感知到,并重新分配Topology到其它可用的Supervisor上运行。
5. Storm接口

角色:
         主节点       Nimbus
         从节点    Supervisor
         工作进程   Worker

应用程序 :  Topology

计算模型 :Spout / Bolt

6.分组策略
Storm从数据源spout到bolt时,可以选择分组策略,实现对spout发出的数据的分发。对多个并行度的时候有用。
七中分组情况:

(1)Shuffle Grouping : 随机分组,Task中的数据随机分配,可以保证同一级Blot上的每个Task处理的Tuple数量一致。
(2)None Grouping : 不分组,你不关心如何在Task中做stream的分发,目前等同于shuffle.
(3)Local or shuffle Grouping : 本地分组,如果目标Blot的一个或者多个Task和当前产生数据的Task在同一个Worker进程中,那么就走内部的线程间通信,将Tuple直接发送给当前Worker进程中的目的地Task。否则同shuffle分组。
(4)Direct grouping :直接分组,指定分组,产生数据的Spout/Bolt明确决定这个Tuple被Blot的那些task消费。使用Direct分组需要指定emitDirect来实现。
(5)Fields Grouping :按字段分组,按数据中field值进行分组;相同field值的Tuple被发送到相同的Task。
(6)All grouping :广播分组,广播发送,对于每一个tuple将会复制到每一个bolt中处理。
(7)Global grouping :全局分组,整个stream会选择一个task作为分发的目的地,通常是具有最新ID的Task。

7.Spout/Bolt编程

    https://www.cnblogs.com/xuwujing/p/8584684.html

Spout : Spout继承BaseRichSpout类
Bolt : Bolt继承BaseRichBolt类

你可能感兴趣的:(Storm)