伪分布式
先检查配置环境,Python版本
Java 6+
Python 2.6.6+
上传、解压安装包
修改配置文件
添加环境变量
新建一个文件mkdir logs,是为了把信息输出到logs文件里
storm - dev-zookeeper >> (输出到)./logs/zk.out 2(标准的错误输出)>&1(定向到标准的输出) &(后台运行)
jps查看进程
启动会耗费一些时间
同样启动nimbus,supervisor和ui
都启动完毕了
要查看端口,8080在运行才表示真正运行了
web界面
打jar包上传到storm里,运行
运行结果
全分布式
全分布式和伪分布式最大的区别就是配置问题
修改storm的配置
修改zk,存放路径(storm.local.dir)
分发
开启zk
上面几张图片就类似于伪分布式
——————————————————————————————————————————————
storm部署文档
一、环境要求
JDK 1.6+
java -version
Python 2.6.6+
python -V
ZooKeeper3.4.5+
storm 0.9.4+
二、单机模式
上传解压
$ tar xf apache-storm-0.9.4.tar.gz
$ cd apache-storm-0.9.4
$ storm安装目录下创建log: mkdir logs
$ ./bin/storm --help
下面分别启动ZooKeeper、Nimbus、UI、supervisor、logviewer
$ ./bin/storm dev-zookeeper >> ./logs/zk.out 2>&1 &
$ ./bin/storm nimbus >> ./logs/nimbus.out 2>&1 &
$ ./bin/storm ui >> ./logs/ui.out 2>&1 &
$ ./bin/storm supervisor >> ./logs/supervisor.out 2>&1 &
$ ./bin/storm logviewer >> ./logs/logviewer.out 2>&1 &
需要等一会儿
$ jps
6966 Jps
6684 logviewer
6680 dev_zookeeper
6681 nimbus
6682 core
6683 supervisor
http://node01:8080
提交任务到Storm集群当中运行:
$ ./bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.4.jar storm.starter.WordCountTopology wordcount
$ ./bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.4.jar storm.starter.WordCountTopology test
三、完全分布式安装部署
各节点分配:
Nimbus Supervisor Zookeeper
node1 ( Nimbus,Zookeeper) 1 1
node2 ( Supervisor,Zookeeper) 1 1
node3 ( Supervisor,Zookeeper) 1 1
node1作为nimbus,
开始配置
$ vim conf/storm.yaml
storm.zookeeper.servers:
- "node1"
- "node2"
- "node3"
storm.local.dir: "/tmp/storm"
nimbus.host: "node1"
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703
在storm目录中创建logs目录
$ mkdir logs
(分发)集群其他服务器
启动ZooKeeper集群
node1上启动Nimbus
$ ./bin/storm nimbus >> ./logs/nimbus.out 2>&1 &
$ tail -f logs/nimbus.log
$ ./bin/storm ui >> ./logs/ui.out 2>&1 &
$ tail -f logs/ui.log
节点node2和node3启动supervisor,按照配置,每启动一个supervisor就有了4个slots
$ ./bin/storm supervisor >> ./logs/supervisor.out 2>&1 &
$ tail -f logs/supervisor.log
(当然node1也可以启动supervisor)
http://node1:8080/
提交任务到Storm集群当中运行:
$ ./bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.4.jar storm.starter.WordCountTopology test
环境变量可以配置也可以不配置
export STORM_HOME=/opt/sxt/storm
export PATH=$PATH:$STORM_HOME/bin
观察关闭一个supervisor后,nimbus的重新调度
再次启动一个新的supervisor后,观察,并rebalance
集群drpc
修改
$ vi conf/storm.yaml
drpc.servers:
- "node06"
分发配置storm.yaml文件给其他节点
启动zk
主节点启动 nimbus,supervisor,drpc
从启动 supervisor
sotrm并发机制
Worker – 进程
- 一个Topology拓扑会包含一个或多个Worker(每个Worker进程只能从属于一个特定的Topology)
- 这些Worker进程会并行跑在集群中不同的服务器上,即一个Topology拓扑其实是由并行运行在Storm集群中多台服务器上的进程所组成
Executor – 线程
- Executor是由Worker进程中生成的一个线程
- 每个Worker进程中会运行拓扑当中的一个或多个Executor线程
- 一个Executor线程中可以执行一个或多个Task任务(默认每个Executor只执行一个Task任务),但是这些Task任务都是对应着同一个组件(Spout、Bolt)。
Task
- 实际执行数据处理的最小单元
- 每个task即为一个Spout或者一个Bolt
Task数量在整个Topology生命周期中保持不变,Executor数量可以变化或手动调整
(默认情况下,Task数量和Executor是相同的,即每个Executor线程中默认运行一个Task任务)
设置Worker进程数
- Config.setNumWorkers(int workers)
设置Executor线程数
- TopologyBuilder.setSpout(String id, IRichSpout spout, Number parallelism_hint)
- TopologyBuilder.setBolt(String id, IRichBolt bolt, Number parallelism_hint)
- :其中, parallelism_hint即为executor线程数
设置Task数量
- ComponentConfigurationDeclarer.setNumTasks(Number val)
例:
Config conf = new Config() ;
conf.setNumWorkers(2);
TopologyBuilder topologyBuilder = new TopologyBuilder();
topologyBuilder.setSpout("spout", new MySpout(), 1);
topologyBuilder.setBolt("green-bolt", new GreenBolt(), 2)
.setNumTasks(4)
.shuffleGrouping("blue-spout);