TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("spout3", new EmitPaymentSpot(), spout_Parallelism_hint).setNumTasks(numtasks);
builder.setBolt("bolt", new SplitComputeSum(), bolt_hint).setNumTasks(numtasks).
shuffleGrouping("spout3");
怎么改?
TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("spout3", new EmitPaymentSpot(), spout_Parallelism_hint).setNumTasks(numtasks);
builder.setBolt("bolt", new SplitComputeSum(), bolt_hint).setNumTasks(numtasks).
shuffleGrouping("spout3",RaceConfig.MqTmallTradeTopic).
shuffleGrouping("spout3",RaceConfig.MqTaobaoTradeTopic);
关于序列化
所有spout,bolt,configuration, 发送的消息(Tuple)都必须实现Serializable, 否则就会出现序列化错误.
如果是spout或bolt的成员变量没有实现Serializable时,但又必须使用时, 可以对该变量申明时,增加transient 修饰符, 然后在open或prepare时,进行实例化
几点建议
Storm中Spout用于读取并向计算拓扑中发送数据源,最近在调试一个topology时遇到了系统qps低,处理速度达不到要求的问题,经过排查后发现是由于对Spout的使用模式不当导致的多线程同步等待。这里罗列几点个人觉得编写Spout代码时需要特别注意的地方:
1. 最常用的模式是使用一个线程安全的queue,如BlockingQueue,spout主线程从queue中读取数据;另外的一个或多个线程负责从数据源(如各种消息中间件、db等)读取数据并放入queue中。
2. 如果不关心数据是否丢失(例如数据统计分析的典型场景),不要启用ack机制。
3. Spout的nextTuple和ack方法是在同一个线程中被执行的(可能最初觉得这块不会成为瓶颈,为了简单实现起见就单线程了,jstorm应该是已经改成了多线程),因此不能在nextTuple或ack方法里block住当前线程,这样将直接影响spout的处理速度,很关键。
4. Spout的nextTuple发送数据时,不能阻塞当前线程(见上一条),比如从queue中取数据时,使用poll接口而不是take,且poll方法尽量不要传参阻塞固定时间,如果queue中没有数据则直接返回;如果有多条待发送的数据,则一次调用nextTuple时遍历全部发出去。
5. Spout从0.8.1之后在调用nextTuple方法时,如果没有emit tuple,那么默认需要休眠1ms,这个具体的策略是可配置的,因此可以根据自己的具体场景,进行设置,以达到合理利用cpu资源。
sbin/tair_cfg_svr -f etc/configserver.conf
如下,quota是该区域分配的大小
datasize是用户存入该区域的数据的大小,只要datasize小于等于quota,那么用户就还能存储数据另外,删除一个namespace的内容后,使用stat -k 命令,并不能立即看到改变#delall 2 all,删除只是打标,保证用户读不到,真正的清理时间在配置文件里指定,一般都是凌晨
那么你7月3日delall 2 all,当时是看不到变化的,当你在7月4日再去看的话就是
即使你运行完delall 2 all后就关闭了tair,下次重启的时候,它就会更新各种操作就包括清理空间
退出tair
quit
https://github.com/alibaba/jstorm/wiki/%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98
http://www.cnblogs.com/panfeng412/p/storm-spout-common-issues.html