Storm精华问答 | 为什么这么多人用Spark而不用Storm?

戳蓝字“CSDN云计算”关注我们哦!


640?wx_fmt=png

Storm被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,以及大数据实时处理解决方案的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。


640?wx_fmt=gif1
















Q:为什么这么多人用Spark而不用Storm?


A:Storm和Spark Streaming都是分布式流处理的开源框架。区别如下:

1、处理延时和吞吐量

Storm处理的是每次传入的一个事件,Spark Streaming是处理某个时间段窗口内的事件流,Storm处理一个事件可以达到秒内的延迟,而Spark Streaming则有几秒钟的延迟。因此,Spark Streaming比Storm的延时更长,但是吞吐量比Storm大。

2、容错、数据保证

Spark Streaming在容错方面提供了对状态计算的更好的支持。在Storm中,任一条单独的记录在经过系统时必须可以被追踪到,所以Storm仅保证所有记录都会至少处理一次,但是从错误中恢复过来时允许出现重复记录。这意味着可变状态有可能被错误的更新两次。

3、支持的API

Storm(由Closure语言开发的)支持JAVA编程,Spark支持Scala编程,也支持java开发。

如果需要秒内的延迟,Storm是一个不错的选择,而且没有数据丢失。如果需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序(Hadoop),特别是在你使用批次(尽管是很小的)时。


640?wx_fmt=gif2

Q:在一台机器上安装Storm客户端,这台客户端会变成一台Supervisor吗? 客户端与Storm集群是什么关系?因为看yaml配置里只配了nimbus,而没有说明哪台是Supervisor,是不是就是默认有这样配置的都是Supervisor呢?


A:yaml是Storm配置,除去配置的nimbus角色,所有机器,只要选择启动supervisor,就可以作为supervisor,安装客户端成功后,角色是根据是否启动角色选项决定的。


640?wx_fmt=gif3

Q:这两天一直在玩storm,在本地运行起来了,可是一旦切换到集群环境,所有的写操作都无法完成,无论是通过socket还是文件读写还是数据库读写,到最后提交到集群后,运行起来都会出现

filename not matched: resources/** 
kill 10936: 没有那个进程

这样的错误,我知道提交到集群环境后由于写操作不在一个节点上了,所以难免会出现问题,那么,Storm最后的数据应该怎样保存下来呢?


A:Storm数据保存有很多种方式,可以保存MySQL,保存HBase都可以;这个需要自己编写bolt来做实现;或者通过相关的插件做实现。


640?wx_fmt=gif4

Q:Storm启动出现错误,错误描述为:org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["192.168.226.13"]. Did you specify a valid list of nimbus hosts for config nimbus.seeds?

这如何解决?


A:出现这种错误有两种情况:

第一种情况:在storm的配置文件中配置一下nimbus.seeds: ["localhost"]。(如果确保这个配置没有问题,可以进行第二种情况的修改了)。

第二种情况:在zookeeper中找到/storm节点,使用rmr将storm节点删除,即可恢复正常。


640?wx_fmt=gif5

Q:Storm 怎么处理重复的tuple?


A:因为Storm 要保证tuple 的可靠处理,当tuple 处理失败或者超时的时候,spout 会fail并重新发送该tuple,那么就会有tuple 重复计算的问题。这个问题是很难解决的,storm也没有提供机制帮助你解决。不过也有一些可行的策略:

(1)不处理,这也算是种策略。因为实时计算通常并不要求很高的精确度,后

续的批处理计算会更正实时计算的误差。

(2)使用第三方集中存储来过滤,比如利用MySQL、MemCached 或者Redis 根据逻辑主键来去重。

(3)使用bloom filter 做过滤,简单高效。


----------------    --------------

小伙伴们冲鸭,后台留言区等着你!

关于Storm,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


----------------    --------------


1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


2.征稿:

投稿邮箱:[email protected];微信号:color_ld。请备注投稿+姓名+公司职位。


推荐阅读

  • Gartner的预言:通向混合IT之旅

  • 崩溃!新浪程序员加班错失 77 万年会大奖

  • 刚刚!华为又被美国盯上了!

  • 阿里“菜鸟”AI?

  • 以太坊升级的拖油瓶,竟只是这几行代码

  • 程序员有话说 | 程序猿在乘地铁的时候都在想什么?

  • 清华北大“世界排名断崖式下跌”?


Storm精华问答 | 为什么这么多人用Spark而不用Storm?_第1张图片点击“阅读原文”,打开 CSDN App 阅读更贴心!


640?wx_fmt=png 喜欢就点击“好看”吧!

你可能感兴趣的:(Storm精华问答 | 为什么这么多人用Spark而不用Storm?)