大数据-玩转数据-Hadoop+Storm与Spark架构方案比较

大数据-玩转数据-Hadoop+Storm与Spark架构方案比较

Hadoop+Storm方案结构图
大数据-玩转数据-Hadoop+Storm与Spark架构方案比较_第1张图片
Spark方案结构图
大数据-玩转数据-Hadoop+Storm与Spark架构方案比较_第2张图片
Hadoop的数据处理工作在硬盘层面,借助HDFS(分布式文件系统),可以将架构下每一台电脑中的硬盘资源聚集起来,之后使用集群管理和调度软件YARN,最后利用Map/Reduce计算框架,就可以在这上面进行计算编程。

由于Hadoop的计算过程放在硬盘,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存来的快。

Spark和Storm两者最大的区别在于实时性:Spark是准实时,先收集一段时间的数据再进行统一处理,好比看网页统计票数每隔几秒刷新一次,而Storm则是完全实时,来一条数据就处理一条。

当然Storm实时处理方式所带来的缺点也是很明显的,不论离线批处理,高延迟批处理还是交互式查询都不如Spark框架。

不同的机制决定了两者架构适用的场景不同,比如炒股,股价的变化不是按秒计算的(Spark实时计算延迟度是秒级),在高频交易中,高频获利与否往往就在1ms(0.001秒)之间,而这恰好就是Storm的实时计算延迟度。

Hadoop,尽管数据处理的速度和难易度都远比不过Spark和Storm。但是由于硬盘断电后数据可以长期保存,因此在处理需要长期存储的数据时还是需要借助Hadoop。

Hadoop由于具有非常好的兼容性,因此非常容易的同Spark和Storm进行结合,从而满足公司的不同需求。

你可能感兴趣的:(java,hadoop,大数据,spark,分布式,mybatis)