Hadoop和Saprk的异同

解决问题的层面不一样

首先Hadoop和Spark两者都是大数据框架,而Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,除了HDFS分布式文件系统以外,还提供MapReduce的数据处理功能;而Spark,则是一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

数据处理速度和适用场景

就数据处理速度而言,Spark因为其处理数据的方式不一样,会比MapReduce快上很多。
Hadoop中的MapReduce是分步对数据进行处理的,处理的数据和结果大部分情况下是静态的,批处理方式;
而Spark,它会在内存中以接近“实时”的时间完成所有的数据分析,可以适用于对流数据进行分析和多重数据处理的场景,如来自于工厂的传感器收集回来的数据流式处理,又或者是大部分机器学习算法的多重数据处理。

灾难恢复

两者都可以完成灾难恢复,Hadoop将每次处理后的数据都写入到HDFS系统磁盘上,对数据保存有多个副本,可实现灾难恢复;Spark的数据对象存储在数据集群中的弹性分布式数据集(RDD: Resilient Distributed Dataset)中,数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能。

你可能感兴趣的:(【大数据】➣,Hadoop)