spark的特点,spark和mapreduce的比较

1.spark的特点

(1)运行速度快,如果数据由磁盘读取,速度是hadoop mapreduce的10倍以上,如果数据从内存读取,速度是hadoop mapreduce的100倍以上。主要原因是因为基于内存计算和引入DAG执行引擎。

(2)易用性好,spark不仅支持scala编程呢个,还支持java和python编写。

(3)通用性好

(4)随处运行

2.spark和mapreduce的比较

(1)spark把中间数据放在内存中,迭代运算效率高。mapreduce中的计算结果保存在磁盘上,而spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。

(2)spark容错性高。引进了RDD,如果数据集一部分丢失,则可以重建。另外,在RDD计算时可以通过checkpoint来实现容错。

(3)spark更加通用。不像hadoop只提供map和reduce两种操作。spark提供的数据集操作类型有很多种,大致分为转换操作和行动操作。转换操作包括map,filter,flatmap,sample,groupbykey,reducebykey,union,join,cogroup,mapvalues,sort和partionby等多种操作类型,行动操作包括collect,reduce,lookup和save等操作类型。另外,各个处理节点之间的通信模型不再像Hadoop只有shuffle一种模式,用户可以命名,物化,控制中间结果的存储,分区等。

你可能感兴趣的:(spark的特点,spark和mapreduce的比较)