Hadoop&spark

简介

hadoop 和 spark是两种大数据框架。hadoop提供了分布式文件系统hdfs进行数据存储和管理,在这个基础上,提供了mapreduce的数据处理框架进行数据处理;spark是一种专门用来分析处理分布式存储的大数据的工具,不提供数据存储功能,它可以运行在hdfs上或者其它的分布式文件系统上。在数据处理的能力上,spark的数据处理速度比mapreduce快的多,前者是一种流式数据处理工具,具有实时/准实时的数据处理能力,后者通常用于批量的处理分布式存储的大数据。

spark环境搭建资料http://blog.csdn.net/aaronhadoop/article/details/37757639

hadoop环境搭建

http://my.oschina.net/jackieyeah/blog/657750

你可能感兴趣的:(Hadoop&spark)