大数据-计算引擎-Spark:概述【基于内存的大数据分析引擎】【核心模块:Spark Core、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX】

一、Spark概述

大数据-计算引擎-Spark:概述【基于内存的大数据分析引擎】【核心模块:Spark Core、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX】_第1张图片
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

1、Spark v.s. MapReduce

在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。

1.1 从时间节点上对比

➢ Hadoop

  • 2006 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发
  • 2008 年 1 月,Hadoop 成为 Apache 顶级项目
  • 2011 年 1.0 正式发布
  • 2012 年 3 月稳定版发布
  • 2013 年 10 月发布 2.X (Yarn)版本

➢ Spark

  • 2009 年,Spark 诞生于伯克利大学的 AMPLab 实验室
  • 2010 年,伯克利大学正式开源了 Spark 项目
  • 2013 年 6 月,Spark 成为了 Apache 基金会下的项目
  • 2014 年 2 月,Spark 以飞快的速度成为了 Apache

你可能感兴趣的:(大数据,big,data,spark,hadoop)