集群计算——Spark-Spark Core 、Spark Streaming、Spark SQL、MLlib、Spark集群管理器
Spark发源于美国美国加州伯克利分校AMPLab的大数据分析平台,它立足于于内存计算,从多迭代批量处理出发,兼顾数据仓库、流处理和图计算等多种计算范式,是大数据系统邻域的全栈计算平台。Spark当下成为Apache基金会的顶级开源项目。Spark扩展了MapReduce计算模型,并且高效的支持更多的计算模式。由于速度很快,这意味着可以交互式的数据操作(否则每次操作就需要等待数分钟甚至数个小时)。