Spark学习笔记

MR的缺点:
mr基于数据集的计算,所以面向数据
1.基于运行规则从存储介质中获取(采集)数据,然后计算。最后将结果存储到介质中,主要应用于以一次性计算,不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。

2.MR基于文件存储介质的操作,所以性能非常慢。

Spark 历史
是一种基于内存的快速、通用、可扩展的大数据分析引擎。

2013年6月发布

Spark基于Hadoop1.x 架构思想,采用自己的方式改善Hadoop1.x中的问题

Spark计算基于内存,并且基于Scala语法开发,所以天生适合迭代式计算

分开资源和计算(资源数据仍然存储在hdfs)
Spark学习笔记_第1张图片

重要角色

Spark学习笔记_第2张图片
Spark学习笔记_第3张图片
启动spark

[hadoop@master bin]$ ./spark-shell

Spark学习笔记_第4张图片

你可能感兴趣的:(学习笔记)