Spark学习笔记(一)

一、什么是Spark?

Spark是一个针对大规模数据处理的快速通用引擎,类似于MapReduce,都是进行数据的处理。

二、Spark的特点

1.基于Scala语言开发、Spark基于内存的计算,运算速度快、所以从运算速度来将要比MapReduce快。
2.易用:支持多种语言
3.通用:Spark Core 、Spark SQL、Spark Streaming(流式计算)
4.兼容性好:完全兼容Hadoop

Spark体系结构

Spark体系结构它是一种主从结构,主节点:Master , 从节点:Worker
,如果要搭建一个Spark全分布环境,至少需要3台机器,因为主节点需要1台,从节点至少2台机器。
Spark体系结构流程图:
Spark学习笔记(一)_第1张图片
从上图可以看出客户端通过SparkContext将任务提交给Master,Master会将任务分配给Worker去运行Spark任务,这个整体的流程就是Spark的主从结构。

你可能感兴趣的:(大数据)