Spark学习

1.Spark是什么
  • 是用于分布式内存计算的统一分析引擎
  • RDD: 弹性分布式数据集,使得程序员能够在大规模集群中做内存运算
  • 中间数据存储在内存中,从而提高了运行速度(Hadoop要进行多次磁盘和内存的读写)

Spark学习_第1张图片

2.Hadoop VS Spark

Spark学习_第2张图片
但Spark并不是完全替代Hadoop:

  • 计算层面上,虽然Spark比MR有很大的性能优势,但至今仍有很多计算工具基于MR框架,比如成熟的Hive
  • Spark仅做计算,而Hadoop生态圈不仅有计算(MR) 也有存储(HDFS)资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构
  • Spark仅仅替代了Hadoop的MapReduce
  • Spark其实也是批处理,他的流计算SparkStreaming其实就是微批做的
3.Spark的四大特点

1).速度快:

  • Spark处理数据时,可以将中间处理结果数据存储到内存中
  • Spark提供了非常丰富的算子(API),可以做到复杂任务在一个Spark程序中完成,而Hadoop需要串行多个MR

2).易于使用

  • 编程容易

3).通用性强
Spark学习_第3张图片
4).支持多种运行方式

  • 包括在Hadoop、Mesos上,也支持Standalone的独立运行模式,同时可以运行在云Kubernetes上
4.Spark的架构角色

你可能感兴趣的:(spark,学习,hadoop)