鲁班学院java架构师成长路线

相信分布式计算框架已经也深深烙印在每个程序员的脑海里面,今天就由小编带领大家重新认识分布式计算框架,以下是我收集的SPARK分布式计算框架、以及框架的介绍。

一、Spark分布式计算框架执行任务介绍:
在Hadoop框架出现的时候,Hadoop也提出了基于数据流的实现是在未来的发展中,结合当今研究方向,分布式框架的发展方向会在以下几种展开:

1) 分布式计算框架会在架构上进行更近一步的优化,在架构上更加清晰,Hadoop在第二代推出分布式计算框架YARN则是对Hadoop的架构进行优化。通过良好的架构设计让框架更加容易维护,计算过程更加清晰;

2) 分布式计算框架的基础架构也会一定程度上展开研究,用来支撑上层的分布式计算过框架。在大数据计算中,分布在不同机器上的数据的传输花费较大的代价,所以基础架构的发展也会促进分布式计算框架性能上的提升;

二、框架介绍:
Spark[8]是最近非常流行、使用Scala编写、基于RDD[9](Resilient Distributed Datasets)弹性分布式内存数据集的分布式计算框架。该框架解决了在Hadoop计算框架中,在执行迭代性质的任务效率比较低的弊端,除此之外该框架还提供了任务执行期间的任务的交互查询,增加了任务的可控性。相比Hadoop,Spark除了提供计算的方法调用之外,还提供了更多的操作。

本文对当前互联网中现有的比较流行的分布式计算框架进行了系统的回顾,希望可以会让大家以后的分布式计算框架,如果你的学习是个“付出多,收获少”的过程,那可能是因为你方向走错了,或者方向走错了,这就需要我们对自身学习情况有一个详细的规划了,只有方向走对了,那学习才有可能做到事半功倍,减少不必要的低品质努力。