分布式计算框架与分布式文件系统

分布式计算框架与分布式文件系统是两个概念。分布式计算框架是用于处理大数据的一种模型,而分布式文件系统可以用于大数据的存储。

一、分布式计算框架

对于如何处理大数据,计算机科学界有两大方向:一是集中式计算,二是分布式计算。

过去,分布式计算理论比较复杂,技术实现比较困难,因此集中式计算一直是主流解决方案。但2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架,GFS(Google File System)是分布式文件系统,BigTable是基于Google File System的数据存储系统,这三大组件组成了Google的分布式计算模型。Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。

后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。

目前三大分布式计算框架:
1)Hadoop
2)Spark
3)Storm

以上三种框架的分别,可以见拙作:《大数据基础》

二、分布式文件系统

顾名思义,分布式文件系统就是文件系统咯,一个个文件。当然它是分布式的,读取机制,写入机制,同步机制,都有讲究。有些处理大数据的数据库,如HBase,就存放于分布式文件系统HDFS之上。采用不同的分布式文件系统决定了分布式数据存储系统的运行效率、可伸缩性、容错能力及安全性等。

目前,google的GFS和Hadoop的HDFS是最流行的两种分布式文件系统。当然,HDFS也是根据google的那三篇论文上的原理搞出来的。

你可能感兴趣的:(系统架构)