分布式计算入门

分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

分布式计算是一门计算机科学,主要研究分布式系统。一个分布式系统包括若干通过网络互联的计算机。这些计算机互相配合以完成一个共同的目标(我们将这个共同的目标称为“项目”)。具体的过程是:将需要进行大量计算的项目数据分割成小块,由多台计算机分别计算,再上传运算结果后统一合并得出数据结论。在分布式系统上运行的计算机程序称为分布式计算程序;分布式编程就是编写上述程序的过程。

分布式计算项目的种类非常多,相当一部分项目的参加和使用方式各异,幸运的是从2004年开始,由SETI@home项目组推出的BOINC平台得到了日益广泛的使用,大部分在其后产生的新项目和少部分先其产生的老项目都建立在或迁移到了BOINC平台上,这就大大减轻了志愿者参加多个分布式计算项目的难度。

任务单元,又称为任务包,对应的英文单词为Workunit,可简称WU,是分布式计算项目的客户端分配到的最小单元的计算任务。客户端在连接到项目服务器后,可下载一个或多个新任务单元,计算完成后,再将这些任务单元的计算结果上传给项目服务器,并根据情况决定是否同时取回更多新的任务单元。

本章针对大数据分步式计算中的相关技术进行讲解,核心讲解流式计算和内存计算技术,阐述阿里云在处理这些功能时所使用的技术,并对阿里在这里的技术优化方式进行了详细的讲解

工作方式

项目方把大的计算任务分割成小块(任务单元),通过互联网分发给志愿者进行计算,志愿者计算完成后再通过网络把各自的计算结果返回到项目方的服务器。

折叠作用

可以帮助一些缺乏研究资金的、公益性质的科学研究,加速人类的科学进程。有效利用全世界联网机器的闲置处理能力,向大众普及科学意识。

折叠局限性

如上分布式计算的工作方式,该类科学研究必须是可能通过计算来解决全部或部分问题,而且其计算过程必须比较容易被分割成个人计算机的处理能力能够接受的大小,因此,分布式计算并不适用于所有的科学研究。

教学链接:http://click.aliyun.com/m/50520/

你可能感兴趣的:(分布式计算入门)