【大数据】分布式计算

分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

关于分布式计算更多详细内容:分布式计算入门

(课程针对大数据分步式计算中的相关技术进行讲解,核心讲解流式计算和内存计算技术,阐述阿里云在处理这些功能时所使用的技术,并对阿里在这里的技术优化方式进行了详细的讲解。帮助学员学习分步式计算相关技术,适合大数据开发者、爱好者学习)

【大数据】分布式计算_第1张图片

分布式计算定义 

分布式计算是一门计算机科学,主要研究对象是分布式系统。

分布式系统是由若干通过网络互联的计算机组成的软硬件系统[1],且这些计算机互相配合以完成一个共同的目标(往往这个共同的目标称为“项目”);
分布式计算指在分布式系统上执行的计算。分布式计算是将一个大型计算任务分成很多部分分别交给其他的计算机处理,并将所有的计算结果合并为原问题的解决方案。
注意: 这里与并行计算不同的是,并行计算是使用多个处理器并行执行单个计算。并行运算与分布式计算的区别是:分布式计算强调的是任务的分布执行,而并行计算强调的是任务的并发执行 

优缺点

  • 优点:超大规模 ,虚拟化,高可靠性 ,通用性 ,高可伸缩性,按需服务,极其廉价,容错性
  • 弱点:多点故障(一台或多台计算机的故障,或一条或多条网络链路的故障,都会导致分布式系统出现问题);安全性(分布式系统为非授权用户的攻击提供了更多机会)

意义格局

  • 分布式计算与人类

由于现代人类各个课题学科繁多,涉及面广,而分类又细。而当今的每个学科似乎都需要进行大量的计算。天文学研究组织需要计算机来分析太空脉冲(pulse),星位移动;生物学家需要计算机来模拟蛋白质的折叠(protein folding)过程;药物学家想要研制克服艾滋病(AIDS)或非典(SARS)的药物;数学家想计算最大的质数和圆周率的更精确值;经济学家要用计算机分析计算在几万种因素考虑下某个企业/城市/国家的发展方向从而宏观调控。由此可见,人类未来的科学,时时刻刻离不开计算。而分布式计算(Distributed Computing),以其独特的优点——便宜、高效而越来越受到社会的关注。

  • 分布式计算格局

就目前来看,全球的各种分布式计算已有约百种,这些计算大多互无联系、独立管理、独立使用自己的一套软件。这种分布式计算互相割据的格局很不利于发展的需要。比如,某个生物学研究机构需要利用世界各地志愿者的计算机来模拟蛋白质折叠的过程,那个生物学研究机构没有分布式计算方面的专业人才,而但是社会上也并没有任何公司可以提供这样的服务,他们就不得不自己花费大量精力用于开发分布式计算的服务器、客户端。这样一来,原来可以用于研究生物的时间用在了别的地方。刚才提到的生物学研究机构就是美国斯坦福大学的PANDE小组。

  • BOINC一统大局

为了改变这种杂乱无章的割据,美国加州大学伯克利分校(UC Berkeley)首先提出了建立BOINC的想法。BOINC的中文全称是伯克利开放式网络计算平台(Berkeley Open Infrastructure for Network Computing),他能够把许多不同的分布式计算项目联系起来统一管理。并对计算机资源进行统一分配(比方您对研究艾滋病药物和探索地外文明同时感兴趣,您就可以同时选择两个运行,并设置优先级)。对统计评分系统进行统一管理(无论你在为哪个项目工作,只要你奉献CPU时间长,就积分高)。有了这样的统一管理,的确给PANDE小组这样的科学研究机构提供了便利!
BOINC已经成熟,多个项目已经成功运行于BOINC平台之上,如SETI@home,LHC@home等。

安全性

对用户方来说,加入任何一个项目之前,您必须确保您可以信任项目的研制方,主要涉及两方面:

  • 计算机上的隐私数据

您从项目方下载的计算程序,运行在本机,而且可以访问网络,因此,只有可靠的项目方才能保证您计算机上的隐私数据不会恶意的取走、修改等。

  • 个人计算机的寿命

虽然分布式计算的计算程序一般运行在最低优先级,不会对您的日常使用造成影响,但计算程序全负荷运行时仍会对计算机的各个部件造成一定压力,要了解更多请查看分布式计算对计算机软硬件的影响。

对项目方来说,参加分布式计算的志愿者毕竟不是项目方自己的人员,并不是全体可信任,因此必须引入一定的冗余计算机制,才能防止计算错误、恶意作弊等。

课时介绍

  • 流式计算概述
  • 流计算与批量计算的区别
  • 流式计算典型系统技术分析
  • 阿里计算核心技术概述
  • 有状态计算实现方式
  • StreamSQL
  • 大数据和数据库的结合
  • 分析型数据库服务ADS
  • 统一计算框架

阿里云开发者社区全面升级,一站式体验,用得更爽:(阿里云开发者社区首页)

你可能感兴趣的:(阿里云大学,大数据,分布式计算,分布式计算,阿里云大学)