《云计算-刘鹏》学习笔记-第一章:大数据与云计算

文章目录

  • 0 笔记说明
  • 1 大数据时代
  • 2 云计算——大数据的计算
  • 3 云计算发展现状
  • 4 云计算实现机制
  • 5 云计算压倒性的成本优势


0 笔记说明

参考书籍为《云计算-第三版》,作者为刘鹏。
《云计算-刘鹏》学习笔记-第一章:大数据与云计算_第1张图片


1 大数据时代

大数据的定义如下:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

大数据具有以下的特征,即4V+1C

1、数据量大(Volume):存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。下面是存储单位的换算公式:

1EB=1024PB=260字节
1PB=1024TB=250字节
1TB=1024GB=240字节
1GB=1024MB=230字节
1MB=1024KB=220字节
1KB=1024B=210字节

2、多样(Variety):数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。

3、快速(Velocity):数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。

4、价值密度低(Value):需要对大量的数据进行处理,挖掘其潜在的价值。大数据明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。

5、复杂度(Complexity):对数据的处理和分析的难度大


2 云计算——大数据的计算

可用公式描述大数据与云计算的关系:G=f(x),其中x是大数据,f是云计算,G是目标。即,云计算是处理大数据的手段,大数据与云计算就像是一枚硬币的正反面——大数据是需求,云计算是手段:没有大数据,就不需要云计算;没有云计算,就无法处理大数据。

云计算有长、短两种定义:

1、长定义是:云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

2、短定义:云计算是通过网络按需提供可动态伸缩廉价计算服务

上述长定义中的资源池称为“”。“云”是一些可以自我维护和管理虚拟计算资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。

云计算将计算资源集中起来,并通过专门软件实现自动管理,无须人为参与。用户可以动态申请部分资源,支持各种应用程序的运转,无须为烦琐的细节而烦恼,能够更加专注于自己的业务,有利于技术创新、降低成本和提高效率。

云计算的核心理念是资源池,与网格计算池的概念非常相似。网格计算池将计算和存储资源虚拟成为一个可以任意组合分配的集合,池的规模可以动态扩展,分配给用户的处理能力可以动态回收重用。这种模式能够大大提高资源的利用率,提升平台的服务质量。

云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、将基础设施作为服务IaaS(Infrastructure as a Service)、将平台作为服务PaaS(Platform as a Service)和将软件作为服务SaaS(Software as a Service)等概念混合演进并跃升的结果。从研究现状上看,云计算具有以下特点:

1、超大规模。“云”需要具有相当的规模,如谷歌云计算已经拥上百万台服务器。“云”能赋予用户前所未有的计算能力。

2、虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无须了解应用运行的具体位置,只需要一台计算机或手机,就可以通过网络获取各种能力超强的服务。

3、高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。

4、通用性。云计算不局限于特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。

5、高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

6、按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那样计费。

7、极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云:“云”的自动化管理使数据中心管理成本大幅降低;“云”的公用性和通用性使资源的利用率大幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因此“云”具有前所未有的性价比。

按照服务类型大致可以将云计算分为三类:将基础设施作为服务(IaaS)、将平台作为服务(PaaS)和将软件作为服务(SaaS),如下图所示:
《云计算-刘鹏》学习笔记-第一章:大数据与云计算_第2张图片
1、IaaS将硬件设备等基础资源封装成服务供用户使用,如亚马逊云计算AWS(Amazon Web Services)的弹性计算云EC2和简单存储服务S3。在IaaS环境中,用户相当于在使用裸机和磁盘,既可以让它运行Windows,也可以让它运行Linux,因而几乎可以做任何想做的事情,但用户必须考虑如何才能让多台机器协同工作。AWS提供了在节点之间互通消息的接口简单队列服务SQS(Simple Queue Service)。IaaS最大的优势在于它允许用户动态申请或释放节点,按使用量计费。运行IaaS的服务器规模达到几十万台之多,用户因而可以认为能够申请的资源几乎是无限的。同时,IaaS是由公众共享的,因而具有更高的资源使用效率。

2、PaaS对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如Google App Engine。PaaS自身负责资源的动态扩展和容错管理,用户应用程序不必过多考虑节点间的配合问题。但是用户的自主权降低,必须使用特定的编程环境并遵照特定的编程模型,只适用于解决某些特定的计算问题。例如,Google App Engine只允许使用Python和Java语言、基于称为Django的Web应用框架、调用Google App Engine SDK来开发在线应用服务。

3、SaaS的针对性更强,它将某些特定功能或应用软件封装成服务

总之:
1、IaaS提供的是计算或存储资源类型的服务;
2、PaaS提供的是运行用户自定义应用程序的环境;
3、SaaS提供的是某些专门用途的服务供应用调用。


3 云计算发展现状

1、亚马逊的云计算称为Amazon Web Services(AWS),它率先在全球提供了弹性计算云EC2(Elastic Computing Cloud)和简单存储服务S3(Simple Storage Service),为企业提供计算和存储服务。收费的服务项目包括存储空间、带宽、CPU资源以及月租费。月租费与电话月租费类似,存储空间、带宽按容量收费,CPU根据运算量时长收费。目前,AWS服务的种类非常齐全,包括计算服务、存储与内容传输服务、数据库服务、联网服务、管理和安全服务、分析服务、应用程序服务、部署与管理服务、移动服务和企业应用程序服务等。

2、谷歌是最大的云计算技术的使用者。谷歌搜索引擎就建立在分布在200多个站点、超过100万台的服务器的支撑之上,而且这些设施的数量正在迅猛增长。谷歌的平台,包括谷歌地球、地图、Gmail、Docs等也同样使用了这些基础设施。

3、微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型——通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。目前,微软的云平台包括几十万台服务器。微软将Windows Azure定位为平台服务:一套全面的开发工具、服务和管理系统。它可以让开发者致力于开发可用和可扩展的应用程序。微软将为Windows Azure用户推出许多新的功能,不但能更简单地将现有的应用程序转移到云中,而且可以加强云托管应用程序的可用服务,充分体现出微软的“云”+“端”战略。


4 云计算实现机制

由于不同厂家提供了不同的解决方案,目前还没有一个统一的技术体系结构,书中综合了不同厂家的方案,构造了一个供读者参考的云计算体系结构如下图所示,它概括了不同解决方案的主要特征,每一种方案或许只实现其中部分功能,或许也还有部分相对次要功能尚未概括进来:
《云计算-刘鹏》学习笔记-第一章:大数据与云计算_第3张图片
云计算技术体系结构分为以下四层:

1、物理资源层:物理资源层包括计算机、存储器、网络设施、数据库和软件等。

2、资源池层:资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等。构建资源池更多的是物理资源的集成和管理工作,例如研究在一个标准集装箱的空间如何装下2000个服务器、解决散热和故障节点替换的问题并降低能耗。

3、管理中间件层:管理中间件层负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务。管理中间件层负责:

  • 资源管理:资源管理负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽它,并对资源的使用情况进行监视统计;
  • 任务管理:任务管理负责执行用户或应用提交的任务,包括完成用户任务映象(Image)部署和管理、任务调度、任务执行、生命期管理等;
  • 用户管理:用户管理是实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等;
  • 安全管理:安全管理保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。

4、SOA构建层:SOA(Service-Oriented Architecture,面向服务的体系结构)构建层将云计算能力封装成标准的Web Services服务,并纳入SOA体系进行管理和使用,包括服务接口、服务注册、服务查找、服务访问和服务工作流等。

在这四层结构中,中间两层,即管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。

基于上述体系结构,以IaaS为例,简述云计算的实现机制,如下图所示:
《云计算-刘鹏》学习笔记-第一章:大数据与云计算_第4张图片
1、用户交互接口类应用Web Services方式提供访问接口,获取用户需求。

2、服务目录是用户可以访问的服务清单

3、系统管理模块负责管理和分配所有可用的资源,其核心是负载均衡

4、配置工具负责在分配的节点上准备任务运行环境

5、监视统计模块负责监视节点的运行状态,并完成用户使用节点情况的统计

上图的执行过程并不复杂,用户交互接口允许用户从目录中选取并调用一个服务,该请求传递给系统管理模块后,它将为用户分配恰当的资源,然后调用配置工具为用户准备运行环境。


5 云计算压倒性的成本优势

由于云计算有:

1、更低的硬件和网络成本;

2、更低管理成本和电力成本;

3、更高的资源利用率;

4、容错能力非常强。

这就是云计算成为划时代技术的根本原因。

对云计算用户而言,云计算的优势也是无与伦比的,对于用户:不用开发软件,不用安装硬件,用低得多的使用成本,就可以快速部署应用系统,而且可以动态伸缩系统的规模,可以更容易地共享数据。租用公共云的企业不再需要自建数据中心,只需申请账号并按量付费。


END

你可能感兴趣的:(其他,云计算,大数据,IaaS,PaaS,SaaS)