注:本文是学习由清华大学徐葳老师教授的公开课大数据系统之云计算的笔记。
课程分为四部分:
云计算与大数据系统之间的关系
云计算的商业模式
云计算的核心技术----虚拟化
计算虚拟化
网络虚拟化
存储虚拟化
云计算技术案例分享
总结:
云计算的核心思想
性能:并行化
经济性:规模化、公有云
可管理:虚拟化
从云计算到大数据
虚拟化提供了硬件资源的抽象
用户看到了接口
-(虚拟)节点数据
-(虚拟)网络
-(虚拟)存储
仍然是许多独立的设备:需要分布式系统编程
如何提供一个易于编程的‘单一系统’感觉
分布式存储、计算框架
仅仅有云计算还是做不了大数据
hadoop大数据计算框架,你可以在写一个程序而不用关心它在多少台机器上跑。
什么是一个好的云计算系统?
让用户彻底忘记底层的硬件设施
什么是一个好的大数据系统?
让用户彻底忘记虚拟网络、虚拟节点、虚拟存储是怎么回事 。
云计算与大数据系统之间的关系
大数据对于系统架构的需求
显示的需求
海量的计算和存储
快速计算
隐式的需求
数据的快速传输
灵活性
低成本
如何满足这些需求?核心设计理念
并行化
规模经济
虚拟化(抽象)
大数据与云计算<并行化>
为什么需要并行化?
先从摩尔定律来说,摩尔定律:半导体芯片上的晶体管密集度每18个月就会翻一翻
Joy定律:MIPS每年会翻一倍(1978-2006).MIPS:每秒钟运行多少指令,芯片性能不能提高性能了,因为芯片性能提高会导致功耗过大,到2010年就会达到太阳的温度一样,所以英特尔现在的芯片最大也就到2.几级,然后就开始做多核,并行化。
并行化在计算机的体现
WSC是用网络连接起来的计算和存储设备。
WSC的特点:
使用相对同质的硬件和系统软件平台
共享相同的系统管理
大多数应用程序、中间件、软件系统都是自主开发,二传统数据中心则由第三方软件主导
WSC运行相对小数目的超大型软件程序(或服务)
通用的资源管理架构增强了部署的灵活性
所以给人的感觉是一台机器,其实质有数据仓库在支撑。
从WSC到云:多租户
多租户共享一个系统架构。
虚拟化:每个用户逻辑上看到的都是不同的
云计算的定义:(2009.2加州大学伯克利分校,RAD实验室)
即是之作为服务通过互联网提供的应用程序(SaaS模式),又指提供这些服务的,位于数据中心的硬件和软件系统(公用计算)。
云:数据中心硬件和软件
公有云:即付即用的模式,开放给大众使用的云
私有云:一个企业或组织内部的数据中心。
公用(utility)计算:给人以无限的资源的错觉。
-细粒度的记账(比如每小时
云计算商业模式的三大特点:
按需服务
资源池
可测量的服务
云计算满足什么需求?
传统数据中心资源利用率低
云计算的分类
更普遍的分类方法
云计算如何实现的
虚拟化计算
分区:Partitioning
分享:打破一个大资源
服务器
抽象Abstraction
为什么要虚拟化
资源池
隔离:保护消费者隔离其他租户
- 列如虚拟专用网(VPN)
便于管理
-测试
-机动性:坏了就可以换
计算虚拟化
服务器虚拟化
核心问题:内存的保护管理
网络虚拟化
二层网络:可以实现广播
VLAN标签
把二层网络包装在第三层网络实现4096*4096个ID地址。
软件定义网络
controller帮助交换机建立途径的模式:发送一个命令DST给交换机,它没有逻辑,不知道下一个包往哪发,这个时候就需要Controller来控制应该往哪发,如果它也不知道,就广播。如果controller知道就往上一级,主要是因为缓存的存在从而导致了网络后期的负责降低。
**举例:**Protland论文
基于软件定义网络实现的虚拟二层网络
它广播出来,又要回复它的广播,又不能知道它实际广播的内容
如何实现的呢?
也就是它广播出去以后只有对应地址的哪一小部分感应到了,其他的感觉到了广播,但是却不知道实际广播的内容。
服务器虚拟化如何跟服务器虚拟化相结合的
《17》
存储虚拟化的意义
独立于数据㩻
扩张性强,容量大、
易于管理(磁盘可集中存储)
提升磁盘使用率
独立于物理存储技术
易于升级
可用性的优化(多路径访问、冗余)
易于维护(在线的后台备份、恢复)
存储虚拟化的三类接口
块接口:
-本地块存储
-本地存储(SATA,SAS)
-远程块存储接口
-光纤通道
-SCSI
文件接口
-文件系统
-网络文件系统(NFS,CIFS,HDFS)
-VFS
一致性数据一致管理等
SAN:
存储区域网络(Storage Area Network,简称SAN)采用网状通道(Fibre Channel ,简称FC,区别与Fiber Channel光纤通道)技术,通过FC交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN经过十多年历史的发展,已经相当成熟,成为业界的事实标准(但各个厂商的光纤交换技术不完全相同,其服务器和SAN存储有兼容性的要求)。
SAN专注于企业级存储的特有问题。当前企业存储方案所遇到问题的两个根源是:数据与应用系统紧密结合所产生的结构性限制,以及小型计算机系统接口(SCSI)标准的限制。大多数分析都认为SAN是未来企业级的存储方案,这是因为SAN便于集成,能改善数据可用性及网络性能,而且还可以减轻管理作业。}
NAS:
NAS(Network Attached Storage:网络附属存储)按字面简单说就是连接在网络上,具备资料存储功能的装置,因此也称为“网络存储器”。它是一种专用数据存储服务器。它以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而释放带宽、提高性能、降低总拥有成本、保护投资。其成本远远低于使用服务器存储,而效率却远远高于后者。目前国际著名的NAS企业有Netapp、EMC、OUO等。
虚拟化技术的发展趋势总结
如何保证性能保证,和性能隔离