大数据系统基础学习笔记一

注:本文是学习由清华大学徐葳老师教授的公开课大数据系统之云计算的笔记。

课程分为四部分:
云计算与大数据系统之间的关系
云计算的商业模式
云计算的核心技术----虚拟化
				  计算虚拟化
				  网络虚拟化
				  存储虚拟化
云计算技术案例分享

总结:

云计算的核心思想
性能:并行化
经济性:规模化、公有云
可管理:虚拟化

从云计算到大数据

  • 虚拟化提供了硬件资源的抽象

  • 用户看到了接口
    -(虚拟)节点数据
    -(虚拟)网络
    -(虚拟)存储

  • 仍然是许多独立的设备:需要分布式系统编程

  • 如何提供一个易于编程的‘单一系统’感觉

  • 分布式存储、计算框架

  • 仅仅有云计算还是做不了大数据

hadoop大数据计算框架,你可以在写一个程序而不用关心它在多少台机器上跑。
什么是一个好的云计算系统?
让用户彻底忘记底层的硬件设施
什么是一个好的大数据系统?
让用户彻底忘记虚拟网络、虚拟节点、虚拟存储是怎么回事 。

云计算与大数据系统之间的关系
大数据对于系统架构的需求
显示的需求
海量的计算和存储
快速计算
隐式的需求
数据的快速传输
灵活性
低成本
如何满足这些需求?核心设计理念
并行化
规模经济
虚拟化(抽象)

大数据系统的软硬件架构
大数据系统基础学习笔记一_第1张图片

大数据与云计算<并行化>
为什么需要并行化?
先从摩尔定律来说,摩尔定律:半导体芯片上的晶体管密集度每18个月就会翻一翻
Joy定律:MIPS每年会翻一倍(1978-2006).MIPS:每秒钟运行多少指令,芯片性能不能提高性能了,因为芯片性能提高会导致功耗过大,到2010年就会达到太阳的温度一样,所以英特尔现在的芯片最大也就到2.几级,然后就开始做多核,并行化。
并行化在计算机的体现

WSC是用网络连接起来的计算和存储设备。
WSC的特点:
使用相对同质的硬件和系统软件平台
共享相同的系统管理
大多数应用程序、中间件、软件系统都是自主开发,二传统数据中心则由第三方软件主导
WSC运行相对小数目的超大型软件程序(或服务)
通用的资源管理架构增强了部署的灵活性
大数据系统基础学习笔记一_第2张图片
所以给人的感觉是一台机器,其实质有数据仓库在支撑。
从WSC到云:多租户
多租户共享一个系统架构。
大数据系统基础学习笔记一_第3张图片
虚拟化:每个用户逻辑上看到的都是不同的
大数据系统基础学习笔记一_第4张图片

云计算的定义:(2009.2加州大学伯克利分校,RAD实验室)
即是之作为服务通过互联网提供的应用程序(SaaS模式),又指提供这些服务的,位于数据中心的硬件和软件系统(公用计算)。
云:数据中心硬件和软件
公有云:即付即用的模式,开放给大众使用的云
私有云:一个企业或组织内部的数据中心。
公用(utility)计算:给人以无限的资源的错觉。
-细粒度的记账(比如每小时

云计算商业模式的三大特点:
按需服务
资源池
可测量的服务

云计算满足什么需求?

  • 一系列不可预知的增长,租用云计算。

传统数据中心资源利用率低

云计算的分类

  • 指令集虚拟机
  • 运行时系统虚拟机
  • 框架型虚拟机

更普遍的分类方法

云计算如何实现的
虚拟化计算
分区:Partitioning
分享:打破一个大资源
服务器
抽象Abstraction

  • 用一个指令集仿真另外一个指令集

为什么要虚拟化
资源池

  • 聚合:将多个资源结合起来
  • 合一:例如存储
  • 动态:快速分配
    虚拟机:虚拟资源分配跟实体资源相比要快。

隔离:保护消费者隔离其他租户
- 列如虚拟专用网(VPN)

便于管理
-测试
-机动性:坏了就可以换

计算虚拟化
大数据系统基础学习笔记一_第5张图片
服务器虚拟化
大数据系统基础学习笔记一_第6张图片
核心问题:内存的保护管理
大数据系统基础学习笔记一_第7张图片
网络虚拟化
大数据系统基础学习笔记一_第8张图片
二层网络:可以实现广播
VLAN标签
大数据系统基础学习笔记一_第9张图片大数据系统基础学习笔记一_第10张图片
把二层网络包装在第三层网络实现4096*4096个ID地址。
软件定义网络
大数据系统基础学习笔记一_第11张图片
大数据系统基础学习笔记一_第12张图片

controller帮助交换机建立途径的模式:发送一个命令DST给交换机,它没有逻辑,不知道下一个包往哪发,这个时候就需要Controller来控制应该往哪发,如果它也不知道,就广播。如果controller知道就往上一级,主要是因为缓存的存在从而导致了网络后期的负责降低。

**举例:**Protland论文
基于软件定义网络实现的虚拟二层网络
大数据系统基础学习笔记一_第13张图片
它广播出来,又要回复它的广播,又不能知道它实际广播的内容
如何实现的呢?
大数据系统基础学习笔记一_第14张图片
也就是它广播出去以后只有对应地址的哪一小部分感应到了,其他的感觉到了广播,但是却不知道实际广播的内容。

服务器虚拟化如何跟服务器虚拟化相结合的
《17》

存储虚拟化的意义
独立于数据㩻
扩张性强,容量大、
易于管理(磁盘可集中存储)
提升磁盘使用率
独立于物理存储技术
易于升级
可用性的优化(多路径访问、冗余)
易于维护(在线的后台备份、恢复)

存储虚拟化的三类接口

  • 块接口:
    -本地块存储
    -本地存储(SATA,SAS)
    -远程块存储接口
    -光纤通道
    -SCSI

  • 文件接口
    -文件系统
    -网络文件系统(NFS,CIFS,HDFS)
    -VFS
    一致性数据一致管理等

  • 对象存储接口
    -亚马逊s3
    -OpenStack Swit
    大数据系统基础学习笔记一_第15张图片

  • SAN:
    大数据系统基础学习笔记一_第16张图片
    存储区域网络(Storage Area Network,简称SAN)采用网状通道(Fibre Channel ,简称FC,区别与Fiber Channel光纤通道)技术,通过FC交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN经过十多年历史的发展,已经相当成熟,成为业界的事实标准(但各个厂商的光纤交换技术不完全相同,其服务器和SAN存储有兼容性的要求)。
    SAN专注于企业级存储的特有问题。当前企业存储方案所遇到问题的两个根源是:数据与应用系统紧密结合所产生的结构性限制,以及小型计算机系统接口(SCSI)标准的限制。大多数分析都认为SAN是未来企业级的存储方案,这是因为SAN便于集成,能改善数据可用性及网络性能,而且还可以减轻管理作业。}

  • NAS:
    大数据系统基础学习笔记一_第17张图片
    NAS(Network Attached Storage:网络附属存储)按字面简单说就是连接在网络上,具备资料存储功能的装置,因此也称为“网络存储器”。它是一种专用数据存储服务器。它以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而释放带宽、提高性能、降低总拥有成本、保护投资。其成本远远低于使用服务器存储,而效率却远远高于后者。目前国际著名的NAS企业有Netapp、EMC、OUO等。

虚拟化技术的发展趋势总结
如何保证性能保证,和性能隔离

一个虚拟机的生命周期OPENSTACK
大数据系统基础学习笔记一_第18张图片

  1. 用户通过界面或命令向API发送‘Create instance’
  2. 在虚拟机内部消息传递都是通过消息队列来传递的
  3. API节点记录新虚拟机信息,发送调度请求给调度器
  4. 调度器找到可用的计算节点,向计算节点发送‘vm provision’请求,建立虚拟机。
  5. 调度器有好几个,是并发的,节点是可以拒绝服务,节点拒绝,调度器会找其它的节点直到它找到节点为止。直到找到节点,三次未找到就会显示超时错误。
  6. 假设这个计算节点收到任务,它也有资源,用户想要启动虚拟机那么它就会首先他会调用本地的Hypervisor,比如说kvm之类的,他把虚拟机启动起来。启动虚拟机的参数是用户传给它的
  7. 启动虚拟机后,要把虚拟机主硬盘挂上,就是虚拟机到底在操作系统的什么位置这个时候它就要找操作系统,操作系统是存储在一个镜像存储的服务里。
  8. 有可能本地没有,如果本地有就直接启动,否则就需要去找像glance,然后再下载回本地。这个过程不是通过消息队列,直接找Glance复制的。
  9. 存储以后操作系统就可以把镜像读取出来了,虚拟机算启动来了
  10. 计算节点向网络节点发信息,通过消息传递,请求给新创虚拟机分配网络资源 ,通过网络节点建立端口。像WLAN、桥接、隧道等方式实现,将信息存入数据库方便下次访问。
  11. 最后需要在建立虚拟磁盘卷,计算服务会去找存储服务,他会给存储服务一个API的调用,设置大小,这个时候虚拟机就会知道多挂了一个盘。
  12. 用户界面会看到虚拟机搭建好了。
  13. 这是一个异步的过程。

你可能感兴趣的:(大数据系统基础学习笔记一)