(1) 概述
虚拟化技术源于大型机,最早可以追溯到20世纪六、七十年代大型机上的虚拟分区技术,即允许在一台主机上运行多个操作系统,让用户尽可能充分地利用昂贵的大型机资源。随着技术的发展和市场竞争的需要,虚拟化技术向小型机或UNIX服务器上移植,只是由于真正使用大型机和小型机的用户还是少数,再加上各厂商产品和技术之间的不兼容,所以虚拟化技术不太被公众所关注。(注:由于x86架构在设计之初并没有考虑支持虚拟化技术,它本身的结构和复杂性使得在其之上进行虚拟化非常困难,早期的x86架构并没有成为虚拟化技术的受益者。)
20世纪90年代,虚拟化软件厂商采用一种软件解决方案,以VMM(Virtual Machine Monitor,虚拟机监视器)为中心使x86服务器平台实现虚拟化。然而在这种纯软件的“全虚拟化”模式下,每个Guest OS(客户操作系统)获得的关键平台资源都要由VMM控制和分配,需要利用二进制转换,而二进制转换带来的开销使得“完全虚拟化”的性能大打折扣。为解决性能问题,出现了一种新的虚拟化技术“半虚拟化”,即不需要二进制转换,而是通过对客户操作系统进行代码级修改,使定制的Guest OS获得额外的性能和高扩展性;但是修改Guest OS也带来了系统指令级的冲突及运行效率问题,需要投入大量的优化工作。当前,虚拟化技术已经发展到了硬件支持的阶段,“芯片辅助虚拟化”技术就是把纯软件虚拟化技术的各项功能用硬件电路来实现。其可减少VMM运行的系统开销,可同时满足CPU半虚拟化和二进制转换技术的需求,使VMM的设计得到简化,进而使VMM能够按通用标准进行编写。芯片辅助虚拟化技术除了在处理器上集成芯片辅助虚拟化指令,同时也提供I/O方面的虚拟化支持,最终可实现整个平台的虚拟化。虚拟化技术的实现和发展,都向人们展示了虚拟化应用的广阔前景。
非x86架构服务器的虚拟化是一个封闭的体系,由服务器原厂商提供,这里将不再涉及,后面的虚拟化和虚拟化管理都是指x86服务器的虚拟化。图3.4为x86服务器虚拟化原理示意图。
虚拟化(Virtualization)是资源的逻辑表示,而不受物理限制的约束。虚拟化技术的实现形式是在系统中加入一个虚拟化层,将下层的资源抽象成另一种形式的资源,提供给上层使用。
服务器虚拟化就是使软件和硬件相互分离,即在操作系统与硬件之间加入一个虚拟化软件层VMM,通过空间上的分割、时间上的分时以及模拟,将服务器物理资源抽象成逻辑资源,向上层操作系统提供一个与它原先期待一致的服务器硬件环境VM(Virtual Machine,虚拟机),使得上层操作系统可以直接运行在虚拟环境上,并允许具有不同操作系统的多个虚拟机相互隔离,并发运行在同一台物理机上,从而提供更高的IT资源利用率和灵活性。图3.5为x86虚拟化架构示意图。
服务器虚拟化的虚拟化软件层即为虚拟机监视器(VMM),也称Hypervisor,常见的Hypervisor分为两类:
Type-I(裸金属型)指VMM直接运作在裸机上,使用. 和管理底层的硬件资源,Guest OS对真实硬件资源的访问都要通过VMM来完成,作为底层硬件的直接操作者,VMM拥有硬件的驱动程序。
Type-II型(宿主型)指VMM之下还有一层宿主操作系统,由于Guest OS对硬件的访问必须经过宿主操作系统,因而其带来了额外的性能开销,但可充分利用宿主操作系统提供的设备驱动和底层服务来进行内存管理、进程调度和资源管理等。
服务器虚拟化前后的巨大差异,源于虚拟机与物理服务器的本质区别。
虚拟机是由虚拟化层提供的高效、独立的虚拟计算机系统,每台虚拟机都是一个完整的系统,它具有处理器、内存、网络设备、存储设备和BIOS,因此操作系统和应用程序在虚拟机中的运行方式与它们在物理服务器上的运行方式没有区别。
与物理服务器相比,虚拟机不是由真实的电子元件组成,而是由一组虚拟组件(文件)构成,这些虚拟组件与物理服务器的硬件配置无关。与物理服务器相比,虚拟机具有以下优势:
抽象解耦
可在任何相同架构的服务器上运行;
上层应用操作系统不需修改即可运行。
分区隔离
可与其他虚拟机同时运行;
实现数据处理、网络连接和数据存储的安全隔离。
封装移动
可封装于文件之中,通过简单的文件复制实现快速部署、备份及还原;
可便捷地将整个系统(包括虚拟硬件、操作系统和配置好的应用程序)在不同的物理服务器之间进行迁移,甚至可以在虚拟机正在运行的情况下进行迁移。
弹性扩展
可对单个物理服务器上的虚拟资源(虚拟CPU、虚拟网卡等)进行按需动态扩展(不停机);
可作为即插即用的虚拟工具进行构建和分发,按集群弹性资源分配机制实现动态扩展。
(2) 服务器虚拟化实现
VMM对物理资源的虚拟可以划分为3个部分:CPU虚拟化、内存虚拟化和I/O设备虚拟化,其中以CPU的虚拟化最为关键。
① CPU虚拟化
经典的虚拟化方法
现代计算机体系结构一般至少有两个特权级(即用户态和核心态,x86有4个特权级,即Ring0~Ring3)用来分隔系统软件和应用软件。那些只能在处理器的最高特权级(内核态)执行的指令称为特权指令,一般可读写系统关键资源的指令(即敏感指令)绝大多数都是特权指令(x86存在若干敏感指令是非特权指令的情况)。如果执行特权指令时处理器的状态不在内核态,通常会引发一个异常信号,并交由系统软件来处理这个非法访问(陷入)。经典的虚拟化方法就是使用“特权解除”和“陷入-模拟”的方式,即将Guest OS运行在非特权级,而将VMM运行于最高特权级(完全控制系统资源)。解除了Guest OS的特权级后,Guest OS的大部分指令仍可以在硬件上直接运行,只有执行到特权指令时,才会陷入到VMM模拟执行(“陷入-模拟”)。“陷入-模拟” 的本质是保证可能影响VMM正确运行的指令由VMM模拟执行,大部分的非敏感指令还是照常运行。
x86的虚拟化漏洞
因为x86指令集中有若干条指令是需要被VMM捕获的敏感指令,但是却不是特权指令(称为临界指令),因此“特权解除”并不能导致它们发生陷入模拟,执行它们不会发生自动的“陷入”而被VMM捕获,从而阻碍了指令的虚拟化。
x86下的敏感指令分类大致如下:
访问或修改机器状态或虚拟机状态的指令;
访问或修改敏感寄存器或存储单元的指令,比如访问时钟寄存器和中断寄存器;
访问存储保护系统或内存、地址分配系统的指令(段页之类);
所有I/O指令。
其中第一、四项都是特权指令,在内核态下执行时会自动产生陷阱被VMM捕获,但是第二、三项不是特权指令,而是临界指令。部分临界指令会因为Guest OS的权限解除而执行失败,但是却不会抛出异常,所以不能被捕获,如第三项中的VERW指令。
图3.6为x86的虚拟化技术分类示意图。
由于x86指令集中有十几条敏感指令不是特权指令,因此x86无法使用经典的虚拟化技术完全虚拟化。鉴于x86指令集本身的局限,长期以来针对x86的虚拟化实现大致分为两派:Full virtualization派和Para virtualization派。两派区别主要在对非特权敏感指令的处理上,Full virtualization派采用的是动态的方法,即运行时监测,捕捉后在VMM中模拟;而Paravirtualization派则主动进攻,将所有用到的非特权敏感指令全部替换,这样就减少了大量的“陷入—上下文切换—模拟—上下文切换”过程,获得了大幅的性能提升。
虚拟化技术分类具体特点有:
全虚拟化
全虚拟化指所抽象的VM具有完全的物理机特性,操作系统在其上运行不需要任何修改。Full virtualization派秉承无需修改直接运行的理念,对“运行时监测,捕捉后模拟”的过程进行优化。该派内部的实现又有些差别,其中以基于二进制翻译 (BT) 的全虚拟化为代表,其主要思想是在执行时将VM上执行的Guest OS指令,翻译成x86指令集的一个子集,其中的敏感指令被替换成陷入指令。翻译过程与指令执行交叉进行,不含敏感指令的用户态程序可以不经翻译直接执行。
半虚拟化
半虚拟化指需操作系统协助的虚拟化,在其上运行的操作系统需要修改。
Para virtualization派的基本思想是通过修改Guest OS的代码,将含有敏感指令的操作,替换为对VMM的超调用Hypercall,它类似于OS的系统调用,将控制权转移到VMM,该技术因Xen项目而广为人知。该技术的优势在于VM的性能能接近于物理机,缺点在于需要修改Guest OS(如:Windows系统不支持修改)及会增加维护成本,修改Guest OS会导致操作系统对特定hypervisor产生依赖性,因此很多虚拟化厂商基于Xen开发的虚拟化产品部分已经放弃了Linux半虚拟化,而专注基于芯片辅助的全虚拟化开发,以支持未经修改的操作系统。
芯片辅助虚拟化
芯片辅助虚拟化指借助处理器硬件的支持来实现高效的全虚拟化。
其基本思想就是引入新的处理器运行模式和新的指令,使得VMM和Guest OS运行于不同的模式下,Guest OS运行于受控模式,原来的一些敏感指令在受控模式下会全部陷入VMM,这样就解决了部分非特权的敏感指令的“陷入-模拟”难题。而且模式切换时上下文的保存恢复由硬件来完成,这样就大大提高了“陷入-模拟”时上下文切换的效率。以Intel VT-x芯片辅助虚拟化技术为例,该技术增加了在虚拟状态下的两种处理器工作模式:根(Root)操作模式和非根(Non-root)操作模式。Xen运作在根操作模式下,而Guest OS运行在非根操作模式下。这两个操作模式分别拥有自己的特权级环,Xen和未经修改内核的Guest OS运行在这两个操作模式的0环。这样,既能使Xen运行在0环,也能使Guest OS运行在0环,避免修改Guest OS。根操作模式和非根操作模式的切换是通过新增的CPU指令(VMXON,VMXOFF等)来完成的。芯片辅助虚拟化技术消除了操作系统的ring转换问题,降低了虚拟化门槛,支持任何操作系统的虚拟化而无需修改OS内核,得到了虚拟化软件厂商的支持。芯片辅助虚拟化技术已经逐渐消除软件虚拟化技术之间的差别,并成为未来的发展趋势。图3.7为vCPU调度分配机制。
从虚拟机系统的结构与功能划分可以看出,客户操作系统与虚拟机监视器共同构成了虚拟机系统的两级调度框架,图3.7是一个多核环境下虚拟机系统的两级调度框架。客户操作系统负责第二级调度,即线程或进程在vCPU上的调度(将核心线程映射到相应的虚拟CPU上)。虚拟机监视器负责第一级调度,即vCPU在物理处理单元上的调度。两级调度的调度策略和机制不存在依赖关系。vCPU调度器负责物理处理器资源在各个虚拟机之间的分配与调度,本质上即把各个虚拟机中的vCPU按照一定的策略和机制进行调度,在物理处理单元上可以采用任意的策略来分配物理资源,满足虚拟机的不同需求。vCPU可以调度在一个或多个物理处理单元执行(分时复用或空间复用物理处理单元),也可以与物理处理单元建立一对一固定的映射关系(限制访问指定的物理处理单元)。
② 内存虚拟化
因为VMM掌控所有系统资源,因此其握有整个内存资源,负责页式内存管理,维护虚拟地址到机器地址的映射关系。因Guest OS本身亦有页式内存管理机制,则有VMM的整个系统就比正常系统多了一层映射。图3.8为内存虚拟化3层模型。
虚拟地址(VA):指 Guest OS . 提供给其应用程序使用的线性地址空间。
物理地址(PA):经VMM抽象的、虚拟机看到的伪物理地址。
机器地址(MA):真实的机器地址,即地址总线上出现的地址信号。
映射关系如下:Guest OS: PA = f(VA)、VMM: MA = g(PA)。
VMM维护一套页表,负责PA到MA的映射。Guest OS维护一套页表,负责VA到PA的映射。实际运行时,用户程序访问VA1,经Guest OS的页表转换得到PA1,再由VMM介入,使用VMM的页表将PA1转换为MA1。
普通 MMU(Memory Management Unit,内存管理单元)只能完成一次虚拟地址到物理地址的映射,在虚拟机环境下,经过MMU转换所得到的“物理地址”并不是真正的机器地址。若需得到真正的机器地址,则必须由VMM介入,再经过一次映射才能得到总线上使用的机器地址。如果虚拟机的每个内存访问都需要VMM介入,并由软件模拟地址转换,那么效率是很低下的,几乎不具有实际可用性。为实现虚拟地址到机器地址的高效转换,现普遍采用的思想是:由VMM根据映射f和g生成复合的映射fg,并直接将这个映射关系写入MMU。当前采用的页表虚拟化方法主要是MMU类虚拟化(MMU Paravirtualization)和影子页表,后者已被内存的芯片辅助虚拟化技术所替代。
MMU Paravirtualization
其基本原理是:当Guest OS创建一个新的页表时,会从它所维护的空闲内存中分配一个页面,并向Xen注册该页面,Xen会剥夺Guest OS对该页表的写权限,之后Guest OS对该页表的写操作会到Xen加以验证和转换。Xen会检查页表中的每一项,确保它们只映射了属于该虚拟机的机器页面,而且不得包含对页表页面的可写映射。然后,Xen会根据自己所维护的映射关系,将页表项中的物理地址替换为相应的机器地址,最后再把修改过的页表载入MMU。如此,MMU就可以根据修改过页表直接完成虚拟地址到机器地址的转换。
内存芯片辅助虚拟化
内存的芯片辅助虚拟化技术是用于替代虚拟化技术中软件实现的“影子页表”的一种芯片辅助虚拟化技术,其基本原理是:GVA(客户操作系统的虚拟地址)—GPA(客户操作系统的物理地址)—HPA(宿主操作系统的物理地址),两次地址转换都由CPU硬件自动完成(软件实现内存开销大、性能差)。以VT-x技术的页表扩充技术Extended Page Table(EPT)为例,首先,VMM预先把客户机物理地址转换到机器地址的EPT页表设置到CPU中;其次,客户机修改客户机页表无需VMM干预;最后,地址转换时,CPU自动查找两张页表完成客户机虚拟地址到机器地址的转换。使用内存的芯片辅助虚拟化技术,客户机运行过程中无需VMM干预,这节省了大量软件开销,内存访问性能接近物理机。
图3.9为内存芯片辅助虚拟化技术原理图。
③ I/O设备虚拟化
VMM通过I/O虚拟化来复用有限的外设资源,其通过截获Guest OS对I/O设备的访问请求,然后通过软件模拟真实的硬件,目前I/O设备的虚拟化方式主要有3种:设备接口完全模拟、前端/后端模拟、直接划分。
设备接口完全模拟
设备接口完全模拟,即软件精确模拟与物理设备完全一样的接口,Guest OS驱动无需修改就能驱动这个虚拟设备。其优点是没有额外的硬件开销,可重用现有驱动程序,缺点是为完成一次操作要涉及多个寄存器的操作,使得VMM要截获每个寄存器访问并进行相应的模拟,导致多次上下文切换,性能较低。
前端/后端模拟
VMM提供一个简化的驱动程序(后端,Backend),Guest OS中的驱动程序为前端 (Frontend,FE),前端驱动将来自其他模块的请求通过与Guest OS间的特殊通信机制直接发送给Guest OS的后端驱动,后端驱动在处理完请求后再发回通知给前端(Xen即采用该方法)。其优点是由于基于事务的通信机制,能在很大程度上减少上下文切换开销,没有额外的硬件开销;缺点是需要VMM实现前端驱动,后端驱动可能成为瓶颈。
直接划分
直接划分即直接将物理设备分配给某个Guest OS,由Guest OS直接访问I/O设备(不经VMM),目前与此相关的技术有IOMMU(Intel VT-d,PCI-SIG之SR-IOV等),旨在建立高效的I/O虚拟化直通道。其优点是直接访问减少了虚拟化开销,缺点是需要购买额外的硬件。