KVM 介绍(5):libvirt 介绍 [ Libvrit for KVM/QEMU ]

 学习 KVM 的系列文章: 

  • (1)介绍和安装

  • (2)CPU 和 内存虚拟化

  • (3)I/O QEMU 全虚拟化和准虚拟化(Para-virtulizaiton)

  • (4)I/O PCI/PCIe设备直接分配和 SR-IOV

  • (5)libvirt 介绍

  • (6)Nova 通过 libvirt 管理 QEMU/KVM 虚机

  • (7)快照 (snapshot)

  • (8)迁移 (migration)

1. Libvirt 是什么

为什么需要Libvirt?

  1. Hypervisor 比如 qemu-kvm 的命令行虚拟机管理工具参数众多,难于使用。

  2. Hypervisor 种类众多,没有统一的编程接口来管理它们,这对云环境来说非常重要。

  3. 没有统一的方式来方便地定义虚拟机相关的各种可管理对象。

Libvirt提供了什么?

  1. 它提供统一、稳定、开放的源代码的应用程序接口(API)、守护进程 (libvirtd)和和一个默认命令行管理工具(virsh)。

  2. 它提供了对虚拟化客户机和它的虚拟化设备、网络和存储的管理。

  3. 它提供了一套较为稳定的C语言应用程序接口。目前,在其他一些流行的编程语言中也提供了对libvirt的绑定,在Python、Perl、Java、Ruby、PHP、OCaml等高级编程语言中已经有libvirt的程序库可以直接使用。

  4. 它对多种不同的 Hypervisor 的支持是通过一种基于驱动程序的架构来实现的。libvirt 对不同的 Hypervisor 提供了不同的驱动,包括 Xen 的驱动,对QEMU/KVM 有 QEMU 驱动,VMware 驱动等。在 libvirt 源代码中,可以很容易找到 qemu_driver.c、xen_driver.c、xenapi_driver.c、vmware_driver.c、vbox_driver.c 这样的驱动程序源代码文件。

  5. 它作为中间适配层,让底层 Hypervisor 对上层用户空间的管理工具是可以做到完全透明的,因为 libvirt 屏蔽了底层各种 Hypervisor 的细节,为上层管理工具提供了一个统一的、较稳定的接口(API)。

  6. 它使用 XML 来定义各种虚拟机相关的受管理对象。

     目前,libvirt 已经成为使用最为广泛的对各种虚拟机进行管理的工具和应用程序接口(API),而且一些常用的虚拟机管理工具(如virsh、virt-install、virt-manager等)和云计算框架平台(如OpenStack、OpenNebula、Eucalyptus等)都在底层使用libvirt的应用程序接口。

                           (SLE 11)

1.1 Libvirt C API

1.1.1 Libvirti API 所管理的主要对象

 

对象 解释
Domain (域) 指运行在由Hypervisor提供的虚拟机器上的一个操作系统实例(常常是指一个虚拟机)或者用来启动虚机的配置。
Hypervisor 一个虚拟化主机的软件层
Node (主机) 一台物理服务器。
Storage pool (存储池) 一组存储媒介的集合,比如物理硬盘驱动器。一个存储池被划分为小的容器称作卷。卷会被分给一个或者多个虚机。
Volume (卷) 一个从存储池分配的存储空间。一个卷会被分给一个或者多个域,常常成为域里的虚拟硬盘。

 

1.1.2 对象的管理模型

对象名称 对象 Python 类 描述
Connect 与 Hypervisor的连接

virConnectPtr

在调用任何 API 去管理一个本地或者远端的Hypervisor前,必须建立和这个Hypervisor的连接。
Domain Guest domain

virDomainPtr

用于列举和管理已有的虚机,或者创建新的虚机。唯一标识:ID,Name,UUID。一个域可能是暂时性的或者持久性的。暂时性的域只能在它运行期间被管理。持久性的域在主机上保存了它的配置。
Virtual Network 虚拟网络

virNetworkPtr

用于管理虚机的网络设备。唯一标识:Name,UUID。一个虚拟网络可能是暂时性的或者持久性的。每个主机上安装libvirt后,它都有一个默认的网络设备“default”。它向该主机上运行的虚机提供DHCP服务,以及通过NAT连接到主机上。
Storage Pool 存储池

virStoragePoolPtr

用于管理虚拟机内的所有存储,包括 local disk, logical volume group, iSCSI target, FibreChannel HBA and local/network file system。唯一标识:Name,UUID。一个存储池可能是暂时性的或者持久性的。Pool 的 type 可以是  dirfsnetfsdiskiscsilogicalscsi,mpathrbdsheepdoggluster 或者 zfs。
Storage Volume   存储卷

virStorageVolPtr

用于管理一个存储池内的存储块,包括一个池内分配的块、磁盘分区、逻辑卷、SCSI/iSCSI Lun,或者一个本地或者网络文件系统内的文件等。唯一标识:Name,Key,Path。
Host device  主机设备

virNodeDevPtr

用于管理主机上的物理硬件设备,包括 the physical USB or PCI devices and logical devices these provide, such as a NIC, disk, disk

controller, sound card, etc。唯一标识:Name。

 

1.1.3 API 的简单分类

Libvirt API 就是对各种对象的各种操作,包括基本的增、删、改、查操作和其它操作。

对象 其它
Connect virConnectOpen
virConnectOpenAuth
virConnectOpenReadOnly
virConnectClose virConnectSetKeepAlive

Strorage pool virStoragePoolBuild
virStoragePoolCreate
virStoragePoolCreateXML
virStoragePoolDefineXML
virStoragePoolDelete
virStoragePoolDestroy
virStoragePoolFree
virStoragePoolUndefine
virStoragePoolRefresh
virStoragePoolSetAutostart
virConnectFindStoragePoolSources
virConnectListAllStoragePools
virConnectListDefinedStoragePools
virConnectListStoragePools
virConnectNumOfDefinedStoragePools
virConnectNumOfStoragePools

virStoragePoolGetInfo/Name/UUID/UUIDString/XMLDesc
 virStoragePoolIsActive/Persistent
virStoragePoolLookupByName/UUID/UUIDString/Volume
virStoragePoolRef
virStoragePoolGetAutostart
virStoragePoolGetConnect

virStoragePoolNumOfVolumes

virStoragePoolListAllVolumes

virStoragePoolListVolumes

Storage volume virStorageVolCreateXML
virStorageVolCreateXMLFrom
virStorageVolDelete
virStorageVolFree
virStorageVolResize
virStorageVolUpload
virStorageVolWipe
virStorageVolWipePattern
virStorageVolGetConnect/Info/Key/Name/Path/XMLDesc
 virStorageVolLookupByKey/Name/Path
virStorageVolRef
virStorageVolDownload
Network virNetworkCreate
virNetworkCreateXML
virNetworkDefineXML
virNetworkDestroy
virNetworkFree
virNetworkUndefine
virNetworkSetAutostart
virNetworkUpdate
virConnectListAllNetworks
virConnectListDefinedNetworks
virConnectListNetworks
virConnectNumOfDefinedNetworks
virConnectNumOfNetworks

virNetworkGetBridgeName/DHCPLeases/Name/UUID/UUIDString/XMLDesc
virNetworkIsActive/Persistent
 virNetworkLookupByName/UUID/UUIDString
virNetworkGetAutostart

virNetworkGetConnect

virConnectNetworkEventDeregisterAny
virConnectNetworkEventGenericCallback
virNetworkDHCPLeaseFree
Domain snapshot virDomainSnapshotCreateXML virDomainSnapshotDelete
virDomainSnapshotFree
virDomainRevertToSnapshot virDomainHasCurrentSnapshot
virDomainListAllSnapshots
virDomainSnapshotCurrent
virDomainSnapshotGetConnect/Domain/Name/Parent/XMLDesc
virDomainSnapshotHasMetadata
virDomainSnapshotIsCurrent
virDomainSnapshotListAllChildren
virDomainSnapshotListChildrenNames
virDomainSnapshotListNames
virDomainSnapshotLookupByName
virDomainSnapshotNum
virDomainSnapshotNumChildren
virDomainSnapshotRef

Host
virInitialize
virNodeSetMemoryParameters
virNodeSuspendForDuration
virConnectBaselineCPU
virConnectCompareCPU
virConnectGetCPUModelNames/Capabilities/Hostname/LibVersion/MaxVcpus/Sysinfo/Type/URI/Version
virConnectIsAlive
virConnectIsEncrypted
virConnectIsSecure
virGetVersion
virNodeGetCPUMap/CPUStats /CellsFreeMemory/FreeMemory/Info/MemoryParameters/MemoryStats /
 virNodeGetSecurityModel
virTypedParamsAddBoolean
virTypedParamsAddDouble
virTypedParamsAddFromString
virTypedParamsAddInt
virTypedParamsAddLLong
virTypedParamsAddString
virTypedParamsAddUInt
virTypedParamsAddULLong
virTypedParamsClear
virTypedParamsFree
virTypedParamsGet



Interface virInterfaceCreate
virInterfaceDefineXML

virInterfaceDestroy
virInterfaceFree
virInterfaceUndefine
virInterfaceChangeBegin
virInterfaceChangeCommit
virInterfaceChangeRollback

virConnectListAllInterfaces
virConnectListDefinedInterfaces
virConnectListInterfaces
virConnectNumOfDefinedInterfaces
virConnectNumOfInterfaces
virInterfaceGetConnect
virInterfaceGetMACString
virInterfaceGetName
virInterfaceGetXMLDesc
virInterfaceIsActive
virInterfaceLookupByMACString
virInterfaceLookupByName
virInterfaceRef


Net Filter virNWFilterDefineXML

virNWFilterFree
virNWFilterUndefine
virConnectListAllNWFilters
virConnectListNWFilters
virConnectNumOfNWFilters
virNWFilterGetName
virNWFilterGetUUID
virNWFilterGetUUIDString
virNWFilterGetXMLDesc
virNWFilterLookupByName
virNWFilterLookupByUUID
virNWFilterLookupByUUIDString
virNWFilterRef


Domain Event virConnectDomainEventDeregister
virConnectDomainEventDeregisterAny
virConnectDomainEventDeviceAddedCallback
virConnectDomainEventDeviceRemovedCallback
virConnectDomainEventAgentLifecycleCallback
virConnectDomainEventBalloonChangeCallback
virConnectDomainEventBlockJobCallback
virConnectDomainEventCallback
virConnectDomainEventDiskChangeCallback
virConnectDomainEventGenericCallback
virConnectDomainEventGraphicsCallback
virConnectDomainEventIOErrorCallback
virConnectDomainEventIOErrorReasonCallback
virConnectDomainEventPMSuspendCallback
virConnectDomainEventPMSuspendDiskCallback




Domain virDomainCreate
virDomainCreateLinux
virDomainCreateWithFiles
virDomainCreateWithFlags
virDomainCreateXML
virDomainCreateXMLWithFiles
virDomainDefineXML
virDomainDefineXMLFlags

virDomainDestroy
virDomainDestroyFlags

virDomainFree
virDomainUndefine
virDomainUndefineFlags
virDomainUpdateDeviceFlags
virDomainAbortJob
virDomainAddIOThread

virDomainDelIOThread

virDomainAttachDevice
virDomainAttachDeviceFlags
virDomainDetachDevice
virDomainDetachDeviceFlags

virDomainBlockCommit
virDomainBlockCopy
virDomainBlockJobAbort
virDomainBlockJobSetSpeed
virDomainBlockPeek
virDomainBlockPull
virDomainBlockRebase
virDomainBlockResize

virDomainCoreDump
virDomainCoreDumpWithFormat

virDomainFSFreeze
virDomainFSInfoFree
virDomainFSThaw
virDomainFSTrim
virDomainInjectNMI

virDomainInterfaceFree

virDomainManagedSave
virDomainManagedSaveRemove

virDomainMigrate
virDomainMigrate2
virDomainMigrate3

virDomainMigrateSetCompressionCache
virDomainMigrateSetMaxDowntime
virDomainMigrateSetMaxSpeed
virDomainMigrateToURI
virDomainMigrateToURI2
virDomainMigrateToURI3

virDomainOpenChannel
virDomainOpenConsole
virDomainOpenGraphics
virDomainOpenGraphicsFD
virDomainPMSuspendForDuration

virDomainPMWakeup

virDomainReboot
virDomainReset
virDomainRestore
virDomainRestoreFlags
virDomainResume
virDomainSave
virDomainSaveFlags
virDomainSaveImageDefineXML
virDomainScreenshot
virDomainSendKey
virDomainSendProcessSignal

virDomainShutdown
virDomainShutdownFlags
virDomainSuspend

virDomainSetAutostart
virDomainSetBlkioParameters
virDomainSetBlockIoTune
virDomainSetInterfaceParameters
virDomainSetMaxMemory
virDomainSetMemory
virDomainSetMemoryFlags
virDomainSetMemoryParameters
virDomainSetMemoryStatsPeriod
virDomainSetMetadata
virDomainSetNumaParameters
virDomainSetSchedulerParameters
virDomainSetSchedulerParametersFlags
virDomainSetTime
virDomainSetUserPassword
virDomainSetVcpus
virDomainSetVcpusFlags
virConnectGetAllDomainStats
virConnectGetDomainCapabilities
virConnectListAllDomains
virConnectListDefinedDomains
virConnectListDomains
virConnectNumOfDefinedDomains
virConnectNumOfDomains

virDomainBlockStats
virDomainBlockStatsFlags

virDomainGetAutostart
virDomainGetBlkioParameters
virDomainGetBlockInfo
virDomainGetBlockIoTune
virDomainGetBlockJobInfo
virDomainGetCPUStats
virDomainGetConnect
virDomainGetControlInfo
virDomainGetDiskErrors
virDomainGetEmulatorPinInfo

virDomainGetFSInfo
virDomainGetHostname
virDomainGetID
virDomainGetIOThreadInfo
virDomainGetInfo

virDomainGetInterfaceParameters
virDomainGetJobInfo
virDomainGetJobStats
virDomainGetMaxMemory
virDomainGetMaxVcpus
virDomainGetMemoryParameters
virDomainGetMetadata
virDomainGetName

virDomainGetNumaParameters
virDomainGetOSType
virDomainGetSchedulerParameters
virDomainGetSchedulerParametersFlags
virDomainGetSchedulerType

virDomainGetSecurityLabel
virDomainGetSecurityLabelList
virDomainGetState
virDomainGetTime
virDomainGetUUID
virDomainGetUUIDString
virDomainGetVcpuPinInfo
virDomainGetVcpus
virDomainGetVcpusFlags

virDomainGetXMLDesc
virDomainHasManagedSaveImage
virDomainIOThreadInfoFree

virDomainInterfaceAddresses
virDomainInterfaceStats

virDomainIsActive
virDomainIsPersistent
virDomainIsUpdated
virDomainListGetStats

virDomainLookupByID
virDomainLookupByName
virDomainLookupByUUID
virDomainLookupByUUIDString

virDomainMemoryPeek
virDomainMemoryStats

virDomainMigrateGetCompressionCache
virDomainMigrateGetMaxSpeed

virDomainPinEmulator ?
virDomainPinIOThread
virDomainPinVcpu
virDomainPinVcpuFlags

virDomainSaveImageGetXMLDesc
virDomainStatsRecordListFree
virConnectDomainXMLFromNative
virConnectDomainXMLToNative

Secret virSecretDefineXML virSecretFree
virSecretUndefine
virSecretSetValue virConnectListAllSecrets
virConnectListSecrets
virConnectNumOfSecrets
virSecretGetConnect/UUID/UUIDString/UsageID/UsageType/Value/XMLDesc
virSecretLookupByUUID/UUIDString/Usage
virSecretRef


Stream virStreamNew virStreamFree virStreamFinish

virStreamAbort

virStreamRecv

virStreamRecvAll

virStreamSend

virStreamSendAll

virStreamSinkFunc
virStreamSourceFunc

1.2 Libvirt XML 定义

Libvirt 使用 XML 来定义各种对象,其中,与 OpenStack Nova 关系比较密切的有:

disk (磁盘) 任何磁盘设备,包括软盘(floppy)、硬盘(hard disk)、光驱(cdrom)或者半虚拟化驱动都使用 元素来定义。 方式:
。其中:
  • ”type“ 用来指定device source 的类型:"file", "block", "dir", "network", 或者 "volume"。具体的 source  由 标签定义。

  • ”device“ 用来指定 device target 的类型:"floppy", "disk", "cdrom", and "lun", 默认为 "disk" 。具体的 target 由 标签定义。


(1)”volume“ 类型的 disk
    
      
      
      
    
(2)”file“ 类型的 disk
    
      
      
      
    
(3)”block“ 类型的 disk
   
      
      
      
    
(4)”network“ 类型的 disk

 
      
      
        
      
      
      
    


Host device assignment (主机设备分配)

    #USB 设备直接分配
      
        
        
      
      
    
     #PCI 设备直接分配
      
        
      
      
      
    


Network interface (网卡)
有几种 interface 类型:
(1)type = ‘network’ 定义一个连接 Virtual network 的 interface


    
       #虚拟网络的名称为 ‘default’
    
    ...    
      
      
      
      
        
      

    
  

#virsh:attach-interface --domain d-2 --type network --source isolatednet1 --mac 52:53:00:4b:75:6f --config
(2)type=‘birdge’ 定义一个 Bridge to LAN(桥接到物理网络)的interface:前提是主机上存在一个 bridge,该 bridge 已经连到物理LAN。

     #连接到 br0
      
    
     #连接到br1
      
      
      
    
     #连接到 Open vSwithc bridge ovsbr
      
      
        
      
    

#virsh:attach-interface --domain d-2 --type bridge --source virbr0 --mac 52:22:33:44:55:66 --config
(3)type=‘ethernet’ 定义一个使用指定脚本连接到 LAN 的 interface

    
      
      
    
  
(4)type=‘direct’ 定义一个直接连到物理网卡(Direct p_w_upload to physical interface)的 interface:需要 Linux macvtap 驱动支持
    
      
    
(5)type=‘hostdev’ 定义一个由主机PCI 网卡直接分配(PCI Passthrough)的 interface: 分配主机上的网卡给虚机


    
      
      
        
      
      
      
        
      
    
  


network (网络)


1. bridge:定义一个用于构造该虚拟网络的网桥。 

2. domain:定义 DHCP server 的 DNS domain。

3. forward: 定义虚拟网络直接连到物理 LAN 的方式. ”mode“指转发模式。

 (1) mode=‘nat’:所有连接到该虚拟网络的虚拟的网络都会经过物理机器的网卡,并转换成物理网卡的地址。


        default
        
        
        
          
            
          
        
        
      

也可以指定公共的IP地址和端口号。

  
(2) mode=‘route’:类似于 NAT,但是不使用NAT,而是使用routing table。  

      
        local
        
        
        
          
            
          
        
        
      

(3) mode=‘bridge’:使用不受libvirt管理的bridge,比如主机上已有的bridge;open vswitch bridge;使用 macvtap's "bridge"  模式
      
        host-bridge
        
        
      
(4) mode=‘passthrough’:使用 a macvtap "direct" connection in "passthrough" mode 指定主机上的特定网卡用于虚拟网络   

 
    
    
    
    
    
  

(5) mode=‘hostdev’:直接分配主机上的网络设备。

    
    
    
    
  

详细的 XML 定义说明在 https://libvirt.org/format.html。

1.3 Libvirt API 的实现

libvirt API 的实现是在各个 Hypervisor driver 和 Storage dirver 内。Hypervisor 驱动包括:

  • LXC - Linux Containers

  • OpenVZ

  • QEMU

  • Test - Used for testing

  • UML - User Mode Linux

  • VirtualBox

  • VMware ESX

  • VMware Workstation/Player

  • Xen

  • Microsoft Hyper-V

  • IBM PowerVM (phyp)

  • Parallels

  • Bhyve - The BSD Hypervisor

1.4 Libvirt 的 Python 绑定

python-libvirt 包含 Libvirt 的 Python 语言绑定。安装 libvirt 时,默认会安装 python-libvirt 。 来源: https://libvirt.org/python.html  https://pypi.python.org/pypi/libvirt-python 

 

Python API 和 C API 之间几乎是一对一的映射关系,比如:

 virDomainSetMaxMemory (virDomainPtr domain, unsigned  memory);

#Python API

 因此,libvirt 官网并没有提供详细的 python API 描述。

2. QEMU/KVM libvirt 驱动

2.1 架构

 

Libvirtd 是一个 daemon 进程,可以被本地的virsh调用,也可以被远程的virsh调用

Libvirtd 调用 qemu-kvm 操作KVM 虚拟机

 

这里有一个 virsh 命令、Libvirt C API、 QEMU driver 方法 和 QEMU Monitor 命令的对照表(部分):

virsh command Public API QEMU driver function Monitor command
virsh create XMLFILE virDomainCreateXML() qemudDomainCreate() info cpus, cont, change vnc password, balloon (all indirectly)
virsh suspend GUEST virDomainSuspend() qemudDomainSuspend() stop
virsh resume GUEST virDomainResume() qemudDomainResume() cont
virsh shutdown GUEST virDomainShutdown() qemudDomainShutdown() system_powerdown
virsh setmem GUEST MEM-KB virDomainSetMemory() qemudDomainSetMemory() balloon (indirectly)
virsh dominfo GUEST virDomainGetInfo() qemudDomainGetInfo() info balloon (indirectly)
virsh save GUEST FILENAME virDomainSave() qemudDomainSave() stop, migrate exec
virsh restore FILENAME virDomainRestore() qemudDomainRestore() cont
virsh dumpxml GUEST virDomainDumpXML() qemudDomainDumpXML() info balloon (indirectly)
virsh attach-device GUEST XMLFILE virDomainAttachDevice() qemudDomainAttachDevice() change, eject, usb_add, pci_add (all indirectly)
virsh detach-device GUEST XMLFILE virDomainDetachDevice() qemudDomainDetachDevice() pci_del (indirectly)
virsh migrate GUEST DEST-URI virDomainMigrate() qemudDomainMigratePerform() stop, migrate_set_speed, migrate, cont
virsh domblkstat GUEST virDomainBlockStats() qemudDomainBlockStats() info blockstats
- virDomainBlockPeek() qemudDomainMemoryPeek() memsave

 

2.2 安装

有三种方式来安装 libvirt:

(1)下载 libvirt 的源代码,然后编译和安装

(2)从各 Linux 的发行版中直接安装,比如 Ubuntu 上运行 apt-get install libvirt-bin

(3)从 git 上克隆 libvirt 的代码,然后编译和安装

2.3 libvirt log

这篇文章 描述了 livbirt log。设置所有日志的方法是在 /etc/libvirt/libvirtd.conf 中添加下面的配置然后重启 libvirt:

log_filters="1:libvirt 1:util 1:qemu"log_outputs="1:file:/var/log/libvirt/libvirtd.log"

3 使用 libvirt 编程来管理 KVM 虚机的实例

 这里只描述基本的过程。具体的过程,下一篇文章会具体分析 Nova 中 libvirt 的使用。

  1. 定义虚机的基本配置,包括 vCPU、内存、磁盘或者cdrom以及启动顺序,生成 xml 配置,调用 virDomainCreateXML API 启动一个虚机

  2. 使用 Domain 相关的 API 来管理虚机的生命周期。我的这篇文章有虚机生命周期的详细介绍。

  3. 添加磁盘:定义一个 disk 的 xml 配置,使用 virDomainAttachDevice API 将它挂载到虚机上。如果不是本地的源磁盘,需要提前准备好。

  4. 添加interface:使用 Network API 定义一个虚拟网络(需要提前准备好物理网络),然后定义一个 interface 的 XML 配置,使用 virDomainAttachDevice API 将它加到虚机。

  5. 按照需要,重复2、3、4步骤。 

KVM 介绍(6):Nova 通过 libvirt 管理 QEMU/KVM 虚机 [Nova Libvirt QEMU/KVM Domain]

学习 KVM 的系列文章:

  • (1)介绍和安装

  • (2)CPU 和 内存虚拟化

  • (3)I/O QEMU 全虚拟化和准虚拟化(Para-virtulizaiton)

  • (4)I/O PCI/PCIe设备直接分配和 SR-IOV

  • (5)libvirt 介绍

  • (6)Nova 通过 libvirt 管理 QEMU/KVM 虚机

  • (7)快照 (snapshot)

  • (8)迁移 (migration)

1. Libvirt 在 OpenStack 架构中的位置

在 Nova Compute 节点上运行的 nova-compute 服务调用 Hypervisor API 去管理运行在该 Hypervisor 的虚机。Nova 使用 libvirt 管理 QEMU/KVM 虚机,还使用别的 API 去管理别的虚机。

       

libvirt 的实现代码在 /nova/virt/libvirt/driver.py 文件中。

这里是 OpenStack Hypervisor Matrix。

这里是 每个 Linux 发行版里面 libvirt, QEMU/KVM 的版本号。

请注意Juno 版本 Nova 对 libvirt 和 QEMU 的各种最低版本要求:

功能 最低 libvirt 版本 最低 QEMU 版本 不支持的后果
所有  0.9.11
 Nova 不能使用 libvirt driver

支持 device callback

 1.1.1
不支持的话,就无法支持 Detach PCI/SR-IOV 设备
Live snapshot 1.3.0 1.3.0  只能使用 Clod Snapshot
挂载卷时设置卷的 block 大小(Block IO) 0.10.2
不能使用的话,就不能设置卷的特定 block size,只能使用其默认的 block size。
Block Job Info 1.1.1
不能在线删除卷的快照 (online deletion of volume snapshots
Discard 1.0.6 1.6.0
不支持 p_w_picpath 设置 hw_disk_discard 属性,具体参考 BluePrint
NUMA topology 1.0.4
 无法获取 node 的 NUMA topology 信息,就无法将虚机的 vCPU 指定到特定的 node CPU 上,会影响虚机的性能

 

2. Nova 中 libvirt 的使用

Nova 使用 libvirt 来管理虚机,包括:

  • 创建虚机

  • 虚机的生命周期管理(参考这篇文档)

  • 添加和删除连接到别的网络的网卡 (interface)

  • 添加和删除 Cinder 卷 (volume)

2.1 创建 QEMU/KVM 虚机

创建虚机的配置有几个来源:

  • 用户的选项,包括虚机的基本信息,比如 name,flavor,p_w_picpath,network,disk等。

  • p_w_picpath 的属性,比如 hw_vif_model,hw_scsi_model 等。完整的供 libvirt API 使用的属性列表 在这里。

  • 管理员在 nova.conf 中的配置

(注意:p_w_picpath 的元数据属性的优先级高于 nova.conf 中的配置。只有在没有property的情况下才使用nova.conf中的配置)

创建虚机的过程的几个主要阶段:

(1)消息由 nova-api 路由到某个 nova compute 节点 (API -> Scheduler -> Compute (manager) -> Libvirt Driver)

(2)调用 Neutron REST API 去准备网络。其返回的数据类似:

[VIF({'profile': {}, 'ovs_interfaceid': u'59cfa0b8-2f5c-481a-89a8-7a8711b368a2', 'network': Network({'bridge': 'br-int', 'subnets': [Subnet({'ips': [FixedIP({'meta': {}, 'version': 4, 'type': 'fixed', 'floating_ips': [], 'address': u'10.0.10.14'})], 'version': 4, 'meta': {'dhcp_server': u'10.0.10.11'}, 'dns': [], 'routes': [], 'cidr': u'10.0.10.0/24', 'gateway': IP({'meta': {}, 'version': 4, 'type': 'gateway', 'address': u'10.0.10.1'})})], 'meta': {'injected': False, 'tenant_id': u'74c8ada23a3449f888d9e19b76d13aab'}, 'id': u'a924e87a-826b-4109-bb03-523a8b3f6f9e', 'label': u'demo-net2'}), 'devname': u'tap59cfa0b8-2f', 'vnic_type': u'normal', 'qbh_params': None, 'meta': {}, 'details': {u'port_filter': True, u'ovs_hybrid_plug': True}, 'address': u'fa:16:3e:e0:30:e7', 'active': False, 'type': u'ovs', 'id': u'59cfa0b8-2f5c-481a-89a8-7a8711b368a2', 'qbg_params': None})]

(3)从 p_w_picpath 启动话,nova 会调用 Glane REST API 后者 p_w_picpath metadata 和准备本地启动盘

p_w_picpath metadata:

{u'status': u'active', u'deleted': False, u'container_format': u'bare', u'min_ram': 0, u'updated_at': u'2015-04-26T04:34:40.000000', u'min_disk': 0, u'owner': u'74c8ada23a3449f888d9e19b76d13aab', u'is_public': False, u'deleted_at': None, u'properties': {}, u'size': 13167616, u'name': u'p_w_picpath', u'checksum': u'64d7c1cd2b6f60c92c14662941cb7913', u'created_at': u'2015-04-26T04:34:39.000000', u'disk_format': u'qcow2', u'id': u'bb9318db-5554-4857-a309-268c6653b9ff'}

本地启动盘:

{'disk_bus': 'virtio', 'cdrom_bus': 'ide', 'mapping': {'disk': {'bus': 'virtio', 'boot_index': '1', 'type': 'disk', 'dev': u'vda'}, 'root': {'bus': 'virtio', 'boot_index': '1', 'type': 'disk', 'dev': u'vda'}, 'disk.local': {'bus': 'virtio', 'type': 'disk', 'dev': 'vdb'}, 'disk.swap': {'bus': 'virtio', 'type': 'disk', 'dev': 'vdc'}}}

本地启动盘的文件信息:

root@compute2:/home/s1# qemu-img info /var/lib/nova/instances/02699155-940f-4401-bc01-36220db80639/disk.local
p_w_picpath: /var/lib/nova/instances/02699155-940f-4401-bc01-36220db80639/disk.local
file format: qcow2
virtual size: 1.0G (1073741824 bytes) #由 flavor.ephemeral_disk 指定其 sizedisk size: 324K
cluster_size: 65536
backing file: /var/lib/nova/instances/_base/ephemeral_1_default
Format specific information:
    compat: 1.1
    lazy refcounts: false
root@compute2:/home/s1# qemu-img info /var/lib/nova/instances/02699155-940f-4401-bc01-36220db80639/disk.swap p_w_picpath: /var/lib/nova/instances/02699155-940f-4401-bc01-36220db80639/disk.swap file format: qcow2 virtual size: 30M (31457280 bytes) # 由 flavor.swap_disk 指定其sizedisk size: 196K cluster_size: 65536 backing file: /var/lib/nova/instances/_base/swap_30 Format specific information:    compat: 1.1    lazy refcounts: false

(4)根据这些信息,生成 domain xml,然后生成其配置使得它是一个持久性虚机 (调用 libvirt Python DefineXML API)。

一个从 p_w_picpath 启动的 Domain 的配置 XML 实例(蓝色部分是注释说明):


  8352e969-0a25-4abf-978f-d9d0ec4de0cd
  instance-0000002f
  51200 # guest.memory = flavor.memory_mb * units.Ki 即 50 * 1024 = 51200  1 #flavor.vcpus  
    
      
      vm11 #input.name      2015-06-09 23:54:04
       #input.flavor
        50
        1
        30
        1
        1
      
      
        admin
        admin
      
       #input.source
    
  
   # Nova 中写死的    
      OpenStack Foundation
      OpenStack Nova
      2014.2.2
      03bb1a0f-ae04-4765-9f3c-d200a2540675
      8352e969-0a25-4abf-978f-d9d0ec4de0cd
    
  
  
    hvm #表示 Guest OS 需要 full virtualiaiton 支持
     #指定启动盘
     #去读取  的定义
  
  
     # Soft Reboot 需要 ACPI 的支持,否则只能使用 Hard reboot。 https://bugs.launchpad.net/horizon/+bug/1346741
     # 没 APIC 的话,Windows Guest 会在 Xen 或者 KVM 上崩溃。 https://bugs.launchpad.net/nova/+bug/1086352
  
   #如果Guest OS 是 MS,则是 localtime,否则都是 utc   # 对于 KVM,如果 CONF.libvirt.cpu_mode 是 none,mode 则设为 "host-model"。具体可参考 https://wiki.openstack.org/wiki/LibvirtXMLCPUModel     #默认的时候,sockets 数目设为 vcpu 的数目,cores 和 threads 都设为 1. 可以通过设置 p_w_picpath 的 hw_cpu_topology 属性来改变这里的设置,具体请参考 https://blueprints.launchpad.net/nova/+spec/support-libvirt-vcpu-topology 以及 https://wiki.openstack.org/wiki/VirtDriverGuestCPUMemoryPlacement
  
  
     # 从 p_w_picpath 启动时候的启动盘(flavor.root_disk)
      
      
       #对于 KVM,disk 的 bus 为 "virtio",cdrom 的 bus 为 "ide",floppy 的 bus 为 "fdc"    
     #临时分区 (falvor.ephemeral_disk)
      
      
      
    
     #swap 分区 (flavor.swap_disk)
      
      
      
    
     # 虚机通过网桥连接到 OVS      
       #该 type 可以由 p_w_picpath metadata hw_vif_type 指定。未指定的话,如果配置了 conf.libvirt.use_virtio_for_bridges = true (默认就是 true)的话,QEMU/KVM 会使用 virtio 类型。
      
       #qbr59cfa0b8-2f 连接虚机的 vNIC tap59cfa0b8-2f 和 qvb59cfa0b8-2f ,而 qvb59cfa0b8-2f 练到 OVS 的 br-int 上。      
    
     当 CONF.serial_console.enabled = true 时,type 为 "tcp",使用 config 配置,其 XML 为     ;当为 false 时,使用 console.log 文件,type 为 file。      
    
     #每个domain都有 type 为 "pty" 的 serial 配置。     #当 CONF.vnc_enabled = true 或者 CONF.spice.enabled = true 并且 CONF.spice.agent_enabled = false 时添加 tablet,type 和 bus 都是固定的。     #如果 CONF.vnc_enabled = true,那么 keymap=CONF.vnc_keymap;listen=CONF.vncserver_listen    
     #如果 CONF.libvirt.mem_stats_period_seconds >0 则添加 memballoon;对 KVM,model 固定为 "virtio"      
    
  

从 bootable volume 启动的话,disk 部分为:


      
      
      
    
    
      
      
      
        
     
     
     
     26446902-5a56-4c79-b839-a8e13a66dc7a
    

(5). 启动 domain (调用 libvirt Python createWithFlags API)

2.2 添加 volume 到虚机 (nova volume-attach)

(1)使用 volume id 通过 volume driver 找到指定的 volume

(2)调用 volume driver 来建立主机和 Volume 之间的连接

主机信息为: 

 {'ip': '192.168.1.15', 'host': 'compute2', 'initiator': 'iqn.1993-08.org.debian:01:a9f2b45c24f9'}

建立的 iSCSI 连接信息为:

{u'driver_volume_type': u'iscsi', u'data': {u'access_mode': u'rw', u'target_discovered': False, u'encrypted': False, u'qos_specs': None, u'target_iqn': u'iqn.2010-10.org.openstack:volume-51da0d1f-0a17-4e7f-aeff-27438963348a', u'target_portal': u'10.0.2.41:3260', u'volume_id': u'51da0d1f-0a17-4e7f-aeff-27438963348a', u'target_lun': 1, u'auth_password': u'hXG64qrzEjNt8MDKnERA', u'auth_username': u'fKSAe6vhgyeG88U9kcBV', u'auth_method': u'CHAP'}}

volume 在主机上的磁盘为:

root@compute2:/home/s1# ls /dev/disk/by-path/ -ls
total 0
0 lrwxrwxrwx 1 root root 9 Jun 10 12:18 ip-10.0.2.41:3260-iscsi-iqn.2010-10.org.openstack:volume-51da0d1f-0a17-4e7f-aeff-27438963348a-lun-1 -> ../../sdc

 

Disk /dev/sdc: 1073 MB, 1073741824 bytes
34 heads, 61 sectors/track, 1011 cylinders, total 2097152 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/sdc doesn't contain a valid partition table

(3)通过 domain name 来找到指定 domain 对象 (通过调用 lookupByName API)

(4)生成 volume 连接的配置 xml,比如:


   
   
   
    51da0d1f-0a17-4e7f-aeff-27438963348a

(5)调用 attachDeviceFlags API 将 volume 挂载到该虚机

2.3 添加连接到新的网络的 interface 给虚机 (nova interface-attach)

(1)运行 nova  interface-attach,传入 network-id,Neutron 会分配如下network info 给 Nova

VIF({'profile': {}, 'ovs_interfaceid': u'0142efee-7382-43ef-96e8-d0084ecc893c', 'network': Network({'bridge': u'br-int', 'subnets': [Subnet({'ips': [FixedIP({'meta': {}, 'version': 4, 'type': u'fixed', 'floating_ips': [], 'address': u'10.0.0.40'})], 'version': 4, 'meta': {u'dhcp_server': u'10.0.0.3'}, 'dns': [], 'routes': [], 'cidr': u'10.0.0.0/24', 'gateway': IP({'meta': {}, 'version': 4, 'type': u'gateway', 'address': u'10.0.0.1'})})], 'meta': {u'injected': False, u'tenant_id': u'74c8ada23a3449f888d9e19b76d13aab'}, 'id': u'01630966-b21f-4a6d-95ff-10c4575f1fe2', 'label': u'demo-net'}), 'devname': u'tap0142efee-73', 'vnic_type': u'normal', 'qbh_params': None, 'meta': {}, 'details': {u'port_filter': True, u'ovs_hybrid_plug': True}, 'address': u'fa:16:3e:14:32:d9', 'active': True, 'type': u'ovs', 'id': u'0142efee-7382-43ef-96e8-d0084ecc893c', 'qbg_params': None})

(2)执行下面的命令,将 Neutron 分配的 port 连接到 OVS 

#添加 linux bridge
brctl addbr qbr0142efee-73 #名字是 devname 的后半部分brctl setfd qbr0142efee-73 0brctl stp qbr0142efee-73 off
tee /sys/class/net/qbr0142efee-73/bridge/multicast_snooping

ip link add qvb0142efee-73 type veth peer name qvo0142efee-73ip link set qvb0142efee-73ip link set qvb0142efee-73 promisc on

#在 OVS 上添加端口
ovs-vsctl --timeout=120 -- --if-exists del-port qvo0142efee-73 -- add-port br-int qvo0142efee-73 -- set Interface qvo0142efee-73 external-ids:iface-id=0142efee-7382-43ef-96e8-d0084ecc893c external-ids:iface-status=active external-ids:attached-mac=fa:16:3e:14:32:d9 external-ids:vm-uuid=8352e969-0a25-4abf-978f-d9d0ec4de0cd

(3)生成 interface 配置的xml,比如:


   
   
    
    
    

(4)调用 attachDeviceFlags API 来挂载该 interface 到虚机

 

 至于其他的虚机操作,会在另一篇文章中描述。