文章来源:http://blog.sina.com.cn/s/blog_4d30412d01009ars.html
在服务虚拟化技术中CPU调度是关键。它决定着哪个vCPU能够在底层的物理CPU架构上运行。为了优化调度并达到接近原始(未虚拟化时)的性能,调度方案必须有效,并且不浪费任何处理器周期。这些方案被称为(工作保留)work-conserving,即不允许CPU资源空闲。只要有足够的能力来执行指令且有指令执行,WC机制就陷入客户指令分配并分配它们给物理CPU去执行。如果工作负载不是很大的话,这样的机制操作就象简单的FIFO排队机制一样。然后,当处理器排队非常拥挤时,指令就会排队并且基于优先权和在调度机制中设置的权重执行。
作为比较,非工作保留(non-work-conserving)排队服务允许CPU资源可以空闲。在该情况下,以更快速度地执行指令比需要时执行是体现不出优点的,底层的物理CPU资源也会限制它们本来能够执行的速度。在同一个hypervisor中将WC和NWC机制结合起来是可行的。
在XEN中的一种CPU调度器是基于借记虚拟时间调度机制(BVT)的。这是一种混合的算法,WC服务模式且有低延迟分派机制(当一个domain接收到事件通知时立即唤醒该该domain)。后者在管理层中对操作系统运行在实时方式下最小化虚拟化的影响来说非常重要。BVT通过使用虚拟时间来达到它的低延迟特征。这个机制打破了“公平共享”的规则,临近的低延迟的域更容易被唤醒。XEN提供了两种调度策略,简单最早期限优先(SEDF)和Credit调度。通过统一的CPU调度的API能实现用户自己的调度方法。Credit调度是为了多处理器平台性能优化而来的,对多处理器平台来说它是比较好的选择。基于Credit调度在SEDF退后发展起来在后来的XEN版本中。BVT也是一种信用度的调度器。
调度参数在dom0中使用用户模式管理工具由每个domain管理。当典型的credit调度运行在多处理器平台上,将动态地以WC方式跨物理CPU来最大化domain和系统处理器的吞吐量,vCPU也能够限制只在主机的物理CPU的一个子集上运行,即pinning。例如,现在有一个应用程序服务器运行某个特定的domU,限定仅在CPU2和3上运行。即使现在CPU0和1有空闲周期,也不会为该domain执行指令--混合调度模型的nWC模式。
如果需要查看目前所有domains的SEDF调度设置,运行下面的命令:
xm sched -sedf
xm sched -credit -d 1 (1表示domain1)
Tips:
Xen提供了命令行接口。
SEDF调度器定制:
xm sched -sedf <dom -id> <period> <slice> <latency-hint> <extra> <weight>
Credit调度器定制:
xm sched-credit –d -w -c
Credit调度
管理员为每个domain分配credit值,Xen按照credit值公平调度各个domain。
Domain有两种状态,UNDER和OVER。OVER表示虚拟机的credit值已用完,UNDER表示credit值还有剩余。在进行调度时,调度器只关心虚拟机所处的状态,而不会进一步关心其剩余的credit值,处于UNDER状态的虚拟机优先于OVER状态的虚拟机被调度,只有当UNDER状态的虚拟机都无法运行时才会调度到OVER状态的虚拟机,所以,只有当处理器空闲时才允许破坏credit的公平性调度策略。处于相同状态的虚拟机按照先进先出的方式运行,当处于队列首部的虚拟机被调度到时,在其credit值足够的情况下,允许其运行三个调度时长,即30ms。系统每隔10ms触发一次调度中断,当前正在运行的虚拟机会被减掉100个credit,当所有虚拟机的credit值总和变为负值时,为所有虚拟机重新分配credit。
当事件被发送到虚拟机时,如果虚拟机处于空闲状态,Xen会将其唤醒,然后,调度器会被立即运行,重新计算调度顺序,如果新被唤醒的虚拟机具有较高的优先级,则之前正在运行的虚拟机会被抢占调度。在Credit最初的设计中,接收到事件的虚拟机总是被放在调度队列的尾部,虽然调度器会立即重新计算调度顺序,但它必须等待排在其前面的所有虚拟机都运行完才会被调度到。在响应敏感类应用中,事件响应延迟与其所处的队列位置密切相关,响应延迟普遍较长且波动明显。为了解决响应延迟时间过长的问题,Credit调度算法新加入了一个BOOST状态,处于BOOST态的虚拟机具有最高的优先级。空闲的虚拟机在通过事件通道接收到一个事件时会进入BOOST态,因为BOOST态优先级最高,如果允许调度器立即重新调度,则该虚拟机会被立即调度到。经实验证明,加入BOOST态的Credit算法可以大大降低响应延迟的平均值,但如果有多台虚拟机同时进行I/O操作,则他们都会被BOOST,从而无法体现BOOST态优先级高的优势,等待处理的事件仍有可能长时间得不到响应,所以,对波动现象改进很少。BOOST对I/O的带宽也有明显改进。
SEDF调度
Xen为每台虚拟机指定两个参数:period和slice。如果虚拟机可运行且未被阻塞,SEDF可以保证在每个period时间段内执行slice时长。SEDF为每个虚拟机维护一个deadline值,表示当前period段结束的时间,以及在该period时间段内还未执行的slice时长,调度队列按照deadline值排序,deadline最早的虚拟机最先被执行,随着处理器的运行,deadline值会被不断地修正。I/O敏感的虚拟机相对CPU敏感的虚拟机,消耗的处理时间更少,会有更早的deadline,因此也会有更高的优先级。
Xen的Credit算法能够非常公平地调度处理器资源,在调度CPU敏感类的虚拟机时可以取得很好的性能,但I/O敏感类的应用性能很差。
Xen的SEDF(Simple Earlier Dead First)算法在调度CPU敏感类和I/O敏感类混合应用时能够让I/O敏感类应用获得更短的延迟响应时间。
目前Xen采用的调度算法是Credit算法,因为Credit在调度多处理器方面和QoS控制方面表现更好。
(paper:Scheduling I/O in Virtual Machine Monitors Diego Ongaro Alan L. Cox Scott Rixner, Rice University)