VMware单个虚拟机的故障监控和重置

自从发布VI3 3.5 以来,VMware HA 开始实验性支持单个虚拟机故障的监控,并且基于你预先设置的方式的进行故障处理,这个新的模块称为虚拟机故障监控模块。虚拟机故障监控可以处理来宾操作系统的故障。
关于虚拟机故障监控模块
由于虚拟机故障监控是实验性支持,因此默认是关闭的。如果你启用了该功能,VMware HA 将开始检测虚拟机是否可用。VMware HA 通过VMware Tools 收集到的心跳信息来决定虚拟机的可用性。
每一台虚拟机中的VMware Tools 每秒钟发送一次心跳信息,虚拟机监控模块每20 秒检测一下心跳。如果心跳在用户指定的时间内没有收到,虚拟机监控模块就认为该虚拟机发生故障,就会重置该虚拟机。
虚拟机故障监控模块可以自己分辨出来是虚拟机打开,但是心跳中止;还是虚拟机关闭、迁移走了。它也可以区分是虚拟机太忙导致心跳丢失还是真的发生了虚拟机故障,因为虚拟机故障监控模块可以判断出在特定时间段心跳的次数为零。
当然,虚拟机故障监控模块工作的基础是该来宾操作系统里已经安装了VMware Tools ,没有安装VMware Tools 的虚拟机,该模块无法监控。
使用虚拟机故障监控模块
你可以为整个群集配置虚拟机监控模块,当然,该虚拟机群集必要先启用VMware HA ,否则没法进行监控。当然,你没法创建一个支持虚拟机故障监控的群集,你要先创建一个普通群集,然后更改它的配置。
具体如何来配置虚拟机故障监控模块呢?下面是具体的步骤:
1.      登陆到VMware VI 客户端,在Inventory 栏,选择需要监控的群集,点击鼠标右键;
2.      选择Edit Settings
3.      如果该群集没有启用VMware HA ,在General 选择Enable VMware HA
4.      在接下来选择Advanced Options
5.      在出现的选项里输入合适的值,然后点击OK
该页目前支持的选项解释如下:
选项
可选值
解释
默认值
das.vmFailoverEnabled
true 或者 false
配置这个选项为 True 可以为整个群集启用虚拟机故障监控功能。
False
das.FailureInterval
整数(秒数)
如果在该时间范围内没有收到心跳,虚拟机故障监控模块将判定该虚拟机故障
30
das.minUptime
整数(秒数)
虚拟机上电后,等待虚拟机心跳稳定的时间。注:该时间应该包含虚拟机操作系统启动的时间
120
das.maxFailures
整数(秒数)
*  das.maxFailureWindow 指定的时间内,允许最大的故障和自动重置次数。
*  如果 das.maxFailureWindow 配置为 -1, das.maxFailures 代表故障的绝对次数,直到自动响应中止,需要人工干预。
*  如果一个虚拟机故障次数超过这个值,需要进行更为深入的故障分析
3
das.maxFailureWindow
整数(秒数)
如果 das.maxFailures 配置了数值,并且该时间内虚拟机已经重置的次数达到了该数值,自动响应已经停止,需要进一步的分析 op and
-1 (没有错误窗口)
如果你没有进行任何配置,说明das.vmFailoverEnabled 仍然是false 。如果虚拟机故障监控已经启用,这些选项你都没有进行配置的情况下,所有的选项都会使用默认配置。
配置实例
下面的实例是某个虚拟机故障监控的配置情况。

该配置说明:
1.      Virtual Center Server 上已经启用了虚拟机故障监控模块;
2.      如果60 秒或更长时间内不能收到该群集的心跳,VMware HA 将重置该虚拟机
3.      每台虚拟机允许240 秒时间来启动稳定其心跳。该时间用来进行虚拟机启动和VMware Tools 重置;
4.      如果一天中虚拟机故障达到或超过3 次,VMware HA 就不再进行虚拟机重置。
 
当然,目前虚拟机故障监控模块仍然处于试验性支持阶段,因此没提供明确的系统管理员通知。
 

你可能感兴趣的:(vmware,虚拟机,HA,休闲,故障监控)