VMware vSphere HA主机状态故障排除方法


Vmware vCenter Server 和 ESXi 主机在运行时难免遇到这样那样或潜在的故障,那么如何提前知晓这些故障或处理这些故障呢,在此小编支支招VMware vSphere HA主机状态故障的排除方法。

1、VMware vSphere HA主机状态故障排除方法

一般情况下,vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况,这类错误会阻止 vSphere HA 充分保护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能,当在主机上配置或取消配置 vSphere HA 时,或很少数情况下在正常运行期间可能出现错误,当出现错误时,应确定如何解决错误才能使 vSphere HA 全面运行。

2、vSphere HA 代理处于代理无法访问状况

主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。可能需要用户干预来解决这种情况。

问题:当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。

原因:vSphere HA 代理可能因多个原因而处于代理无法访问状况。这种情况通常表示网络连接问题正在阻止 vCenter Server 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。这种情况还可能表示一种不太可能的情况:vSphere HA 已被禁用并已在群集中重新启用但 vCenter Server 无法与主机上的 vSphere HA 代理通信,或主机上的代理已失败且监视程序进程无法将其重新启动。

解决方案:确定 vCenter Server 是否报告主机无响应。如果是,则说明存在网络问题或整体性群集故障。解决上述任一种情况后,vSphere HA 应可正常工作。如果未正常工作,请重新配置主机上的 vSphere HA。同样,如果 vCenter Server 报告主机有响应但主机状态为“代理无法访问”,请重新配置该主机上的 vSphere HA。

3、vSphere HA 代理处于未初始化状况

主机上的 vSphere HA 代理已处于未初始化状况一分钟或更长时间。可能需要用户干预来解决这种情况。

问题:当主机的代理无法进入运行状况并成为首选主机时,或无法连接到首选主机时,vSphere HA 会报告代理处于未初始化状况。因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。

原因:vSphere HA 代理可能因一个或多个原因而处于未初始化状况。这种情况通常表示主机对任何数据存储都没有访问权限。在少数情况下,表示主机对 vSphere HA 用来缓存状况信息的本地数据存储没有访问权限、主机上的代理无法访问或 vSphere HA 代理无法打开所需防火墙端口。

解决方案:在主机的事件列表中搜索近期发生的主机的 vSphere HA 代理出错 (vSphere HA Agent for the host has an error) 事件。此事件指明主机处于未初始化状况的原因。如果由于数据存储问题而出现这种情况,请解决任何阻止主机访问受影响数据存储的问题。解决上述问题后,如果代理未返回到操作状况,请重新配置主机上的 vSphere HA。

注意:如果由于防火墙问题而出现这种情况,请检查主机上是否有其他服务在使用端口 8192。如果是这样,请关闭此服务,然后重新配置 vSphere HA。

4、vSphere HA 代理处于“初始化错误”状况

主机上的 vSphere HA 代理已处于“初始化错误”状况一分钟或更长时间。需要用户干预来解决这种情况。

问题:vSphere HA 报告代理上一次尝试配置主机的 vSphere HA 失败时处于“初始化错误”状况。vSphere HA 不监控此类主机上的虚拟机,并且在发生故障后可能不会重新启动这些虚拟机。

原因:这种情况通常表示,在主机上安装或配置 vSphere HA 代理时 vCenter Server 无法连接到该主机。这种情况还可能表示安装和配置已完成,但代理在超时期限内未成为首选主机或从属主机。这种情况很少表示主机的本地数据存储上没有足够的磁盘空间用于安装代理,或主机上没有足够的未预留内存资源用于代理资源池。最后,对于 ESXi 5.0 主机,如果先前安装另一组件时需要重新引导主机但尚未进行重新引导,则配置将失败。

解决方案:如果配置 HA 任务失败,将报告失败的原因。

失败原因

操作

主机通信错误

解决主机出现的任何通信问题,然后重试配置操作。

超时错误

可能的原因包括主机在配置任务期间崩溃、代理在安装后无法启动或代理在启动后无法初始化。验证vCenter Server是否能与主机通信。如果的确如此,请参见vSphere HA 代理处于代理无法访问状况或vSphere HA 代理处于未初始化状况以了解相关可行解决方案。

 

文件空间不足

释放约75 MB 的磁盘空间。如果此故障是由于未预留的内存不足造成的,可通过将虚拟机重定位到另一主机或降低其预留来在主机上释放内存。在这两种情况下,请在解决问题后重试 vSphere HA配置任务。

挂起的重新引导

如果安装5.0 或更高版本的主机失败的原因是重新引导挂起,请重新引导主机,然后重试vSphere HA 配置任务。

5、vSphere HA 代理处于“未初始化错误”状况

主机上的 vSphere HA 代理处于“未初始化错误”状况。需要用户干预来解决这种情况。

问题:在取消配置 HA 任务期间,当 vCenter Server 无法取消配置主机上的代理时,vSphere HA 会报告代理处于未初始化错误状况。处于此状况的代理可能干扰群集的运行。例如,主机上的代理可能选择自身作为主要主机并锁定数据存储。锁定某个数据存储会阻止有效的群集主要主机管理配置文件位于此数据存储上的虚拟机。

原因:这种情况通常表明当取消配置代理时,vCenter Server 与主机的连接丢失。

解决方案:将主机添加回版本 5.0 或更高版本的 vCenter Server。可以将主机作为独立主机添加,或者可以添加到任何群集。

6、vSphere HA 代理处于“主机出现故障”状况

主机上的 vSphere HA 代理处于“主机出现故障”状况。需要用户干预来解决这种情况。

问题:通常,此类报告表示主机实际上已发生故障,但故障报告有时可能不正确。故障主机会降低群集的可用容量,如果出现错误报告,会阻止 vSphere HA 保护在该主机上运行的虚拟机。

原因:当 vCenter Server 连接到的 vSphere HA 首选主机无法与该主机以及用于该主机的检测信号数据存储进行通信时,会报告此主机状况。如果伴随有网络故障,使数据存储无法访问主机的任何存储故障均会导致此情况。

解决方案:请检查是否存在所述的故障情况并解决发现的任何故障。

7、vSphere HA 代理处于“网络已分区”状况

主机上的 vSphere HA 代理处于“网络已分区”状况。可能需要用户干预来解决这种情况。

问题:尽管主机上运行的虚拟机继续由负责它们的首选主机监控,但 vSphere HA 在出现故障后重新启动虚拟机的能力将受到影响。首先,每台首选主机都可以访问主机的子集,因此每台主机可用的故障切换容量降低。其次,发生故障后,vSphere HA 可能无法重新启动辅助虚拟机(请参见主虚拟机保持在“需要辅助虚拟机”状态)。

原因:如果满足以下两个条件,则会将主机报告为已分区:

——vCenter Server 连接到的 vSphere HA 首选主机无法使用管理网络与主机通信,但可以使用已为其选择的检测信号数据存储来与该主机通信。

——主机未隔离。

网络分区的出现有很多原因,包括 VLAN 标记错误、物理网卡或交换机发生故障、配置部分主机仅使用 IPv4 而其他主机仅使用 IPv6 的群集,或者部分主机的管理网络在没有先使主机进入维护模式的情况下移至其他虚拟交换机。

解决方案:解决阻止主机使用管理网络进行通信的网络连接问题。

8、vSphere HA 代理处于“网络已隔离”状况

主机上的 vSphere HA 代理处于“网络已隔离”状况。需要用户干预来解决这种情况。

问题:当主机处于“网络已隔离”状况时,vSphere HA 会对主机上运行的虚拟机应用关闭主机电源或主机关机隔离响应vSphere HA 会继续监控保持打开电源状态的虚拟机。当主机处于此状况时,vSphere HA 在虚拟机出现故障后重新启动虚拟机的能力将受到影响。如果主机上的代理确定由首选主机负责虚拟机,则 vSphere HA 仅对虚拟机执行关闭电源或关机。

原因:如果满足以下两个条件,则主机处于网络隔离状态:

——隔离地址已配置且主机无法 ping 这些地址。

——主机上的 vSphere HA 代理无法访问其他群集主机上运行的任何代理。

解决方案:解决阻止主机 Ping 其隔离地址并与其他主机通信的网络问题。