esxi虚拟机频繁出现的故障

开关机故障

宿主机层尝试修复一

现象:
esxi主机上的某一台虚拟机频繁出现开关机故障,其他选项为不可操作的灰色,每次解决需要重启物理服务器,ssh远程主机后,执行esxcli vm process list发现进程占用文件,便esxcli vm process kill -t force -w WorldI,仍旧无法正常开机,进入对应datastore,lsof .vmdk发现依旧占用,同时发现vmx.lck文件,rm -rf提示file or resource busy,其他几个文件vmx、vmx.lck、vmdk都不可访问,又发现大量vmware.log,随即删除,再删vmx.lck,正常开机

[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver] ls
172.17.20.249_appserver-0b4786b5.hlog  172.17.20.249_appserver.vmx.lck        vmware-1.log
172.17.20.249_appserver-ctk.vmdk       172.17.20.249_appserver.vmxf           vmware-2.log
172.17.20.249_appserver-flat.vmdk      172.17.20.249_appserver.vmx~           vmware-3.log
172.17.20.249_appserver.nvram          172.17.20.249_appserver_1-ctk.vmdk     vmware-4.log
172.17.20.249_appserver.vmdk           172.17.20.249_appserver_1-flat.vmdk    vmware-5.log
172.17.20.249_appserver.vmsd           172.17.20.249_appserver_1.vmdk         vmware.log
172.17.20.249_appserver.vmx            vmware-0.log
[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver] rm vmware-0.log vmware-1.log vmware-2.log vmware-3.log vmware-4.log vmware-5.log
[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver] rm vmware.log
[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver] ls
172.17.20.249_appserver-0b4786b5.hlog  172.17.20.249_appserver.vmsd           172.17.20.249_appserver_1-ctk.vmdk
172.17.20.249_appserver-ctk.vmdk       172.17.20.249_appserver.vmx            172.17.20.249_appserver_1-flat.vmdk
172.17.20.249_appserver-flat.vmdk      172.17.20.249_appserver.vmx.lck        172.17.20.249_appserver_1.vmdk
172.17.20.249_appserver.nvram          172.17.20.249_appserver.vmxf
172.17.20.249_appserver.vmdk           172.17.20.249_appserver.vmx~
[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver] rm 172.17.20.249_appserver.vmx.lck
[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver] ls
172.17.20.249_appserver-0b4786b5.hlog  172.17.20.249_appserver.vmdk           172.17.20.249_appserver.vmx~
172.17.20.249_appserver-ctk.vmdk       172.17.20.249_appserver.vmsd           172.17.20.249_appserver_1-ctk.vmdk
172.17.20.249_appserver-flat.vmdk      172.17.20.249_appserver.vmx            172.17.20.249_appserver_1-flat.vmdk
172.17.20.249_appserver.nvram          172.17.20.249_appserver.vmxf           172.17.20.249_appserver_1.vmdk
[root@localhost:/vmfs/volumes/5fb38966-95ddf6d8-0cd5-b8ca3af07740/172.17.20.249_appserver]

解释:
磁盘锁文件。因为.vmdk虚拟磁盘文件有一个保护机制。为了防止多台虚拟机同时访问一个.vmdk虚拟磁盘文件带来的数据丢失和性能下降。每次启动虚拟机时通过.vmx.lck的磁盘锁文件对.vmdk虚拟磁盘文件进行锁定保护。当虚拟机正常关闭,.vmx.lck磁盘锁文件自动删除。

宿主机层尝试修复二

esxcli vm process list #查看world-id
vm process kill --type=hard --world-id=xxxx
#或
ps | grep vmx #显示pid、父进程、服务
kill -9 pid/父进程

suse操作系统修复

现象:
由于安全渗透致san交换机异常,端口均处于停止转发状态,使虚拟机文件系统只读,待san交换机重启后恢复正常,但虚拟机的操作系统部分异常,有些服务起不来,包括network服务、zyppear命令等很多不可用,提示xxx service failed when loaded shared lib . error ibgobject.so.2.0:no such file or directory.还有很多lib没记录。

处理:
异常操作系统是suse linux enterprise desktop 10,下载了suse linux enterprise server 12的iso,通过第一启动项引导,按照如下选择直接升级即解决。
ps:镜像内自带主引导记录、分区表、package修复,没尝试。
esxi虚拟机频繁出现的故障_第1张图片
esxi虚拟机频繁出现的故障_第2张图片

windwos虚拟机频繁断网

现象:
发现运行在esxi上的win2012r2虚拟机频繁发生网络中断,登录系统内部排查,无法ping通,该虚拟机是由win2008迭代升级而来的,先前网卡类型是E1000,win2012开始不支持该类型。
处理:
新增网卡类型(VMXNET 3),删除旧网卡(E1000)
ps:热更换需要提前安装vmwaretools:
esxi虚拟机频繁出现的故障_第3张图片端口检测:

#!/bin/bash

cat port_check.txt | while read ip port
do

nmap -sS -p $port -oG - $ip >> result.txt

done

cat result.txt | grep Up | awk '{print $2}' >> success_ip.txt

echo "`date "+%Y-%m-%d %H:%M:%S"`" >> fail_ip.txt
diff success_ip.txt all_ip.txt >> fail_ip.txt

你可能感兴趣的:(vmware,vmware)