如何解决VMware ESX中出现的常见问题？

在这里，我们记录一些在ESX主机上发生的、相当常见的问题。通常，可以采取一些简单的步骤去解决这些问题，但有的问题就需要较深入的解决方法。

紫屏死机（PSoDs， Purple Screen of Death）

有一种在ESX和ESXi主机上都可能发生的故障，叫做紫屏死机（可以说是臭名昭著的微软蓝屏死机的VMware版）。紫屏死机会导致ESX/或ESXi主机突然崩溃、变得无法操作。紫屏死机现象如图10.6所示，你一定不希望在自己的主机上发生这种现象。

图10.6 ESX主机上的紫屏死机现象

当PSoDs发生时，ESX会完全死机，没有任何反应。硬件问题（坏有问题的内存是最常见的原因）或ESX中的BUG是导致PSoDs的典型原因。当PSoDs发生时，你只能关闭并重启主机。屏幕上的提示信息非常有用，应该尝试记录它：可以使用带有拍照功能的手机给它照相，或者，如果存在的话，可以从一个远程管理面板上截图。你或许看不明白这些捕获下来的信息，但是，这些信息对VMware的技术支持来说非常有用。屏幕上显示的信息包括ESX的版本和build号、异常类型、寄存器转储（register dump）、崩溃时每个CPU正在跑什么、回溯追踪（back-trace）、服务器运行时间、错误日志、内存硬件信息等。

当你遇到PSoDs并重启主机之后，在ESX主机或/root文件夹下，会有一个以vmkernel-zdump开头（命名）的文件。这个文件对 VMware技术支持非常有用，同时，你也可以使用该文件，通过vmkdump工具提取 VMkernel日志信息、寻找与PSoDs有关的线索，从而判断PSoDs发生的原因。要使用这个命令，输入vmkdump –l dump <文件名>。如前所述，坏有问题的内存是PSoDs中常见的原因。你可以使用dump 文件识别引起问题的内存模块，从而将其替换掉。

如果怀疑是坏内存引起PSoDs，可以使用一些内存压力测试工具来检测主机的内存。这些工具需要你关闭主机并从CD启动以进行内存测试。一个常用的工具是Memtest86+，它可以进行广泛的内存测试，比如，检测邻近内存单元的相互影响，以确保要写某单元时不会覆盖邻近的单元。你可以在www.memtest.org下载这个工具。

当你在某个主机上首次部署ESX的时候，进行一次内存测试是个好主意，这样可以避免在以后某个时候内存故障引起麻烦。许多的内存问题都是不明显的，简单的内存测试，比如POST过程中的内存校验可能都发现不了问题。你可以下载Memtest86+测试工具，一个2MB大小的ISO文件，将这个文件刻录成CD，让主机从该CD启动，然后运行该工具至少24小时以完成多种内存测试。主机中的内存越大，完成一次测试的时间越长，一个拥有32GB内存的主机完成一次测试大概需要1天的时间。除了系统内存，Memtest86+还检测CPU的L1和L2 cache。Memtest86+的运行时间不确定，当所有的测试都完成时，通过的计数器会增加。（Memtest86+ will run indefinitely, and the pass counter will increment as all the tests are run.）

服务器控制台问题

有时候，你可能会遇到服务器控制台问题，表现为：服务器控制台挂起，同时，不允许在本地登录。这种状况可能是由硬件锁定或僵尸状态引起，但是，通常这种问题不会影响在ESX主机上运行的虚拟机（VM）。重启是解决这种问题的常用方法，但是，在重启之前，你应该关闭VM，或者将VM VMmotion到其他的ESX。可以使用各种可用的途径来操作VM，完成关闭或迁移。比如，使用VI client、通过SSH登录到服务控制台或者使用可替代的/紧急的控制台（通过按Alt+F2到F6）。当VM被迁移或者关闭之后，你可以使用 reboot命令重启ESX，如果所有的控制台都没有响应，你就只能去按主机上的电源按钮，冷启动主机。

网络问题

有时，你也会遇到某种故障导致丢失了所有或者部分的网络配置，或者网络配置改变导致服务控制台丢失网络连接。当服务控制台的网络连接丢失时，你将无法使用远程的方法来连接ESX主机，包括VI client和SSH。你只能在本地的服务控制台上使用esxcfg-命令行工具恢复/修正网络配置，以下是一些命令，你可以从ESX CLI上使用它们配置网络：

esxcfg-nics

这个命令显示物理网卡列表，除去每个网卡的驱动信息、PCI设备、链接状态，你可以使用这个命令控制物理网卡的速度、双工模式等。esxcfg-nics –l显示网卡信息、esxcfg-nics –h显示该命令可用的选项，以下是一些例子：

o设置物理网卡vmnic2的速度和双工模式为100/Full:
esxcfg-nics -s 100 -d full vmnic2
o设置物理网卡vmnic2的速度和双工模式为自适应模式:
esxcfg-nics -a vmnic2

esxcfg-vswif

创建或者更新服务控制台网络，包括IP地址和端口组，esxcfg-vswif –l显示当前设置、esxcfg-vswif –h显示可用的选项，以下是一些例子：

o更改服务控制台(vswif0)IP地址和子网掩码:
esxcfg-vswif -i 172.20.20.5 -n 255.255.255.0 vswif0
o添加服务控制台(vswif0):
esxcfg-vswif -a vswif0 -p "Service Console" -i 172.20.20.40 -n 255.255.255.0

esxcfg-vswitch

创建或者更新虚拟机网络(vSwitch) ,包括上行链路、端口组和VLAN ID. 输入esxcfg-vswitch –l显示当前的vSwitch、 esxcfg-vswitch –h显示所有可用的选项. 以下是一些例子:

o将物理网卡(vmnic2) 添加到vSwitch (vSwitch1):
esxcfg-vswitch -L vmnic2 vswitch1
o将物理网卡(vmnic3)从一个vSwitch (vSwitch0)上移除:
esxcfg-vswitch -U vmnic3 vswitch0
o在vSwitch (vSwitch1)上添加一个端口组(VM Network3):
esxcfg-vswitch -A "VM Network 3" vSwitch1
o在vSwitch (vSwitch1)上给端口组(VM Network 3)分配一个VLAN ID(3):
esxcfg-vswitch -v 3 -p "VM Network 3" vSwitch1

esxcfg-route

设置或提取缺省的VMkernel网关路由。输入esxcfg-route –l当前的路由信息、esxcfg-route -h显示所有可用的选项. 以下是一些例子:

o设置缺省的VMkernel网关路由:
esxcfg-route 172.20.20.1
o添加一个路由到VMkernel:
esxcfg-route -a default 255.255.255.0 172.20.20.1

esxcfg-vmknic

为VMotion、NAS和iSCSI创建或者更新VMkernel TCP/IP设置。输入esxcfg-vmknic –l显示VMkernel NICs、esxcfg-vmknic -h显示所有可用的选项. 以下是一些例子:

o添加一个VMkernel NIC并设定IP和子网掩码:
esxcfg-vmknic -a "VM Kernel" -i 172.20.20.19 -n 255.255.255.0

另外，你可以通过service network restart命令重启服务控制台网络。

其他问题

有时，重启某些ESX服务既可解决问题且不影响VM的运行。两个可以被重启、并可经常解决问题的服务是hostd和vpxa。运行在服务控制台中的 Hostd服务负责管理ESX上的大部分操作，要重启hostd服务，登入服务控制台，输入service mgmt-vmware restart。

vpxa服务是管理代理，用于处理主机和客户端之间的通讯，客户端包括vCenter Server和任何连接到ESX的VI client。如果在vCenter Server上看到某个主机显示disconnected但没有显示当前信息，或者，任何其他的涉及到vCenter Server和一个主机的奇怪的问题，都可以通过重启vpxa服务来解决。要启动该服务，登入服务控制台，输入service vmware-vpxa restart。当你遇到问题时，推荐你重启这两个服务，因为，重启它们经常可以解决很多问题。

来自：http://virtual.51cto.com/art/200907/134341.htm

如何解决VMware ESX中出现的常见问题？

如何解决VMware ESX中出现的常见问题？

你可能感兴趣的:(如何解决VMware ESX中出现的常见问题？)