我这里环境是VMware vsphere ESXI 5.1.0 + vCenter 5,HA环境一直都正常,热迁移可用。

    在一次维护的时候,重启一台ESXI后,发现虚机不能热迁移了,一直停在14%,但是冷迁移是可以的,而且HA环境没有提示不正常,而且环境提示vMotion网络提示有问题,检查了一遍,发现vMotion环境跟之前一样,而且重建了vMotion Network亦是如此。

    以下是问题报错的截图和日志:

wKioL1SOhjfB4NkkAAB69M1KuJo928.jpg

wKiom1SOhZqSoZ4RAAB96C7q1ZE141.jpg

vMotion fails at 14% with the error: Timed out(虚机迁移到14%无法继续)_第1张图片

vMotion fails at 14% with the error: Timed out(虚机迁移到14%无法继续)_第2张图片

The vMotionmigrations failed because the ESX hosts were not able to connect over thevMotion network. Check the vMotion network settings and physical networkconfiguration.

vMotion migration[169297471:1416318623171614] failed to create a connection with remote host: The ESX hosts failed to connect over the VMotion network

Migration[169297471:1416318623171614] failed to connect to remote host from host : Timeout

The vMotion failedbecause the destination host did not receive data from the source host on thevMotion network. Please check your vMotion network settings and physical networkconfiguration and ensure they are correct.


    报错截图和提示如上,多次热迁移都是停在14%,然后failed,冷迁移正常,提示vMotion网络无法连接,包time out,但是重新验证HA,正常。

    于是Google一番,有case提及vMotion Network和其他Kernel Network不能在同一个网段,而且现象跟我的case一模一样。

    由于客户要求尽可能减少网段使用,所以之前vMotion Network和Managemwnt Network等都是在同一个网段的,但是创建后都正常,突然发生此等状况。

    于是跟客户沟通给定一个新网络,重新在新的网段建立vMotion Network,再次验证HA,依旧正常,但是再次使用热迁移的时候,通过了,其他功能也都正常。

    至此,可以基本判定为网络问题,所以以后还是不要节省网段,所有Kernel Network都单独隔离开来。建议Management、vMotion、VM和IP SAN网络最好使用VLAN隔开,以免突然发生这种问题,要是赶上主机DOWN机,虚机无法迁移就问题大了。