在配置并实施了DRS之后,HA的操作便很简单了,HA也是vSphere的一个高级功能,号称是可以创建不会蓝屏的环境,虽然不是绝对但至少说明了HA确实能很大程度上的规避蓝屏的风险,使虚拟化的环境能更加安全稳定,如果配置得当,基本上不用人工干预,vSphere会自动将蓝屏或者其他故障的esxi主机关闭等待维修,而且会自动在运行良好的esxi主机上继续运行蓝屏的esxi主机上的虚拟机,保证虚拟机的运行以及其上的服务不会中断。
打开群集的HA功能
跟打开DRS一样,打开HA也是在群集设置中开启,
在群集功能中,选择“打开VMware HA”,确定,先不做其他设置,
任务栏中已经开始了配置HA的任务,等待配置完成。
配置HA排错
在上面的开启HA之后,本来是应该正确的打开了HA,但是我却遇到了一个错误,
错误的详细信息是:cmd addnode failed for secondary node:Error creating ramdisk for HA agent configuration:未知HA错误。
(我在这里补充一下,可能有人看我写的这些博客会觉得,我有一些是跟那个明教教主的视频教程有相同的地方,其实只是一开始,不太明白的时候参照了他的设置,也就是建立实验环境的那几节吧,所以在我遇到这个错误的时候,我去找了他的视频,看能否有什么解决的方案,结果他也是这个错误,但是在重新操作一遍之后,直接一句“不知道是什么原因,以后再排错”,然后就用他们培训中心的环境进行讲解了。不得不发表一下个人的看法,对于一直看你实验的人,这么做真的很不负责,因为他之后的教程也没有进行解释这个问题,这样听了教程的能解惑么,既然你做了教程,那么就应该让大多数的人真正理解并学习到这些知识,而不是仅仅浅尝辄止,我觉得这样对初学者造成的绝对是不好的影响,当然他的课程也不错,原理讲解的还是不错的。由于工作的原因,我觉得排错是无可厚非的,而且通过排错,我们也可以增加经验,谁都不能保证这次的错误下次不会再遇上,所以我在此添加排错的步骤)
排错步骤一
参考博客:http://3feng.blog.51cto.com/blog/510880/500859
按照上面的步骤做了一遍,重新配置了HA,可是错误依旧,方案一失败。
排错步骤二
参考博客:http://ba7nq.blog.163.com/blog/static/9053791020106284340241/
这个错误的描述跟我的还是有区别的,但是没办法,只能抱着侥幸的心理去尝试了,
用Putty连接到esxi41-1上,添加红色标记中的信息到/etc/hosts文件中,
同样的,用Putty连接esxi41-2,添加红色标记中的信息到/etc/hosts中,按照博客上说的重新配置HA,配置完之后错误依旧,方案二失败。
排错步骤三
找了一个晚上,都是一些上面的错误,很少有我遇到的这种错误,心情也真够郁闷的,心说不如到论坛去发个帖子,看看其他的高手大神有没有办法,结果第二天又搜索了下,在维基百科中找到一篇文章,
参考资料:http://wiki.weithenn.org/cgi-bin/wiki.pl?VMware_HA_FT
这个错误跟我的一模一样,心里那个高兴啊,看了一下原来是因为ESXI的内存太小,ESXI 4.1的安装内存最小是2G,而在管理vCenter Server时最小内存是3G,是否真的这样呢,我又重启了两台esxi主机,并修改了设置,
第一台esxi41-1已经修改内存为3G
第二台esxi41-2也已经修改内存为3G,再重新配置HA,忐忑的等待着,结果是配置成功!哈哈,终于成功了,耶!
配置HA功能
好了,选择群集,在摘要选项卡中,可以看到VMware DRS已经开启了,
打开群集设置,选择VMware HA(在没有打开HA之前,只有DRS的设置),启动主机监控,接入控制默认启用,在接入控制策略中,设置群集允许的主机故障数目,由于实验环境只有两台esxi主机,所以允许故障主机只能为1台。如果你有多台esxi主机,那么你可以通过计算其上的虚拟机负载,来决定允许故障的主句数目,
选择高级选项,并添加如图的信息,主要是配置隔离回馈IP,也就是图中标记的IP地址,这是vsphere.net域网络的网关,其他配置默认即可。
设置虚拟机选项,右侧设置虚拟机重启优先级,以及主机隔离响应,也就是主机ping不到隔离回馈IP之后的操作,同DRS类似,下面也有虚拟机的设置,默认虚拟机是和群集一样的配置,但是也可以独立于群集的设置,这里就选择默认设置,
虚拟机监控选项,这里因为虚拟机自动获取的IP是我主机的IP,所以无法ping域网络,就不开启监控了,其实这个HA的实验也没有必要启用监控。
测试VMware HA功能
首先在esxi41-1上打开win xp虚拟机,启动之后,查看该虚拟机的IP地址,
在esxi41-2上打开win 2003虚拟机,启动之后,查看该虚拟机的IP地址,
这台是我真实的物理机,查看一下IP地址,等一下会让虚拟机ping这台电脑的IP才近距离的观察HA的功能,
找到esxi41-1这台主机,稍后我会将这台esxi主机上用于通信的两张网卡断开,这样这台主机就ping不到隔离回馈IP,也就是域网络的网关了,那么群集的HA就会做出响应,将运行在esxi41-1上的主机转移到esxi41-2这台主机上去,这就是实验的思路,
这是我的VMware Workstation中的esxi41-1这台主机的硬件设备图,在红色标示的位置是该主机用来通信的vSwitch0的两张网卡(为冗余而做的),现在我先来试一下网卡的冗余有没有用,我先断开VMnet0这张网卡,
在断开VMnet0之后,由于VMnet1还连接,会接手VMnet0作为活动网卡,来进行通信,所以在ping物理机IP的过程中,完全没有中断,只是有少量的延迟罢了,下面我把VMnet1也断开,这样esxi41-1就不能ping到隔离回馈IP,HA也就不得不采取动作了,
果然两张网卡都断开连接之后,主机就会关机,其上的虚拟机也要被转移,而虚拟机设置里的重启选项是使用群集默认,所以虚拟机也会重启的,而ping也显示了请求超时,
但是时间很短暂,虚拟机马上就重启了,因为迁移已经进行了嘛,所以很快又能再次ping到物理机,这说明HA已经将虚拟机进行了迁移,
果然,在去看虚拟机的控制台,上面显示,win xp虚拟机已经运行在esxi41-2这台主机上了,
在看过主机ping不到隔离回馈IP之后,我再把这两张网卡连接上,看一下HA的响应,
esxi41-1开始配置HA了,因为刚才已经被关闭了,所以在ping到隔离回馈IP后,HA也要重新配置,
在vCenter的任务栏下面,看到迁移自动运行了,启动者是系统,说明HA已经在转移虚拟机了,
通过ping操作近距离观察,恢复时的中断很短暂,几乎没有报文丢失,只是有一段时间的延迟,
迁移完成,win xp虚拟机重新运行在esxi41-1这台主机上,
win 2003 虚拟机没有什么动作,仍然还是运行在esxi41-2这台主机上,
用win 2003虚拟机来ping 虚拟机win xp的IP,响应很快,网络通畅没有问题。至此,vSphere的高可用性HA功能实践完毕。