*网络设备配置变动引起的大面积桌面连接中断

如果虚拟桌面连接异常中断发生的范围不是随机的某些最终用户,而是一批一批的断开或者大面积断开,那么首先需要了解各管理员当时由没有做配置改动,管理员处在集中式管理模式的顶端,不恰当的操作会同时影响金字塔末端多个用户甚至全部用户,比如通过Windows域控制器强制所有桌面同时做升级操作或者打补丁操作所带来的多方位负载,包括网络带宽压力、磁盘IO压力、和虚拟机CPU的高负载,会非常容易让用户无法正常连接虚拟桌面。

下面的案例是用户使用RDP协议连接虚拟桌面后,出现大面积掉线断连的现象,掉线的时间无规律。我们通过分析连接服务器的日志,过滤关键字disconnected,得到了所有用户的断连记录。从下图中可以发现断连都发生在同一时刻,误差仅在秒级。涉及到断连的用户总发生在固定的几个区域,其他区域的用户一直使用正常,这说明连接服务器没有问题,数据中心的网络也没有问题。出问题的地方应该是那几个故障区域到达数据中心的汇聚点,经过排查是网管不定时修改某一上级网络设备导致的下级节点网络闪断造成,配置变动的操作又没有向各个下级节点网管提前发送通知。

View虚拟桌面断连场景案例分析十四_第1张图片

处理方法:

1. 当批量用户都发生虚拟桌面断连的故障时,先定位问题为某一单点故障引起,有可能是设备问题有可能是配置修改问题,最快速的方法是先检查配置修改记录,或者询问管理员。 由于在虚拟化环境中,分工比较细,有可能涉及到网络管理员,存储管理员,服务器管理员,服务器虚拟化管理员,桌面虚拟化管理员等等,各小组管理员之间的沟通不及时,配置修改的影响评估不足都有可能导致上述故障。加强小组间信息沟通是必不可少的。

2. 针对RDP断连,由于RDP是微软的协议,本身没有通讯记录日志。建议的排查方法

a.) 可以使用mstsc.exe直接连接虚拟机,该程序为Windows自带,也使用RDP协议通讯,如果也发生断连,则说明和VMware View已经没有关系。

b.) RDP使用TCP包,是可靠连接,如果发生断开很有可能和协议无关,而是底层基础网络的问题。为进一步核实,可以使用其他TCP协议的应用同时进行测试,比如使用ssh连接到和虚拟桌面在同一虚拟交换机端口组的Linux虚拟机,如果RDP断开的同时ssh也断开,则说明和虚拟桌面也没有关系,问题处在网络,可以协调网络管理员协助排查网络方面的原因。