史上最闹心的WDS部署问题解决方案

背景:
公司网络架构升级,上了一套锐捷的网络设备(含核心交换机和二三层交换机),同时启用了网络接入认证(Portal认证),需要用AD账号才能接入,非认证机器无法访问内外网网络,只能在同网段进行通信(跟没网有什么区别)

核心交换机:192.168.0.10
DHCP和AD:192.168.0.5
WDS服务器:192.168.6.250(前期);192.168.0.6(后期)
客户端:192.168.6.0/24

问题:
1. 先在6段搭建了wds服务器,然后在6段接入一台客户端,进行测试,发现ok,服务器正常。
2. 然后在0段,起了一个wds服务器(0.6),发现不能识别0段的wds服务器,客户端还是直接连接到了6段wds服务器,然后就把6段的服务器给停用了,发现客户端还是无法识别到0.6这台WDS服务器。
3. 为了验证0.6这台WDS服务器的服务是否正常,于是把客户端拿到0段网络,连接测试OK,可以正常使用wds服务。
4. 此时基本可以确定是网络问题,通过上网查询,说是需要配置DHCP中继和DHCP服务器上配置Option66 67选项,分别指出wds部署服务文件下载地址和wds服务器地址。

此处参考文档:点击打开,文档很详细的说明了在什么情况下配置66、67,也讲解了这两种选项的功能。

5.. 测试发现添加Option 66 、67也不行,这时猜想是否是网络本身的问题,于是采取以下测试:
5.1 拿了一个锐捷的三层交换机,配置一个核心段、配置一个客户端段、配置一个WDS服务器端
5.2 在交换机上开启DHCP服务,在DHCP上配置Option 66、 67和一个至关重要的命令:NextServer(用于指明Wds服务器地址)。
5.3 配置好后,发现WDS服务正常, 说明WDS服务器和跨网络传输没有问题。
6. 重新在正式环境中进行测试发现还是不行(正式环境下不需要配置NextServer命令,因为正式环境中配置有DHCP中继),客户端和WDS服务器进行通信时,一到获取FTP传输时,就报错,此时没有思路。
7. 针对以上问题,思考前后发现没有什么能够调试的了,只能采取刨根问题模式了,开始在测试环境下抓一个完整的客户端和WDS通信的包,再在正式环境下抓一个报错的包,最后交给锐捷的工程师进行包分析。
8. 三天后,给出的反馈是

当核心交换机接收到,非核心网段的DHCP-Request请求时,核心交换机的Snooping不记录MAC地址和Vlan标签,直接在核心丢弃。

这就导致了WDS和客户端在进行通讯时,就会在这个环境终端。
9. 针对此问题,最后在核心交换机配置了no ip dhcp snooping vlan x(x为核心网段的vlan号),配置此配置后,发现已经认证过的机器,进行WDS装机时,可以使用。
10. 新的问题又出现了,我们在使用WDS服务时,更多的使用时新机器或者是离职退出认证的机器,这时发现机器不认证没法进行WDS装机。首先想到的方法是放行需要进行通信的服务器(含DHCP、WDS),这样任何一台客户端都不需要进行认证就可以和WDS服务器进行认证,可以使用服务,但是实际操作时,发现还是到FTP下载时,又中断连接。
11. 针对这个新的让人头疼的问题,直接进行抓包,让锐捷的工程师进行数据包分析。
12. 三天后给出的结果是因为WDS服务会用到4011端口,这个端口在锐捷的核心交换机中,认为这是一个不常用的端口,所以不做snooping记录,这样的结果就和上边的问题一样了。但是这次不能把每个段的snooping个no掉,所以只能把这个Bug交给他们的研发进行解决。
13. 三天后给了一个解决方案,
一:客户端在服务器同一个网段
二:放弃portal认证
三:等待核心交换机的补丁
看到这三个方案,前两个不扯淡呢,只能选择第三个方案。
14. 一个星期过去了,说是补丁出来了,进行补丁更新,可以解决以上的问题。只能进行补丁更新了,目前还在测试中。

你可能感兴趣的:(系统管理)