某中学断网的解决方案

    这个案例是我们在做杭州一个中学时自己动手解决的一个难题。

    因为断网时间不确定,网络拓扑不明确,在后来的抓包过程中,我将这个网络通过自己了解的情况画出拓扑图,给自己分析提供一个明确的思路,并且将网络分成几个部分,将问题一一细化,有助于解决问题。解决这个网络问题我们总共花半个月时间,现在问题完全解决 。

    在这里,我与我的学生Bubbachuck 通过抓包分析出这个网络的问题,最后给学校一个比较完全的解快方案。在解决问题的关健时候得到了科来官方技术工程师的大力支持与商务的大务协助。在这里向他们一并表示感谢。当然在处现这一问题时,还得到其它的朋友的支持与帮助,在这里表示感谢。
  
    学校现在机器约 500台,其中约有 250台是老师用机,其它的机器为学生用机。一般情况下,只有老师机器上网。当学生在上机算机课时,才会开机上网。
  
    问题:在一个星期中会断网至少一到二次,具体时间不能确定,原因不明确。

    自己了解到的情况:
  
    现在主要原因是这样,由于经常断网,电信做了一些设置。进线为电信光纤,接电信思科交换机上,电信在交换机上做了一些设置,设计了一个上限,当广播或是病毒达到一定上限时,电信端口将自动关闭,必需打电话给电信机房,电信才会给你将端口启用。电信主要目地的保守自己的其它的端口不受到攻击。当然这个推论是自己与电信的交谈中得知的,电信没有明确说明。为什么说做了上限,而不是一受到病毒攻击就断网,现由很简单。当断网后致电给电信,电信将端口启用,学校能上网。但是不会断网,就充分说明电信做了上限,而不是马上断网。
  
    写在最后:这是一个非常完整的解决方案,其中有很多图是自己与朋友在分析时总结的心得,还有写在最后的建议与方案,都得到学校的认可。由于技术限制,肯定方案中有不足与错误之处,希望喜欢技术的朋友真诚指出,以供大家学习研究。我们在分析的时候主要以科来与 sniffer4.8为基础。因科来有 200台的限制,所以有些结果将重点放在 sniffer上出图说名。

    交换机镜像口在思科 4006上做,抓包机器装科来与 sniffer抓包与分析。
    
    网络拓扑


    
    2007 年9月 10日17:15所抓的包

    这是 Statistics看到的视图,可以看出:不到 9秒钟抓6709个数据包,总流量15549292bytes,124Mb/s左右,但是要除以 2,因为可能做的是双向的镜像(包会抓重复),那么要 62Mb/s,如此大的带宽利用率!大部分都是 IP 数据包,看到 ip广播包为 0,排除广播类问题了!

    从 ProtocalDist 上看到的视图:大部分都是 IP 协议数据
    
 


    
    上面是从科来网络分析系统上看到的,可见 TCP 连接成功率不足50%,而且出现大量的复位数据包!

    这是 HostTable上看到的视图:
    
   


    
    从该视图上看到看发送流量最大的几台主机,9秒钟时间发送 1K多数据包,肯定不是人为的了,其实不用想,发包量大的主机,肯定是有问题的,可以都处理了,看看究竟发送的是什么数据。

    这是 10.44.111.44的 Matrix视图:
    
 

    
    看吧,虽然它的流量不是最大的,但是它的会话数是最多的,大部分都是 others了,还有少数的 http协议数据了,不管是什么数据,都可以确定这台主机有问题了,9s 时间里建立了这么多会话,肯定是……^_^

    现在我们来分析下 10.44.111.25的数据吧,看看都是什么东东
    
    


    
    看它与其它主机会话的端口吧,貌似是在扫描啊,肯定有问题了……^_^
   
    同样 问 题 的 还 有 : 10.44.111.44、 10.44.110.7 、 10.44.110.63 、 10.44.110.109、10.44.110.241、10.44.111.72、10.44.110.27。

    *Local Routing警告的意思是:产生本地路由环路,或者是由于路由扮演网关的角色,在应用层做协议转换产生的!这里是后者,估计是 NAT产生的吧,老大应该是架在层三交换机上抓的包。但是每个会话一个端口,那这台机器跟一台外网主机建立这么多的会话,就肯定有问题了^_^
   
    再看看 10.44.111.72的数据:
    
   


    
    同步数据包 ACK 号不变,每个数据包发送间隔时间不足 1ms,明显攻击行为^_^

    其实有些主机可以发现同时有多种问题的,我们就重复说明了。其实有些主机可以发现同时有多种问题的,我们就重复说明了。其实有些主机可以发现同时有多种问题的,我们就重复说明了。下面看几个会话帧中的数据吧!
    
    


    
    看看 10.44.110.109这台主机吧,在不到 1ms 内竟然发送了这么多的重置连接帧(没有数据流入的情况下,不知道是什么原因),肯定是有问题的!^_^

    再看看 10.44.111.143这台:
    
    


    也是在不到 1ms的时间内发送了这么多的数据包,再看它的http包,是无法识别的,可能是加密了,应该是病毒或者插件的症状(不大确定)!同样问题的还有:10.44.110.173现在也许知道带宽利用率那么大的原因了(连续传送大数据包)。

    10月 8日抓包分析(持续时间:22m)
    
    


    
    看 10.44.110.244的 Matrix图:
    
    


    
    这样的主机肯定要处理了,如果这期间没有下载活动,就肯定是中毒了!这份包如果上面那台主机正在下载,就根本没有什么意义了!!!!

    10月 10日抓包16:42 (持续时间 1h43m)
    
    


    
    多台主机通过 UDP137、138端口向外广播 NetBIOS 数据包,并且还向主机 10.44.110.3发送同样的 NetBIOS 数据包,这两个端口是最容易被利用攻击的,可能是感染病毒或有恶意程序了!同时10.44.110.3这台主机还向外发送大量的 ICMP 数据,肯定是有问题的(原因无法确定)!!!检查发送NetBIOS 数据包的机器,并处理病毒或恶意程序!
    
   


    
    主机 10.44.111.25发送大量的数据包,如果在下载的话,那这个包也没有什么其它的分析价值了!!

   2007 年10月 11日10:45所抓的包(持续时间:1h57m)

    


    
    从专家系统可以看到,10.44.111.254这台机器与外网多台主机建立连接,并且与同一台外网主机的 80端口建立大量的连接,问题是肯定的(不知道是什么原因:病毒or 攻击),这台主机需要处理了!同样问题的主机还有:10.44.111.248、10.44.111.240、10.44.111.234、 10.44.111.183、10.44.111.12、10.44.110.85、10.44.111.248(攻击内网主机 10.44.110.5)、10.44.110.57 、 10.44.110.47 、 10.44.110.252 、 10.44.110.235 、 10.44.110.21 、10.44.110.205、10.44.111.45、10.44.111.5^_^(后得知这些主机访问的大多是是没有域名的外网服务器,原因不明)
    
    问题的外网ip:122.70.141.18、 61.152.246.16361.152.246.16361.152.246.163、、、 61.152.246.16261.152.246.16261.152.246.162、、、 222.73.238.185222.73.238.185222.73.238.185、、、
61.164.62.4761.164.62.4761.164.62.47、、、 121.14.0.32121.14.0.32121.14.0.32、、、59.53.86.559.53.86.559.53.86.5、、、 220.181.26.170220.181.26.170220.181.26.170、、、 218.66.111.15218.66.111.15218.66.111.15、、、 219.129.64219.129.64219.129.64.110.110.110、、、
61.172.201.2561.172.201.2561.172.201.25、、、 61.172.207.1161.172.207.1161.172.207.11、、、 61.172.201.3261.172.201.3261.172.201.32、、、 58.221.249.237^_^58.221.249.237^_^58.221.249.237^_^
    
    


    
    注:UDP 的8000 端口是QQ 端口,15000是 BT或迅雷的端口,但有时会出现这两个端口的攻击!
   
    UDP 问题:10.44.110.100、10.44.110.243、10.44.111.5(使用以上两个端口,对流量造成严重影响,这里估计是下载,如果 没人下载就是攻击了,看情况)通过 UDP29919 端口通信的主机: 10.44.110.100、10.44.110.13、10.44.110.252、10.44.111.222
   
    (这个端口比较陌生,具体问题说不出来)

     下面是一些 TCP 连接的信息:

    


    
    看到:初始化连接 110880次,成功10116次,成功率极低;同步数据包却有 389267个 ,内网接收大量数据。
    
    

    
    再看 10.44.110.57这台主机,跟外网主机 61.103.11.211建立连接后,就一直复位连接(不知道什么原因)!!!
   
    再看下图,会发现内网主机10.44.110.3、10.44.110.4、10.44.110.6、10.44.110.7 一直在向外网主机 202.101.172.35(这台是不是 DNS 服务器??)发送 ICMP 包
    
    

    
    这是以上 4台主机的数据信息统计:


    
    10.44.110.3通过137和138端口接收到NetBIOS 数据就向外网那台主机连续的发送ICMP数据,而10.44.110.4和10.44.110.6就是一直在发送 ICMP,10.44.110.7也连续向外发送ICMP,同时还接收IIOP 数据(IIOP 在内网中有用吗??)
   再看看主机 10.44.111.166,看看它发出的数据是些什么?
    
    


    
    看,几乎全部的数据包都是发向 121.9.248.244,而且都是 60字节长度的 ACK 数据包,这样的同步连接,应该是有大量的数据流入内网,以为是下载呢,结果发现对方端口是 80,再看发送的包间隔时间,有时 1ms的时间内要连续发送多个这样的同步包,觉得异常,但不知道是什么原因!
    
    


    
    这个序列是不变的,感觉是在下载,但是并没有 10.44.110.5发向 10.44.111.248的数据,应该是内网主机的重要攻击!!!
    
    上传和下载的症状:ACK 值可以不变,但SEQ的值一定会变,还有就是数据包不会小于等于 60字节!!
    
    


    
    这里 10.44.111.132、10.44.110.44、10.44.111.119对服务器 10.10.1.40构成了攻击,数据 SEQ值不变,发送的都是60字节的 TCP 同步包!!

    还有这个:
    
   


    
    10.44.111.159向10.10.1.40 连续发送全0的 1514字节的大数据包,肯定是有问题了!再看看这个下图,主机 10.44.110.32在 1m多的时间内一直连续的对服务器 10.10.1.20做SQL 查询,而且查询多是重复的,肯定是病毒或攻击吧!!


    
    下面这是一个非法广播,10.44.110.194可能是中了什么病毒了
    


    
    最后总结:这个中学经常断网的主要问题是病毒,攻击,与bt下载,还有arp.我们在这里主要写出的是病毒与攻击,bt下载,与arp是很容易看出来,直 接在科来的专家模式下就能够看到,所以不在这里过多写出自己的判断,如果对arp等不了解,可以到科来论坛找相关资料。
   
    处现方法,先将学校所有的机器的 mac地址与 ip地址登记,并用批处理将其绑定,有人会说,双向绑定,不一定有用,可以修改arp进行攻击等等 ,当然,我们是在学校,所以不需要考虑太过于复杂的人为因素,在其它的地方,这种人为的因素就值得注意,不容错过。然后打电话先将学校有问题的机器关机, 最后在将所有认为有问题的机器关机的情况在在次抓包分析,看问题是不是还在,最后经过长期测试,发现问题得到全剖解决。最后处现的机器约有二十台左右。包括一台服务器。
    
    
    所有的分析是我的学生写的,我没有做过多的修改,当然,可能里面有不当与错误的地方 ,有兴趣的朋友可以指出与修正。

   3不允话在学校里做黑客攻击,下载测试等破坏性网络的测试与学习。

    4凡是老师自己从外面带来的电脑,上网都要登记,记录 mac地址与 ip 地址,并且检查杀毒软件,否则不允许上校园。
   
    5不允许随便装操作系统与软件下载做测试,不得随意更改自己的 ip地址.

    6老师电脑经常用 360等软件更新自己的补丁,经常用360扫描病毒与恶意软件.

    7服务器经常杀毒与更新补丁。

    8 如在使用计算机与上网时,发现自己电脑不正常或是感染不明病毒及时告知管理员。
   
    机房将记录老师上网一些日志,将定期公布使用 bt下载,感染病毒等电脑地址。

    凡是不遵守上面约定者,继续用bt下载,或是由于没有安装杀毒软件致断网者,将屏蔽其端口,不允许上网。


你可能感兴趣的:(多媒体,Cisco)