一个设计得很差的网络,让捷哥阴沟翻船

 前言:
         离开遵义的前一天,捷哥终于是跳着脚发了一回脾气。哎,这帮人真的以为网络就是插上网线就能通的,认为搞网络没有技术含金量。我问问大伙:当一个通过了CCNA,CCIE笔试,并且有4年从业经验的人,到一家公司去应聘,拿的薪水和应届毕业生相当,还没有HR的工资高的时候,你还干不干啊? 如果你去到一家公司,空有一身本事没有用武之地,憋屈不说还经常被人无端指责,你还干不干?有人说:干啥啊?神经病吧? 没错,捷哥没有病,所以跳槽走了。


咱先来说说到底是怎么一回事?
      话说是遵义新蒲客运站网络调试,从10月28日,正好是NBA湖人队揭幕战那天开始的,到捷哥走的那天12月9日,这个网络还有一个故障悬而未决。这事,落到捷哥头上,他算是丢脸都丢到太平洋去了。不过这个事情完全不能怪捷哥,因为这个网络不是他设计的,也不是他去进行设备上架和接线操作的。捷哥只是被项目经理认为是:”这家伙会配置VLAN,会调试设备,拉他去看看“。所以,捷哥做了替死鬼。反正我是觉得这个网络设计得糟糕透了。我们先看看网络拓扑图:
一个设计得很差的网络,让捷哥阴沟翻船_第1张图片
 
从图上来看,整个网络也只有7个交换机,一个核心设备,华为S7703,一个汇聚层设备,华为S5700,三个接入层交换机华为S2700,就这么个网络,捷哥平时上课的时候教学生做实验,交换机数量比这个多多了,也没见出啥问题。不过请仔细看这个网络结构,就算是个刚从北大青鸟或者YESLAB出来的学员,也一眼能看出问题:
问题1:网络交换机为什么不做冗余?
一个设计得很差的网络,让捷哥阴沟翻船_第2张图片
两台负责数据网络通信的接入层交换机,直接接入了核心层交换机,按道理来说,设计这种简单网络的时候可以不用遵循”核心层“、汇聚层、接入层这样的层次结构,但是这里一个很致命的问题:数据网络交换机,两台S2700为什么不互联呢? 如果其中任意一条链路断线了,那这修复工程量该有多大?哦,忘了说了,核心交换机放在二楼,一台网络交换机放在一楼,一台网络交换机放在二楼电井里。切……把这种可网管式交换机放在如此高的位置,要爬×××才能够得着的位置也真是醉了。

问题2:这个接线太不符合规范了

一个设计得很差的网络,让捷哥阴沟翻船_第3张图片

 汇聚层交换机,S5700,大家看到了没?它没有直接和S7703连到一起,反而转向去连了数据网络S2700。额…… 捷哥表示自己做了4年网络,也和大牛一起商讨过,没见过这么接线的。不过捷哥头上那位项目经理表示:”如果视频监控的流量过大,直接拔了S5700和S2700之间的线就可以了,这叫做物理隔离!“ 噗………………!!! 捷哥表示自己喝了一口水差点没喷出来。发现广播量大的时候用断开物理链路去解决问题,这就跟一个人眼睛疼,你挖了他的眼睛没啥区别了。这帮人总是说捷哥会划VLAN,但你他妈要知道VLAN是啥啊? 

于是,处理结果就是:捷哥想动手画VLAN,可惜当时不知道网络拓扑图,他那几个同事也没给他说网络拓扑。只能稀里糊涂的给数据网络配置了一个172.16.0.0/16,用USG6350直接充当了DHCP服务器。却不知道,所有的监控摄像头和无线AP都被一个”徐总“手下的给配置了192.168.1.0/24的IP,这下可好,没划分VLAN,一个广播域里存在了两个网段。当然,在11月7日以前捷哥不知情。

后来,问题接踵而至。
进站口的工作人员表示上不了网,于是捷哥再次辛苦一下他的大宝,从遵义汇川区开10多公里的车,期间还越过了东环线、长沙路这样的堵车点,赶到新蒲客运站。发现的问题是什么呢? 当捷哥把笔记本电脑接在网线上的时候,发现电脑是可以从DHCP服务器获取到172.16.0.0/16,但就是上不了网。当捷哥听说进站口的网络信号是靠着无线AP桥接过来的时候,如下图:
 一个设计得很差的网络,让捷哥阴沟翻船_第4张图片
捷哥以为是无线AP信号不好,建议使用架空线缆的方式。但是3天以后,一个电话让捷哥暴跳如雷。

电话里是那个“徐总”打来的,他说,无线IP都是192.168.1.0/24网段的,你干嘛要给数据网络配置172.16.0.0/16啊?捷哥当时正在吃饭呢,听到那个电话捷哥就蒙了!怎么?一个广播域里还有两个网段?而且是被俗称为“垃圾IP”的“192.168.1.0/24”。结果电话那头捷哥被噎了:“你懂不懂网络啊?搞不清楚情况就乱配IP?” 这下子,让捷哥发了脾气。 
后来解决问题,就是捷哥和徐总把所有的视频监控、所有无线AP都改成了172.16.0.0/16网段,算是暂时解决问题了。 
不过回到公司,捷哥又遭到搞弱电的项目经理噎了一嘴:“你把所有监控都改成172.16.255.0了,然后你又在防火墙上拒绝了172.16.255.0/24,那你就不怕那些能正常上网的电脑获取到172.16.255.0?” 噗!…… 捷哥又差点没郁闷死。 172.16.0.0网段,6万多个IP地址,新蒲客运站才多少个终端,分配到底恐怕也不会得到172.16.255.0这里去吧,而且DHCP可以设置排除地址,这点,捷哥早就考虑到了,把172.16.255.0--172.16.255.254这段IP地址排除出DHCP地址池就能搞定。

最后不到一个星期,新的问题又来了,只要是客运段的大屏一开,网络就卡得不行。这很显然是大量的广播流量影响了数据的传输。看来,VLAN的划分已经是在所难免了。不过,真的要去划分VLAN的时候,还有3个问题摆在面前:
(1)划分VLAN需要知道网络逻辑结构,也就是需要画拓扑图,捷哥可以在所有交换机上使用lldp enable开启发现命令,然后使用display lldp neib brief来查看交换机的邻居,这样能画出拓扑图
(2)  VLAN划分好了,但是交换机哪些接口是接数据网络的?哪些接口是接监控设备的。这个倒是可以通过交换机上贴的标签去查看。看来这群弱电工程师还是知道要给线缆打标签
(3)这个问题非常致命:
在新蒲这边的核心交换机S7703上,有一条GPON专线,直接接到了凉水井总站,其目的是新蒲的售票服务器要和凉水井总站互通。如果要在新蒲这边的交换机划分VLAN,那么,那条GPON专线就需要改成trunk链路。但是让捷哥没气死的是:凉水井总站那边负责网络的小伙,也他妈是一个不懂装懂的二货,他告诉捷哥说:“我们这边有两个服务器,一个是192.168.0.0网段的,一个是192.168.1.0网段的,你要划了VLAN我们整个网络都要崩溃。” 捷哥心想:妈的,又是碰到一个广播域内跑两个网段的龌龊设计。 
 
如果按照项目经理说的:你就把监控和大屏的链路找到,用VLAN强行分离,反正监控和大屏又不需要上网。但是这样做,又出现了一个致命问题:
一个设计得很差的网络,让捷哥阴沟翻船_第5张图片
看见一条链路了吧,就是接着无线WIFI的链路。从二层交换机S2700接入WIFI,通过WIFI桥接的方式连接进站口的办公室。偏偏又在进站口办公室用了一个非网管式的8口小交换机。这就意味着,从机房到进站口办公室只有一条链路,所有需要上网的信息点和监控摄像头都被弄到了一条链路上。这意味着:如果你强行划分VLAN去隔离,要么监控摄像头不能用,要么进站口办公室电脑无法上网。如果不强行划分VLAN, 那这个大屏和监控运行导致的网络延迟增大这又无法解决。怎么办?

PS:这条链路已经被项目经理看出了问题,在施工的时候出了点施工事故,挖断了一条光纤的纤芯…… 但是劳务方那个SB徐总坚持说自己的施工没问题。但没问题这个网络能出那么多的故障?

那只能是按照正常程序划分VLAN了,使用VLAN间路由就可以完全解决这个问题。
VLAN 10划给数据网络,配置IP地址段:172.16.10.0/24
VLAN 20划给监控摄像头和监控服务器,配置IP地址段:172.16.20.0/24,在防火墙上不给这个网段做NAT,它就完全上不了网了
把那条带着WIFI桥接的链路划给VLAN10,给那边的监控摄像头配置172.16.10.225--172.16.10.254这段IP,最后在三层交换机上用ACL把这个地址段DENY掉,再在DHCP服务器上将这段地址排除掉就OK。

但是问题呢:
1、凉水井那条GPON专线怎么处理?
弄一个一两百块钱的小路由器,把那条GPON专线接在路由器上就可以解决。
但是捷哥又要吐槽一句:新蒲客运站和凉水井客运站,Internet出口都是使用静态IP的, 这是一个典型的L2L ×××的理想结构,你他妈的非要用什么GPON,钱多没地方使是吧?

2、而且那群不懂装懂的人,在网络结构尚未规划好的时候,已经给80多个监控摄像头(也就是终端)都配置好了静态的IP地址,而且还是192.168.1.0/24这段垃圾IP地址。 这个只是增大一下工作量就搞定。

后来,捷哥毛了,拍屁股走人。这个网络捷哥懒得去解决了,为啥呢,丢人啊!!当捷哥最后忍无可忍去找老总反馈的时候,老总首先想到的去找ISP,你他妈这和ISP有毛线关系? 这群人就以为网络就是拿交换机一插能通就行,不懂装懂的人太多。
最后,捷哥不得不总结一下这个网络的问题
(1)设计不符合常规
        俗话说:网络分层,TCP/IP五层,弱电工程师负责物理层,这本来就是最底层的。网络工程师负责上四层。底层是给上层提供服务的。所以按照网络设计流程,是网络工程师根据实际需求画网络逻辑结构图,也就是拓扑图,再根据具体选型的设备来决定哪些接口是设备互联接口,哪些设备时接终端的。弱电工程师只管去根据拓扑图布点和布线即可。 问题是:这个新蒲客运站的网络是已经接好线了,然后才让捷哥去划分VLAN,连拓扑图都没有,你说怎么划? 

(2)严谨性的问题
        网络工程师考虑网络的角度,首先是这个网络能否正常稳定的运行,能承受多大并发流量? 所以在设计的时候一开始就要考虑各种不利因素,防患于未然。 而这个网络呢,当捷哥去问那群弱电工程师问题:“这个客运站一天能接多少乘客?有多少乘客要用WIFI?”被那群人用:“没多少”就给糊弄了。而且那群弱电工程师总认为捷哥嫌他们设计的网络很糟糕,还指手画脚的。 但问题是,这个网络不止糟糕,简直糟糕透了。

最后,捷哥补充两句
1、一般来说,设计网络的时候都是先考虑转发设备,最后考虑终端。也就是说先把交换机VLAN配置好了,VLAN间路由测试通了才去配置终端的IP地址。
2、192.168.0.0/24和192.168.1.0/24这段IP地址叫做“垃圾IP”,在局域网IP地址规划的时候不能用。为什么呢?因为现在很多厂商的无线路由器LAN端默认IP不是192.168.0.0/24就是192.168.1.0/24,如果你在局域网的网段使用“垃圾IP”,就会和无线路由器的LAN端发生IP地址段冲突。你说“改了路由器LAN端地址不就可以了吗?” 拜托:不是所有人都会改那个玩意的,网络工程师在设计网络的时候,还是要考虑到方便菜鸟使用。