以太网:IEEE802.3定义了10Mbps的以太网标准,采用载波监听和冲突检测(CSMA/CD) 协议,以半双工方式运行。从80年代末开始以太网取得了巨大的成功。10BaseT是运行在3类或 更高类别的双绞线上的以太网,10Base2/5是运行在同轴电缆上的以太网,10BaseFL是运行在 光纤上的以太网。由于冲突检测的协议要求一个512位的时间槽保证无错误的检测到冲突,所以 以太网的距离覆盖范围受到了限制,10BaseFL最大的覆盖距离为2km,10BaseT在一个网段内的 最大覆盖距离为100m。
快速以太网:IEEE802.3u定义了100Mbps的快速以太网标准,它可以用半双工的方式运行 CSMA/CD协议,也可以有全双工的方式。由于快速以太网对以太网的后向兼容性,在90年代的 中后期,快速以太网成为局域网中的主流技术。100BaseTX是运行于5类双绞线上的快速以太网, 100BaseFX是运行于光纤上的快速以太网。对于以半双工方式运行的快速以太网,同样也有距离 覆盖范围的限制,并且由于快速以太网以100Mbps的速率运行,时间槽长度同样是512位,所以 它的最大距离覆盖范围是以太网的1/10,为200m。但是对于全双工方式运行的快速以太网, 在理论上就不再有距离的限制,而实际受限于电或光信号的衰减。如实际中运行在单模光纤上 的100BasFX SMF的全双工快速以太网最大覆盖距离可达20km以上。
1.2 千兆以太网 协议
1998年6月在 千兆以太网 联盟的推动下IEEE正式发布了 千兆以太网 标准IEEE 802.3。把以 太网的速率提高到了1000MbPs。而在此之前的1997年,就已经有很多的厂商迫不及待地推出了 千兆以太网 的产品,结网络界带来了全新的解决方案。到了现在的2000年,我们已经可以很清 晰地看到,不仅以太网和快速以太网在桌面和工作组级网络中打败了ATM,在城域网中,千兆 以太网也凭借其良好的兼容性和优异的性价比占据了绝对的上风。可以预见未来随着价格的下 跌, 千兆以太网 会象快速以太网一样普及。
1.2.1 半双工 千兆以太网 MAC层协议
对于快速以太网来说,512位的时间槽内电波或光可以传输400m远,如果在 千兆以太网 中, 512位的时间槽内电波或光的传输距离则只有40m远,采用星型拓扑结构的半双工 千兆以太网 的 覆盖半径只有20m。这样的距离覆盖范围在实际中无法得到大规模推广。为了解决这个问题, IEEE对以太网的MAC层协议作了第一次重大修改:载波扩展和帧突发。
(1)载波扩展
为了使 千兆以太网 的距离覆盖范围达到实用标准,半双工 千兆以太网 时间槽长度扩展到了 4096位,这样半双工 千兆以太网 的距离覆盖范围扩展到了160m。为了兼容以太网和快速以太网 中的帧结构,半双工 千兆以太网 的最小帧长度仍需要保持为64byte。但考虑到时间槽长度为51 byte,为了能够匹配时间糟的长度,当某个DTE发送小于512byte帧时,半双 工 千兆以太网 MAC 将在正常发送数据之后发送一个载波扩展序列直到一个时间精结束。例如:某DTE发送一个64 byte帧,MAC将会在其后加入512-64=448byte的载波扩展序列。如果DTE发送的帧长度大于512 byte,则MAC不做任何改变。
在载波扩展的情况下,解决了半双工 千兆以太网 距离覆盖范围的问题,但引入了一个新的 问题:对于长度较小的以太网帧的发送效率降低了。对于一个64byte的帧来说,尽管发送速度 较快速以太网增加了10倍,但发送时间增加了8倍。这样的效率并未比快速以太网提高多少,为 了解决半双工 千兆以太网 的效率问题,IEEE又引入了帧突发这种技术。
(2)帧突发
帧突发的工作方式如下:对于 DTE发送的第一个小于512byte的帧,依然使用载波扩展到 512byte,但随后发送的小于512byte的短帧不再使用载波扩展,而是加入96bit的帧间隔序列 后连续发送短帧,最长可以突发到65536位。这种做法可以成立的原因在于一个正确配置的网 络环境里,如果某个DTE开始发送数据后,其他 DTE都可以通过载波监听协议检测到其信号并 抑制本身的数据发射。使用了帧突发的半双工 千兆以太网 的效率得到了改善,当一个DTE连续 的突发64byte帧并突发持续65536位时,其效率约为72%。
1.2.2 全双工 千兆以太网 MAC层协议
在全双工 千兆以太网 中,由于每个 千兆以太网 DTE在通信时独占一个信道,因此不需要考 虑以太网的冲突问题。自然,全双工 千兆以太网 也不受时间槽长度的限制,从而也没有距离覆 盖范围的限制。
与半双工方式相比,全双工 千兆以太网 的MAC层的区别主要有以下几点:
(1)在接受活动中帧的发送不会被推迟
(2)全双工方式下的冲突指示将被忽略
(3)没有载波扩展,最小帧长度仍为64字节
(4)没有帧突发
在全双工交换式以太网中,如果多个输人端口同时向一个输出瑞口输出数据,那么将会在 输出端口产生拥塞,这时一些输入喘口发送的帧将会被丢弃。如果在以太网帧上承载的是TCP /IP协议的数据包,那么TCP的传输机制会自动重发被丢弃的数据包,可以想象每个产生了丢 包的输入端口都将重新发包,引发新一轮的拥塞和丢包,结果是导致网络的吞吐率大幅下降。 为了避免丢包(丢帧)和重发现象的发生,IEEE在MAC层引入了802.3x流量控制协议来避免丢 包现象发生。
流量控制的原理是当 交换机 检测到发生拥塞的端口之后,就会向输入端口发送暂停帧,通 知其抑制发送的流量,最后达到消除拥塞。流量控制并不能提高整个 交换机 的数据吞吐能力, 但是避免了在 交换机 内的丢包现象。
1.2.3 千兆以太网 物理层协议
IEEE定义了几种用于不同物理介质的 千兆以太网 接口,有1000Base-CX,1000Base-SX, 1000Base-LX,1000Base-T,其中1000Base-CX是用于155Ω平衡同轴电缆上的接口,在实际 中没有真正的产品,1000Base-T是可用于5类或更高类别双绞线的接口,它的标准是IEEE802.3 ab,这一标准刚刚于1999年6月发布,现在市场中刚刚推出商用的产品。
1000Base―SX使用850nm波长激光的接口,只适用于多模光纤。 1000Base-LX使用1300nm 波长激光的接口,适用于单模和多模光纤。1000Base一SX主要用于校园网和企业网骨干。 1000Base一LX主要应用于城域网,现在城域网中另外一种应用较多的是1000Base一LH的长距离 千兆以太网 光接口,一般使用1300nm或1550nm波长的激光,可达到50km以上甚至100km的无中 继传输距离。
需要特别指出的是,由于 IEEE给出的是最恶劣传输条件下的 千兆以太网 传输距离,在实 际应用中,各个厂商的产品的传输距离远远超过标准的规定,如阿尔卡特的PowerRail千兆路 由 交换机 的1000Base―LX接口在实际测试中可以无中继的传输 22km。
1.3 千兆以太网 效率
半双工以太网的效率问题一直是其弱点,在一个半双工以太网里的工作站(如计算机)数 增加到某一门限值后,尽管每个工作站是以 10Mbps速率发送数据,但由于冲突的增加,每 个工作站不得不等待很长时间后才有可能发送数据,因此每个工作站得到的平均可用带宽急剧 下降。在全双工的交换式以太网中,CSMA/CD协议中的CD冲突检测机制不再需要,每台工作站 可以得到独占的带宽。因此全双工交换式以太网的效率不再取决于网络内的工作站数,而是由 以太网帧的长度而决定。
1.4 千兆以太网 可靠性
从传统意义上,以太网被看作是一种局域网(LAN)技术,被大量的应用于企业网中,因 此以太网 交换机 和以太网的可靠性并没有被作为最关键的因素加以考虑。随着交换式全双工快 速以太网和 千兆以太网 的成熟,越来越多的运营商选择 千兆以太网 作为城域网MAN的首选技术, 这时 千兆以太网 的可靠性就成为运营商考虑的关键因素。
用 千兆以太网 实现一个可靠的城域网,现在有两种成熟的技术:
(1) 千兆以太网 端口聚合;
(2) 千兆以太网 1+1备份。
如果 千兆以太网 被用于承载IP业务,在网络层IP这一层次,也可以采用环型或网状网拓扑 结构,使用IP 路由 协议来保证网络可靠性。
下面就这三种技术作一详细介绍。关于千兆路 由 交换机 的可靠性,请参见第二章。
1.4.1 千兆以太网 端口聚合(Port Trunking)
在千兆 路由 交换机 中,可以将多个 千兆以太网 链路捆绑为一个虚拟的逻辑链路,以达到增 加带宽,可靠性的目的。这种技术叫做端口聚合(链路捆绑)。比较常见的是将四个千兆以太 网链路捆绑为一个链路,这时的带宽可达到单向4Gbps双向8Gbps。
在端口聚合中的多条 千兆以太网 键路可以实现负载分担,即使其中的一条链路的光纤出现 故障,逻辑链路仍会保持正常工作。端口聚会需要较多的光纤来构成,2个端口的端口聚合需 要4根光纤,3个端口的聚会需要6根光纤,4个端口的端口聚会需要8根光纤。 1.4.2千兆以太同1+1备份 和很多ATM 交换机 里实现的ATM物理链路1+1备份相似, 千兆以太网 也可以实现1十1备份,即 在一个千兆 路由 交换机 的接口模块上,对应于一个 千兆以太网 键路,实际用两个 千兆以太网 链 路来连接,一条 千兆以太网 链路作为主用键路,另一条则作为备用键路。当主用链路的光纤出 现故障时,千兆 路由 交换机 可以在1ms的时间内把数据切换到备用键路的光纤上传输。 在这种1+1备份方式下,需要用四根光纤来完成1GbPS的传输带宽。每一个 千兆以太网 链路 需要1发1收两根光纤。
1.4.3 用IP 路由 来保证城域网可靠性
如果是用 千兆以太网 来承载IP业务,那么就可以应用IP 路由 协议的收敛特性来保证城域网 可靠性。使用IP 路由 ,网络拓扑可以比较灵活,可以是星型、环型、网状网,或是它们的混合。 这里顺带指出一点:如果没有使用IP 路由 ,由于生成树协议(SPanning Tree)的作用,千兆以 太网即使在物理键路上构成了环型或网状网,在 交换机 的实际的以太网数据交换也无法构成环 状和网状网。而在环型和网状网的拓扑结构中,即使某条链路或某个网络节点故障,由于迂回 路由 的存在,整个网络不会瘫痪。城域网中最典型的 IP 路由 协议是 OSPF,运行OSPF协议的路 由器利用Hello信息周期性传递 路由 器状态,当发现邻近节点故障后, 路由 器会重新计算 路由 , 自动找到可迂回的 路由 ,保证网络恢复正常工作。这一过程被称之为 路由 的收敛。一般OSPF协 议的收敛时间大于10秒。与 千兆以太网 1+1备份方式相比,OSPF协议从故障中恢复的时间要长 很多。
1.5 千兆以太网 和其他承载IP的城域网技术比较
目前形式下,广电的宽带城域网承载的都是基于IP的业务,承载IP的平台主要有ATM、 千兆以太网 、POS、DPT这四种技术。本文不做ATM和 千兆以太网 承载IP的比较,将会有另一文章专门 论述这一课题。 POS最初是用于广域网在SDH上承载IP的技术,也可以用于探光纤上在城域网使 用。DPT是 CISCO公司专有的城域网技术。
2 、千兆 路由 交换机
2.1 路由 交换机 的定义
传统意义上,只处理第二层数据转发的设备被称之为 交换机 , 交换机 只根据数据包中的目 的和源MAC地址进行处理和转发,而不涉及第三层的数据包中的内容。如进行以太网,FDDI,令 牌杯交换的局域网 交换机 。第三层的数据包的转发由 路由 器来完成,对于IP协议来说, 路由 器 检查第三层数据包的目的和源IP地址,然后作出相应的处理或转发。在90年代中期以前,由于 硬件芯片技术的限制, 路由 器和 交换机 是两个独立的网络设备。 路由 器的内部系统结构很象一 台专用计算机,有一个主CPU,如486或MIPS,有内存,在CPU上运行软件来进行包的转发和 路由 的计算及更新。所以 路由 器的性能比较差,往往成为一个网络的瓶颈。
为了解决基于软件的 路由 器在性能上的缺陷,在新的ASIC芯片技术的推动下, 交换机 中用来 处理第二层数据包的芯片功能增强到能够进行第三层数据包的处理,这种具有 路由 功能的 交换机 被称为 路由 交换机 。
2.2 路由 交换机 的背板及其实现方式
背板是 交换机 的中央交换部件,用于 交换机 的各个端口之间传送数据。背板的结构和容量决 定了一个 路由 交换机 的性能。现在的 路由 交换机 背板主要有三种结构:交叉矩阵(Cross Bar); 共享内存;并行访问共享内存。下面分别详细论述。
2.2.1 交叉矩阵(Cross Bar)
这种结构容易设计,扩展性好,并且在其基本形式中可以提供较低的每端口成本。然而,它 有几个关键的局限性。
交叉矩阵结构的3个主要的局限和其对网络的影响如表1所述。
表1
静态内存他和队头阻塞的问题的共同影响使其难以在逐端口的基础上转发基于优先级的业 务。 所以交叉矩阵结构提供可靠的QoS支持的能力有限,这与整个IP网络提高QoS能力的要求不符。
2.2.2共享内存
传统的共享内存结构是基于总线的。这种结构克服了交叉矩阵背板的局限性,并且它们在背 板容量小于10GbPS的 交换机 中十分普遍。在一个共享内存总线结构中,所有的端口通过一个共享 总统访问中央内存。采用仲裁机制来控制端口访问共享端口。这消除了交叉矩阵 交换机 具有的基 于端口的静态内存分配和队头阻塞的问题并以一种高效的方式使用系统内存。共享内存的问题是, 构造一个快的足以提供无阻塞的速度超过20Gbps性能的仲裁机构现在很难作到。例如:现在的芯片,技术的数据总线一般是64位,总统的时钟频率(并非芯片的内部时钟频率)为 100MHz,这 样的系统背板性能可达到64×100MHz=6.4GbPs,按双向计算,系统背板性能为12.8GbPS。因 此, 受限于现在的内存促裁机制芯片,共享内存体系的扩展性比较差。
2.2.3并行访问共享内存
并行访问共享内存是一种共享内存结构设计:所有端口共享一个中央内存空间。然而,不象 传统的基于总统的共享内存结构,并行访问共享内存为每个模块上的每个端口提供一个专用的可 同时写入中央内存机构和从中读出的机制,这种机制无需要总线仲裁设备。并行访问共享内存能 够保证在所有端口上同时实现完全的线速性能。并行共享内存解决了基于总线的共享内存的扩展 性问题,它的每一个模块到中央内存的存取速度都可以达到10GbPS以上,而整个中央内存可以容 许超过30路的同时访问,这样一个系统的背板容量可以扩展到300GbPs以上。同时并行访问共享 内存也没有引人交叉矩阵背板带来的队头阻塞等问题。
2.3 交换机 的第三层包转发机制(胸中式与分布式)
每个厂商的 路由 交换机 的实现机制不同,在 路由 功能的实现上,主要有集中式和分布式两种 机制。下面进行详细论述。
2.3.1 集中式第三层包转发
集中式第三层包转发是指在 交换机 中有一个专门的硬件模块( 路由 模块)来对全 交换机 的 第三层包进行转发。 交换机 的每个接口模块如千兆以太同交换模块,都不具备第三层的处理功 能,需要把第三层的数据包从背饭送往 路由 模块来查询 路由 并转发。严格的讲,这种结构的交 换机更准确的名称是第三层 交换机 ,而不是 路由 交换机 。 集中式第三层包转发是早期的技术,它的缺点在于整个 交换机 的 路由 性能受限于其 路由 模 块的能力。另外,当一个IP包要进行 路由 时,它经常要从一个以太网接口模块通过背板总线送 往 路由 模块,在 路由 模块处理后,又经背板总统送往同一以太网接口模块,这样一种数据包传 送方式浪费了背板总规处理能力。并且 路由 模块的故障会导致整个 交换机 内的 路由 功能的失效。 实际中很多厂商 交换机 中的 路由 模块就是一个以插卡形式集成在 交换机 内的软件 路由 器。 因此在各厂商的产品中,采用集中式包转发的 交换机 的 路由 能力一般可达到15Mpps。
2.3.2 分布式第三层包转发
随着ASIC芯片技术的发展,具有 路由 功能的模块被集成到一块芯片上,于是厂商将 路由 芯 片设计到了 路由 交换机 中的每一个接口模块上,这种技术就被称为分布式第三层包转发。它不需要一个专门的模块来为整个机箱服务做包的转发,第三层的包转发可以由每个接口模块上的 路由 芯片独立完成。 分布式第三层包转发突破了集中式第三层包转发的性能瓶颈,但它的 路由 控制机制比集中 式要复杂,它需要在每一个端口保留 路由 表信息以进行快速的包转发。尽管在技术上更复杂, 由于在性能上远远超出集中式,分布式第三层包转发技术已经成为了现在 路由 交换机 的主流技 术。
2.4 线速的包转发
现在厂商往往直称自己的 路由 交换机 的每个端口都是线速的,那么怎么判定一个 路由 交换 机中所有的端口是否线速呢?线速的衡量标准是以64byte的数据包(第二层或第三层包)作为 计算基准,常用的基准如下:
◆对于 千兆以太网 ,一个线速端口的包转发率为1.488Mpps。
◆对于快速以太网,一个线速端口的包转发率为148.8kpps。
◆对于OC-12的POS端口,一个线速端口的包转发率为1.17Mpps。
◆对于OC-48的POS端口,一个线速端口的包转发率为468MppS。 对于 千兆以太网 来说,计算方法如下: (64+8+12)byte×1,488,095pps.×8bit=1,000,000,000bps 说明:当以太网帧为64byte时,需考虑8byte。的帧头和12byte的帧间隙的固定开销。故 一个线速的 千兆以太网 端口在转发64byte包时的包转发率为1.488Mpps。快速以太网的统速端 口包转发率正好为 千兆以太网 的十分之一,为148.8kpps。 对于POS端口来说,计算方法如下: 一个OC-12的SDH中容器的有效速率约为599MbPs,将其除以64×8bit的包长度,就可以 得出一个线速的OC-12POS端口的包转发率为1.17Mpps。OC-48的容器的有效速率为OC-12一 的四倍,所以OC-48 POS端口的线速包转发率为1.17×4=4.68Mpps。
3 、 路由 交换机 选型标准
3.1 路由 交换机 造型五项主要标准 针对广电部门在建设宽带IP城域网需要进行千兆 路由 交换机 选型的实际工作,本文列出了 五项主要的选型标准供广电部门参考,通过这五项选型标准,基本上可以比较各厂家的 路由 交 换机性能的优劣: *背板容量 *无阻塞千兆端口数量 *第二层包转发速度 *第三层包转发速度 * 路由 数量
3.1.1 背板容量
衡量 路由 交换机 容量大小的主要指标是 交换机 的背板容量,其单位是GbPs。
3.1.2 无阻塞千兆端口数量
一个千兆 路由 交换机 可以交换或 路由 多个 千兆以太网 端口,但其支持的最大 千兆以太网 端口数量并不意味着它可以全部无阻塞的线速交换这些千兆端口。原因在于有些千兆 路由 交 换机的设计目标是为计算机服务器提供千兆连接,而现有的计算机上千兆网卡的通信速度受 限于计算机的总线,远远达不到1000MbPS,一般是300~400MbPS,因此对于这些安装了千兆 以太网卡的服务器,并没有必要为其提供线速的千兆交换。但一些厂商的产品往往回避这一 设计目标,一味宣传千兆 路由 交换机 支持的最多千兆端口数量,而真正衡量千兆 路由 交换机 的能力的是其可以交换的无阻塞千兆端口数量。
3.1.3第二层包转发速度
对于千兆 路由 交换机 来说,第二层包转发速度就是其转发以太网帧的速度。以PPS(包每 秒)为衡量单位。
3.1.4第三层包转发速度
第三层包转发速度指千兆 路由 交换机 转发第三层协议包的速度,如转发IP或IPX包的速度。 以PPS(包每秒)为衡量单位。
这里需要指出的是,第二层包转发速度和第三层包转发速度是两个不同的概念。很多厂 商往往只提包转发速度,而没有明确区分是第二层还是第三层的包转发速度。对于采用分布 式 路由 的 路由 交换机 ,一般情况下,第二层包转发速度等于第三层包转发速度。对于采用集 中式 路由 的 路由 交换机 ,其第三层包转发速度往往不等于第二层的包转发速度,因为集中式 路由 需要一个单独的 路由 模块来进行第三层包转发,而第二层包转发是在各个千兆接口模块 中进行的。
3.1.5 路由 数量
路由 交换机 中 路由 表支持的 路由 数量越多,意味着可支持的网络拓扑结构越大,典型的 城域网 路由 交换机 的 路由 数量是64K/每端口。这里需要明确的是厂商宣称的 路由 数量是每个 机箱还是每个端口支持的数量,通常情况下,每机箱的 路由 数量=端口数量×每端口的 路由 数量。 当前的Internet中实际运行BGP-4的骨干 路由 器的 路由 表大小约为77K(资料来源: www.telatra.net/ops/bgPtable.html),并且在缓慢增长,增长速率的放慢主要是由于 CIDR技术的采用。对于一个城域网 路由 交换机 来说,支持64K的 路由 表容量是可以满足未来很 长时间内的城域网需求。
3.2 判断千兆 路由 交换机 无阻塞的标准
一个千兆 路由 交换机 需要符合以下几个要求才可以实现真正的无阻塞。
(1)背板是无阻塞结构,常见的算法是如果背板容量≥端口数量×端口速率×2,那么这 个 路由 交换机 在背板上是无阻塞的。
(2)第二层包转发线速,算法是如果机箱的第二层包转发率=千兆端口数量×1.488Mpps, 那么讲 路由 交换机 在做第二层交换的时候可以做到线建。
(3)第三层包转发线速,算法是如果机箱的第三层包转发率=千兆端口数量×1.488Mpps, 那么这个 路由 交换机 在做第三层交换的时候可以做到线速。
有很多厂商的产品数据满足第二层和第三层线速的标准,但不满足背板无阻塞的标准,这 种情况表明其第二层和第三层线速是在数据包未通过背权交换的条件下取得的;如果有大量的 数据包需要通过其背板转发,那么这个 路由 交换机 将无法做到统速。
另一种情况是背板满足无阻塞的要求,但是其第二层和第三层的包转发率未满足统速标准, 这说明此 路由 交换机 的包转发模块存在瓶颈。
需要澄清的是,在本文中述及的阻塞和拥塞在 路由 交换机 里是二个不同的概念。拥塞是当 多个端口向一个端口同时发送数据时,由于接收端口的速率小于多个端口速率之和而引起的数 据丢包或发送速率下降的问题,这一问题可以通过标准的IEEE802.3X流控协议来加以控制。阻 塞是由于 交换机 内部结构的缺陷而引起的单个端口通信速率达不到全速率的问题,这一问题不 是可以通过流技协议加以避免的。
4、结束语
千兆以太网 技术正在日趋成熟,除了原有的兼容性,宽带,廉价,对IP良好的支撑的特点, 正在增强其可靠性,可扩展性。在当前广电宽带城域网主要承载IP业务的趋势下, 千兆以太网 是建设宽带城域网的首选技术。