曹世宏的博客

在大型数据中心使用BGP进行路由（翻译自RFC7938）

本文是在看RFC7938《 Use of BGP for Routing in Large-Scale Data Centers》是翻译整理的资料。主要讲述了在大型数据中心使用BGP进行路由。

原文链接：https://tools.ietf.org/rfc/rfc7938.txt

摘要

一些网络运营者建立和运营数据中心，支持超过10万台服务器。在本文中，这样的数据中心被称为“大型（large-scale）”，以区别于小型基础设施。这种规模的环境有一组独特的网络需求，强调操作的简单性和网络的稳定性。本文总结了使用BGP作为唯一的路由协议设计和运行大型数据中心的操作经验。其目的是报告一个可靠的和稳定的路由设计，可以被业界的其他人利用。

1. 简介

本文档描述了一个可用于大型数据中心(DC)设计的实用路由设计。这样的数据中心，也被称为“超大规模（hyper-scale）”或“仓库规模（warehouse-scale）”的数据中心，有一个独特的属性，支持超过十万台服务器。为了适应这种规模的网络，运营者正在重新审视网络设计和平台，以满足这一需求。

本文档中提出的设计基于对数据中心的运营经验，这些数据中心是为支持大规模分布式软件基础结构（例如Web搜索引擎）而构建的。在这种环境中的主要要求是操作的简便性和网络稳定性，以便一小部分人可以有效地支持规模庞大的网络。

实验和大量测试表明，外部BGP（EBGP）[RFC4271]非常适合作为此类数据中心应用程序的独立路由协议。这与更传统的DC设计形成对比，后者可能使用简单的树形拓扑，并依赖于跨多个网络设备扩展第2层(L2)域。本文档详细阐述了导致这种设计选择的需求，并提供了EBGP路由设计的细节，以及探索进一步增强的思想。

本文档首先概述了大型（large-scale）数据中心的网络设计要求和注意事项。然后，将传统的分层数据中心网络拓扑与水平扩展的Clos网络[CLOS1953]进行对比。接下来是选择具有Clos拓扑结构的EBGP作为满足要求的最合适路由协议的论据，并详细描述了所提出的设计。最后，本文回顾了一些其他注意事项和设计选项。读者计划部署本文档中描述的设计时，需要对BGP有透彻的了解。

2. 网络设计需求

本节描述并总结了大型数据中心的网络设计要求。

2.1. 带宽和流量模型

在为大量服务器构建互连网络时，主要的需求是适应应用程序带宽和延迟需求。直到最近，大量的流量进出数据中心还是很常见的，通常被称为“南北”流量。传统的“树”拓扑足以容纳这样的流量，即使在网络层之间具有很高的收敛比。如果需要更多的带宽，可以通过“扩展（scaling up）”网络元素来增加带宽，例如，升级设备的线路板或结构，或者用端口密度更高的设备来替代设备。

如今，许多大型数据中心承载着大量的服务器到服务器的流量，这些流量并不会离开DC，通常被称为“东西向”流量。此类应用程序的示例可以是诸如Hadoop [HADOOP]之类的计算机群集，某些应用程序所需的群集之间的海量数据复制或虚拟机迁移。由于物理限制（例如，交换机中的端口密度），扩展传统的树拓扑以满足这些带宽需求变得过于昂贵或不可能。

2.2. CAPEX最小化

仅与网络基础设施相关的资本支出Capital Expenditures（CAPEX）约占数据中心总支出的10-15％（请参阅[GREENBERG2009]）。然而，绝对成本是巨大的，因此需要不断降低单个网络元件的成本。这可以通过两种方式完成：

统一所有网元，最好使用相同的硬件类型甚至相同的设备。这样可以对批量购买进行批量定价，并减少维护和库存成本。
通过引入多家网络设备供应商，利用竞争压力降低成本。

为了使供应商具有良好的多样性，将网元的软件功能要求降到最低非常重要。此策略可在选择供应商设备时提供最大的灵活性，同时使用开放标准来增强互操作性。

2.3. OPEX最小化

操作大型基础设施的成本可能很高，因为从统计上看，作为一个更大的网元更容易故障。设计更简单，使用有限的软件特性集进行操作，可以最大限度地减少与软件问题相关的故障。

最小化运营支出Operational Expenditure（OPEX）的一个重要方面是减小网络中故障域的大小。众所周知，以太网容易受到广播或单播流量风暴的影响，这可能会对网络性能和可用性产生重大影响。全路由设计的使用明显减小了数据平面故障域的大小，即将它们限制在网络层次结构中的最低级别。然而，这样的设计引入了分布式控制平面故障的问题。这种观察要求使用更简单，更少控制平面协议来减少协议交互问题，从而减少网络崩溃的机会。如上文CAPEX部分所述，将软件功能要求降至最低还可以降低测试和培训要求。

2.4. 流量工程

在任何数据中心中，应用程序负载均衡都是网络设备执行的关键功能。传统上，负载均衡器被部署为流量转发路径中的专用设备。在日益增长的流量需求下，扩展负载均衡器时会出现问题。更好的解决方案是通过添加更多的统一节点并在这些节点之间分配传入流量，从而水平地扩展负载均衡层。在这种情况下，理想的选择是使用网络基础设施本身在一组负载均衡器之间分配流量。可以使用anycast前缀通告[RFC4786]和等价多路径Equal Cost Multipath (ECMP)功能的组合来实现这一目标。为了允许更细粒度的负载分布，支持网络执行受控的每跳流量工程是有益的。例如，在网络层次结构的每一层直接控制anycast前缀的ECMP下一跳集是有益的。

2.5. 总结需求

本节总结了前面各节中概述的要求列表：

需求1：通过添加更多相同类型的链接和网络设备，而不需要升级网络元素本身，选择可以“水平（scale-in）”扩展的拓扑。
需求2：定义由众多网络设备供应商支持的一组有限的软件特性/协议。
需求3：选择一种路由协议，该路由协议在编程代码复杂度和易于操作支持方面都非常简单。
需求4：尽可能减少设备或协议问题的故障范围。
需求5：允许进行一些流量工程设计，最好使用内置协议机制，通过明确控制路由前缀下一跳来进行。

3. 数据中心拓扑概述

本节概述了两种通用类型的数据中心设计-分层（也称为“基于树”）和基于Clos的网络设计。

3.1. 传统数据中心拓扑

在网络行业中，数据中心的常见设计选择通常看起来像一个(倒置的)树，它具有冗余的上行链路和三个层次结构;核心层、聚合/分布层和接入层(见图1)。为了满足带宽需求，从服务器到DC出口或WAN的每一个更高的层都具有更高的端口密度和带宽容量，其中核心功能是作为基于树的设计的“主干（trunk）”。为了保持术语的统一，并与其他设计进行比较，在本文中，这些层将被称为第1层、第2层和第3层“tiers”，而不是核心层、聚合层或接入层。

图 1: 数据中心典型网络拓扑

不幸的是，如前所述，由于无法获得具有足够大的端口密度的第1层设备来充分扩展第2层，因此无法将基于树的设计扩展到足以处理大规模设计的程度。此外，随着部署规模或带宽需求的增加，需要不断升级或替换上层设备，这在操作上很复杂。因此，采用了需求1，从而无需考虑此类设计。

3.2. 思科网络拓扑

本节描述了大型数据中心中水平可伸缩拓扑的通用设计，以满足需求1的要求。

3.2.1 概述

水平可伸缩拓扑的常见选择是折叠Clos拓扑，有时也称为“胖树（fat-tree）”（例如[INTERCON]和[ALFARES2008]）。该拓扑具有奇数个阶级（有时称为“（dimensions）维度”），并且通常由统一元素组成，例如具有相同端口数的网络交换机。因此，折叠Clos拓扑的选择可以满足需求1并简化需求2。请参见下面的图2，以获取折叠的3级Clos拓扑的示例（跟踪数据包流时，3级对Tier 2级进行了两次计数）

图 2： 3级段折叠Clos拓扑

此拓扑通常也称为“Leaf和Spine”网络，其中“Spine”是Clos拓扑的中间阶段（Tier 1）的名称，“Leaf”是输入/输出阶级的名称（ Tier 2）。为了统一起见，本文档将使用“ Tier n”表示法引用这些层。

3.2.2. Clos拓扑属性

以下是Clos拓扑的一些关键属性：

如果M> = N，则拓扑是完全无阻塞的，或更准确地说，是无干扰的，否则超额了N / M倍。对于第2层交换机，这里的M和N分别是上行链路和下行链路端口数，如图2所示。
利用这种拓扑需要对带有M或更多fan-out的ECMP提供控制和数据平面支持。
在这个拓扑结构中，第1层交换机到每个服务器只有一条路径。这是一个重要的属性，使得路由汇总在这种拓扑结构中非常危险(参见下面8.2节)。
从服务器到服务器的流量通过ECMP在所有可用路径上实现负载平衡。

3.2.3 扩展Clos拓扑

可以通过增加网络元素端口密度或添加更多的阶段(例如，转移到5阶段的Clos)来扩展Clos拓扑，如下面的图3所示:

图 3. 5阶段Clos拓扑

图3中的拓扑小示例是由端口数为4的设备构建的。在本文档中，一组直接连接的第2层和第3层设备及其附属服务器将被称为“集群”。例如，在图3中，DEV A、B、C、D，以及连接到DEV A和B的服务器组成了一个集群。集群的概念也可以是一个有用的概念，作为单个部署或维护单元，它可以在与整个拓扑不同的频率上运行。

在实践中，网络的第3层通常是机架顶交换机Top-of-Rack（ToR），在此处引入了超额预订（ oversubscription），以便在满足不同类型应用程序的带宽需求的同时，在数据中心中打包更多的服务器。主要原因限制超额预定的单层网络是简化应用程序开发,否则需要考虑多个带宽池:在机架(Tier3)、机架之间(Tier2),和集群之间(Tier1)。由于超额预定与路由设计没有直接关系,它不在本文进一步讨论。

个人备注： oversubscription超额预定，个人理解为收敛比。

3.2.4 管理Clos拓扑层的大小

如果数据中心网络规模较小，则可以将Clos拓扑的第1层或第2层中的交换机数量减少两倍。要理解如何做到这一点，请以Tier 1为例。每个第2层设备连接到第1层设备的单个组。如果一半的端口在第一层的设备没有被使用，那么它有可能减少第一层设备的数量减半，只是两个上行链路第二层设备映射到相同的第一层设备,以前映射到不同的第一层设备。这种技术保持了相同的带宽，同时减少了第一层的元素数量，从而节省了资本支出。在本例中，折衷的方法是将最大DC大小(总体服务器数量)减少一半。

在此示例中，第2层设备将使用两个并行链接连接到每个第1层设备。如果这些链路中的一个发生故障，则另一个将接收故障链路的所有流量，如果确定路径过程未考虑带宽量，则可能会导致严重的拥塞和服务质量下降，因为上游第1层设备的数量可能超过两个。为了避免这种情况，可以将并行链路分组为链路聚合组（LAGs），例如[IEEE8023AD]，并具有广泛可用的实现设置，这些设置会在单个链路发生故障时使整个“捆绑（bundle）”失效。可以使用在并行链路上强制执行“fate sharing”的等效技术来代替LAG，以实现相同的效果。这种fate sharing的结果是，来自两个或更多故障链路的流量将在与第1层设备数量相等的大量剩余路径上重新平衡。为了简化起见，此示例使用两个链接，在一个成员链接失败时，捆绑中有更多链接将对容量的影响较小。

4. 数据中心路由概述

本节概述了三种通用类型的数据中心协议设计-仅2层，混合L2 / L3和仅3层。

4.1. 仅2层设计

最初，大多数数据中心设计使用[IEEE8021D-1990]中最初定义的生成树协议(STP)来创建无环拓扑，通常使用3.1节中描述的传统DC拓扑的变体。当时，许多DC交换机要么不支持第3层路由协议，要么需要额外的许可费用来支持它们，这在设计选择中起到了一定的作用。尽管许多增强了通过引入快速生成树协议(RSTP)最新修订的[IEEE8021D-2004]和多生成树协议(MST)中指定[IEEE8021Q]增加收敛，稳定性和负载平衡在较大的拓扑，协议的许多基本原理限制了其在大规模DC中的适用性。STP及其较新的变体使用一种主动/备用的路径选择方法，因此很难像第3.2节中描述的那样在水平伸缩的拓扑中部署。此外，操作人员也有许多处理大型故障的经验，这些故障是由单个设备上的不当布线、配置错误或软件缺陷引起的。这些故障通常会影响整个生成树域，由于协议的性质，很难排除故障。由于这些原因，并且由于几乎所有DC流量现在都是IP，因此需要在网络边缘进行外部连接的第3层路由协议，因此使用STP的设计通常无法满足大型DC运营商的所有要求。对链路聚合协议的各种增强，如[IEEE8023AD]，即通常所知的多机箱链路聚合(M-LAG)，使得使用具有active-active网络路径的第2层设计成为可能，同时依赖STP作为防环的备份。这种方法的主要缺点是，在大多数实现中缺少线性扩展能力，不能超过两个，而且缺乏基于标准的实现，并且增加了在设备之间同步状态的故障域风险。

应该注意的是，通过在[RFC6325]中引入大量链路(TRILL)的透明互联协议，可以构建大型的、水平可扩展的、没有STP的l2网络。TRILL解决了STP在大规模直流设计中的许多问题，但是，由于实现的数量有限，而且通常需要特定的设备来支持，这限制了它的适用性，并增加了此类设计的成本。

最后，基本的TRILL规范和M-LAG方法都不能完全消除共享广播域的问题，该问题对任何基于以太网的第2层解决方案的操作都是不利的。后来主要基于[RFC7067]中概述的方法，提出了TRILL扩展来解决此问题，但这甚至进一步限制了可用于构建结构的互操作实现的数量。因此，基于TRILL的设计存在满足需求2，需求3和需求4的问题。

4.2. 混合2层3层设计

运营者寻求通过在网络的第1层或第2层部分中实施路由协议并将第2层域划分为多个较小的域来限制数据平面故障的影响并构建大规模拓扑。这种设计允许数据中心扩大规模，但以管理多个网络协议的复杂性为代价。由于以下原因，运营者将第2层保留在网络的接入层（第3层）或接入层和汇聚层（第3层和第2层）部分中：

支持可能需要直接第2层邻接或使用非IP协议的旧版应用程序。
当虚拟机移至其他Tier 3交换机时，需要保留IP地址的虚拟机的无缝移动性。
简化的IP寻址=数据中心所需的IP子网更少
应用程序负载平衡可能需要直接的第2层可达性才能执行某些功能，例如第2层直接服务器返回Direct Server Return（DSR）。参见[L3DSR]。
支持L2和L3的交换机之间的持续资本支出（CAPEX ）差异。

4.3. 仅3层设计

利用IP路由到网络第3层的网络设计也已广受欢迎。这些设计的主要好处是，由于限制了L2广播域，因此提高了网络稳定性和可伸缩性。通常，在这样的设计中，诸如开放式最短路径优先（OSPF）[RFC2328]之类的内部网关协议（IGP）被用作主要的路由协议。随着数据中心规模的扩大和服务器数量的增加，成千上万的此类全路由设计变得越来越有吸引力。

选择仅L3的设计极大地简化了网络，促进了需求1和需求2的满足，并且在大2层邻接和较大3层子网与网络可扩展性和稳定性相比不那么关键的网络中得到了广泛采用。应用程序提供商和网络运营商将继续开发新的解决方案，以通过使用各种覆盖或隧道技术来满足以前驱动大2层域的某些要求。

5. 路由协议设计

在本节中，回顾了将外部BGP（EBGP）用作具有第3层协议设计和Clos拓扑的数据中心网络的单一路由协议的动机。然后，提供了一种用于设计基于EBGP的网络的实用方法。

5.1. 选择EBGP作为路由协议

需求2将优先选择单个路由协议以减少复杂性和相互依赖性。虽然在这种情况下通常依赖IGP，有时在与WAN相连的设备上添加EBGP或在整个内部使用内部BGP（IBGP），但本文档建议使用仅EBGP设计。

尽管EBGP是Internet上几乎所有域间路由所使用的协议，并且得到了供应商和服务提供商社区的广泛支持，但出于多种原因，它通常未被部署为数据中心内的主要路由协议（某些原因相互关联）：

BGP被认为是“仅WAN，仅协议”，并不经常用于企业或数据中心应用。
与IGP相比，BGP被认为具有“慢得多”的路由收敛。
大规模BGP部署通常利用IGP进行BGP下一跳解析，因为IBGP拓扑中的所有节点均未直接连接。
BGP被认为需要大量的配置开销，并且不支持邻居自动发现。

本文讨论了其中的一些看法，特别是适用于所建议的设计，并重点介绍了使用协议的一些优点，例如：

BGP在其协议设计的一部分中具有较少的复杂性与大多数链路状态IGP（例如OSPF）相比，内部数据结构和状态机更简单。例如，BGP没有实现邻接关系形成，邻接关系维护和/或流控制，而是仅依靠TCP作为基础传输。这满足了需求2和需求3.
与链路状态IGP相比，BGP信息泛滥开销更小。由于每个BGP路由器都只计算和传播所选的最佳路径，因此一旦BGP发言人找到备用路径，就会掩盖网络故障，当高度对称的拓扑（例如Clos）与仅EBGP设计结合使用时，该备用路径就会存在。相反，链路状态IGP的事件传播范围是整个区域，而与故障类型无关。这样，BGP更好地满足了需求3和需求4。还值得一提的是，所有广泛部署的链路状态IGP均具有定期刷新路由信息的特性，而BGP不会使路由状态失效，尽管这很少影响现代路由器控制平面
BGP支持第三方（递归解析）下一跳。通过与应用程序“控制器”建立对等会话，可以将多路径控制为基于ECMP或基于应用程序定义的路径的转发，该对等会话可以将路由信息注入系统，从而满足需求5。 OSPF使用诸如“转发地址”之类的概念提供类似的功能，但是实现起来更加困难，并且对信息传播范围的控制也要少得多。
使用定义明确的自治系统编号（ASN）分配方案和标准的AS_PATH循环检测，可以控制“ BGP路径搜寻”（请参阅[JAKMA2008]），而复杂的不需要的路径将被忽略。有关有效的ASN分配方案的示例，请参见5.2节。在链路状态IGP中，实现相同的目标将需要多（实例/拓扑/进程）支持，通常在所有DC设备中不可用，并且配置和故障排除非常复杂。使用大多数DC设计使用的传统单一洪泛域，在某些故障情况下可能会拾取不必要的冗长路径，例如遍历多个Tier 2设备。
使用最少的路由策略实现的EBGP配置更容易对网络可达性问题进行故障排除。在大多数实现中，查看BGP的Loc-RIB内容并将其与路由器的路由信息库(RIB)进行比较是很简单的。此外，在大多数实现中，操作员可以查看每个BGP邻居Adj-RIB-In和Adj-RIB-Out结构，因此传入和传出网络层可达性信息(NLRI)信息可以在BGP会话的两边轻松关联。因此，BGP满足需求3。

5.2. 用于Clos拓扑的EBGP配置

由于这种设计需要大量的互连，因此具有5级的Clos拓扑非常罕见。因此，下面的示例是参考5级Clos拓扑（处于展开状态）制作的。

5.2.1 EBGP配置指南和示例ASN方案

下图说明了ASN分配方案的示例。以下是可以使用的准则列表：

EBGP单跳会话是在互连网络节点的直接点到点链路上建立的，即使在同一对节点之间存在多个链路的情况下，也不使用多跳或环回会话。
使用私有ASNs从64512-65534，避免ASN冲突。
所有Clos拓扑的第一层分配一个ASN。
唯一的ASN分配给同一群集中的每组第2层设备。
在这个拓扑中，一个唯一的ASN被分配给每个第3层设备（例如，ToR）。

图 4. 5-Stage的Clos网络拓扑ASN布局

5.2.2 私有ASNs的使用

私有ASN的原始范围[RFC6996]限制了总共有1023个ASNs。由于网络设备的数量很可能超过此数量，因此需要一种解决方法。一种方法是在不同群集中重复使用分配给第3层设备的ASN。例如，可以在每个单独的群集中使用专用ASN 65001、65002 … 65032，并将其分配给第3层设备。

为了避免由于BGP中的AS_PATH循环检测机制而导致路由抑制，必须在第3层设备上的上游EBGP会话配置“Allowas-in”功能[ALLOWASIN]，该功能允许在接收的路由通告中接受设备自己的ASN。尽管此功能尚未标准化，但可在多个供应商实施中广泛使用。引入此功能不会在设计中增加路由循环的可能性，因为AS_PATH是由每个拓扑层的路由器添加到AS_PATH的，并且AS_PATH的长度是BGP路径选择过程中的早期决定因素。第1层设备仍具有进一步的环路保护功能，该设备将不接受带有包含其自身ASN的路径的路由。第2层设备之间没有直接连接。

解决此问题的另一种方法是使用四字节ASN（[RFC6793]），其中还有其他可用的私有ASN，请参阅[IANA.AS]。使用四字节的ASN会给BGP实现带来额外的协议复杂性，在考虑需求3和需求4时应与重用的复杂性相平衡。也许更重要的是，它们尚未得到所有BGP实现的支持，这可能会限制供应商选择DC设备。如果受支持，请确保在需要与这些ASN的外部连接（第5.2.4节）时，已部署的实现能够删除专用ASN。

5.2.3. 前缀列表通告

Clos拓扑具有大量的点对点链接和相关联的前缀。将所有这些路由发布到BGP中可能会在网络设备中造成转发信息库 Forwarding Information Base（FIB）超载。通告这些链接还会给BGP控制平面带来额外的路径计算压力，几乎没有好处。有两种可能的解决方案：

不要在BGP中宣告任何点对点链接。由于基于EBGP的设计更改了每个设备上的下一跳地址，因此可以通过通告EBGP对等点自动访问远程网络，并且不需要对这些前缀具有可达性。然而，这可能会使操作或监视变得复杂:例如，使用流行的“traceroute”工具将显示无法访问的IP地址。
宣告点对点链接网段，但在每台设备上对它们进行汇总。这需要一个地址分配方案，例如为每个第1层和第2层设备分配一个连续的IP地址块，用于对较低层的点对点接口寻址(第2层上行链路将从第1层地址块分配，等等)。

第三层设备上的服务器子网必须在不使用2层和1层设备上的路由汇总的情况下被宣布到BGP。在Clos拓扑中汇总子网会导致路由在单个链路失效(例如，在第2层和第3层设备之间)下出现黑洞，因此必须避免这种情况。由于对等网的O（N ^ 2）复杂性和设备端口的浪费，在同一层中使用对等链接通过提供“旁路”来解决黑洞问题是不可取的。对等链路的完整网格的替代方案是使用更简单的旁路拓扑，例如[FB4POST]中所述的“环”，但是这种拓扑会增加额外的跃点，并且带宽有限。可能需要进行特殊调整才能使BGP路由工作，例如将每个设备分配自己的ASN。在本文档的后面，第8.2节介绍了一种用于在Clos网络中执行有限形式的路由汇总的侵入性较小的方法，并讨论了其相关的取舍。

5.2.4. 外部连接

Clos拓扑中的专用集群(或多个集群)可用于连接广域网 Wide Area Network(WAN)边缘设备或WAN路由器。此类集群中的第3层设备将被WAN路由器取代，并再次使用EBGP对等连接，尽管如果设计中需要Internet连接，WAN路由器可能属于公共ASN。这种专用集群中的第2层设备在本文档中称为“边界路由器”。这些设备必须执行一些特殊功能:

在向WAN路由器发布路径时隐藏网络拓扑信息，即，从AS_PATH属性中删除“私有ASN” [RFC6996]。通常这样做是为了避免不同数据中心之间的ASN编号冲突，并为WAN ECMP提供一个统一的AS_PATH长度，以便将WAN ECMP用于源自拓扑的任播前缀。通常使用一种实现特定的BGP功能（通常称为“删除私有AS”）来完成此任务。根据实现方式，该功能应在向邻居发布路径之前，剥离在AS_PATH属性中找到的连续的私人使用ASN序列。假定用于内部数据中心编号的所有ASN均来自“私有范围”。当前，剥离私有ASN的过程尚未标准化，请参阅[REMOVAL]。但是，大多数实现至少遵循该供应商的文档[VENDOR-REMOVE-PRIVATE-AS]中描述的逻辑，对于指定的设计而言已足够。
创建到数据中心设备的默认路由。这是唯一可以发起默认路由的地方，因为路由汇总对于未修改的Clos拓扑有风险。或者，边界路由器可以简单地中继从WAN路由器获知的默认路由。通告来自边界路由器的默认路由要求所有边界路由器都完全连接到上游的WAN路由器，以抵抗导致流量黑洞的单链路故障。为了防止在给定设备上与WAN路由器的所有EBGP会话同时失败时的黑洞现象，更希望重新发布默认路由，而不是通过某些实现提供的复杂的条件路由发起方案发起默认路由 [CONDITIONALROUTE]。

5.2.5. 在边缘的路由汇总

在将网络可达性信息发布到广域网之前，通常需要汇总网络可达性信息，因为在全路由网络设计中，数据中心中会产生大量IP前缀。例如，具有2000个Tier 3设备的网络将至少有2000个服务器子网以及基础设施前缀发布到BGP中。但是，如第5.2.3节所述，由于每层内部都缺乏对等链接，因此建议的网络设计不允许进行路由汇总。

但是，可以通过为这些设备设计不同的连接模型来解除对边界路由器的限制。有两种选择：

使用全网状物理链路或使用任何其他“对等网状”拓扑（例如环网或星型辐射）互连边界路由器。相应地在所有Border Leafs上配置BGP，以交换网络可达性信息，例如，通过添加IBGP会话的网络。互连对等链路的大小需要适当调整，以适应在连接边界路由器的网状网络中发生设备故障或链路故障时出现的流量。
第1层设备可能具有向边界路由器（从第1层角度来看是第2层设备）的附加物理链路。具体来说，如果需要防止单个链路或节点故障的保护，则每个第1层设备都必须连接到至少两个边界路由器。这就对第1层设备和边界路由器的端口数提出了额外的要求，与Clos中的其他设备相比，这可能使其成为不一致，更大的端口数的设备。这也减少了“常规”第2层交换机可用的端口数量，因此减少了可通过第1层互连的集群的数量。

如果实现了上述任何选项，则可以在边界路由器处对WAN网络核心执行路由汇总，而不会冒单个链路故障时出现路由黑洞情况的风险。这两个选项都将导致拓扑不统一，因为必须在某些网络设备上设置其他链接。

6. ECMP注意事项

本节介绍Clos拓扑的等价多路径Equal Cost Multipath（ECMP）功能，并讨论一些特殊要求。

6.1. 基本ECMP

ECMP是Clos拓扑使用的基本负载分担机制。实际上，每个下层设备都将使用其所有直接连接的上层设备来负载分担发往同一IP前缀的流量。 Clos拓扑中任何两个Tier3设备之间的ECMP路径数等于中间阶段（第1层）的设备数。例如，图5说明了一种拓扑，其中第3层设备A具有通过第2层设备B和C然后分别通过第1层设备1、2、3和4到达服务器X和Y的四个路径。

图 5. ECMP Fan-Out Tree from A to X and Y

ECMP要求意味着BGP实现必须支持多路径转发，最多支持在拓扑中任何点上直接连接的上游或下游方向的设备的最大数量。通常，这个数字不超过拓扑中设备上端口的一半。例如，当使用64端口设备构建Clos网络时，需要32个ECMP转发。如果在边界路由器级别上实现如5.2.5节所述的路由汇总，边界路由器可能需要有更宽的上联，以便能够连接到众多的第1层设备。如果设备的硬件不支持更广泛的ECMP，则可以使用逻辑链路分组(第2层的链路聚合)来提供“分层”ECMP(第3层ECMP与第2层ECMP耦合)来补偿上联限制。然而，这种方法增加了流动极化的风险，因为在ECMP的第二阶段熵更小。

如果大多数BGP实现与[RFC4271] 9.1.2.2节中的步骤（e）匹配并包括在内，则从ECMP角度将其声明为相等。在建议的网络设计中，没有底层的IGP，因此所有IGP成本都假定为零，否则所有路径上的值都相同，并且可以根据需要应用策略来均衡因供应商默认值而异的BGP属性，例如MULTI_EXIT_DISC（ MED）属性和原始代码。由于历史原因，不使用0作为均衡的MED值也很有用； [RFC4277]中提供了此信息以及其他一些有用的BGP信息。由于BGP最佳路径选择过程（首选较短的AS_PATH长度），因此路由循环不太可能，并且通过Tier 1设备的较长路径（不允许在路径中使用自己的ASN）是不可能的。

6.2. 多个ASN上的BGP ECMP

为了实现应用程序负载均衡，希望具有从多个Tier 3设备通告的相同前缀。从其他设备的角度来看，这样的前缀将具有具有不同AS_PATH属性值的BGP路径，同时具有相同的AS_PATH属性长度。因此，BGP实现必须支持上述路径上的负载分担。此功能有时称为“multipath relax”或“multipath multiple-AS”，并且如果所有其他属性都相同（如上一节中所述），则有效地允许在不同的相邻ASN之间进行ECMP。

6.3. 加权ECMP

网络设备可能希望实现“加权（weighted）” ECMP，以便能够通过ECMP上联中的某些路径发送更多流量。这可能有助于补偿网络故障，并通过容量更大的路径发送更多流量。如第8.1节中所述，必须在多跳会话上使用远程BGP speaker（中心代理）注入需要加权ECMP的前缀。如果实现中的支持可用，则可以使用[LINK]中描述的技术来发送多个BGP路径的权重分布信号。

6.4. 一致性Hash

通常希望使用于ECMP的哈希函数保持一致（请参阅[CONS-HASH]），以在将下一跳添加或删除到ECMP组时，对下一跳亲和力更改的流的影响最小化。如果将网络设备用作负载均衡器，将流映射到多个目标，则可以使用此方法-在这种情况下，丢失或添加目标不会对当前建立的流产生不利影响。 [RFC2992]中提供了一个关于实现一致性哈希的特定建议，尽管其他实现也是可能的。此功能可以自然地与加权ECMP结合使用，下一跳更改的影响与给定下一跳的权重成正比。一致性哈希的缺点是增加了硬件资源利用率，因为通常会有更多的资源（例如Ternary Content-Addressable Memory）（TCAM）空间），以实现一致的哈希功能。

7. 路由收敛特性

本节回顾了拟议设计中的路由收敛特性。如果实现支持快速的EBGP对等会话取消激活并且在相关链接失败时及时进行RIB和FIB更新，则可以实现亚秒级收敛。

7.1. 故障检测时间

BGP通常依赖于IGP在AS内部的链路/节点故障周围进行路由，并实施基于轮询的机制或事件驱动机制来获取有关IGP状态更改的更新。提议的路由设计不使用IGP，因此可用于故障检测的其余机制是BGP保持活动超时（或任何其他类型的保持活动机制）和链接失败触发器。

仅依靠BGP保持活动数据包可能会导致高收敛延迟，约为数秒（在许多BGP实现中，最小可配置BGP保持计时器值为三秒）。但是，许多BGP实现可以关闭本地EBGP对等会话，以响应用于BGP对等的传出接口的“连接断开”事件。有时将此功能称为“快速故障转移”。由于现代数据中心中的链接主要是点对点光纤连接，因此通常会在几毫秒内检测到物理接口故障，并随后触发BGP重新收敛。

以太网链路可以支持故障信令或检测标准，例如[IEEE8021Q]中所述的连接性故障管理 Connectivity Fault Management （CFM）；或者，某些平台可能支持双向转发检测Bidirectional Forwarding Detection （BFD）[RFC5880]，以允许亚秒级的故障检测和向BGP进程的故障信令。但是，这两种方法的使用都对供应商软件以及可能的硬件提出了额外的要求，并且可能与需求1相矛盾。直到最近[RFC7130]为止，BFD还不允许在LAG上检测到单个成员链接失败，这将限制其在某些方面的用途。

7.2. 事件传播时间

在建议的设计中，应考虑[RFC4271] 9.2.1.1节中指定的BGP MinRouteAdvertisementIntervalTimer（MRAI计时器）的影响。根据该标准，BGP实现要求将连续的BGP UPDATE消息至少间隔MRAI秒，这通常是可配置的值。携带撤回路由的事件后的初始BGP UPDATE消息通常不受此计时器的影响。当BGP发言人“等待”从其对等方学习新路径并且没有本地备份路径信息时，MRAI计时器可能会出现明显的收敛延迟。

在Clos拓扑中，每个EBGP发言者通常具有一条路径（由于相同的ASN，第2层设备不接受来自同一集群中其他第2层的路径）或同一前缀的N条路径，其中N是一个很大的数字，例如N = 32（ECMP Fan-Out（多链路上联）到下一层）。因此，如果到另一个接收到路径的设备的链接失败，则根本没有备份路径（例如，从第2层交换机丢失到第3层设备的链接的角度），或者该备份很容易获得在BGP Loc-RIB中（例如，从第2层设备丢失到第1层交换机的链接的角度）。在前一种情况下，BGP退出通告将立即传播，并在受影响的设备上触发重新收敛。在后一种情况下，将重新评估最佳路径，并且将更改与新的下一跳集相对应的本地ECMP组。如果BGP路径是先前选择的最佳路径，则由于BGP AS_PATH属性的更改，将通过BGP UPDATE消息发送“隐式撤回”，如[RFC4271]第3.1节中的选项b所述。

7.3. Clos拓扑（Fan-Outs）的影响

Clos拓扑具有较大的上联，这在某些情况下可能会影响“上-下”收敛，如本节所述。在第3层和第2层设备之间的链接发生故障的情况下，第2层设备将向所有上游第1层设备发送BGP UPDATE消息，并撤消受影响的前缀。第1层设备依次将这些消息中继到所有下游的第2层设备（发起者除外）。然后，除发起UPDATE的设备之外的第2层设备应等待所有上游第1层设备发送UPDATE消息，然后再删除受影响的前缀，并向连接的第3层设备下游发送相应的UPDATE。如果原始第2层设备或中继第1层设备在其UPDATE消息声明中引入了一些延迟，则结果可能是UPDATE消息“分散”，可能长达数秒。为了避免这种行为，BGP实现必须支持“更新组”。 “更新组”定义为共享相同出站策略的邻居的集合-本地发言人将BGP更新同步发送到该组的成员。

这种“分散”的影响随着拓扑上联数的增加而增加，并且在网络融合波动的情况下也会增加。某些运营者可能会尝试引入厂商提供的“路由摆动衰减（route flap dampening）”类型的功能，以减少快速摆动的前缀对控制平面的影响。但是，由于在这些实现中，尤其是在此类“分散”事件下，由于存在误报问题，因此不建议在此设计中启用此功能。 [RFC7196]中详细介绍了“路由风门衰减”的更多背景知识和问题以及可能影响其的实现更改。

7.4. 故障影响范围

一旦故障影响范围内的所有设备都收到事件通知，并重新计算其RIB并因此更新了FIB，则声明网络将响应故障而收敛。较大的故障影响范围通常意味着收敛速度较慢，因为必须通知更多的设备，并导致网络不稳定。在本节中，我们将介绍BGP在减少Clos拓扑的故障影响范围方面优于链路状态路由协议的优势。

BGP的行为类似于距离矢量协议，因为从本地路由器的角度来看，只有最佳路径才发送到邻居。这样，如果本地节点可以立即找到备份路径并且不必进一步发送任何更新，则可以掩盖某些故障。请注意，在最坏的情况下，数据中心拓扑中的所有设备都必须完全撤消前缀或更新其FIB中的ECMP组。但是，许多故障不会导致如此广泛的影响。有两种主要的故障类型可以减小影响范围：

第2层和第1层设备之间的连接失败：在这种情况下，第2层设备将更新受影响的ECMP组，并删除失败的连接。除非BGP进程选择了最佳路径，否则无需向下游第3层设备发送新信息，在这种情况下，仅需要发送“隐式撤回”，并且这不会影响转发。受影响的第1层设备将失去到达特定群集的唯一路径，并且必须撤消关联的前缀。这样的前缀提取过程将仅影响直接连接到受影响的Tier 1设备的Tier 2设备。接收带有前缀的BGP UPDATE消息的第2层设备仅需更新其ECMP组。第3层设备不参与重新融合过程。
第1层设备的故障：在这种情况下，所有直接连接到发生故障的节点的第2层设备都必须为来自非本地群集的所有IP前缀更新其ECMP组。第3层设备再次不参与重新收敛过程，但如上所述，可能会收到“隐式提取”。

即使必须在FIB中重新编程多个IP前缀的此类故障的情况下，值得注意的是，所有这些前缀在第2层设备上共享一个ECMP组。因此，在具有分层FIB的实现方式中，仅需对FIB进行一次更改。这里的“分级FIB”表示FIB结构，其中下一跳转发信息与前缀查找表分开存储，并且后者仅存储指向各个转发信息的指针。有关FIB层次结构和快速收敛的讨论，请参见[BGP-PIC]。

即使在某些情况下BGP提供了减少的故障范围，但对于提出的设计，总不能通过摘要来进一步减少故障域，因为使用此技术可能会产生路由黑洞，如前所述。因此，控制平面上最严重的故障影响范围是整个网络-例如，在第2层和第3层设备之间发生链路故障的情况下。在这种情况下，受影响的前缀数量将比在Clos网络拓扑的上层发生故障的情况下少得多。具有如此大的故障范围的特性不是在设计中选择EBGP的结果，而是使用Clos拓扑的结果。

7.5 路由（Micro-Loops）微环路

当下游设备（例如Tier 2设备）丢失所有前缀路径时，通常具有指向上游设备的默认路由-在这种情况下为Tier 1设备。结果，可能会遇到第2层交换机丢失前缀，但第1层交换机仍具有指向第2层设备的路径的情况；这会导致瞬态微循环，因为第1层交换机将不断将数据包传递给受影响的前缀并返回第2层设备，而第2层将使用默认路由再次将其反弹。此微循环将持续一段时间，以使上游设备完全更新其转发表。

为了最大程度地减少此类微环的影响，可以为第2层和第1层交换机配置静态“discard”或“null”路由，这些路由比默认路由对网络融合过程中缺少前缀的默认路由更具针对性。对于第2层交换机，丢弃路由应该是涵盖基础3层设备的所有服务器子网的汇总路由。对于第1层设备，丢弃路由应为，涵盖了整个数据中心分配的服务器IP地址子网的汇总路由。这些丢弃路由仅在网络收敛期间具有优先权，直到设备通过新路径获知更具体的前缀为止。

8. 额外的设计选型

8.1. 第三方路由注入

BGP允许“第三方”（即直接连接的BGP speaker）在网络拓扑中的任意位置注入路由，从而满足需求5。这可以通过与拓扑中的某些甚至所有设备通过多跳BGP会话进行对等来实现。此外，BGP多样路径分布[RFC6774]可用于为同一前缀注入多个BGP下一跳，以促进负载平衡，或者在实施支持的情况下使用BGP ADD-PATH功能[RFC7911]。不幸的是，在许多实现中，发现ADD-PATH仅在最初对其进行了优化的用例中才正确地支持IBGP。这将“第三方”对等仅限于IBGP。

为了在建议的设计中实现路由注入，第三方BGP发言者可以与第3层和第1层交换机进行对等，注入相同的前缀，但对第1层设备使用一组特殊的BGP下一跳。假定这些下一跳是通过BGP递归解析的，例如可以是第3层设备上的IP地址。生成的转发表编程可以在不同群集之间提供所需的流量比例分配。

8.2. Clos拓扑内的路由汇总

如前所述，路由汇总在建议的Clos拓扑中是不可能的，因为它使网络在单链路故障下容易受到路由黑洞的影响。主要问题是网元之间的冗余路径数量有限，例如，在任何一对第1层和第3层设备之间只有一条路径。但是，某些运营商可能会发现路由聚合是提高控制平面稳定性所需要的。

如果计划了在拓扑中进行总结的任何技术，则不仅应针对单链路或多链路故障，而且还应对拓扑超出物理位置的光纤路径故障或光域故障，进行路由行为和潜在的黑洞建模。在存在外部连接性的情况下，通过检查每层设备之间以及到WAN路由器之间的链路或路径故障的情况下进行汇总的设备的可达性，可以简化建模的工作。

路由汇总可能需要对网络拓扑进行少量修改，尽管折衷方案是减小网络的总大小以及在特定故障下的网络拥塞。这种方法与上述技术非常相似，后者允许边界路由器汇总整个数据中心地址空间。

8.2.1. 崩溃的第1层设备层

为了在第1层和第3层设备之间添加更多路径，请将第2层设备成对分组，然后将这些对连接到同一组第1层设备。从逻辑上讲，这等效于将第1层设备“折叠”成一半大小的组，将“折叠”的设备上的链接合并。结果如图6所示。例如，在此拓扑中，DEV C和DEV D连接到同一组第1层设备（DEV 1和DEV 2），而在它们连接到不同组的第1层设备之前。

图 6. 5-Stage Clos拓扑

采用此设计后，第2层设备可以配置为仅通告默认路由到第3层设备。如果第2层和第3层之间的链接失败，流量将通过第2层交换机已知的第二条可用路径重新路由。仍然不可能公布来自第2层设备的用于单个集群的前缀的汇总路由，因为每个设备只有一个到该前缀的路径。这将需要双宿主服务器来完成。另请注意，此设计仅是弹性的单链路故障。双链路故障可能会将第2层设备从所有路径隔离到特定的第3层设备，从而导致路由黑洞。

提议的拓扑修改的结果将是降低第1层设备的端口容量。这限制了连接的第2层设备的最大数量，因此将限制最大的DC网络大小。较大的网络将需要具有更高端口密度的其他第1层设备来实施此更改。

另一个问题是链路故障下的流量重新平衡。由于从第1层到第3层有两条路径，因此第1层和第2层交换机之间的链路故障会导致所有流量在将发生故障的链路切换到其余路径。这将导致剩余链路上的链路利用率加倍。

8.2.2. 简单虚拟聚合

如果主要目标是减小FIB大小，同时允许控制平面散布完整的路由信息，则可以采用完全不同的路由汇总方法。首先，可以很容易地注意到，在许多情况下，多个前缀共享一些相同的下一跳集（相同的ECMP组），其中某些前缀不太明确。例如，从第3层设备的角度来看，只要网络中没有故障，从上游第2层设备获悉的所有路由（包括默认路由）都将共享同一组BGP下一跳。这样就可以使用类似于[RFC6769]中描述的技术，并且仅在FIB中安装最不特定的路由，如果它们共享相同的下一跳集，则忽略更特定的路由。例如，在正常网络条件下，仅默认路由需要被编程到FIB中。

此外，如果第2层设备配置有覆盖其所有附加第3层设备前缀的汇总前缀，则相同的逻辑也可以应用在第1层设备中，并通过引入不同群集中的第2层/第3层交换机。这些汇总路由仍应允许泄漏到第1层设备的更特定的前缀，以便在特定链接失败时能够检测到下一跳中的不匹配项，从而更改了特定前缀的下一跳集。

再次重申，此技术不会减少控制平面状态的数量（即BGP UPDATE，BGP Loc-RIB大小），而只能通过检测共享其下一跳集的更特定的前缀来提高FIB利用率。包含不太明确的前缀。

8.3. ICMP不可达消息伪装

本节讨论了一些不将点对点链接子网发布到BGP中的操作方面，如先前在5.2.3节中所述。当使用众所周知的“ traceroute”工具时，可以看到此决定的操作影响。具体来说，该工具显示的IP地址将是链接的点对点地址，因此对于管理连接而言将不可访问。这使某些故障排除更加复杂。

克服此限制的一种方法是使用DNS子系统为这些点对点IP地址创建“反向”条目，这些IP地址指向与回送地址相同的名称。然后可以通过将该名称解析为设备的“主要” IP地址（例如，其回送接口）来建立连接，该地址始终在BGP中发布。但是，这会导致对DNS子系统的依赖，在中断期间可能不可用。

另一种选择是使网络设备伪装IP地址，即用设备的“主要” IP地址重写设备发送的适当ICMP消息的源IP地址。具体来说，ICMP目标不可达消息（类型3）代码3（端口不可达）和ICMP超时（类型11）代码0是“ traceroute”工具正确操作所必需的。通过此修改，发送给设备的“ traceroute”探测将始终以“主” IP地址作为源发送回去，从而使操作员能够发现设备箱的“可访问” IP地址。这具有将“入口点”的地址隐藏到设备中的缺点。如果设备支持[RFC5837]，则即使返回地址是“主要” IP地址，也可以通过提供有关传入接口的信息来兼顾两全其美。

9. 安全性考虑

该设计不引入任何其他安全问题。 [RFC4271]和[RFC4272]中讨论了一般BGP安全注意事项。由于DC是一个单一运营商域，因此本文档假定已进行边缘过滤，以防止从DC外围对BGP会话本身进行攻击。对于大多数部署来说，这可能是一个更可行的选择，而不是必须像[RFC2385]中所述处理TCP MD5的密钥管理，或者解决在本文档发布时缺乏可用的TCP身份验证选项[RFC5925]的实现方式。通用TTL安全机制[RFC5082]也可以用于进一步降低BGP会话欺骗的风险。

10. 参考文献

10.1. 引用参考

   [RFC4271]  Rekhter, Y., Ed., Li, T., Ed., and S. Hares, Ed., "A
              Border Gateway Protocol 4 (BGP-4)", RFC 4271,
              DOI 10.17487/RFC4271, January 2006,
              <http://www.rfc-editor.org/info/rfc4271>.

   [RFC6996]  Mitchell, J., "Autonomous System (AS) Reservation for
              Private Use", BCP 6, RFC 6996, DOI 10.17487/RFC6996, July
              2013, <http://www.rfc-editor.org/info/rfc6996>.

10.2. 信息参考

 [ALFARES2008]
              Al-Fares, M., Loukissas, A., and A. Vahdat, "A Scalable,
              Commodity Data Center Network Architecture",
              DOI 10.1145/1402958.1402967, August 2008,
              <http://dl.acm.org/citation.cfm?id=1402967>.

   [ALLOWASIN]
              Cisco Systems, "Allowas-in Feature in BGP Configuration
              Example", February 2015,
              <http://www.cisco.com/c/en/us/support/docs/ip/
              border-gateway-protocol-bgp/112236-allowas-in-bgp-config-
              example.html>.

   [BGP-PIC]  Bashandy, A., Ed., Filsfils, C., and P. Mohapatra, "BGP
              Prefix Independent Convergence", Work in Progress,
              draft-ietf-rtgwg-bgp-pic-02, August 2016.

   [CLOS1953] Clos, C., "A Study of Non-Blocking Switching Networks",
              The Bell System Technical Journal, Vol. 32(2),
              DOI 10.1002/j.1538-7305.1953.tb01433.x, March 1953.

   [CONDITIONALROUTE]
              Cisco Systems, "Configuring and Verifying the BGP
              Conditional Advertisement Feature", August 2005,
              <http://www.cisco.com/c/en/us/support/docs/ip/
              border-gateway-protocol-bgp/16137-cond-adv.html>.

   [CONS-HASH]
              Wikipedia, "Consistent Hashing", July 2016,
              <https://en.wikipedia.org/w/
              index.php?title=Consistent_hashing&oldid=728825684>.

   [FB4POST]  Farrington, N. and A. Andreyev, "Facebook's Data Center
              Network Architecture", May 2013,
              <http://nathanfarrington.com/papers/facebook-oic13.pdf>.

   [GREENBERG2009]
              Greenberg, A., Hamilton, J., and D. Maltz, "The Cost of a
              Cloud: Research Problems in Data Center Networks",
              DOI 10.1145/1496091.1496103, January 2009,
              <http://dl.acm.org/citation.cfm?id=1496103>.

   [HADOOP]   Apache, "Apache Hadoop", April 2016,
              <https://hadoop.apache.org/>.
[IANA.AS]  IANA, "Autonomous System (AS) Numbers",
              <http://www.iana.org/assignments/as-numbers>.

   [IEEE8021D-1990]
              IEEE, "IEEE Standard for Local and Metropolitan Area
              Networks: Media Access Control (MAC) Bridges", IEEE
              Std 802.1D, DOI 10.1109/IEEESTD.1991.101050, 1991,
              <http://ieeexplore.ieee.org/servlet/opac?punumber=2255>.

   [IEEE8021D-2004]
              IEEE, "IEEE Standard for Local and Metropolitan Area
              Networks: Media Access Control (MAC) Bridges", IEEE
              Std 802.1D, DOI 10.1109/IEEESTD.2004.94569, June 2004,
              <http://ieeexplore.ieee.org/servlet/opac?punumber=9155>.

   [IEEE8021Q]
              IEEE, "IEEE Standard for Local and Metropolitan Area
              Networks: Bridges and Bridged Networks", IEEE Std 802.1Q,
              DOI 10.1109/IEEESTD.2014.6991462,
              <http://ieeexplore.ieee.org/servlet/
              opac?punumber=6991460>.

   [IEEE8023AD]
              IEEE, "Amendment to Carrier Sense Multiple Access With
              Collision Detection (CSMA/CD) Access Method and Physical
              Layer Specifications - Aggregation of Multiple Link
              Segments", IEEE Std 802.3ad,
              DOI 10.1109/IEEESTD.2000.91610, October 2000,
              <http://ieeexplore.ieee.org/servlet/opac?punumber=6867>.

   [INTERCON] Dally, W. and B. Towles, "Principles and Practices of
              Interconnection Networks", ISBN 978-0122007514, January
              2004, <http://dl.acm.org/citation.cfm?id=995703>.

   [JAKMA2008]
              Jakma, P., "BGP Path Hunting", 2008,
              <https://blogs.oracle.com/paulj/entry/bgp_path_hunting>.

   [L3DSR]    Schaumann, J., "L3DSR - Overcoming Layer 2 Limitations of
              Direct Server Return Load Balancing", 2011,
              <https://www.nanog.org/meetings/nanog51/presentations/
              Monday/NANOG51.Talk45.nanog51-Schaumann.pdf>.

   [LINK]     Mohapatra, P. and R. Fernando, "BGP Link Bandwidth
              Extended Community", Work in Progress, draft-ietf-idr-
              link-bandwidth-06, January 2013.
 [REMOVAL]  Mitchell, J., Rao, D., and R. Raszuk, "Private Autonomous
              System (AS) Removal Requirements", Work in Progress,
              draft-mitchell-grow-remove-private-as-04, April 2015.

   [RFC2328]  Moy, J., "OSPF Version 2", STD 54, RFC 2328,
              DOI 10.17487/RFC2328, April 1998,
              <http://www.rfc-editor.org/info/rfc2328>.

   [RFC2385]  Heffernan, A., "Protection of BGP Sessions via the TCP MD5
              Signature Option", RFC 2385, DOI 10.17487/RFC2385, August
              1998, <http://www.rfc-editor.org/info/rfc2385>.

   [RFC2992]  Hopps, C., "Analysis of an Equal-Cost Multi-Path
              Algorithm", RFC 2992, DOI 10.17487/RFC2992, November 2000,
              <http://www.rfc-editor.org/info/rfc2992>.

   [RFC4272]  Murphy, S., "BGP Security Vulnerabilities Analysis",
              RFC 4272, DOI 10.17487/RFC4272, January 2006,
              <http://www.rfc-editor.org/info/rfc4272>.

   [RFC4277]  McPherson, D. and K. Patel, "Experience with the BGP-4
              Protocol", RFC 4277, DOI 10.17487/RFC4277, January 2006,
              <http://www.rfc-editor.org/info/rfc4277>.

   [RFC4786]  Abley, J. and K. Lindqvist, "Operation of Anycast
              Services", BCP 126, RFC 4786, DOI 10.17487/RFC4786,
              December 2006, <http://www.rfc-editor.org/info/rfc4786>.

   [RFC5082]  Gill, V., Heasley, J., Meyer, D., Savola, P., Ed., and C.
              Pignataro, "The Generalized TTL Security Mechanism
              (GTSM)", RFC 5082, DOI 10.17487/RFC5082, October 2007,
              <http://www.rfc-editor.org/info/rfc5082>.

   [RFC5837]  Atlas, A., Ed., Bonica, R., Ed., Pignataro, C., Ed., Shen,
              N., and JR. Rivers, "Extending ICMP for Interface and
              Next-Hop Identification", RFC 5837, DOI 10.17487/RFC5837,
              April 2010, <http://www.rfc-editor.org/info/rfc5837>.

   [RFC5880]  Katz, D. and D. Ward, "Bidirectional Forwarding Detection
              (BFD)", RFC 5880, DOI 10.17487/RFC5880, June 2010,
              <http://www.rfc-editor.org/info/rfc5880>.

   [RFC5925]  Touch, J., Mankin, A., and R. Bonica, "The TCP
              Authentication Option", RFC 5925, DOI 10.17487/RFC5925,
              June 2010, <http://www.rfc-editor.org/info/rfc5925>.



   [RFC6325]  Perlman, R., Eastlake 3rd, D., Dutt, D., Gai, S., and A.
              Ghanwani, "Routing Bridges (RBridges): Base Protocol
              Specification", RFC 6325, DOI 10.17487/RFC6325, July 2011,
              <http://www.rfc-editor.org/info/rfc6325>.

   [RFC6769]  Raszuk, R., Heitz, J., Lo, A., Zhang, L., and X. Xu,
              "Simple Virtual Aggregation (S-VA)", RFC 6769,
              DOI 10.17487/RFC6769, October 2012,
              <http://www.rfc-editor.org/info/rfc6769>.

   [RFC6774]  Raszuk, R., Ed., Fernando, R., Patel, K., McPherson, D.,
              and K. Kumaki, "Distribution of Diverse BGP Paths",
              RFC 6774, DOI 10.17487/RFC6774, November 2012,
              <http://www.rfc-editor.org/info/rfc6774>.

   [RFC6793]  Vohra, Q. and E. Chen, "BGP Support for Four-Octet
              Autonomous System (AS) Number Space", RFC 6793,
              DOI 10.17487/RFC6793, December 2012,
              <http://www.rfc-editor.org/info/rfc6793>.

   [RFC7067]  Dunbar, L., Eastlake 3rd, D., Perlman, R., and I.
              Gashinsky, "Directory Assistance Problem and High-Level
              Design Proposal", RFC 7067, DOI 10.17487/RFC7067, November
              2013, <http://www.rfc-editor.org/info/rfc7067>.

   [RFC7130]  Bhatia, M., Ed., Chen, M., Ed., Boutros, S., Ed.,
              Binderberger, M., Ed., and J. Haas, Ed., "Bidirectional
              Forwarding Detection (BFD) on Link Aggregation Group (LAG)
              Interfaces", RFC 7130, DOI 10.17487/RFC7130, February
              2014, <http://www.rfc-editor.org/info/rfc7130>.

   [RFC7196]  Pelsser, C., Bush, R., Patel, K., Mohapatra, P., and O.
              Maennel, "Making Route Flap Damping Usable", RFC 7196,
              DOI 10.17487/RFC7196, May 2014,
              <http://www.rfc-editor.org/info/rfc7196>.

   [RFC7911]  Walton, D., Retana, A., Chen, E., and J. Scudder,
              "Advertisement of Multiple Paths in BGP", RFC 7911,
              DOI 10.17487/RFC7911, July 2016,
              <http://www.rfc-editor.org/info/rfc7911>.

   [VENDOR-REMOVE-PRIVATE-AS]
              Cisco Systems, "Removing Private Autonomous System Numbers
              in BGP", August 2005,
              <http://www.cisco.com/en/US/tech/tk365/
              technologies_tech_note09186a0080093f27.shtml>.

本文是在看RFC7938《 Use of BGP for Routing in Large-Scale Data Centers》是翻译整理的资料。主要讲述了在大型数据中心使用BGP进行路由。

原文链接：https://tools.ietf.org/rfc/rfc7938.txt

你可能感兴趣的:(数据中心)

数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
阿里云国际 CDN 和低延迟全球云解决方案九河云阿里云网络服务器安全
延迟与隐藏程度成反比。C数据存在，并且连接已建立，但在接收客户端请求响应和显示用户请求的内容时存在明显延迟。将数据从源移动到目标时，会出现即时丢失。延迟是数据发送器和数据接收器之间的时间差。此外，当通过云响应用户查询时，这种延迟会被放大。有多种因素会导致满足用户请求的潜在延迟。想象一下，您在美国数据中心部署了服务，并且您的用户遍布全球。在此拓扑中，来自美国的用户将能够以正常（如果不是很好）的性能使
专访AMD：AMD 正式加入龙蜥社区首秀：开源协作与 AI 创新的交汇点 OpenAnolis小助手开源龙蜥社区操作系统龙蜥操作系统大会 AI
编者按：近日，2024龙蜥操作系统大会已于北京圆满举办。会上，龙蜥社区发布了“AnolisOS23生态衍生计划”、“CentOS替代计划”及“AI应用推广计划”三大计划，从产品、生态及应用维度为AI需求爆发主动布局，打造面向“云+AI”的下一代服务器操作系统。大会另一个重要的信息是今年龙蜥社区又迎来了一个重量级选手——AMD公司，展示其在开源、AI等领域的最新进展和合作成果。AMD公司大型数据中心
工业数据采集网关的作用-天拓四方北京天拓四方边缘计算物联网 iot
工业数据采集网关是一种专门用于采集、处理、传输工业现场数据的设备。它能够实时收集来自各种传感器、仪表和设备的数据，并通过网络将这些数据传输到云端或数据中心。同时，数据采集网关还具备数据清洗、转换和压缩等功能，确保数据的质量和传输效率。随着工业4.0时代的来临，数字化转型已成为工业发展的必然趋势。工业数据采集网关作为连接物理世界与数字世界的桥梁，其在工业数字化转型中发挥着至关重要的作用。本文将详细探
边缘计算在现代数据中心的应用 666IDCaaa 边缘计算人工智能
当今数字化时代，数据中心扮演着至关重要的角色，而边缘计算的出现为现代数据中心带来了新的机遇和挑战。一、边缘计算的概念与特点边缘计算是一种将计算和数据存储靠近数据源或用户的分布式计算模式。与传统的集中式云计算相比，边缘计算具有以下特点：低延迟：由于数据处理在靠近数据源的地方进行，减少了数据传输的距离和时间，从而实现了更低的延迟。这对于实时性要求高的应用，如工业自动化、自动驾驶、虚拟现实等至关重要。高
4G物联网智能电表是什么？什么叫4G物联网智能电表？ HZZD_HZZD 物联网人工智能服务器数据分析大数据数据库
4G物联网智能电表是一种结合了4G无线通信技术的新型电能计量设备，用于实时采集和传输用户的用电数据。它通过集成现代信息技术和电力电子技术，不仅能够精确测量电力消耗，还能实现远程数据传输、数据分析、远程控制等多种功能。本文将详细介绍4G物联网智能电表的主要功能、技术优势及其应用场景。一、定义与功能1.定义4G物联网智能电表是一种能够通过4G网络将电能消耗数据实时传输到电力公司或数据中心的智能计量设备
镜舟科技与西南证券合作，构建极速、高效数据平台镜舟科技 starrocks 镜舟科技大数据数据库大数据数据分析
《金融科技发展规划（2022-2025年）》明确了高质量推进金融数字化转型的总体思路，云计算、人工智能等新兴技术开始被广泛应用，提升金融服务的便捷性，但随着日益增长的数据体量，数据的存储和处理能力日渐。数据的金融机构需要加强数据能力建设、完善数据中心建设，并构建健全的数字安全生态。在金融行业的数字化转型浪潮中，西南证券凭借其深厚的行业经验和前瞻性视野，与镜舟科技一起，构建一个高效、稳定且易于维护的
GaN HEMT：未来功率半导体 David WangYang 硬件工程
硅基金属氧化物自1960年代以来，硅基金属氧化物半导体场效应晶体管（MOSFET）一直是电力电子应用的标准。尽管如此，各种技术的发展（尤其是在汽车和消费电子领域）给寻求以越来越小的外形尺寸提供更高效率和更大功率密度的开发人员带来了新的挑战。从大型数据中心和墙壁插座交流适配器到汽车车载充电站，各种用途的电源都需要高电压，同时尽可能少地占用宝贵的电路板空间。自动驾驶汽车还需要更高效的能量分配，以运行越
ok虚拟化 qq_25467441 网络
核心S12700E汇聚S6730-H接入S5731-H在云数据中心中，虚拟机迁移时必须保持IP地址不变，并确保TCP连接不中断。因此，虚拟机的动态迁移只能在同一二层网络内进行，无法跨越二层网络。这一需求促使数据中心的网络架构发生了重大变革，东西向流量逐渐超过南北向流量，推动了扁平化的大二层网络模型的发展。由于虚拟机迁移依赖二层网络，传统的三层架构（接入层、汇聚层、核心层）逐渐失去其适用性。传统架构
数据传输协议概览：从NFS和iSCSI到SFTP和HTTP Lyle_Tu Linux 云计算运维网络协议服务器运维
在当今的数字化世界中，数据的快速、安全传输比以往任何时候都更为重要。无论是在企业数据中心还是在云环境中，选择合适的数据传输协议对于确保数据完整性、提高性能和保障安全至关重要。本文将探讨几种常用的数据传输协议，包括它们的工作原理、优缺点以及适用场景。NFS和iSCSI：网络存储的基石NFS(NetworkFileSystem)是一种允许网络中的计算机通过TCP/IP网络共享文件资源的协议。NFS的主
速盾：cdn请求次数千万正常吗速盾cdn 网络 web安全分布式
CDN（ContentDeliveryNetwork）是一种用于提高网络内容传输速度和可靠性的网络基础设施。它通过在全球分布多个数据中心的服务器存储网站的静态资源，将用户请求分发到最近的服务器，从而减少数据传输的时间和延迟。但是，对于CDN请求次数达到千万级别，我们需要根据具体情况来评估其是否正常。首先，我们需要考虑的是该CDN请求次数的时间跨度。如果这千万级别的请求是在很短的时间内产生的，例如几
SDN系统方法 | 7. 叶棘网络 DeepNoMind
随着互联网和数据中心流量的爆炸式增长，SDN已经逐步取代静态路由交换设备成为构建网络的主流方式，本系列是免费电子书《Software-DefinedNetworks:ASystemsApproach》的中文版，完整介绍了SDN的概念、原理、架构和实现方式。原文:Software-DefinedNetworks:ASystemsApproach第7章叶棘网络(Leaf-SpineFabric)本章介
020 现代数据中心的路由与交换架构 Network_Engineer RS 网络网络安全计算机网络网络协议网络安全
引言现代数据中心的设计必须兼顾高性能、高可用性和灵活性，以满足云计算、大数据、人工智能等应用的需求。在这样的背景下，数据中心的路由与交换架构设计显得尤为重要。Spine-Leaf架构、BGP路由优化以及高密度虚拟化环境中的交换技术，成为了现代数据中心的关键组成部分。本篇博文将探讨这些技术的实际应用，并提供华为设备的配置示例。1.Spine-Leaf架构的设计与实施Spine-Leaf架构是一种扁平
就服务器而言，ARM架构与X86架构有什么区别？各自的优势在哪里？问就是想睡觉服务器 arm开发架构
一、服务器架构概述在数字化时代，服务器架构至关重要。服务器是网络核心节点，存储、处理和提供数据与服务，是企业和组织信息化、数字化的关键基础设施。ARM和x86架构为服务器领域两大主要架构，x86架构服务器在市场占主导，有强大处理能力和广泛软件兼容性，广泛用于企业数据中心。ARM架构服务器近年崛起，凭借低功耗、高效能优势在云计算和微服务领域及嵌入式系统和物联网设备中有广泛应用。总之，两种架构各有优势
系统、平台、数据中心的个人理解橘子的战斗日记项目管理运维
系统系统就是人们日常使用的软件，无论是客户端的还是网页端的。只要能帮我们完成日常工作都可以定义为系统。平台平台和系统的不同在于两点：1、平台是多个系统的组成，系统只能做一件事情，而平台可以做很多件事情。2、系统只关心自己的数据，平台可以把各个系统里面的数据进行调度。或者是共享、或者是关联、或者是限制查看。当然系统和平台是根据人们观察的视角不同而不同的，并不是字面叫系统就是系统，字面叫平台就是平台。
美国服务器托管机房如何选择？恒创科技HK
美国作为全球互联网中心的发源地，网络技术能力不可被低估。通常情况下，美国服务器机房从设计布局到安全可靠的一套系统(防火、防震、温湿度、电源供电量)等都有专业严格的标准，管理完善，能为服务器托管提供一个安全可靠的数据中心。什么是美国服务器托管?一般指根据网站业务需求或发展需要仔细配置服务器硬件设备，然后将服务器设备托管到美国机房进行管理，托管服务商提供资源和支持。众所周知，美国服务器无需备案、ip带
如何搭建自己的知识体系？ lindake 数据库
随着学业增长，发现自己曾经完成过很多很棒的作品，但是都只是分门别类躺在了移动硬盘里，现在想搭建一个属于自己的数据中心，但是无从下手。目前对于数据库的基本构想是：1、可以多平台多设备浏览使用，上传云端，但不会像某项商业网盘那样，因为些敏感词之类的导致数据丢失。（我自己搭建了群晖系统）2、每份数据可以加上多个tag，比方说#课程名称#授课老师#课程类型等。只要我搜索某个tag，例如，某个老师的名字，我
ipv4v6双栈技术_【第二十六期】IPv6系列应用篇——数据中心IPv4/IPv6双栈架构探讨... weixin_39598308 ipv4v6双栈技术
背景2017年，工业和信息化部发布了《推进互联网协议第六版(IPv6)规模部署行动计划》的通知，从国家层面推动下一代IP技术——IPv6的普及和应用。目标到2020年末，IPv6活跃用户数超过5亿，在互联网用户中的占比超过50%，新增网络地址不再使用私有IPv4地址。这就要求从互联网应用、网络基础设施、应用基础设施和网络安全等各个维度推动IPv6的改造和建设。互联网业务的IPv6改造不会一蹴而就，
【DevOps】SD-WAN 详解：定义、架构、优势与应用 Coder加油! 运维 DevOps devops 架构运维 sdwan
目录一、传统WAN的局限性二、SD-WAN的解决方案三、SD-WAN的架构四、SD-WAN的关键特点五、SD-WAN的优势六、SD-WAN的应用场景七、总结SD-WAN(Software-DefinedWideAreaNetwork)是一种利用软件定义网络(SDN)技术来简化分支机构与数据中心或云端之间连接的网络架构。它通过集中控制和自动化，优化网络流量路径，提高网络性能和灵活性，并降低运营成本。
Pyecharts在数据可视化大屏中的应用与实践我的运维人生信息可视化运维开发技术共享
Pyecharts在数据可视化大屏中的应用与实践在数据驱动决策的时代，数据可视化作为连接数据与洞察的桥梁，其重要性不言而喻。而数据大屏，作为数据可视化的高级形态，以其直观、动态、交互性强的特点，广泛应用于企业监控中心、指挥中心、数据中心等场景，成为展示关键业务指标、实时监控数据变化的重要工具。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、易于上手的API设计
什么是多机房(站点)动力环境监控系统？@卓振思众卓振思众机房动环监控动环监控系统机房环控物联网
随着信息技术的飞速发展，数据中心作为支撑现代数字经济的关键基础设施，其稳定运行对于企业的业务连续性至关重要。【卓振思众】多机房动力环境监控系统应运而生，成为保障多个数据中心或站点电力供应和环境条件的重要利器。这一系统不仅仅是设备和传感器的简单堆砌，更是技术和管理的完美融合，旨在实现全面、精确的监控与管理，从而确保数据中心运行的安全性、效率性和可持续性。实时电力供应监控多机房动力环境监控系统首要功能
广播电视台机房动环监控广电行业机房动力环境监控系统@卓振思众卓振思众机房动环监控动环监控系统机房环控物联网
广电行业的机房动力环境监控系统主要用于管理和维护广播电视台机房的环境和设备状态，以确保广播和电视节目播放的稳定性和连续性。【卓振思众】机房动环监控系统在广播电视台的数据中心或机房中扮演着至关重要的角色。以下是广电行业机房动力环境监控系统的主要功能和组成部分：1.动环监控功能【卓振思众】电力监控：监测电力供应的状态，包括电压、电流、频率等。监控备用电源（如UPS和发电机）的运行情况，确保在电力中断时
关于日志数据管理 Aichris
熟悉数据中心运维的人都知道，日志数据是记录IT系统操作行为的重要数据，所有的硬件设备与软件执行的所有指令都会通过日志保留下来。企业针对日志数据的管理，目前的情况是怎么样的呢？1、缺少日志管理能力。绝大多数企业对分散的海量日志数据几乎没有管理，不仅没有发挥作用，反而占用了存储空间。2、一家企业是否能够真正做到智能运维，体现出了这家企业的IT服务水平。人工智能AI为什么这么火爆，就是因为AI能够大大的
OSPF与BGP深层次详细对比冯富江的技术博客网络技术网络 ospf BGP HCIE 路由交换
目录TCPIP模型层次：以太网邻居建立方式：路由承载数量：路由协议类型：路由类型、生成和计算：路由收敛与故障域：路由的操控能力：路由优选机制：防环机制：协议的可扩展性：常见应用场景总结：TCPIP模型层次：OSPF网络层BGP应用层以太网邻居建立方式：OSPF：组播（协议号89）BGP：TCP单播（端口号179）路由承载数量：OSPF：1w，路由承载能力强，常见于大规模网络（骨干网和数据中心）路由
英伟达A100算力卡性能及应用算力资源比较多算力英伟达大模型人工智能 gpu算力语言模型大数据推荐算法
英伟达A100是一款高性能计算卡，基于英伟达Ampere架构，专为数据中心和高性能计算领域设计。以下是关于A100的性能参数及应用的详细介绍：性能参数架构与制程：架构：Ampere制程：7纳米核心与频率：CUDA核心数：6912个Tensor核心数：432个Boost时钟频率：1.41GHz性能：FP32性能：19.5TFLOPSFP64性能：9.7TFLOPSTensor性能：624.6TFLO
Xline v0.2.0: 一个用于元数据管理的分布式KV存储达坦科技DatenLord Xline 分布式 rust KV存储元数据管理 DatenLord达坦科技
Xline是什么？我们为什么要做Xline？Xline是一个基于Curp协议的，用于管理元数据的分布式KV存储。现有的分布式KV存储大多采用Raft共识协议，需要两次RTT才能完成一次请求。当部署在单个数据中心时，节点之间的延迟较低，因此不会对性能产生大的影响。但是，当跨数据中心部署时，节点之间的延迟可能是几十或几百毫秒，此时Raft协议将成为性能瓶颈。Curp协议就是为了解决这个问题而设计的。它
海外云主机访问速度慢怎么办，如何进行优化？华纳云IDC服务商服务器
海外云主机访问速度慢可能是由多种因素造成的，包括网络延迟、带宽限制、服务器配置等。以下是一些提升海外云主机访问速度的方法：1.选择合适的服务器位置：选择离您目标用户群体较近的数据中心，以减少数据传输的距离和时间。2.使用内容分发网络(CDN)：通过CDN可以将您的内容缓存到全球多个节点，用户可以从最近的节点获取内容，从而加快访问速度。3.优化网络连接：确保您的网络连接稳定且带宽足够，升级网络服务提
《信息技术云计算边缘云通用技术要求》国家标准发布，九州未来参编 OpenInfra 边缘云云计算
日前，2024年第17号国家标准公告发布，由全国信标委云计算标准工作组组织制定、九州未来作为行业专家单位参编的《信息技术云计算边缘云通用技术要求》国家标准正式获批发布。边缘云作为云计算技术的有效补充和拓展，能够实现将云计算能力拓展至终端边缘侧，并通过云边端统一管控实现云计算服务下沉，以提供端到端的云服务，对推动发展工业互联网平台、数据中心、5G等一批国家重要战略起到重要作用和意义。此次发布的《信息
何如辨别高防服务器是否是真实防御 qq_2354861503 服务器安全防护服务器类别服务器网络运维
1、看机房的带宽大小大部分网络攻击采用的是带宽消耗型攻击，所以机房需要提供足够大的带宽以应对带宽消耗型网络攻击，因此用户可根据机房所提供的带宽大小来判断优劣之分。蓝队云拥有电信、联通、移动三大机房，其中电信机房是云南唯一的国家级标准钻石四星级机房，提供7*24小时不间断机房服务。2、看机房防火墙的防御能力一般来说，提供高防服务器的数据中心都会配备防火墙设备，一般设备至少要在100G以上。用户需要了
新加坡裸机云多IP服务器特性 rak部落 tcp/ip 服务器网络协议
随着云计算技术的发展，越来越多的企业开始寻求更加灵活、高性能且安全可靠的计算资源来支撑其业务发展。裸机云(BareMetalCloud)作为一种新兴的服务模式，融合了传统物理服务器的高性能与云计算的灵活性，受到了广泛关注。新加坡作为亚洲重要的数据中心枢纽之一，其裸机云多IP服务器更是备受青睐。本文将重点介绍新加坡裸机云多IP服务器的主要特性及其优势。什么是裸机云?裸机云是指用户可以在专用的物理服务
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl