MasterT-J

一周一论文（翻译）——[SIGMOD 2015] Congestion Control for Large-Scale RDMA

本文主要解决的问题是在RoCEv2体系中，基于优先级的拥塞控制PFC是一种粗粒度的机制。它在端口（或端口加优先级）级别上运行，并且不区分流。PAUSE机制是基于每个端口（和优先级）的，而不是基于每个流的。这将导致Unfairness和Victim flow等问题。为了解决这个问题，作者提出了DCQCN机制，DCQCN提供快速收敛以达到公平性，实现高链路利用率，确保低队列建立和低队列振荡。并且为了优化DCQCN性能，我们建立了一个流体模型，并提供了调整开关缓冲区阈值和其他协议参数的指南。

Abstract

现代数据中心应用要求网络具有高吞吐量（40Gbps）和超低延迟（每跳<10 µs），且CPU开销较低。标准的TCP / IP堆栈不能满足这些要求，但是可以使用远程直接内存访问（RDMA）。 在IP路由的数据中心网络上，RDMA使用RoCEv2协议进行部署，该协议依赖于基于优先级的流控制（PFC）来实现无损网络。 但是，由于行首阻塞和不公平之类的问题，PFC可能导致较差的应用程序性能。 为了缓解这些问题，我们引入了DCQCN，它是RoCEv2的端到端拥塞控制方案。 为了优化DCQCN性能，我们建立了一个流体模型，并提供了调整开关缓冲区阈值和其他协议参数的指南。 通过使用3层Clos网络测试平台，我们证明DCQCN极大地提高了RoCEv2 RDMA流量的吞吐量和公平性。 DCQCN已在Mellanox NIC中实现，并已部署在Microsoft的数据中心中。

1. Introduction

诸如云存储[16]之类的数据中心应用需要高带宽（40Gbps或更高）才能满足不断增长的客户需求。传统的TCP / IP堆栈不能以这种速度使用，因为它们具有非常高的CPU开销[29]。云服务业务的残酷经济学表明，应将无法货币化的CPU使用率降到最低：用于支持高TCP吞吐量的核心是不能作为VM出售的核心。其他应用程序，例如分布式内存缓存[10、30]和大规模机器学习，都要求超低延迟（每跳小于10 µs）的消息传输。传统的TCP / IP堆栈具有更高的延迟[10]。

我们正在Microsoft的数据中心中部署远程直接内存访问（RDMA）技术，以提供超低延迟和高吞吐量的应用程序，而CPU开销却非常低。使用RDMA，网络接口卡（NIC）可以在两个终端主机上的预注册内存缓冲区中进出数据。网络协议完全在NIC上实现，绕过主机网络堆栈。 Kernel-by-pass大大降低了CPU开销和整体延迟。为了简化设计和实现，该协议采用了无损网络结构。

尽管HPC社区在特殊用途的集群中长期使用RDMA [11、24、26、32、38]，但在现代的IP路由数据中心网络中大规模部署RDMA却带来了许多挑战。一个关键的挑战是需要一种拥塞控制协议，该协议可以在高速，无损环境中高效运行，并且可以在NIC上实现。

为此，我们已经开发了一种称为数据中心QCN（DCQCN）的协议。 DCQCN建立在RoCEv2标准中定义的拥塞控制组件的基础上。 DCQCN在Mellanox NIC中实现，目前正在Microsoft的数据中心中部署。

要了解DCQCN的需求，有必要指出，从历史上看，RDMA是使用InfiniBand（IB）[19，21]技术进行部署的。 IB使用定制的网络堆栈和专用硬件。 IB链路层（L2）使用基于hop-by-hop流量控制来防止由于缓冲区溢出而导致数据包丢失。无损链路层L2使IB传输协议（L4）变得简单而高效。大部分IB协议栈都在NIC上实现。 IB通过所谓的单边操作支持RDMA，其中服务器在其NIC上注册一个内存缓冲区MR，客户端从该NIC读取（写入），而无需服务器CPU的进一步参与。

但是，IB网络堆栈无法轻松地部署在现代数据中心中。 现代数据中心采用IP和以太网技术构建，而IB堆栈与此不兼容。 DC运营商不愿在同一数据中心内部署和管理两个独立的网络。 因此，为了启用基于以太网和IP网络的RDMA，已经定义了基于聚合以太网（RoCE）[20]的RDMA标准及其后继产品RoCEv2 [22]。 RoCEv2保留IB传输层，但用IP和UDP封装代替IB网络层（L3），并用以太网代替IB L2。 IP标头用于路由，而UDP标头用于ECMP [15]。

为了实现高效运行，例如IB，RoCEv2也必须部署在无损链路层L2上。为此，使用基于优先级的流量控制（PFC）来部署RoCE [18]。 PFC允许以太网交换机通过强制级联的上游实体（另一台交换机或主机NIC）暂停数据传输来避免缓冲区溢出。 但是，PFC是一种粗粒度的机制。 它在端口（或端口加优先级）级别上运行，并且不区分流。 这可能导致拥塞扩散，从而导致性能不佳[1，37]。（基于优先级的流量控制存在的问题）

PFC局限性的基本解决方案是flow-level级别的拥塞控制协议。 在我们的环境中，该协议必须满足以下要求：（i）通过无损链路层，L3路由的数据中心网络进行的功能；（ii）在最终主机上产生较低的CPU开销；以及（iii）在公共端提供超快速启动没有拥塞的情况。当前用于DC网络中拥塞控制的建议不能满足我们的所有要求。 例如，QCN [17]不支持L3网络。 DCTCP [2]和iWarp [35]包含一个缓慢的启动阶段，这可能会导致突发存储工作负载的性能下降。 DCTCP和TCP-Bolt [37]是用软件实现的，并且可能具有很高的CPU开销。

由于当前的提议都不能满足我们的所有要求，因此我们设计了DCQCN。 DCQCN是RoCEv2的端到端拥塞控制协议，用于在大型IP路由数据中心网络中部署RDMA。 DCQCN仅需要数据中心交换机支持标准的RED [13]和ECN [34]。 协议的其余功能在最终主机NIC上实现。 DCQCN提供快速收敛以达到公平性，实现高链路利用率，确保低队列建立和低队列振荡。

本文的结构如下。在§2中，我们提供证据来证明需要DCQCN。第3节介绍了DCQCN的详细设计，并简要介绍了硬件实现。在§4中，我们展示了如何设置PFC和ECN缓冲器阈值以确保DCQCN的正确运行。在§5中，我们描述了DCQCN的流体模型，并用它来调整协议参数。在§6中，我们使用3层测试平台和来自数据中心的跟踪来评估DCQCN的性能。我们的评估表明，DCQCN大大提高了RoCEv2 RDMA流量的吞吐量和公平性。在某些情况下，它使我们可以处理多达16倍的用户流量。最后，在§7中，我们讨论了诸如非拥塞包丢失之类的实际问题。

2. THE NEED FOR DCQCN

为了证明对DCQCN的合理性，我们将证明TCP堆栈不能以低CPU开销和超低延迟提供高带宽，而RoCEv2上的RDMA可以提供。接下来，我们将证明PFC会损害RoCEv2的性能。最后，我们将争辩说，现有的解决PFC疾病的解决方案不适合我们的需求。

2.1 Conventional TCP stacks perform poorly

现在，我们比较RoCEv2和传统TCP堆栈的吞吐量，CPU开销和延迟。这些实验使用通过40Gbps交换机连接的两台机器（Intel Xeon E5-2660 2.2GHz，16核，128GB RAM，40Gbps NIC，Windows Server 2012R2）。

Throughput and CPU utilization：为了测量TCP吞吐量，我们使用针对环境定制的Iperf [46]。具体来说，我们启用LSO [47]，RSS [49]和zero-copy操作，并使用16个线程。为了测量RDMA吞吐量，我们使用了一个自定义工具，该工具使用IB READ操作来传输数据。使用RDMA，单个线程会使链接饱和。

图1（a）显示TCP具有很高的CPU开销。 例如，消息大小为4MB，以驱动全部吞吐量，TCP在所有内核上平均消耗20％以上的CPU周期。 在较小的消息大小下，由于CPU成为瓶颈，TCP无法使连接传输饱和。 马里诺斯（Marinos）等人 [29]曾报道Linux和FreeBSD的TCP性能同样差。他们甚至建议的用户级堆栈也会消耗20％以上的CPU周期。相反，即使对于较小的消息大小，RDMA客户端的CPU利用率也低于3％。正如预期的那样，RDMA服务器几乎不占用CPU周期。

Latency：延迟是小规模数据传输的关键指标。现在，我们比较使用TCP和RDMA传输2K消息的平均用户级别延迟。为了最大程度地减少TCP延迟，已预先建立并预热了连接，并禁用了Nagle。使用高分辨率计时器（≤1 µs）测量延迟[48]。网络上没有其他流量。

图1（c）显示TCP延迟（25.4 µs）明显高于RDMA（读/写为1.7 µs，发送为2.8 µs）。在Windows的[10]和Linux [27]中报告了类似的TCP延迟。

2.2 PFC has limitations

RoCEv2需要PFC才能启用无损以太网结构。 PFC可以防止以太网交换机和NIC上的缓冲区溢出。 交换机和NIC跟踪入口队列。 当队列超过特定阈值时，将PAUSE消息发送到上游实体。 然后，上游链路实体停止在该链路上发送，直到获得RESUME消息为止。 PFC最多指定八个优先级类别。暂停/恢复消息指定了它们适用的优先级。

问题在于，PAUSE机制是基于每个端口（和优先级）的，而不是基于每个流的。 这可能导致行头阻塞问题； 导致个别流的效果不佳。现在，我们使用代表现代数据中心网络的3层测试平台（图2）来说明问题。

Unfairness:：考虑图3（a）。四个发送方（H1-H4）使用RDMA WRITE操作将数据发送到单个接收器（R）。所有发送者都使用相同的优先级。理想情况下，四个发送方应平均共享瓶颈链接（T4至R）。但是，对于PFC，存在不公平。当队列开始在T4上建立时，它将暂停传入的链接（端口P2-P4）。 但是，P2仅承载一个流（来自H4），而P3和P4可能承载多个流，这是因为H1，H2和H3必须共享这两个端口，具体取决于ECMP如何映射这些流。 因此，H4比H1-H3获得更高的吞吐量。 这被称为parking lot problem问题[14]。

如图3（b）所示，该图显示了H1-H4在1000次4MB数据传输中测得的最小，中值和最大吞吐量。 H4的吞吐量高达20Gbps，例如当ECMP将所有H1-H3映射到P3或P4时。 H4的最小吞吐量高于H1-H3的最大吞吐量。

Victim flow：由于PAUSE帧可能具有级联效果，因此流甚至可能不在其路径上被拥塞所伤害。考虑图4（a）。四个发送器（H11-H14）将数据发送到R。此外，我们有一个“受害者流”-VS发送到VR。图4（b）显示了受害流的中值吞吐量（每个250MB的250个传输）。

如果在T3下没有发送方，则在中间值情况下（H11-H14中的两个映射到T1-L1，其他映射到T1-L2。每个H11-H14获得10Gbps的吞吐量。VS映射到T1的一个上行链路），一个可能期望VS获得20Gbps的吞吐量。但是，我们看到它只能得到10Gbps。这是由于级联的“暂停”。由于T4是H11-H14传播的瓶颈，因此最终会暂停其传入的连接。这进而导致L3和L4暂停其传入的链接，依此类推。最终，L1和L2最终暂停了T1的上行链路，并且T1被迫暂停发送者。使用这些上行链路的T1上的数据流同样受到这些暂停的影响，而不论它们的目的地是什么–这也被称为“head-of-the-line blocking”问题。

当我们启动发送器H31和H32并将其发送到R时，问题变得更加严重。我们看到，尽管从H31和H32到R的路径没有任何共同的链接，但中值吞吐量进一步从10Gbps下降到4.5Gbps。发生这种情况是因为H31和H32在L3和L4上与H11-H14竞争，使它们的暂停S1和S2更长，最终使T1暂停发送者更长。

Summary：这些实验表明，由于PFC的拥塞扩散特性，RoCEv2部署中的流量可能会看到较低的吞吐量和/或较高的可变性。

2.3 Existing proposals are inadequate

许多提案试图解决PFC的局限性。一些人认为，ECMP可以通过在多个链路上分散流量来缓解此问题。上一节中的实验表明，情况并非总是如此。 PFC标准本身包含优先级概念，以解决最前端的阻塞问题。但是，该标准仅支持8个优先级类别，并且通过扩展拓扑并添加更多发件方，可以使上述两种情况都变得更糟。此外，同一类别内的流量仍将受到PFC的限制。

PFC问题的根本解决方案是使用流量级别flow-level的拥塞控制。如果对每个流应用适当的拥塞控制，则很少触发PFC，因此可以避免本节前面所述的问题。

为此，定义了量化拥塞通知（QCN）[17]标准。 QCN启用L2域内的流级别拥塞控制。 使用源/目标MAC地址和流ID字段定义流。 交换机在每个数据包到达时计算拥塞度量。 它的值取决于瞬时队列大小和所需均衡队列大小之间的差异，以及其他因素。 然后，交换机可能（概率取决于拥塞的严重程度）将拥塞度量的量化值作为反馈发送到到达数据包的源。 源响应于拥塞反馈而降低其发送速率。 由于在没有拥塞的情况下不会发送任何反馈，因此发送方使用内部计时器和计数器来提高其发送速率。

QCN不能用于IP路由网络中，因为流的定义完全基于L2地址。在IP路由网络中，当数据包通过网络传输时，原始的以太网报头不会保留。因此，拥塞的交换机无法确定向其发送拥塞反馈的目标。

我们考虑将QCN协议扩展到IP路由网络。但是，这并非易事。至少要将QCN扩展到IP路由网络，需要使用IP五元组作为流标识符，并在拥塞通知数据包中添加IP和UDP标头，以使其能够到达正确的目的地。 要实现这一点，需要对NIC和交换机进行硬件更改。 由于QCN功能已深深集成到ASIC中，因此对开关进行更改尤其成问题。 ASIC供应商实施，验证和发布新的交换ASIC通常需要数月甚至数年的时间。因此，更新芯片设计不是我们的选择。

在§8中，我们将讨论为什么其他提议（例如TCP-Bolt [37]和iWarp [35]）不能满足我们的需求。由于现有建议不足，出于我们的目的，我们提出DCQCN。

3. THE DCQCN ALGORITHM

DCQCN是基于速率的端到端拥塞协议，它基于QCN [17]和DCTCP [2]。大多数DCQCN功能都在NIC中实现。

如前所述，我们对DCQCN有三个核心要求：（i）在无损，L3路由，数据中心网络上运行的能力，（ii）低CPU开销，以及（iii）在没有拥塞的常见情况下超快速启动 。 此外，我们还希望DCQCN为公平的带宽分配提供快速收敛，避免在稳定点附近发生振荡，保持较短的队列长度，并确保较高的链路利用率。

还有一些实际问题：我们不能要求交换机提供任何自定义功能，并且由于该协议是在NIC中实现的，因此我们必须注意实现的开销和复杂性。

DCQCN算法由发送方（反应点（RP）），交换机（拥塞点（CP））和接收方（通知点（NP））组成。

3.1 ALGORITHM

不改交换机，在NIC上实现，考虑CPU开销。在性能方面上，要求公平带宽分配的快速收敛，避免震荡，维持短队长，确保高链路利用率。

CP算法（Congestion Point）：在交换机上。与DCTCP机制相同，利用RED功能依据队列长度按照概率分布给数据包打上ECN标签。本方案中改进了DCTCP的参数设置模型。

NP算法（Notification Point）：在接收端。决定了在收到ECN包后什么时间和怎样构造CNP（congestion notification packet）的问题。在某一时间周期内，最多只发送一个CNP包。N=50us。

RP算法（Reaction Point）：在发送端。当收到CNP包时，怎么调节速率。当收到CNP包后，依照equation 1 调节；在连续K时间内，未收到CNP包，根据当前计时器（每T个时间单元为1，保证快恢复）和计数器（每B个字节为1）的值，按照equation 2 快速增加速率。

4. BUFFER SETTINGS

需求：PFC的触发要晚于ECN，早于缓存溢出，避免丢包和吞吐量下降

讨论的前提：交换机为共享缓存模式，有32个全双工的40Gbps端口，12MB的共享内存，支持PFC的8条优先级队列

Tflight：用于存储PAUSE包发送时和生效时到达的数据包的内存大小。根据BDP，每个端口，每个优先级所需要的内存空间为22.4KB。

Tpfc：可理解为触发PFC的ingress 队列中可以占用的最大内存区域。每个端口的每个优先级队列的Tpfc值要小于等于24.47KB。而触发PFC的条件一定要比它小。当队列内存占用降低到Tpfc减去两个MTU的值时，会自动发送RESUME信号，恢复发包。

Tecn：触发ECN标记的最小egress queue占用的内存空间。该值的设置一定要使ECN先于PFC触发。最坏情况下，所有的egress queue的包都来自于同一条ingress queue，为保证ecn先于pfc触发，则Tecn应小于0.85KB，小于一个MTU长度，不可行。这种想法过于静态，由于交换机内缓存资源是共享的，所以Tpfc的设置应取决于剩余的可用资源。如下公式：

4. ANALYSIS OF DCQCN

建立了当前速率，目标速率，速率增长步长，速率调节参数α，等一系列参数。

实验结果：搭建实验床验证流模型和参数设置的有效性

DCQCN是基于速率调整的拥塞控制方案，DCTCP、iWarp和TCP-Bolt都是基于窗口的拥塞控制算法。

下一步研究方向：将机器学习应用到DCQCN算法中调节参数设置

RDMA通信协议中rdma_resolve_addr函数的实现与应用 109702008 #C语言编程网络人工智能网络 linux
在RDMA（远程直接内存访问）通信中，rdma_resolve_addr函数是一个关键的API，用于将目标IP地址解析为RDMA地址，从而建立RDMA连接。在InfiniBand源码包中，mlnx-ofed-kernel_4.9.orig.tar.gz和librdmacm_41mlnx1.orig.tar.gz都提供了rdma_resolve_addr函数，但它们的实现代码不同，且服务于不同的层次
【以太网RDMA网卡（DPU）技术--背景】中古传奇 IC每日一题 IC RDMA DPU
以太网RDMA网卡（DPU）技术--背景1背景1.1RDMA通信原语1.2RDMA_writedemo【博客首发于微信公众号《漫谈芯片与编程》，欢迎专注一下，多谢大家】RDMA（RemoteDirectMemoryAccess）技术主要采用zerocopy、bypasskernel&&cpuoffload思想，来高带宽、低延迟地读写远程主机内存数据；现在以太网的传输速率已经突破400Gbps，甚至
技术干货：如何选择最适合自己的RDMA网卡深圳联瑞电子LRLINK 网络
近些年来，RDMA网卡的技术应用在全球以太网通讯市场上刮起一股旋风，特别是阿里、腾讯、浪潮、超微、联想等一些互联网巨头企业在服务器上大量部署RDMA网卡。2019年，据官方数据报道，天猫双11当天成交额达到2684亿元，订单创新峰值达到54.4万笔/秒，单日数据处理量达到970PB，这个惊为天人的数值出现，再一次将RDMA网卡的应用推上话题的顶峰。但是很多用户表示，看着这数据很牛逼，但是RDMA网
【以太网RDMA网卡功能分析和网卡架构】中古传奇 IC每日一题 RDMA 架构
2以太网RDMA网卡功能分析和网卡架构【博客首发于微信公众号《漫谈芯片与编程》，欢迎专注一下，多谢大家】标准以太网卡只具备物理层串并转换、数据链路层以太网帧头封装和解析、DMA等功能，无法支持RDMA的通信原语和传输方式等，因此需要专用的以太网RDMA网卡在兼容标准以太网卡功能的基础上增加对RDMA功能的支持；对于RDMA通信原语，如应用程序下发的WRITE请求，网卡需要DMA从用户空间中取出要写
数据库管理-第303期数据库相关硬件文章汇总（20250319）胖头鱼的鱼缸（尹海文）数据库数据库
数据库管理303期2025-03-19数据库管理-第303期数据库相关硬件文章汇总（20250319）1CPU&内存2SSD3RDMA4存储5CXL6硬件采购7数据库一体机总结数据库管理-第303期数据库相关硬件文章汇总（20250319）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19
程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析 AI创享派后端
一、DeepSeek技术新突破：程序员必须掌握的MoE架构实战2025年2月25日，DeepSeek开源了专为MoE模型设计的DeepEP通信库，这项技术革新直接影响了分布式训练和推理效率。该库支持FP8精度与NVLink/RDMA技术，吞吐量提升3倍以上，特别适合处理千亿级参数的分布式任务。对于后端工程师而言，DeepEP的以下特性值得关注：计算-通信重叠机制：通过回调函数实现GPU资源动态分配
【弹性计算】弹性裸金属服务器和神龙虚拟化（二）：适用场景 G皮T #云计算弹性计算云计算云服务器阿里云裸金属服务器弹性裸金属服务器虚拟化
弹性裸金属服务器和神龙虚拟化（二）：适用场景1.混合云和第三方虚拟化软件部署2.高隔离容器部署3.高质量计算服务4.高速低时延RDMA网络支持场景5.RISCCPU支持6.GPU性能无损输出公共云服务提供商推出弹性裸金属服务器，很显然是作为虚拟机云服务器的有效补充，而不是和自家虚拟机云服务器形成竞争关系。那么弹性裸金属服务器适合哪些场景呢？1.混合云和第三方虚拟化软件部署伴随着公共云的高速发展，通
实现一个 RDMA 用户态驱动程序
写在前面随着DeepSeek的火爆，当众人将目光集中到模型优化时，底层网络通信基础设施的重要性往往容易被忽略。实际上，高性能、易维护、易定制的网络基础设施对于提升AI训练、推理的效率是至关重要的一环。目前，主流的高性能网络通信方案基本被几家头部公司垄断，其提供的标准API接口也已经被精心封装，绝大多数开发者无需关心底层实现细节。达坦科技始终致力于国产高性能网络基础设施解决方案的研发，深知网络通信基
DeepSeek开源周第二弹：DeepEP如何用RDMA+FP8让MoE模型飞起来？曦紫沐大模型 deepseek
一、引言：MoE模型的通信瓶颈与DeepEP的诞生在混合专家（MoE）模型训练中，专家间的全对全（All-to-All）通信成为性能瓶颈。传统方案在跨节点传输时带宽利用率不足50%，延迟高达300μs以上。DeepSeek推出的DeepEP作为首个开源EP通信库，通过软硬件协同优化，将节点内通信带宽压榨至158GB/s（接近NVLink极限），跨节点RDMA延迟降至46GB/s，成为大模型训练/推
DeepSeek开源周合集 Vip.Gong 人工智能 transformer chatgpt 文心一言 python scikit-learn 深度学习
周一：FlashMLA，核心成就：GPU带宽利用接近理论极限，算力利用效率翻倍；周二：DeepEP，一个高效的MOE架构专家并行通信库：支持高效且优化后的全对全通信使用NVlink和RDMA进行节点内和节点间通信用于训练和推理填充的高吞吐量内核用于推理解码的低延迟内核原生支持FP8操作实现灵活的GPU资源控制，实现计算与通信重叠周三：DeepGEMM，一个通用的GEMM广义矩阵乘法库，支持FP8精
RDMA原理完颜振江网络服务器运维 RDMA
RDMA（远程直接内存访问）技术通过绕过操作系统内核和CPU干预，实现高效的低延迟数据传输。以下是对其原理的系统性解析：1.核心原理零拷贝（Zero-copy）：数据直接在应用内存与网卡间传输，无需内核缓冲区的复制。内核旁路（KernelBypass）：应用程序通过用户态驱动直接操作网卡，减少上下文切换开销。CPU卸载（CPUOffload）：数据传输由支持RDMA的智能网卡（RNIC）处理，释放
Linux下RDMA驱动程序探索系列-2 硬件硬件加速
本系列文章将带领读者逐步了解Linux操作系统下的RDMA子系统。本篇文章作为系列的第二篇，将深入内核态驱动程序的代码，主要介绍如下内容：Driver的初始化流程几个重要verbs回调函数的简介01、KernelDriver的初始化流程由于不同厂商的驱动程序千差万别，在此不以具体厂商的驱动程序进行介绍，而是以Kernel中核心的API调用为锚点进行介绍。读者在阅读完本篇文章后，可以在自己感兴趣的厂
DeepSeek的架构设计程序猿000001号 DeepSeek 架构设计
DeepSeek的架构设计一、基础架构层1.超大规模算力集群跨地域异构计算:南京/临港等多地超算中心构建混合集群，10万+GPU卡规模（含H100/A100等），通过自研RDMA网络实现μs级延迟能效优化:采用液冷+余热回收技术，PUE<1.1，算力密度达50kW/机柜故障自愈:基于强化学习的节点健康预测系统，实现硬件故障30秒内隔离2.数据工场体系多模态处理管道:文本：20PB语料库，支持164
RDMA ibverbs_API功能说明小湿哥 Network 学习笔记 RDMA ibverbs
设备管理获取当前活动网卡返回当前rdma设备列表structibv_device**ibv_get_device_list(int*num_devices);//使用structibv_device**dev_list=ibv_get_device_list(NULL);获取网卡名返回网卡名字字符串：如"mlx5_0"，一般通过网卡名字确定将要使用的网卡constchar*ibv_get_devi
GPU通信革命：跨平面网络效率提升300%的秘密武器 CodePatentMaster 人工智能深度学习机器学习自然语言处理微服务服务器 AIGC
「无需CPU中转，多平面网络RDMA通信时延降低50%」——Deepseek专利CN118612157A一、技术解析：突破AI算力瓶颈的底层创新1.技术背景：终结多平面网络CPU中转困境传统多平面网络中，跨平面GPU通信必须经过CPU内存拷贝，导致两大痛点：20-30%的通信带宽浪费在CPU中转环节大规模集群训练时，网络拥塞引发训练任务停滞该专利通过构建GPU直连通道，实现跨平面网络的零拷贝通信，
InfiniBand包头与ibverbs接口实现（一）—— RDMA WRITE分析网络编程code数据数据库
InfiniBand是一种高性能网络技术，其数据包格式设计对实现高效可靠的网络传输至关重要。本文将详细介绍InfiniBand数据包的头部结构，分析它们在实际应用中的作用和实现机制。并且我们会讨论可靠连接(RC)服务类型下的传输头格式，以及RDMAWRITE等典型操作场景，以及它们在ibverbs接口中的对应关系。TableofContents:两类包头格式RoutingHeaders2.1.源码
算力机房选择RoCE还是InfiniBand（IB） helpme流水人工智能云计算
前言超高带宽、超低延迟、超高可靠，这是大模型训练对于网络的要求。多年来，TCP/IP协议一直是互联网通信的支柱，但对于AI网络来说，TCP/IP在某些方面存在着致命的缺点。TCP/IP协议的时延较高，通常在数十微秒左右，同时还会对CPU造成严重的负载。RDMA能直接通过网络接口访问内存数据，无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信，尤其适合在大规模并行计算机集群中使用。RDMA技术有
RDMA技术详解（一）：RDMA概述云越泽服务器网络运维
DMA和RDMA概念1.1DMADMA(直接内存访问)是一种能力，允许在计算机主板上的设备直接把数据发送到内存中去，数据搬运不需要CPU的参与。传统内存访问需要通过CPU进行数据copy来移动数据，通过CPU将内存中的Buffer1移动到Buffer2中。DMA模式：可以同DMAEngine之间通过硬件将数据从Buffer1移动到Buffer2,而不需要操作系统CPU的参与，大大降低了CPUCop
Tesla V100驱动安装郭宝才 linux 服务器运维
确认操作系统kernel版本，参考链接：https://docs.nvidia.com/cuda/archive/12.2.0/cuda-installation-guide-linux/index.html安装依赖yuminstall-ygccgcc-c++rdma-coredkmselfutils-libelf-develntpyuminstall-ykernel-devel-$(uname-
开源Bluespec bsc编译器和可重用示例设计达坦科技DatenLord 硬件加速 fpga fpga开发硬件工程开源
这篇介绍Bluespec以及设计示例的文章，是在2021年ICCAD（InternationalConferenceOnComputer-AidedDesign）发布的论文。达坦科技的open-rdma项目和推广的MIT体系结构学习社区都用到Bluespec，因此将此论文翻译成中文，以便大家了解2020年Bluespec开源后相关的开源项目。摘要：bsc编译器是一个商业可用的编译器，在过去的二十年
RDMA驱动学习（一）- 用户态到内核态的过程 KIDGINBROOK RDMA RDMA
最近梳理了一下rdma用户态到内核态传参的流程，会基于ibv_create_cq接口介绍一下ioctl版本的流程，代码基于mlnx-ofa_kernel-5.4。用户态用户态和内核态传的参数包含两部分，用户执行create_cq会传一些标准的参数，比如队列长度cqe，ibv_comp_channelchannel等，还有另外厂商自己的参数，比如mlx5会传cqbuffer的地址等。用户态中首先是通
极客天成签署 CCLA，携手openEuler社区共拓信创AI新天地极客天成ScaleFlash 人工智能
近日，北京极客天成科技有限公司（以下简称“极客天成”）签署CCLA（CorporateContributorLicenseAgreement企业贡献者许可协议），正式加入openEuler开源社区。极客天成以高通量分布式集群存储为先锋，围绕软件定义、智能化、安全可靠，全链RDMA构建了完全自主可控的分布式存储产品线和解决方案，主要解决用户海量数据下的高性能低时延数据读写难题，可为用户的数据中心提供
RDMA相关git 今天周一 git
perftest性能测试工具perftest：GitHub-linux-rdma/perftest:InfinibandVerbsPerformanceTestsrdma-corerdma-core：GitHub-linux-rdma/rdma-core:RDMAcoreuserspacelibrariesanddaemons
RDMA通信4：MR(Memory Region, 内存区域)基本概念和作用爱串门的小马驹 RDMA RDMA 信息与通信网络
MR简介RDMA通信中MR(MemoryRegion)指的是由RDMA软件层在内存中规划出的一片区域，用于存放收发的数据。IB协议中，用户在申请完用于存放数据的内存区域之后，都需要通过调用IB框架提供的API注册MR，才能让RDMA网卡访问这片内存区域。MR就是一块RDMA通信过程中申请使用的内存。一个系统中可以有多个MR。视频教程在这：1.5RDMAMR(MemoryRegion,内存区域)基本
论文阅读-Hydra: 用于持久内存和RDMA网络的分散文件系统向来痴_ 负载均衡论文网络
论文名称：Hydra:ADecentralizedFileSystemforPersistentMemoryandRDMANetworks摘要新兴的字址持久内存（PM）有可能颠覆内存和存储之间的边界。结合高速RDMA网络，分布式基于PM的存储系统提供了通过紧密耦合PM和RDMA特性来实现存储性能大幅提升的机会。然而，现有的分布式文件系统采用为传统磁盘设计的传统集中式客户端-服务器架构，导致访问延迟
计算机的构成CPU/GPU内存显存愚昧之山绝望之谷开悟之坡笔记术语人工智能笔记
参考：聊透GPU通信技术——GPUDirect、NVLink、RDMAhttps://zhuanlan.zhihu.com/p/654417967GPU内存(显存)的理解与基本使用：https://zhuanlan.zhihu.com/p/4621914211CPU处理器+内存GPU处理器+显存2单机多卡，NVLink多机多卡，RDMA>IBGPU（图形处理器）和显存之间有着密切的关系，它们通常是
稀疏场景高性能训练方案演变|京东广告算法架构体系最佳实践京东零售技术算法算法架构 gpu算力
近年来，推荐场域为提升模型的表达能力和计算能力，模型规模和计算复杂度大幅增加，同时，高规格硬件资源为模型迭代、算法优化带来了更大的机遇和挑战。为了应对模型规模和算力升级带来的存储、IO和计算挑战，京东零售广告技术团队基于新型硬件，充分利用硬件优势，提出新一代多机多卡全GPU计算全同步训练架构，参数通信基于GPU-RDMA硬件带来的高速带宽优势，采用集合通信方案，结合五级流水线并行训练模式，极大的提
高性能网络建设指南，《智算中心网络架构白皮书》开放下载百度智能云技术站百度百舸·AI 异构计算平台高性能网络 RDMA 百度 AIGC
所有具备前瞻视野的CTO、技术负责人，都正在将目光聚焦在为公司建立起面向大模型时代的AI基础设施。大模型需要大规模高性能集群的支持，如何建设高性能网络是其中最为关键的一步。高性能网络的成功落地，可以确保大模型用最短的时间训练出来，并节省大量费用。业务将在第一时间获得大模型的超能力加持。公司将和友商进一步拉大距离，将他们远远甩在身后，或者成功实现业务反超，占据市场领先定位。不过，高性能网络RDMA和
AI算力集群 LAXCUS分布式操作系统 LAXCUS分布式操作系统人工智能操作系统服务器 GPU
如何规模和部署一个AI算力集群，需要准备哪些软硬件设备，这是一个网友的提问。下面说说这件事。一个标准的AI算力集群主要由以下4部分组成：1.集群网络：RDMA网络。2.算力服务器：DGX/HGX、或者其它算力服务器。3.操作系统：Linux操作系统/Laxcus分布式操作系统。4.应用软件：AI大模型、向量数据库、其它辅助软件。以下是这些软硬件基础设施的选型和其它情况。1.集群网络AI算力集群一定
【RDMA】23. RDMA之基于CM API的QP间建链--未消化 bdview 网络 java 开发语言
【RDMA】RDMA学习资料总目录_bandaoyu的博客-CSDN博客SavirRDMA分享1.RDMA概述https://blog.csdn.net/bandaoyu/article/details/112859853https://zhuanlan.zhihu.com/p/1388747382.比较基于Socket与RDMA的通信https://blog.csdn.net/bandaoyu/
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l