转自David 博客:http://blog.csdn.net/tianlesoftware/article/details/6214232
当前光纤通道和以太网已经能够支持 10Gbps和更高的速率。因此,在计算机中的主机 I/O总线必须能够以同样的速率发送数据。然而,与所有的并行总线一样,PCI总线限制了网络速度的进一步提高。 事实上,基于网络架构的 PCI 总线带宽要达到双向 2 Gbps 都很困难。
InfiniBand代表一种新兴的 I/O技术,它很有可能在高端服务器中取代PCI总线。作为一种介质,InfiniBand定义了各种铜电缆和光导纤维线缆,它为铜缆和光缆指定的最大长度分别是 17m 和 10 000m;也可以在使用导轨的线路板上直接实现InfiniBand。
在InfiniBand 网络中的端点称作通道适配器。lnfiniBand使用两种通道适配器:主机通道适配器 (HCA:Host Channel Adapter)和目标通道适配器 (TCA:Target ChannelAdapter)。
HCA在InfiniBand网络和连接到CPU和RAM的系统总线之间起桥梁作用。 TCA在InfiniBand网络和通过SCSI、光纤通道或以太网连接的外部设备之间起连接作 用。与PCI 比较,HCA对应于PCI桥接芯片,TCA对应于光纤通道主机适配卡或以太网卡。
InfiniBand有可能完全改变服务器和存储设备的体系结构,需要考虑的是,网卡和主机总线适配卡可能被放置在 100m距离之外。这就意味着,配有CPU和内存的母板、网卡、主机总线适配卡和存储设备都作为物理上分离的非耦合的设备单独安装。这些设备都通过一个网络连接在一起。现在还不明朗,TCA 连接存储设备、光纤通道或以太网这 3种传输技术中的哪一种将会在这一领域中占主导地位。
智能磁盘子系统的功能正在变得越来越强大,而 InfiniBand 有助于在服务器和减少了 CPU负荷的存储设备之间快速通信。因此至少在理论上,诸如文件系统的缓存和共享磁盘文件系统的锁定同步这类子功能可以直接实现在磁盘子系统中或特别的处理机上。
InfiniBand发展的初衷是把服务器中的总线网络化。所以 InfiniBand除了具有很强的网络性能以外还直接继承了总线的高带宽和低时延。人们熟知的在总线技术中采用的DMA(Direct Memory Access,直接内存访问)技术在InfiniBand中 以 RDMA(RemoteDirect Memory Access,远地直接内存访问)的形式得到了继承。
RDMA 通过网络把数据直接传入计算机的存储区域,将数据从本地系统快速移动到远程系统的存储器中。它消除了外部存储器复制和文本交换操作,因而能腾出总线空间和 CPU周期用于改进应用系统性能。日前通用的做法是由系统先对传入的信息进行分析,然后再存储到正确的区域。
当一个应用执行RDMA读或写请求时,不执行任何数据复制。在不需要任何内核内存参与的条件下,RDMA 请求从运行在用户空间中的应用中发送到本地网卡,然后经过网络传送到远程网卡。RDMA 操作使应用可以从一个远程应用的内存中读数据或向这个内存写数据。用于操作的远程虚拟内存地址包含在RDMA信息中。远程应用除了为其本地网卡注册相关内存缓冲区外,不需要做其他任何事情。远程节点中的 CPU完全不参与输入的RDMA操作。这项技术在网卡中实施可靠的数据传输协议,并通过减少对带宽和处理器的开销降低了时延。
这种优化了的性能是通过在网卡的硬件中支持零复制技术和内核内存旁路技术实现的。零复制技术使网卡可以直接与应用内存相互传输数据,从而消除了在应用内存与内核内存之间复制数据的需要。内核内存旁路技术使应用无需执行内核内存调用就可向网卡发送命令。在不需要任何内核内存参与的条件下,RDMA 请求从用户空间发送到本地网卡,并通过网络发送给远程网卡,这就减少了在处理网络传输流时内核内存空间与用户空间之间的环境切换次数,从而降低了时延。