级别: 初级 M. Tim Jones, 顾问工程师, Emulex
2007 年 7 月 16 日
Linux? 操作系统的最大特性之一就是它的网络栈。它最初源于 BSD 的网络栈,具有一套非常干净的接口,组织得非常好。其接口范围从协议无关层(例如通用 socket 层接口或设备层)到各种网络协议的具体层。本文将从分层角度对 Linux 网络栈的接口进行探索,并介绍其中的一些主要结构。
协议简介 虽然对于网络的正式介绍一般都参考了 OSI(Open Systems Interconnection)模型,但是本文对 Linux 中基本网络栈的介绍分为四层的 Internet 模型(如图 1 所示)。 图 1. 网络栈的 Internet 模型
这个栈的最底部是链路层。链路层是指提供对物理层访问的设备驱动程序,这可以是各种介质,例如串口链路或以太网设备。链路层上面是网络层,它负责将报文定向到目标位置。再上一层称为传输层,负责端到端的通信(例如,在一台主机内部)。尽管网络层负责管理主机之间的通信,但是传输层需要负责管理主机内部各端之间的通信。最后一层是应用层,它通常是一个语义层,能够理解要传输的数据。例如,超文本传输协议(HTTP)就负责传输服务器和客户机之间对 Web 内容的请求与响应。 实际来说,网络栈的各个层次有一些更为人所熟知的名字。在链路层上,可以找到以太网,这是最常用的一种高速介质。更早的链路层协议包括一些串口协议,例如 SLIP(Serial Line Internet Protocol)、CSLIP(Compressed SLIP)和PPP(Point-to-Point Protocol)。最常见的网络层协议是 IP(Internet Protocol),但是网络层中还存在一些满足其他需求的协议,例如 ICMP(Internet Control Message Protocol)和ARP( Address Resolution Protocol)。在传输层上是 TCP(Transmission Control Protocol)和 UDP(User Datagram Protocol)。最后,应用层中包含很多大家都非常熟悉的协议,包括标准的 Web 协议 HTTP 和电子邮件协议 SMTP(Simple Mail Transfer Protocol)。
核心网络架构 现在继续了解 Linux 网络栈的架构以及如何实现这种 Internet 模型。图 2 提供了 Linux 网络栈的高级视图。最上面是用户空间层,或称为应用层,其中定义了网络栈的用户。底部是物理设备,提供了对网络的连接能力(串口或诸如以太网之类的高速网络)。中间是内核空间,即网络子系统,也是本文介绍的重点。流经网络栈内部的是 socket 缓冲区(de>sk_buffsde>),它负责在源和汇点之间传递报文数据。您很快就将看到 de>sk_buffde> 的结构。 图 2. Linux 高级网络栈架构
首先,让我们来快速浏览一下 Linux 网络子系统的核心元素,后续章节中会更详细进行介绍。顶部(请参阅图 2)是系统调用接口。它简单地为用户空间的应用程序提供了一种访问内核网络子系统的方法。位于其下面的是一个协议无关层,它提供了一种通用方法来使用底层传输层协议。然后是实际协议,在 Linux 中包括内嵌的协议 TCP、UDP,当然还有 IP。然后是另外一个协议无关层,提供了与各个设备驱动程序通信的通用接口,最下面是设备驱动程序本身。
系统调用接口 系统调用接口可以从两个角度进行描述。用户发起网络调用时,通过系统调用接口进入内核的过程应该是多路的。最后调用 ./net/socket.c 中的 de>sys_socketcallde> 结束该过程,然后进一步将调用分路发送到指定目标。系统调用接口的另一种描述是使用普通文件操作作为网络 I/O。例如,典型的读写操作可以在网络 socket 上执行(socket 使用一个文件描述符表示,与一个普通文件一样)。因此,尽管有很多操作是网络专用的(使用 de>socketde> 调用创建一个 socket,使用 de>connectde> 调用连接一个收信方,等等),但是也有一些标准的文件操作可以应用于网络对象,就像操作普通文件一样。最后,系统调用接口提供了在用户空间应用程序和内核之间转移控制的方法。
协议无关接口 socket 层是一个协议无关接口,它提供了一组通用函数来支持各种不同协议。socket 层不但可以支持典型的 TCP 和 UDP 协议,而且还可以支持 IP、裸以太网和其他传输协议,例如 SCTP(Stream Control Transmission Protocol)。 通过网络栈进行的通信都需要对 socket 进行操作。Linux 中的 socket 结构是 de>struct sockde>,这个结构是在 linux/include/net/sock.h 中定义的。这个巨大的结构中包含了特定 socket 所需要的所有状态信息,其中包括 socket 所使用的特定协议和在 socket 上可以执行的一些操作。 网络子系统可以通过一个定义了自己功能的特殊结构来了解可用协议。每个协议都维护了一个名为 de>protode> 的结构(可以在 linux/include/net/sock.h 中找到)。这个结构定义了可以在从 socket 层到传输层中执行特定的 socket 操作(例如,如何创建一个 socket,如何使用 socket 建立一个连接,如何关闭一个 socket 等等)。
网络协议 网络协议这一节对一些可用的特定网络协议作出了定义(例如 TCP、UDP 等)。它们都是在 linux/net/ipv4/af_inet.c 文件中一个名为 de>inet_initde> 的函数中进行初始化的(因为 TCP 和 UDP 都是 de>inetde> 簇协议的一部分)。de> inet_initde> 函数使用 de>proto_registerde> 函数来注册每个内嵌协议。这个函数是在 linux/net/core/sock.c 中定义的,除了可以将这个协议添加到活动协议列表中之外,如果需要,该函数还可以选择分配一到多个 slab 缓存。 通过 linux/net/ipv4/ 目录中 udp.c 和 raw.c 文件中的 de>protode> 接口,您可以了解各个协议是如何标识自己的。这些协议接口每个都按照类型和协议映射到 de>inetsw_arrayde>,该数组将内嵌协议与操作映射到一起。de>inetsw_arrayde> 结构及其关系如图 3 所示。最初,会调用 de>inet_initde> 中的 de>inet_register_protoswde> 将这个数组中的每个协议都初始化为 de>inetswde>。函数 de>inet_initde> 也会对各个 de>inetde> 模块进行初始化,例如 ARP、ICMP 和 IP 模块,以及 TCP 和 UDP 模块。 图 3. Internet 协议数组结构
|
Socket 协议的相互关系 回想以下在创建 socket 时,需要指定类型和协议,例如de>my_sock = socket( AF_INET, SOCK_STREAM, 0 )de>。de>AF_INETde> 表示一个 Internet 地址簇,它使用的是一个流 socket,定义为 de>SOCK_STREAMde>(如此处的 de>inetsw_arrayde> 所示)。 |
|
注意在 图 3 中,de>protode> 结构定义了传输特有的方法,而 de>proto_opsde> 结构则定义了通用的 socket 方法。可以通过调用 de>inet_register_protoswde> 将其他协议加入到 de>inetswde> 协议中。例如,SCTP 就是通过调用 linux/net/sctp/protocol.c 中的 de>sctp_initde> 加入其中的。有关 SCTP 的更多信息,请参阅 参考资料 一节的内容。 socket 中的数据移动是使用一个所谓的 socket 缓冲区(de>sk_buffde>)的核心结构实现的。de>sk_buffde> 中包含了报文数据,以及涉及协议栈中多个层次的状态数据。所发送或接收的每个报文都是使用一个 de>sk_buffde> 表示的。de>sk_buffde> 结构是在 linux/include/linux/skbuff.h 中定义的,如图 4 所示。 图 4. Socket 缓冲区及其与其他结构的关系
如图所示,多个 de>sk_buffde> 可以针对某个给定连接链接在一起。每个 de>sk_buffde> 都在设备结构(de>net_devicede>)中标识报文发送的目的地,或者接收报文的来源地。由于每个报文都是使用一个 de>sk_buffde> 表示的,因此报文头都可以通过一组指针(de>thde>、de>iphde> 和 de>macde>[用于 Media Access Control 或者 MAC 头])方便地进行定位。由于 de>sk_buffde> 是 socket 数据管理的中心,因此创建了很多支持函数来对它们进行管理。其中有些函数用于创建和销毁 de>sk_buffde> 结构,或对它进行克隆或排队管理。 针对给定的 socket,Socket 缓冲区可以链接在一起,这样可以包含众多信息,包括到协议头的链接、时间戳(报文是何时发送或接收的),以及与这个报文相关的设备。
设备无关接口 协议层下面是另外一个无关接口层,它将协议与具有很多各种不同功能的硬件设备连接在一起。这一层提供了一组通用函数供底层网络设备驱动程序使用,让它们可以对高层协议栈进行操作。 首先,设备驱动程序可能会通过调用 de>register_netdevicede> 或 de>unregister_netdevicede> 在内核中进行注册或注销。调用者首先填写 de>net_devicede> 结构,然后传递这个结构进行注册。内核调用它的 de>initde>de>sysfsde> 条目,然后将新设备添加到设备列表中(内核中的活动设备链表)。在 linux/include/linux/netdevice.h 中可以找到这个 de>net_devicede> 结构。这些函数都是在 linux/net/core/dev.c 中实现的。 函数(如果定义了这种函数),然后执行一组健全性检查,并创建一个 要从协议层向设备中发送 de>sk_buffde>,就需要使用 de>dev_queue_xmitde> 函数。这个函数可以对 de>sk_buffde> 进行排队,从而由底层设备驱动程序进行最终传输(使用 de>sk_buffde> 中引用的 de>net_devicede> 或 de>sk_buff->devde> 所定义的网络设备)。de>devde> 结构中包含了一个名为 de>hard_start_xmitde> 的方法,其中保存有发起 de>sk_buffde> 传输所使用的驱动程序函数。 报文的接收通常是使用 de>netif_rxde> 执行的。当底层设备驱动程序接收一个报文(包含在所分配的 de>sk_buffde> 中)时,就会通过调用 de>netif_rxde> 将 de>sk_buffde> 上传至网络层。然后,这个函数通过 de>netif_rx_schedulede> 将 de>sk_buffde> 在上层协议队列中进行排队,供以后进行处理。可以在 linux/net/core/dev.c 中找到 de>dev_queue_xmitde> 和 de>netif_rxde> 函数。 最近,内核中引入了一种新的应用程序编程接口(NAPI),该接口允许驱动程序与设备无关层(de>devde>)进行交互。有些驱动程序使用的是 NAPI,但是大多数驱动程序仍然在使用老式的帧接收接口(比例大约是 6 比 1)。NAPI 在高负载的情况下可以产生更好的性能,它避免了为每个传入的帧都产生中断。
设备驱动程序 网络栈底部是负责管理物理网络设备的设备驱动程序。例如,包串口使用的 SLIP 驱动程序以及以太网设备使用的以太网驱动程序都是这一层的设备。 在进行初始化时,设备驱动程序会分配一个 de>net_devicede> 结构,然后使用必须的程序对其进行初始化。这些程序中有一个是 de>dev->hard_start_xmitde>,它定义了上层应该如何对 de>sk_buffde> 排队进行传输。这个程序的参数为 de>sk_buffde>。这个函数的操作取决于底层硬件,但是通常 de>sk_buffde> 所描述的报文都会被移动到硬件环或队列中。就像是设备无关层中所描述的一样,对于 NAPI 兼容的网络驱动程序来说,帧的接收使用了 de>netif_rxde> 和 de>netif_receive_skbde> 接口。NAPI 驱动程序会对底层硬件的能力进行一些限制。有关更详细的信息,请参阅 参考资料 一节的内容。 设备驱动程序在 de>devde> 结构中配置好自己的接口之后,调用 de>register_netdevicede> 便可以使用该配置。在 linux/drivers/net 中可以找出网络设备专用的驱动程序。
展望 Linux 源代码是学习有关大多数设备类型的设备驱动程序设计最佳方法,包括网络设备驱动程序。在这里可以找到的是各种设计的变化以及对可用内核 API 的使用,但是所学到的每一点都会非常有用,都可以作为新设备驱动程序的起点。除非您需要一种新协议,否则网络栈中的其余代码都是通用的,都会非常有用。即使现在,TCP(用于流协议)或 UDP(用于基于消息的协议)的实现都可以作为开始新开发有用模块使用。
参考资料 学习
- 您可以参阅本文在 developerWorks 全球站点上的 英文原文。
- 请查阅 www.linuxjunkies.org 上的 “Introduction to the Internet Protocols” ,获得有关 TCP/IP、UDP 和 ICMP 的简要介绍。
- “使用 Linux 系统调用的内核命令”(developerWorks,2007 年 3 月)介绍了 Linux 系统调用接口,它是 Linux 内核中很重要的一层,GNU C Library(glbic)提供了对用户空间支持,这样便可以在用户空间和内核之间进行函数调用。
- “使用 /proc 文件系统来访问 Linux 内核的内容”(developerWorks,2006 年 3 月)介绍了 /proc 文件系统,它是一个虚拟文件系统,为用户空间的应用程序与内核进行通信提供了一种创新的方法。这篇文章展示 /proc 的应用,并演示可加载的内核模块。
- 如果对网络协议感兴趣,Linux 是一个非常不错的操作系统,这一点与 BSD 类似。“使用 SCTP 优化网络”(developerWorks,2006 年 2 月)介绍了最有趣的网络协议之一 SCTP,它的操作方式和 TCP 类似,但是却增加了一些有用的特性,例如消息、多宿主和多流特性。
- “Linux slab 分配器详解”(developerWorks,2007 年 5 月)介绍了 Linux 中内存管理的最有趣特性之一:slab 分配器。这种机制源自于 SunOS,但是它在 Linux 内核中找到了一个友好的家园。
- NAPI 驱动程序与使用老式报文处理框架的驱动程序相比,具有很多优点,从终端管理到报文处理都要好很多。在 OSDL 上的 NAPI 接口和设计 中可以了解更多内容。
- 有关 Linux 用户空间编程的更多信息,请参考 Tim 撰写的 GNU/Linux Application Programming 一书。
- 在 Tim 撰写的 BSD Sockets Programming from a Multi-Language Perspective 一书中,可以学习有关使用 BSD socket API 进行 socket 编程的知识。
- 在 Free Software Foundation Web 站点上学习更多有关自由软件的内容。由于 Linux 是一个自由软件,因此任何希望从事相关工作的人都可以装配和发行自己的发行版。
- 在 developerWorks Linux 专区 中可找到适合 Linux 开发人员的更多资源,包括 Linux 教程。
- 随时关注 developerWorks 技术活动和网络广播。
获得产品和技术
- 定购 Linux SEK,共包含两张 DVD,其中包含 Linux 最新的 IBM 试用软件,包括 DB2?、Lotus?、Rational?、Tivoli? 和 WebSphere?。
- 利用可直接从 developerWorks 下载的 IBM 试用软件 在 Linux 上构建您的下一个开发项目。
讨论
- 通过参与 developerWorks blog 加入 developerWorks 社区。
关于作者
|
|
|
M. Tim Jones 是一名嵌入式软件工程师,他是 GNU/Linux Application Programming、AI Application Programming 以及 BSD Sockets Programming from a Multilanguage Perspective 等书的作者。他的工程背景非常广泛,从同步宇宙飞船的内核开发到嵌入式架构设计,再到网络协议的开发。Tim 是位于科罗拉多州 Longmont 的 Emulex Corp. 的一名顾问工程师。 |
|