本文简要介绍了Linux网络编程中使用较多的sk_buff结构体,以便于能够快速理解内核代码中相关sk_buff的使用。
sk_buff(socket buffer)结构是Linux网络代码中重要的数据结构,用于管理和控制接收或发送数据包的信息。
headroom
,data
,tailroom
三个部分。skb_shared_info
作为packet data的补充,用于存储ip分片,其中sk_buff *frag_list
是一系列子sk_buff
链表frag[]
是由一组单独的page组成的数据缓冲区。说明:以下为参考linux内核中skbuff.h
进行了裁剪后的文件。
struct sk_buff {
struct sk_buff *next;
struct sk_buff *prev;
struct sock *sk;
struct ktime_t tstamp; //Time arrived, 记录接收或发送报文的时间戳
struct net_device *dev; //通过该设备接收或发送,记录网络接口的信息和完成操作
struct net_device *input_dev; //接收数据的网络设备
/*
* control buffer. 可以被任意层随意使用,可以将私有变量放在这里。大小为40字节。
* 如果要跨层保留它们,必须先执行skb_clone()。由用于skb队列ATM的所有。
*/
char cb[40] __aligned(8);
/*
* 函数指针可以初始化成一个在缓冲区释放时完成某些动作的函数。如果缓冲区不属于一个socket,
* 此函数通常不会被赋值。如果缓冲区属于一个socket,此函数指针会被赋值为sock_rfree
* 或sock_wfree(分别由skb_set_owner_r或skb_set_owner_w函数初始化)。两个sock_xxx
* 函数用于更新socket队列中的内存容量。
*/
void (*destructor)(struct sk_buff *skb);
unsigned int len, //缓冲区数据部分的长度
data_len; //data_len只计算分片中数据的长度
__u16 mac_len, //mac头的长度
hdr_len; //报头长度
__wsum csum;
__u32 priority; //描述发送或转发包的QoS类别。若本地生成,socket层会设置
u16 alloc_cpu;
/* These elements must be at the end, see alloc_skb() for details. */
sk_buff_data_t tail; //实际数据的尾部
sk_buff_data_t end; //缓冲区的尾部
unsigned char *head, //指向缓冲区的头部
*data; //指向实际数据的头部
unsigned int truesize;
refcount_t users; //引用计数,计算有多少实体引用了这个sk_buff缓冲区。
};
内核可以将sk_buff
组织成一个双向链表,只是比常见的双向链表结构复杂一点。因此sk_buff中需要有两个指针next和prev,next指向下一个节点,而prev指向上一个节点。
此外,这个链表还有另外一个需求,每个sk_buff结构都必须能够很快找到链表头节点,为了满足这个需求,在第一个节点前面会插入另一个结构sk_buff_head
,是一个辅助节点。
struct sk_buff_head {
struct sk_buff *next; //链表的下一个元素
struct sk_buff *prev; //链表的前一个元素
__u32 qlen;
spinlock_t lock; //自旋锁
};
sk_buff
和sk_buff_head
的前两个元素都一样,next和prev指针,使得他们可以放到同一个链表中。相同的函数同样可以应用于sk_buff和sk_buff_head。
struct sock *sk
,在网络包由本机或由本机进程接收时有效,因为插口相关的信息被L4(TCP或UDP)或者用户空间程序使用。如果sk_buff只在转发中使用(即源地址和目的地址都不是本机地址),该指针为NULL。
refcount_t users
,主要用途是防止释放sk_buff后,还有其他实体引用这个sk_buff。因此,每个引用这个缓冲区的实体都必须在适当的时候增加或减少这个变量。这个计算器只保护sk_buff结构本身,而缓冲区的数据部分由类似的计数器来保护。通常使用skb_get和kfree_skb来操作此变量。
char cb[40]
,在每一层中,访问这个变量的代码通常用宏实现,以增强代码的可读性。
例如,TCP用这个变量存储tcp_skb_cb结构,该结构在include/net/tcp.h
中定义。
struct tcp_skb_cb {
union {
struct inet_skb_parm h4;
#if defined(CONFIG_IPV6) || defined(CONFIG_IPV6_MODULE)
struct inet6_skb_parm h6;
#endif
} header;
__u32 seq;
__u32 end_seq;
__u32 when;
__u8 flags;
//...
};
//通过以下宏来访问cb变量,进行了简单的类型转换:
#define TCP_SKB_CB(__skb) ((struct tcp_skb_cb *)&((__skb)->cb[0]))
内核用这些函数操作sk_buff的成员变量或sk_buff链表。首先包括分配和释放缓冲区的函数,然后是一些通过移动指针在缓冲区的头部或尾部预留空间的函数。可以参看inluce/linux/skbuff.h
和net/core/skbuff.c
。
/*
* Add data to an sk_buff
*/
void *pskb_put(struct sk_buff *skb, struct sk_buff *tail, int len);
void *skb_put(struct sk_buff *skb, unsigned int len);
static inline void *__skb_put(struct sk_buff *skb, unsigned int len)
{
void *tmp = skb_tail_pointer(skb);
SKB_LINEAR_ASSERT(skb);
skb->tail += len;
skb->len += len;
return tmp;
}
void *skb_push(struct sk_buff *skb, unsigned int len);
static inline void *__skb_push(struct sk_buff *skb, unsigned int len)
{
skb->data -= len;
skb->len += len;
return skb->data;
}
void *skb_pull(struct sk_buff *skb, unsigned int len);
static inline void *__skb_pull(struct sk_buff *skb, unsigned int len)
{
skb->len -= len;
if (unlikely(skb->len < skb->data_len)) {
#if defined(CONFIG_DEBUG_NET)
skb->len += len;
pr_err("__skb_pull(len=%u)\n", len);
skb_dump(KERN_ERR, skb, false);
#endif
BUG();
}
return skb->data += len;
}
/**
* skb_reserve - adjust headroom
* @skb: buffer to alter
* @len: bytes to move
*
* Increase the headroom of an empty &sk_buff by reducing the tail
* room. This is only allowed for an empty buffer.
*/
static inline void skb_reserve(struct sk_buff *skb, int len)
{
skb->data += len;
skb->tail += len;
}
在分配内存和释放是不建议使用kmalloc()
和kfree()
来为sk_buff相关结构体申请内存和销毁,尽量用内核提供好的一些函数去为这些结构体申请内存。
内核开发的原则:尽量用内核定义好的数据和函数以及操作宏,不到迫不得已不要自行定义任何东西。便于做到接口统一,移植方便,容易维护。
// 分配单纯的sk_buff结构内存,内部通过__alloc_skb封装
static inline struct sk_buff *alloc_skb(unsigned int size,
gfp_t priority)
{
return __alloc_skb(size, priority, 0, NUMA_NO_NODE);
}
// 分配克隆sk_buff结构,此分配函数会分配一个子skb用来后期克隆使用,
// 如果能预见要克隆skb_buff结构,使用此方法更方便些
static inline struct sk_buff *alloc_skb_fclone(unsigned int size,
gfp_t priority)
{
return __alloc_skb(size, priority, SKB_ALLOC_FCLONE, NUMA_NO_NODE);
}
/* legacy helper around netdev_alloc_skb()
* 实质上调用了alloc_skb函数,单纯分配了一个sk_buff的内存。
* 通常来说,在驱动程序中申请sk_buff结构时,用到的申请函数和一般的申请内存函数有点不一样
* 使用GP_ATOMIC的内存分配方式来申请的(一般用GFP_KERNEL),是原子操作,申请时不能被中断
* 本质上就是调用netdev_alloc_skb
*/
static inline struct sk_buff *dev_alloc_skb(unsigned int length)
{
return netdev_alloc_skb(NULL, length);
}
static inline struct sk_buff *netdev_alloc_skb(struct net_device *dev,
unsigned int length)
{
return __netdev_alloc_skb(dev, length, GFP_ATOMIC);
}
struct sk_buff *__netdev_alloc_skb(struct net_device *dev,
unsigned int length, gfp_t gfp_mask)
{
struct sk_buff *skb = NULL;
unsigned int fragsz = SKB_DATA_ALIGN(length + NET_SKB_PAD) +
SKB_DATA_ALIGN(sizeof(struct skb_shared_info));
if (fragsz <= PAGE_SIZE && !(gfp_mask & (__GFP_WAIT | GFP_DMA))) {
void *data;
if (sk_memalloc_socks())
gfp_mask |= __GFP_MEMALLOC;
data = __netdev_alloc_frag(fragsz, gfp_mask);
if (likely(data)) {
skb = build_skb(data, fragsz);
if (unlikely(!skb))
put_page(virt_to_head_page(data));
}
} else {
skb = __alloc_skb(length + NET_SKB_PAD, gfp_mask,
SKB_ALLOC_RX, NUMA_NO_NODE);
}
if (likely(skb)) {
skb_reserve(skb, NET_SKB_PAD);
skb->dev = dev;
}
return skb;
}
源代码文件:
include/linux/skbuff.h
,https://github.com/torvalds/linux/blob/master/include/linux/skbuff.h
net/core/skbuff.c
,https://github.com/torvalds/linux/blob/master/net/core/skbuff.c
注意:sk_buff并不会直接存储网络数据包,只是存放了数据包的指针。
在应用中,应用层数据前面加上协议的其他层级的头,如链路层、MAC层、IP协议头、TCP协议头等,用data指针保存。应用层尾部用tail指针保存。如果是从L4传输到L2,则通过往sk_buff结构体中增加该层协议头来操作;如果是从L4到L2,则是通过移动sk_buff结构体中的data指针来实现,不会删除各层协议头,可以提供CPU的工作效率。