我看的内核版本是2.6.32.
在内核中sk_buff表示一个网络数据包,它是一个双向链表,而链表头就是sk_buff_head,在老的内核里面sk_buff会有一个list域直接指向sk_buff_head也就是链表头,现在在2.6.32里面这个域已经被删除了。
而sk_buff的内存布局可以分作3个段,第一个就是sk_buff自身,第二个是linear-data buff,第三个是paged-data buff(也就是skb_shared_info)。
ok.我们先来看sk_buff_head的结构。它也就是所有sk_buff的头。
- struct sk_buff_head {
-
- struct sk_buff *next;
- struct sk_buff *prev;
-
- __u32 qlen;
- spinlock_t lock;
- };
这里可以看到前两个域是和sk_buff一致的,而且内核的注释是必须放到最前面。这里的原因是:
这使得两个不同的结构可以放到同一个链表中,尽管sk_buff_head要比sk_buff小巧的多。另外,相同的函数可以同样应用于sk_buff和sk_buff_head。
然后qlen域表示了当前的sk_buff链上包含多少个skb。
lock域是自旋锁。
然后我们来看sk_buff,下面就是skb的结构:
我这里注释了一些简单的域,复杂的域下面会单独解释。
- struct sk_buff {
-
- struct sk_buff *next;
- struct sk_buff *prev;
-
-
- struct sock *sk;
-
- ktime_t tstamp;
-
- struct net_device *dev;
-
- unsigned long _skb_dst;
- #ifdef CONFIG_XFRM
- struct sec_path *sp;
- #endif
-
- char cb[48];
-
- unsigned int len,
-
- data_len;
-
- __u16 mac_len,
-
- hdr_len;
-
-
- union {
- __wsum csum;
- struct {
- __u16 csum_start;
- __u16 csum_offset;
- };
- };
-
- __u32 priority;
- kmemcheck_bitfield_begin(flags1);
-
-
- __u8 local_df:1,
-
- cloned:1,
-
- ip_summed:2,
-
- nohdr:1,
-
- nfctinfo:3;
-
-
- __u8 pkt_type:3,
-
- fclone:2,
-
- ipvs_property:1,
-
- peeked:1,
-
- nf_trace:1;
-
- __be16 protocol:16;
- kmemcheck_bitfield_end(flags1);
-
- void (*destructor)(struct sk_buff *skb);
-
-
- #if defined(CONFIG_NF_CONNTRACK) || defined(CONFIG_NF_CONNTRACK_MODULE)
- struct nf_conntrack *nfct;
- struct sk_buff *nfct_reasm;
- #endif
- #ifdef CONFIG_BRIDGE_NETFILTER
- struct nf_bridge_info *nf_bridge;
- #endif
-
-
- int iif;
-
-
- #ifdef CONFIG_NET_SCHED
- __u16 tc_index;
- #ifdef CONFIG_NET_CLS_ACT
- __u16 tc_verd;
- #endif
- #endif
-
- kmemcheck_bitfield_begin(flags2);
-
- __u16 queue_mapping:16;
- #ifdef CONFIG_IPV6_NDISC_NODETYPE
- __u8 ndisc_nodetype:2;
- #endif
- kmemcheck_bitfield_end(flags2);
-
-
-
- #ifdef CONFIG_NET_DMA
- dma_cookie_t dma_cookie;
- #endif
- #ifdef CONFIG_NETWORK_SECMARK
- __u32 secmark;
- #endif
-
- __u32 mark;
-
-
- __u16 vlan_tci;
-
-
- sk_buff_data_t transport_header;
-
- sk_buff_data_t network_header;
-
- sk_buff_data_t mac_header;
-
- sk_buff_data_t tail;
- sk_buff_data_t end;
- unsigned char *head,
- *data;
-
- unsigned int truesize;
-
- atomic_t users;
- };
我们来看前面没有解释的那些域。
先来看cb域,他保存了每层所独自需要的内部数据。我们来看tcp的例子。
我们知道tcp层的控制信息保存在tcp_skb_cb中,因此来看内核提供的宏来存取这个数据结构:
- #define TCP_SKB_CB(__skb) ((struct tcp_skb_cb *)&((__skb)->cb[0]))
在ip层的话,我们可能会用cb来存取切片好的帧。
- #define FRAG_CB(skb) ((struct ipfrag_skb_cb *)((skb)->cb))
到这里你可能会问如果我们想要在到达下一层后,还想保存当前层的私有信息怎么办。这个时候我们就可以使用skb的clone了。也就是之只复制sk_buff结构。
然后我们来看几个比较比较重要的域 len,data,tail,head,end。
这几个域都很简单,下面这张图表示了buffer从tcp层到链路层的过程中len,head,data,tail以及end的变化,通过这个图我们可以非常清晰的了解到这几个域的区别。
可以很清楚的看到head指针为分配的buffer的起始位置,end为结束位置,而data为当前数据的起始位置,tail为当前数据的结束位置。len就是数据区的长度。
然后来看transport_header,network_header以及mac_header的变化,这几个指针都是随着数据包到达不同的层次才会有对应的值,我们来看下面的图,这个图表示了当从2层到达3层对应的指针的变化。
这里可以看到data指针会由于数据包到了三层,而跳过2层的头。这里我们就可以得到data起始真正指的是本层的头以及数据的起始位置。
然后我们来看skb的几个重要操作函数。
首先是skb_put,skb_push,skb_pull以及skb_reserve这几个最长用的操作data指针的函数。
这里可以看到内核skb_XXX都还有一个__skb_XXX函数,这是因为前一个只是将后一个函数进行了一个包装,加了一些校验。
先来看__skb_put函数。
可以看到它只是将tail指针移动len个位置,然后len也相应的增加len个大小。
- static inline unsigned char *__skb_put(struct sk_buff *skb, unsigned int len)
- {
- unsigned char *tmp = skb_tail_pointer(skb);
- SKB_LINEAR_ASSERT(skb);
-
- skb->tail += len;
- skb->len += len;
- return tmp;
- }
然后是__skb_push,它是将data指针向上移动len个位置,对应的len肯定也是增加len大小。
- static inline unsigned char *__skb_push(struct sk_buff *skb, unsigned int len)
- {
- skb->data -= len;
- skb->len += len;
- return skb->data;
- }
剩下的两个就不贴代码了,都是很简单的函数,__skb_pull是将data指针向下移动len个位置,然后len减小len大小。__skb_reserve是将整个数据区,也就是data以及tail指针一起向下移动len大小。这个函数一般是用来对齐地址用的。
看下面的图,描述了4个函数的操作:
接着是skb的alloc函数。
在内核中分配一个skb是在__alloc_skb中实现的,接下来我们就来看这个函数的具体实现。
这个函数起始可以看作三部分,第一部分是从cache中分配内存,第二部分是初始化分配的skb的相关域。第三部分是处理fclone。
还有一个要注意的就是这里__alloc_skb是被三个函数包装后才能直接使用的,我们只看前两个,一个是skb_alloc_skb,一个是alloc_skb_fclone函数,这两个函数传递进来的第三个参数,也就是fclone前一个是0,后一个是1.
那么这个函数是什么意思呢,它和alloc_skb有什么区别的。
这个函数可以叫做Fast SKB cloning函数,这个函数存在的主要原因是,以前我们每次skb_clone一个skb的时候,都是要调用kmem_cache_alloc从cache中alloc一块新的内存。而现在当我们拥有了fast clone之后,通过调用alloc_skb_fclone函数来分配一块大于sizeof(struct sk_buff)的内存,也就是在这次请求的skb的下方多申请了一些内存,然后返回的时候设置返回的skb的fclone标记为SKB_FCLONE_ORIG,而多申请的那块内存的sk_buff的fclone为SKB_FCLONE_UNAVAILABLE,这样当我们调用skb_clone克隆这个skb的时候看到fclone的标记就可以直接将skb的指针+1,而不需要从cache中取了。这样的话节省了一次内存存取,提高了clone的效率,不过调用flcone 一般都是我们确定接下来这个skb会被clone很多次。
更详细的fclone的介绍可以看这里:
http://lwn.net/Articles/140552/
这样我们先来看_alloc_skb,然后紧接着看skb_clone,这样就能更好的理解这些。
这里fclone的多分配的内存部分,没太弄懂从那里多分配的,自己对内核的内存子系统还是不太熟悉。觉得应该是skbuff_fclone_cache中会自动多分配些内存。
- struct sk_buff *__alloc_skb(unsigned int size, gfp_t gfp_mask,
- int fclone, int node)
- {
- struct kmem_cache *cache;
- struct skb_shared_info *shinfo;
- struct sk_buff *skb;
- u8 *data;
-
-
- cache = fclone ? skbuff_fclone_cache : skbuff_head_cache;
-
-
- skb = kmem_cache_alloc_node(cache, gfp_mask & ~__GFP_DMA, node);
- if (!skb)
- goto out;
-
- size = SKB_DATA_ALIGN(size);
-
- data = kmalloc_node_track_caller(size + sizeof(struct skb_shared_info),
- gfp_mask, node);
- if (!data)
- goto nodata;
-
-
- memset(skb, 0, offsetof(struct sk_buff, tail));
-
- skb->truesize = size + sizeof(struct sk_buff);
-
- atomic_set(&skb->users, 1);
-
- skb->head = data;
- skb->data = data;
-
- skb_reset_tail_pointer(skb);
-
- skb->end = skb->tail + size;
- kmemcheck_annotate_bitfield(skb, flags1);
- kmemcheck_annotate_bitfield(skb, flags2);
- #ifdef NET_SKBUFF_DATA_USES_OFFSET
- skb->mac_header = ~0U;
- #endif
-
-
- shinfo = skb_shinfo(skb);
- atomic_set(&shinfo->dataref, 1);
- shinfo->nr_frags = 0;
- shinfo->gso_size = 0;
- shinfo->gso_segs = 0;
- shinfo->gso_type = 0;
- shinfo->ip6_frag_id = 0;
- shinfo->tx_flags.flags = 0;
- skb_frag_list_init(skb);
- memset(&shinfo->hwtstamps, 0, sizeof(shinfo->hwtstamps));
-
-
- if (fclone) {
-
- struct sk_buff *child = skb + 1;
- atomic_t *fclone_ref = (atomic_t *) (child + 1);
-
- kmemcheck_annotate_bitfield(child, flags1);
- kmemcheck_annotate_bitfield(child, flags2);
-
- skb->fclone = SKB_FCLONE_ORIG;
- atomic_set(fclone_ref, 1);
-
- child->fclone = SKB_FCLONE_UNAVAILABLE;
- }
- out:
- return skb;
- nodata:
- kmem_cache_free(cache, skb);
- skb = NULL;
- goto out;
- }
下图就是alloc_skb之后的skb的指针的状态。这里忽略了fclone。
然后我们来看skb_clone函数,clone的意思就是只复制skb而不复制data域。
这里它会先判断将要被clone的skb的fclone段,以便与决定是否重新分配一块内存来保存skb。
然后调用__skb_clone来初始化相关的域。
- struct sk_buff *skb_clone(struct sk_buff *skb, gfp_t gfp_mask)
- {
- struct sk_buff *n;
-
-
- n = skb + 1;
-
- if (skb->fclone == SKB_FCLONE_ORIG &&
- n->fclone == SKB_FCLONE_UNAVAILABLE) {
-
- atomic_t *fclone_ref = (atomic_t *) (n + 1);
- n->fclone = SKB_FCLONE_CLONE;
- atomic_inc(fclone_ref);
- } else {
-
-
- n = kmem_cache_alloc(skbuff_head_cache, gfp_mask);
- if (!n)
- return NULL;
-
- kmemcheck_annotate_bitfield(n, flags1);
- kmemcheck_annotate_bitfield(n, flags2);
-
- n->fclone = SKB_FCLONE_UNAVAILABLE;
- }
-
- return __skb_clone(n, skb);
- }
这里__skb_clone就不介绍了,函数就是将要被clone的skb的域赋值给clone的skb。
下图就是skb_clone之后的两个skb的结构图:
当一个skb被clone之后,这个skb的数据区是不能被修改的,这就意为着,我们存取数据不需要任何锁。可是有时我们需要修改数据区,这个时候会有两个选择,一个是我们只修改linear段,也就是head和end之间的段,一种是我们还要修改切片数据,也就是skb_shared_info.
这样就有两个函数供我们选择,第一个是pskb_copy,第二个是skb_copy.
我们先来看pskb_copy,函数先alloc一个新的skb,然后调用skb_copy_from_linear_data来复制线性区的数据。
- struct sk_buff *pskb_copy(struct sk_buff *skb, gfp_t gfp_mask)
- {
-
-
-
- struct sk_buff *n;
- #ifdef NET_SKBUFF_DATA_USES_OFFSET
- n = alloc_skb(skb->end, gfp_mask);
- #else
- n = alloc_skb(skb->end - skb->head, gfp_mask);
- #endif
- if (!n)
- goto out;
-
-
- skb_reserve(n, skb->data - skb->head);
-
- skb_put(n, skb_headlen(skb));
-
- skb_copy_from_linear_data(skb, n->data, n->len);
-
- n->truesize += skb->data_len;
- n->data_len = skb->data_len;
- n->len = skb->len;
-
-
- if (skb_shinfo(skb)->nr_frags) {
- int i;
-
- for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {
- skb_shinfo(n)->frags[i] = skb_shinfo(skb)->frags[i];
- get_page(skb_shinfo(n)->frags[i].page);
- }
- skb_shinfo(n)->nr_frags = i;
- }
-
- ...............................
- copy_skb_header(n, skb);
- out:
- return n;
- }
然后是skb_copy,它是复制skb的所有数据段,包括切片数据:
- struct sk_buff *skb_copy(const struct sk_buff *skb, gfp_t gfp_mask)
- {
- int headerlen = skb->data - skb->head;
-
-
-
-
- struct sk_buff *n;
- #ifdef NET_SKBUFF_DATA_USES_OFFSET
- n = alloc_skb(skb->end + skb->data_len, gfp_mask);
- #else
- n = alloc_skb(skb->end - skb->head + skb->data_len, gfp_mask);
- #endif
- if (!n)
- return NULL;
-
-
- skb_reserve(n, headerlen);
-
- skb_put(n, skb->len);
-
- if (skb_copy_bits(skb, -headerlen, n->head, headerlen + skb->len))
- BUG();
-
- copy_skb_header(n, skb);
- return n;
- }
下面这张图就表示了psb_copy和skb_copy调用后的内存模型,其中a是pskb_copy,b是skb_copy:
最后来看skb的释放:
这里主要是判断一个引用标记位users,将它减一,如果大于0则直接返回,否则释放skb。
- void kfree_skb(struct sk_buff *skb)
- {
- if (unlikely(!skb))
- return;
- if (likely(atomic_read(&skb->users) == 1))
- smp_rmb();
-
- else if (likely(!atomic_dec_and_test(&skb->users)))
- return;
- trace_kfree_skb(skb, __builtin_return_address(0));
- __kfree_skb(skb);
- }