Linux内核中sk_buff分析

<style type="text/css"> <!-- @page { margin: 0.79in } P { margin-bottom: 0.08in } --> </style>

在内核中sk_buff表示一个网络数据包,它是一个双向链表,而链表头就是sk_buff_head,在老的内核里面sk_buff会有一个list域直接指向sk_buff_head也就是链表头,现在在2.6.32里面这个域已经被删除了。

sk_buff的内存布局可以分作3个段,第一个就是sk_buff自身,第二个是linear-databuff,第三个是paged-databuff(也就是skb_shared_info)。

ok.
我们先来看sk_buff_head的结构。它也就是所有sk_buff的头。

  1. structsk_buff_head{

  2. /*Thesetwomembersmustbefirst.*/

  3. structsk_buff*next;

  4. structsk_buff*prev;

  5. __u32qlen;

  6. spinlock_tlock;

  7. };

这里可以看到前两个域是和sk_buff一致的,而且内核的注释是必须放到最前面。这里的原因是:

这使得两个不同的结构可以放到同一个链表中,尽管sk_buff_head要比sk_buff小巧的多。另外,相同的函数可以同样应用于sk_buffsk_buff_head

然后qlen域表示了当前的sk_buff链上包含多少个skb

lock
域是自旋锁。

然后我们来看sk_buff,下面就是skb的结构:

我这里注释了一些简单的域,复杂的域下面会单独解释。

  1. structsk_buff{

  2. /*Thesetwomembersmustbefirst.*/

  3. structsk_buff*next;

  4. structsk_buff*prev;

  5. //表示从属于那个socket,主要是被4层用到。

  6. structsock*sk;

  7. //表示这个skb被接收的时间。

  8. ktime_ttstamp;

  9. //这个表示一个网络设备,当skb为输出时它表示skb将要输出的设备,当接收时,它表示输入设备。要注意,这个设备有可能会是虚拟设备(3层以上看来)

  10. structnet_device*dev;

  11. ///这里其实应该是dst_entry类型,不知道为什么内核要改为ul。这个域主要用于路由子系统。这个数据结构保存了一些路由相关信息

  12. unsignedlong_skb_dst;

  13. #ifdefCONFIG_XFRM

  14. structsec_path*sp;

  15. #endif

  16. ///这个域很重要,我们下面会详细说明。这里只需要知道这个域是保存每层的控制信息的就够了。

  17. charcb[48];

  18. ///这个长度表示当前的skb中的数据的长度,这个长度即包括buf中的数据也包括切片的数据,也就是保存在skb_shared_info中的数据。这个值是会随着从一层到另一层而改变的。下面我们会对比这几个长度的。

  19. unsignedintlen,

  20. ///这个长度只表示切片数据的长度,也就是skb_shared_info中的长度。

  21. data_len;

  22. ///这个长度表示mac头的长度(2层的头的长度)

  23. __u16mac_len,

  24. ///这个主要用于clone的时候,它表示cloneskb的头的长度。

  25. hdr_len;

  26. ///接下来是校验相关的域。

  27. union{

  28. __wsumcsum;

  29. struct{

  30. __u16csum_start;

  31. __u16csum_offset;

  32. };

  33. };

  34. ///优先级,主要用于QOS

  35. __u32priority;

  36. kmemcheck_bitfield_begin(flags1);

  37. ///接下来是一些标志位。

  38. //首先是是否可以本地切片的标志。

  39. __u8local_df:1,

  40. ///1说明头可能被clone

  41. cloned:1,

  42. ///这个表示校验相关的一个标记,表示硬件驱动是否为我们已经进行了校验(前面的blog有介绍)

  43. ip_summed:2,

  44. ///这个域如果为1,则说明这个skb的头域指针已经分配完毕,因此这个时候计算头的长度只需要headdata的差就可以了。

  45. nohdr:1,

  46. ///这个域不太理解什么意思。

  47. nfctinfo:3;

  48. ///pkt_type主要是表示数据包的类型,比如多播,单播,回环等等。

  49. __u8pkt_type:3,

  50. ///这个域是一个clone标记。主要是在fastclone中被设置,我们后面讲到fastclone时会详细介绍这个域。

  51. fclone:2,

  52. ///ipvs拥有的域。

  53. ipvs_property:1,

  54. ///这个域应该是udp使用的一个域。表示只是查看数据。

  55. peeked:1,

  56. ///netfilter使用的域。是一个trace标记

  57. nf_trace:1;

  58. ///这个表示L3层的协议。比如IP,IPV6等等。

  59. __be16protocol:16;

  60. kmemcheck_bitfield_end(flags1);

  61. ///skb的析构函数,一般都是设置为sock_rfree或者sock_wfree.

  62. void(*destructor)(structsk_buff*skb);

  63. ///netfilter相关的域。

  64. #ifdefined(CONFIG_NF_CONNTRACK)||defined(CONFIG_NF_CONNTRACK_MODULE)

  65. structnf_conntrack*nfct;

  66. structsk_buff*nfct_reasm;

  67. #endif

  68. #ifdefCONFIG_BRIDGE_NETFILTER

  69. structnf_bridge_info*nf_bridge;

  70. #endif

  71. ///接收设备的index

  72. intiif;

  73. ///流量控制的相关域。

  74. #ifdefCONFIG_NET_SCHED

  75. __u16tc_index;/*trafficcontrolindex*/

  76. #ifdefCONFIG_NET_CLS_ACT

  77. __u16tc_verd;/*trafficcontrolverdict*/

  78. #endif

  79. #endif

  80. kmemcheck_bitfield_begin(flags2);

  81. ///多队列设备的映射,也就是说映射到那个队列。

  82. __u16queue_mapping:16;

  83. #ifdefCONFIG_IPV6_NDISC_NODETYPE

  84. __u8ndisc_nodetype:2;

  85. #endif

  86. kmemcheck_bitfield_end(flags2);

  87. /*0/14bithole*/

  88. #ifdefCONFIG_NET_DMA

  89. dma_cookie_tdma_cookie;

  90. #endif

  91. #ifdefCONFIG_NETWORK_SECMARK

  92. __u32secmark;

  93. #endif

  94. ///skb的标记。

  95. __u32mark;

  96. ///vlan的控制tag

  97. __u16vlan_tci;

  98. ///传输层的头

  99. sk_buff_data_ttransport_header;

  100. ///网络层的头

  101. sk_buff_data_tnetwork_header;

  102. ///链路层的头。

  103. sk_buff_data_tmac_header;

  104. ///接下来就是几个操作skb数据的指针。下面会详细介绍。

  105. sk_buff_data_ttail;

  106. sk_buff_data_tend;

  107. unsignedchar*head,

  108. *data;

  109. ///这个表示整个skb的大小,包括skb本身,以及数据。

  110. unsignedinttruesize;

  111. ///skb的引用计数

  112. atomic_tusers;

  113. };


我们来看前面没有解释的那些域。

先来看cb域,他保存了每层所独自需要的内部数据。我们来看tcp的例子。

我们知道tcp层的控制信息保存在tcp_skb_cb中,因此来看内核提供的宏来存取这个数据结构:

  1. #defineTCP_SKB_CB(__skb)((structtcp_skb_cb*)&((__skb)->cb[0]))

ip层的话,我们可能会用cb来存取切片好的帧。

  1. #defineFRAG_CB(skb)((structipfrag_skb_cb*)((skb)->cb))

到这里你可能会问如果我们想要在到达下一层后,还想保存当前层的私有信息怎么办。这个时候我们就可以使用skbclone了。也就是之只复制sk_buff结构。

然后我们来看几个比较比较重要的域len,data,tail,head,end

这几个域都很简单,下面这张图表示了buffertcp层到链路层的过程中lenheaddatatail以及end的变化,通过这个图我们可以非常清晰的了解到这几个域的区别。

Linux内核中sk_buff分析_第1张图片

可以很清楚的看到head指针为分配的buffer的起始位置,end为结束位置,而data为当前数据的起始位置,tail为当前数据的结束位置。len就是数据区的长度。

然后来看transport_headernetwork_header以及mac_header的变化,这几个指针都是随着数据包到达不同的层次才会有对应的值,我们来看下面的图,这个图表示了当从2层到达3层对应的指针的变化。
Linux内核中sk_buff分析_第2张图片

这里可以看到data指针会由于数据包到了三层,而跳过2层的头。这里我们就可以得到data起始真正指的是本层的头以及数据的起始位置。

然后我们来看skb的几个重要操作函数。

首先是skb_put,skb_push,skb_pull以及skb_reserve这几个最长用的操作data指针的函数。

这里可以看到内核skb_XXX都还有一个__skb_XXX函数,这是因为前一个只是将后一个函数进行了一个包装,加了一些校验。

先来看__skb_put函数。
可以看到它只是将tail指针移动len个位置,然后len也相应的增加len个大小。

  1. staticinlineunsignedchar*__skb_put(structsk_buff*skb,unsignedintlen)

  2. {

  3. unsignedchar*tmp=skb_tail_pointer(skb);

  4. SKB_LINEAR_ASSERT(skb);

  5. ///改变相应的域。

  6. skb->tail+=len;

  7. skb->len+=len;

  8. returntmp;

  9. }


然后是__skb_push,它是将data指针向上移动len个位置,对应的len肯定也是增加len大小。

  1. staticinlineunsignedchar*__skb_push(structsk_buff*skb,unsignedintlen)

  2. {

  3. skb->data-=len;

  4. skb->len+=len;

  5. returnskb->data;

  6. }


剩下的两个就不贴代码了,都是很简单的函数,__skb_pull是将data指针向下移动len个位置,然后len减小len大小。__skb_reserve是将整个数据区,也就是data以及tail指针一起向下移动len大小。这个函数一般是用来对齐地址用的。

看下面的图,描述了4个函数的操作:

Linux内核中sk_buff分析_第3张图片

关于skb中的长度函数,这里添加一些自己的理解:

对于每一个网络数据包都包含一个structskb_buff类型的结构和一个存储数据本身的结构,在skb_buff中不包含实际的数据,但它提供了存取数据的方法。

在数据包数据段分配空间的时候,总是会分配一个较大一些的空间,用于各层协议在头部的扩展。

head,end指向分配的空间的头部和尾部,而data则指向有效的数据的起始位置,tail则指向结束位置,有效数据的起始位置是针对协议类型而言的,比如对于当前处于ip层,有效数据即为ip+tcp+tcp数据部分,而如果位于tcp层,则有效数据为tcp+tcp数据部分,data即指向每层有效数据的其实位置,当数据包在各层间传递的时候,data指针也会发生改变,但之前的协议数据并没有消失,仍可以通过其他方式访问。

skb_buff中的长度字段len长度所指为当前协议数据包的长度,包括主缓冲区的数据长度和分片中的数据长度(实际存储数据区包含的skb_shared_info所指数据),而skb->data_len只计算分片中的长度。

在不考虑分片长度时,也即data_len长度为0时,此时len的长度就等同于主数据缓冲区的长度。

若在l2层,此时len=mac头部+ip头部+tcp头部+tcp数据部分

若在l3层,此时len=ip头部+tcp头部+tcp数据部分

也就是len= (int)(tail - data)

因此,len的长度伴随着数据包在各层间的传递,data指针变化的同时,也会发生变化

接着是skballoc函数。

在内核中分配一个skb是在__alloc_skb中实现的,接下来我们就来看这个函数的具体实现。

这个函数起始可以看作三部分,第一部分是从cache中分配内存,第二部分是初始化分配的skb的相关域。第三部分是处理fclone

还有一个要注意的就是这里__alloc_skb是被三个函数包装后才能直接使用的,我们只看前两个,一个是skb_alloc_skb,一个是alloc_skb_fclone函数,这两个函数传递进来的第三个参数,也就是fclone前一个是0,后一个是1.

那么这个函数是什么意思呢,它和alloc_skb有什么区别的。

这个函数可以叫做FastSKBcloning函数,这个函数存在的主要原因是,以前我们每次skb_clone一个skb的时候,都是要调用kmem_cache_alloccachealloc一块新的内存。而现在当我们拥有了fastclone之后,通过调用alloc_skb_fclone函数来分配一块大于sizeof(structsk_buff)的内存,也就是在这次请求的skb的下方多申请了一些内存,然后返回的时候设置返回的skbfclone标记为SKB_FCLONE_ORIG,而多申请的那块内存的sk_bufffcloneSKB_FCLONE_UNAVAILABLE,这样当我们调用skb_clone克隆这个skb的时候看到fclone的标记就可以直接将skb的指针+1,而不需要从cache中取了。这样的话节省了一次内存存取,提高了clone的效率,不过调用flcone一般都是我们确定接下来这个skb会被clone很多次。

更详细的fclone的介绍可以看这里:

http://lwn.net/Articles/140552/

这样我们先来看_alloc_skb,然后紧接着看skb_clone,这样就能更好的理解这些。

这里fclone的多分配的内存部分,没太弄懂从那里多分配的,自己对内核的内存子系统还是不太熟悉。觉得应该是skbuff_fclone_cache中会自动多分配些内存。

  1. structsk_buff*__alloc_skb(unsignedintsize,gfp_tgfp_mask,

  2. intfclone,intnode)

  3. {

  4. structkmem_cache*cache;

  5. structskb_shared_info*shinfo;

  6. structsk_buff*skb;

  7. u8*data;

  8. ///这里通过fclone的值来判断是要从fclonecache还是说从headcache中取。

  9. cache=fclone?skbuff_fclone_cache:skbuff_head_cache;

  10. ///首先是分配skb,也就是包头。

  11. skb=kmem_cache_alloc_node(cache,gfp_mask&~__GFP_DMA,node);

  12. if(!skb)

  13. gotoout;

  14. ///首先将size对齐,这里是按一级缓存的大小来对齐。

  15. size=SKB_DATA_ALIGN(size);

  16. ///然后是数据区的大小,大小为size+sizeof(structskb_shared_info的大小。

  17. data=kmalloc_node_track_caller(size+sizeof(structskb_shared_info),

  18. gfp_mask,node);

  19. if(!data)

  20. gotonodata;

  21. ///初始化相关域。

  22. memset(skb,0,offsetof(structsk_buff,tail));

  23. ///这里truesize可以看到就是我们分配的整个skb+data的大小

  24. skb->truesize=size+sizeof(structsk_buff);

  25. ///users加一。

  26. atomic_set(&skb->users,1);

  27. ///一开始headdata是一样大的。

  28. skb->head=data;

  29. skb->data=data;

  30. ///设置tail指针

  31. skb_reset_tail_pointer(skb);

  32. ///一开始tail也就是和data是相同的。

  33. skb->end=skb->tail+size;

  34. kmemcheck_annotate_bitfield(skb,flags1);

  35. kmemcheck_annotate_bitfield(skb,flags2);

  36. #ifdefNET_SKBUFF_DATA_USES_OFFSET

  37. skb->mac_header=~0U;

  38. #endif

  39. ///初始化shinfo,这个我就不介绍了,前面的blog分析切片时,这个结构很详细的分析过了。

  40. shinfo=skb_shinfo(skb);

  41. atomic_set(&shinfo->dataref,1);

  42. shinfo->nr_frags=0;

  43. shinfo->gso_size=0;

  44. shinfo->gso_segs=0;

  45. shinfo->gso_type=0;

  46. shinfo->ip6_frag_id=0;

  47. shinfo->tx_flags.flags=0;

  48. skb_frag_list_init(skb);

  49. memset(&shinfo->hwtstamps,0,sizeof(shinfo->hwtstamps));

  50. ///fclone1,说明多分配了一块内存,因此需要设置对应的fclone域。

  51. if(fclone){

  52. ///可以看到多分配的内存刚好在当前的skb的下方。

  53. structsk_buff*child=skb+1;

  54. atomic_t*fclone_ref=(atomic_t*)(child+1);

  55. kmemcheck_annotate_bitfield(child,flags1);

  56. kmemcheck_annotate_bitfield(child,flags2);

  57. ///设置标记。这里要注意,当前的skb和多分配的skb设置的fclone是不同的。

  58. skb->fclone=SKB_FCLONE_ORIG;

  59. atomic_set(fclone_ref,1);

  60. child->fclone=SKB_FCLONE_UNAVAILABLE;

  61. }

  62. out:

  63. returnskb;

  64. nodata:

  65. kmem_cache_free(cache,skb);

  66. skb=NULL;

  67. gotoout;

  68. }


下图就是alloc_skb之后的skb的指针的状态。这里忽略了fclone

Linux内核中sk_buff分析_第4张图片

然后我们来看skb_clone函数,clone的意思就是只复制skb而不复制data域。

这里它会先判断将要被cloneskbfclone段,以便与决定是否重新分配一块内存来保存skb

然后调用__skb_clone来初始化相关的域。

  1. structsk_buff*skb_clone(structsk_buff*skb,gfp_tgfp_mask)

  2. {

  3. structsk_buff*n;

  4. ///nskb紧跟着那块内存,这里如果skb是通过skb_fclone分配的,那么n就是一个skb

  5. n=skb+1;

  6. ///skbnfclone都要符合要求,可以看到这里的值就是我们在__alloc_skb中设置的值。

  7. if(skb->fclone==SKB_FCLONE_ORIG&&

  8. n->fclone==SKB_FCLONE_UNAVAILABLE){

  9. ///到这里,就说明我们不需要alloc一个skb,直接取n就可以了,并且设置fclone的标记。并修改引用计数。

  10. atomic_t*fclone_ref=(atomic_t*)(n+1);

  11. n->fclone=SKB_FCLONE_CLONE;

  12. atomic_inc(fclone_ref);

  13. }else{

  14. ///这里就需要从cache中取得一块内存。

  15. n=kmem_cache_alloc(skbuff_head_cache,gfp_mask);

  16. if(!n)

  17. returnNULL;

  18. kmemcheck_annotate_bitfield(n,flags1);

  19. kmemcheck_annotate_bitfield(n,flags2);

  20. ///设置新的skbfclone域。这里我们新建的skb,没有被fclone的都是这个标记。

  21. n->fclone=SKB_FCLONE_UNAVAILABLE;

  22. }

  23. return__skb_clone(n,skb);

  24. }


这里__skb_clone就不介绍了,函数就是将要被cloneskb的域赋值给cloneskb

下图就是skb_clone之后的两个skb的结构图:

Linux内核中sk_buff分析_第5张图片

当一个skbclone之后,这个skb的数据区是不能被修改的,这就意为着,我们存取数据不需要任何锁。可是有时我们需要修改数据区,这个时候会有两个选择,一个是我们只修改linear段,也就是headend之间的段,一种是我们还要修改切片数据,也就是skb_shared_info.

这样就有两个函数供我们选择,第一个是pskb_copy,第二个是skb_copy.

我们先来看pskb_copy,函数先alloc一个新的skb,然后调用skb_copy_from_linear_data来复制线性区的数据。

  1. structsk_buff*pskb_copy(structsk_buff*skb,gfp_tgfp_mask)

  2. {

  3. /*

  4. *Allocatethecopybuffer

  5. */

  6. structsk_buff*n;

  7. #ifdefNET_SKBUFF_DATA_USES_OFFSET

  8. n=alloc_skb(skb->end,gfp_mask);

  9. #else

  10. n=alloc_skb(skb->end-skb->head,gfp_mask);

  11. #endif

  12. if(!n)

  13. gotoout;

  14. /*Setthedatapointer*/

  15. skb_reserve(n,skb->data-skb->head);

  16. /*Setthetailpointerandlength*/

  17. skb_put(n,skb_headlen(skb));

  18. ///复制线性数据段。

  19. skb_copy_from_linear_data(skb,n->data,n->len);

  20. ///更新相关域

  21. n->truesize+=skb->data_len;

  22. n->data_len=skb->data_len;

  23. n->len=skb->len;

  24. ///下面只是复制切片数据的指针

  25. if(skb_shinfo(skb)->nr_frags){

  26. inti;

  27. for(i=0;i<skb_shinfo(skb)->nr_frags;i++){

  28. skb_shinfo(n)->frags[i]=skb_shinfo(skb)->frags[i];

  29. get_page(skb_shinfo(n)->frags[i].page);

  30. }

  31. skb_shinfo(n)->nr_frags=i;

  32. }

  33. ...............................

  34. copy_skb_header(n,skb);

  35. out:

  36. returnn;

  37. }


然后是skb_copy,它是复制skb的所有数据段,包括切片数据:

  1. structsk_buff*skb_copy(conststructsk_buff*skb,gfp_tgfp_mask)

  2. {

  3. intheaderlen=skb->data-skb->head;

  4. /*

  5. *Allocatethecopybuffer

  6. */

  7. //alloc一个新的skb

  8. structsk_buff*n;

  9. #ifdefNET_SKBUFF_DATA_USES_OFFSET

  10. n=alloc_skb(skb->end+skb->data_len,gfp_mask);

  11. #else

  12. n=alloc_skb(skb->end-skb->head+skb->data_len,gfp_mask);

  13. #endif

  14. if(!n)

  15. returnNULL;

  16. /*Setthedatapointer*/

  17. skb_reserve(n,headerlen);

  18. /*Setthetailpointerandlength*/

  19. skb_put(n,skb->len);

  20. ///然后复制所有的数据。

  21. if(skb_copy_bits(skb,-headerlen,n->head,headerlen+skb->len))

  22. BUG();

  23. copy_skb_header(n,skb);

  24. returnn;

  25. }

下面这张图就表示了psb_copyskb_copy调用后的内存模型,其中apskb_copy,bskb_copy:

Linux内核中sk_buff分析_第6张图片

Linux内核中sk_buff分析_第7张图片

你可能感兴趣的:(linux)