ip分片与linux实现(整理自网络)

转自:http://blog.chinaunix.net/uid-23849526-id-240157.html。感谢博主!!!

 

ip分片与linux实现(整理自网络)_第1张图片

IP报文格式:

    与分片有关的是'标志'字段,标志字段占3bit。目前只有前两个比特有意义。

       |R|DF|MF| 

       R:保留未用。  

       DF:Don't Fragment,“不分片”位,如果将这一比特置1 ,IP层将不对数据报进行分片。  

       MF:More Fragment,“更多的片”,除了最后一片外,其他每个组成数据报的片都要把该比特置1。

 

IP分片原因:

     链路层具有最大传输单元MTU这个特性,它限制了数据帧的最大长度,不同的网络类型都有一个上限值。以太网的MTU是1500,如果IP层有数据包要传,而且数据包的长度超过了MTU,那么IP层就要对数据包进行分片(fragmentation)操作,使每一片的长度都小于或等于MTU。什么情况,或者说什么协议会尝试发送这么长的数据?常见的有UDP和ICMP,需要特别注意的是,TCP一般不会。为什么TCP不会造成IP分片呢?原因是TCP自身支持分段:当TCP要传输长度超过MSS(Maxitum Segment Size)的数据时,会先对数据进行分段,正常情况下,MSS小于MTU,因此,TCP一般不会造成IP分片。

     而UDP和ICMP就不支持这种分段功能了,UDP和ICMP认为网络层可以传输无限长(实际上有65535的限制)的数据,当这两种协议发送数据时,它们不考虑数据长度,仅在其头部添加UDP或ICMP首部,然后直接交给网络层。接着网络层IP协议对这种“身长头短”的数据进行分片,不要指望IP能很“智能”地识别传给它的数据上层头部在哪里,载荷又在哪里,它会直接将整个的数据切成N个分片,这样做的结果是,只有第一个分片具有UDP或者ICMP首部,而其它分片则没有。

     对于分片,需要拷贝IP首部和选项,以及数据。而选项的拷贝要注意:根据协议标准,某些选项只应当出现在的一个数据包片中,而其他一些则必须出现在所有的数据包中。

  分片可以发生在原始发送端主机上,也可以发生在中间路由器上。

  已经分片过的数据报有可能会再次进行分片(可能不止一次)。

  片偏移字段指的是该片偏移原始数据报开始处的位置

  当数据报被分片后,每个片的总长度值要改为该片的长度值。

  在分片时,除最后一片外,其他每一片中的数据部分(除IP首部外的其余部分)必须是8字节的整数倍。

  另外需要解释几个术语: IP数据报是指IP层端到端的传输单元(在分片之前和重新组装之后),分组是指在IP   层和链路层之间传送的数据单元。一个分组可以是一个完整的IP数据报,也可以是IP数据报的一个分片。

ip分片与linux实现(整理自网络)_第2张图片

linux 内核中的ip碎片重组过程:

   Linux内核的防火墙netfilter就自动对IP碎片包进行了重组,通过查看相关部分的内核源代码,可对IP重组过程有一个详细的了解。

(1) 当内核接收到本地的IP包, 在传递给上层协议处理之前,先进行碎片重组。IP包片段之间的标识号(id)是相同的.当IP包片偏量(frag_off)第14位(IP_MF)为1时, 表示该IP包有后继片段。片偏量的低13位则为该片段在完整数据包中的偏移量, 以8字节为单位.。当IP_MF位为0时,表示IP包是最后一块碎片。

(2) 碎片重组由重组队列完成, 每一重组队列对应于(daddr,saddr,protocol,id)构成的键值,它们存在于ipq结构构成的散列链之中. 重组队列将IP包按照将片段偏移量的顺序进行排列,当所有的片段都到齐后, 就可以将队列中的包碎片按顺序拼合成一个完整的IP包.

(3) 如果30秒后重组队列内包未到齐, 则重组过程失败, 重组队列被释放,同时向发送方以ICMP协议通知失败信息.重组队列的内存消耗不得大于256k(sysctl_ipfrag_high_thresh),否则将会调用(ip_evictor)释放每支散列尾端的重组队列。

 

linux内核中与分片相关的数据结构: 

skb就不介绍了。

结构体ipq链表代表一个分片的信息。

 

/* Describe an entry in the "incomplete datagrams" queue. */

struct ipq {

 struct ipq *next; /* linked list pointers */

 struct list_head lru_list; /* lru list member */

 u32 saddr;

 u32 daddr;

 u16 id;

 u8 protocol; //代表同一个链接

 u8 last_in;

 #define COMPLETE 4 // 数据已经完整

 #define FIRST_IN 2 // 第一个包到达

 #define LAST_IN 1 // 最后一个包到达

 struct sk_buff *fragments; /* linked list of received fragments */

 int len; /* total length of original datagram */

 int meat;//

 spinlock_t lock;

 atomic_t refcnt;

 struct timer_list timer; /* when will this queue expire? */

 struct ipq **pprev;

 int iif;

 struct timeval stamp;

};

系统定义了一个大小为IPQ_HASHSZ=64的ipq_hash表,

static struct ipq *ipq_hash[IPQ_HASHSZ];

每个数组元素就是一个具有相同hash值的链表。每个链表上的节点就代表着同一个链接的IP的碎片, 将这些碎片重新组合即为IP碎片重组。每个IP包用如下四元组表示:(id,saddr,daddr,protocol),四个值都相同的碎片散列到一个ipq链中,即可组装成一个完整的IP包,hash值的计算方法:

#define ipqhashfn(id, saddr, daddr, prot)      ((((id) >> 1) ^ (saddr) ^ (daddr) ^ (prot)) & (IPQ_HASHSZ - 1)) 

下图即为该结构的示意图:

ip分片与linux实现(整理自网络)_第3张图片

 

在内核中实现IP碎片重组的几个关键函数有:

ip_defrag()   net/ipv4/ip_fragment.c

基本过程是建立碎片处理队列,队列中每个节点(struct ipq)是一个链表,这个链表保存同一个连接的碎片,当碎片都到达之后进行数据包重组,或者在一定时间(缺省30秒)内所有碎片包不能到达而释放掉。该函数接受分片的数据包(sk_buff),并试图进行组合,当完整的包组合好时,将新的sk_buff返还,否则返回一个空指针。

ip_frag_queue()

把新到达的分片加入到属于同一链接的节点中。

 

ip_frag_reasm()函数

把属于同一个链接中的所有分片组成一个新的IP数据包。

 

ipq_put()函数

释放节点里的所有分片,然后释放自身节点。

 

ip_find()函数

在hash表中查找属于同一链接的节点,如果没有找到,则新建一个节点。

 

ip_frage_mem()

存储分片的内存,其初始化

 

相关代码及注释:

系统定义了一个大小为IPQ_HASHSZ=64的ipq_hash表,static struct ipq *ipq_hash[IPQ_HASHSZ];每个数组元素就是一个具有相同hash值的链表。每个链表上的节点就代表着同一个链接的IP的碎片。

 

ip_frage_mem 

存储分片的内存,其初始化

什么情况,或者说什么协议会尝试发送这么长的数据?常见的有UDP和ICMP,需要特别注意的是,TCP一般不会。

 

为什么TCP不会造成IP分片呢?原因是TCP自身支持分段:当TCP要传输长度超过MSS(Maxitum Segment Size)的数据时,会先对数据进行分段,正常情况下,MSS小于MTU,因此,TCP一般不会造成IP分片。

 

而UDP和ICMP就不支持这种分段功能了,UDP和ICMP认为网络层可以传输无限长(实际上有65535的限制)的数据,当这两种协议发送数据时,它们不考虑数据长度,仅在其头部添加UDP或ICMP首部,然后直接交给网络层就万事大吉了。接着网络层IP协议对这种“身长头短”的数据进行分片,不要指望IP能很“智能”地识别传给它的数据上层头部在哪里,载荷又在哪里,它会直接将整个的数据切成N个分片,这样做的结果是,只有第一个分片具有UDP或者ICMP首部,而其它分片则没有。

 

相关代码实现:

//处理一个传过来的IP数据报

struct sk_buff *ip_defrag(struct sk_buff *skb)

 

{

 

struct iphdr *iph = skb->nh.iph;

struct ipq *qp;

struct net_device *dev; 

 

IP_INC_STATS_BH(IpReasmReqds);

 

/* Start by cleaning up the memory. */

        //如果用于分片处理的内存空间大于系统规定的最大值256k,那么要进行清洗ip_evictor 

if (atomic_read(&ip_frag_mem) > sysctl_ipfrag_high_thresh)

ip_evictor();

 

        //指定IP包对应设备dev

dev = skb->dev;

 

 

/* Lookup (or create) queue header */

 

if ((qp = ip_find(iph)) != NULL) { //根据HASH值,定位该包在分片链中的位置:

 

struct sk_buff *ret = NULL;

 

 

spin_lock(&qp->lock);

 

 

         //将该分片插入到分片队列中:设置设备,增加meat分片总长度,如果偏移为0则说明是第一个包,置上            FIRST_IN标志。

ip_frag_queue(qp, skb);

 

 

         //检查该分片是否是最后一个分片(分片是否都到齐了,包长度)如果是则进行分片重组调用                    ip_frag_reasm函数

 

if (qp->last_in == (FIRST_IN|LAST_IN) && //首包与尾包已收到

    qp->meat == qp->len) //队列中字节数恰好等于队列尾部

    ret = ip_frag_reasm(qp, dev); //重组碎片

 

          spin_unlock(&qp->lock);

ipq_put(qp);

return ret;

 

}

 

 

 

IP_INC_STATS_BH(IpReasmFails);

kfree_skb(skb);

return NULL;

 

}

 

// 碎片的重组过程

static struct sk_buff *ip_frag_reasm(struct ipq *qp, struct net_device *dev)

 

{

 

struct sk_buff *skb;

struct iphdr *iph;

struct sk_buff *fp, *head = qp->fragments;

int len;

int ihlen;

 

 

 

ipq_kill(qp); //重组前,先删除该分片队列。

 

 

 

BUG_TRAP(head != NULL);

BUG_TRAP(FRAG_CB(head)->offset == 0);

 

        

ihlen = head->nh.iph->ihl*4; //取队列头IP包头长度

len = ihlen + qp->len; //总长度

 

if(len > 65535)

goto out_oversize;

 

 

        //为新的包分配sk_buff结构,填入相应的值:设置新的IP总长度(不能超过65535字节);帧头位置、IP头位置、选项数据

 

skb = dev_alloc_skb(len);

 

if (!skb)

goto out_nomem;

 

/* Fill in the basic details. */

 

skb->mac.raw = skb->data;

skb->nh.raw = skb->data;

FRAG_CB(skb)->h = FRAG_CB(head)->h; //复制IP选项信息

skb->ip_summed = head->ip_summed;

skb->csum = 0;

 

        //拷贝原始的IP头(分片队列的第一个分片中有记录)到新的skb结构

memcpy(skb_put(skb, ihlen), head->nh.iph, ihlen);

 

//循环拷贝:将分片链上的分片skb数据拷贝到新的skb结构中。

for (fp=head; fp; fp = fp->next) {

memcpy(skb_put(skb, fp->len), fp->data, fp->len);

 

        //增加校样值

if (skb->ip_summed != fp->ip_summed)

            skb->ip_summed = CHECKSUM_NONE;

else if (skb->ip_summed == CHECKSUM_HW)

skb->csum = csum_add(skb->csum, fp->csum);

 

}

 

 

        //设置目的地址(克隆)、包类型、协议、设备。

skb->dst = dst_clone(head->dst);

skb->pkt_type = head->pkt_type;

skb->protocol = head->protocol;

skb->dev = dev;

 

/*

 

*  Clearly bogus, because security markings of the individual

 

*  fragments should have been checked for consistency before

 

*  gluing, and intermediate coalescing of fragments may have

 

*  taken place in ip_defrag() before ip_glue() ever got called.

 

*  If we're not going to do the consistency checking, we might

 

*  as well take the value associated with the first fragment.

 

* --rct

 

*/

 

skb->security = head->security;

 

      //进行防火墙处理

#ifdef CONFIG_NETFILTER

/* Connection association is same as fragment (if any). */

skb->nfct = head->nfct;

nf_conntrack_get(skb->nfct);

#ifdef CONFIG_NETFILTER_DEBUG

skb->nf_debug = head->nf_debug;

#endif

 

#endif

 

 

/* Done with all fragments. Fixup the new IP header. */

        //重新设置IP头、将3位标志和13位偏移设置为0、计算总长度。

iph = skb->nh.iph;

iph->frag_off = 0;

iph->tot_len = htons(len);

 

IP_INC_STATS_BH(IpReasmOKs);

return skb;

 

out_nomem:

  NETDEBUG(printk(KERN_ERR 

"IP: queue_glue: no memory for gluing queue %p\n",

 

qp));

goto out_fail;

 

out_oversize:

if (net_ratelimit())

printk(KERN_INFO

"Oversized IP packet from %d.%d.%d.%d.\n",

NIPQUAD(qp->saddr));

 

out_fail:

IP_INC_STATS_BH(IpReasmFails);

return NULL;

 

}

 

 

/在队列中增加新的分片处理过程. */

 

static void ip_frag_queue(struct ipq *qp, struct sk_buff *skb)

 

{

 

struct iphdr *iph = skb->nh.iph;

struct sk_buff *prev, *next;

int flags, offset;

int ihl, end;

 

 

 

if (qp->last_in & COMPLETE)

goto err;

 

      //根据该包的标志位与偏移量:如果是最后一个分片包(但不一定分片完全到齐),设置分片队列长度为原         包的长度;如果是比当前分片靠后的包,改变分片队列的长度;如果是靠前的包。

offset = ntohs(iph->frag_off); //取片偏移量描述字

flags = offset & ~IP_OFFSET; //取片标志

offset &= IP_OFFSET; //求片偏移量

offset <<= 3; /* offset is in 8-byte chunks */

ihl = iph->ihl * 4;

 

 

 

/* Determine the position of this fragment. */

end = offset + (ntohs(iph->tot_len) - ihl); //求该片段尾部的数据偏移量

 

 

/* Is this the final fragment? */

if ((flags & IP_MF) == 0) { //最后一片段

 

/* If we already have some bits beyond end

 

 * or have different end, the segment is corrrupted.

 

 */

 

if (end < qp->len || //最后一个片段的未尾小于队列内最大的未尾

    ((qp->last_in & LAST_IN) && end != qp->len))

goto err;

 

qp->last_in |= LAST_IN;

qp->len = end; //设取队列最大未尾

 

} else { //是中间某个片段

 

if (end&7) { //如果片段尾部不在8字节上对齐

end &= ~7; 

if (skb->ip_summed != CHECKSUM_UNNECESSARY)

skb->ip_summed = CHECKSUM_NONE; 不计算校验和

 

}

 

if (end > qp->len) { ///该片段比队列内其它成员位置要大

/* Some bits beyond end -> corruption. */

if (qp->last_in & LAST_IN)

goto err;

qp->len = end;

 

}

 

}

 

if (end == offset) //片段的数据区长度为零

goto err;

 

 

 

/* Point into the IP datagram 'data' part. */

 

skb_pull(skb, (skb->nh.raw+ihl) - skb->data); //删除IP包的头部

skb_trim(skb, end - offset); //去队尾部可能的衬垫

 

 

/* Find out which fragments are in front and at the back of us

 

 * in the chain of fragments so far.  We must know where to put

 

 * this fragment, right?

 

 */

 

prev = NULL; //扫描重组队列中的包片段,取偏移大于或等于当前包偏移的前一成员作为插入位置

for(next = qp->fragments; next != NULL; next = next->next) {

if (FRAG_CB(next)->offset >= offset)

break; /* bingo! */

prev = next; 

 

}

 

//当前偏移的包

 

/* We found where to put this one.  Check for overlap with

 

 * preceding fragment, and, if needed, align things so that

 

 * any overlaps are eliminated.

 

 */

      //如果该分片不是第一个分片(prev!=null),先消除与前一分片重叠:求prev尾部与当前偏移之差,(该偏移包,不一定就是紧接着的那一个包);再消除与后一分片的重叠,求当前偏移与next重叠之差,如果当前包尾部小于后一包尾部,后一包起点后移,后一分片交叠部分清除,减少分片统计总长度meat;如果后一分片完全包含在此分片中,清除它next,减少分片统计总长度meat。

if (prev) {

int i = (FRAG_CB(prev)->offset + prev->len) - offset; //求prev尾部与当前偏移之差

if (i > 0) { //插入点成员尾部大于当前包开始, 说明当前包与前一包重叠

offset += i; //当前包起点后移

if (end <= offset)

goto err;

skb_pull(skb, i); //删除当前包前部i字节.

if (skb->ip_summed != CHECKSUM_UNNECESSARY)

skb->ip_summed = CHECKSUM_NONE;

 

}

 

}

 

// next是当前包的后一包

 

while (next && FRAG_CB(next)->offset < end) { //后一包与当前包有重叠

int i = end - FRAG_CB(next)->offset; /* overlap is 'i' bytes */

if (i < next->len) { //当前包尾部小于后一包尾部

/* Eat head of the next overlapped fragment

 * and leave the loop. The next ones cannot overlap.

 */

FRAG_CB(next)->offset += i; //后一包起点后移

skb_pull(next, i); //删除后一包i字节

qp->meat -= i; //meat为队列已容纳的总字节数

if (next->ip_summed != CHECKSUM_UNNECESSARY)

next->ip_summed = CHECKSUM_NONE;

break;

 

} else { //当前包尾部大于或等于后一包尾部, 则删除后一包

struct sk_buff *free_it = next;

/* Old fragmnet is completely overridden with

 * new one drop it.

 */

next = next->next;

if (prev)

    prev->next = next; 

else //说明next包是队列首包

          qp->fragments = next; 

 

           qp->meat -= free_it->len;

frag_kfree_skb(free_it);

 

}

 

}

 

 

 

FRAG_CB(skb)->offset = offset; //在skb的cb[]块上记录当前包代表的数据位移

 

 

 

/* Insert this fragment in the chain of fragments. */

       //将该分片插入到分片队列中:设置设备,增加meat分片总长度,如果偏移为0则说明是第一个包,置上FIRST_IN标志。

skb->next = next;

if (prev)

prev->next = skb;

 

else

qp->fragments = skb; //作为首包

 

if (skb->dev)

qp->iif = skb->dev->ifindex; //取包的输入设号号

skb->dev = NULL;

 

qp->meat += skb->len;

atomic_add(skb->truesize, &ip_frag_mem); //truesize为包描述结构与数据区总长

 

if (offset == 0) //首包

qp->last_in |= FIRST_IN; 

return;

err:

kfree_skb(skb);

 

}

 

你可能感兴趣的:(TCP/IP学习)