u011130578

5.1 GRO(Generic Receive Offload)

　　GRO(Generic Receive Offload)的功能将多个 TCP 数据聚合在一个skb结构，然后作为一个大数据包交付给上层的网络协议栈，以减少上层协议栈处理skb的开销，提高系统接收TCP数据包的性能。这个功能需要网卡驱动程序的支持。合并了多个skb的超级 skb能够一次性通过网络协议栈，从而减轻CPU负载。
　GRO是针对网络收包流程进行改进的，并且只有NAPI类型的驱动才支持此功能。因此如果要支持GRO，不仅要内核支持，驱动也必须调用相应的接口来开启此功能。用ethtool -K gro on来开启GRO，如果报错就说明网卡驱动本身就不支持GRO。
　GRO与TSO类似，但TSO只支持发送数据包。支持GRO的驱动会在NAPI的回调poll方法中读取数据包，然后调用GRO的接口napi_gro_receive或者napi_gro_frags来将数据包送进协议栈。

　下面分析GRO处理数据包的流程。网卡驱动在收包时会调用napi_gro_receive函数接收数据：

3863 static void skb_gro_reset_offset(struct sk_buff *skb)
3864 {
3865     const struct skb_shared_info *pinfo = skb_shinfo(skb);
3866     const skb_frag_t *frag0 = &pinfo->frags[0];
3867
3868     NAPI_GRO_CB(skb)->data_offset = 0;
3869     NAPI_GRO_CB(skb)->frag0 = NULL;
3870     NAPI_GRO_CB(skb)->frag0_len = 0;
3871
3872     if (skb->mac_header == skb->tail &&
3873         pinfo->nr_frags &&
3874         !PageHighMem(skb_frag_page(frag0))) {//如果mac_header和skb->tail相等并且地址不在高端内存，则说明包头保存在skb_shinfo中
3875         NAPI_GRO_CB(skb)->frag0 = skb_frag_address(frag0);
3876         NAPI_GRO_CB(skb)->frag0_len = skb_frag_size(frag0);
3877     }
3878 }
3879     
3880 gro_result_t napi_gro_receive(struct napi_struct *napi, struct sk_buff *skb)
3881 {   
3882     skb_gro_reset_offset(skb);
3883
3884     return napi_skb_finish(dev_gro_receive(napi, skb), skb);
3885 }

　　 GRO将数据送进协议栈的点有两处，一个是在napi_skb_finish里，它会通过判断dev_gro_receive的返回值，来决定是否需要将数据包送入进协议栈；还有一个点是当napi的循环执行完毕执行napi_complete的时候。先来看napi_skb_finish 函数：

3836 static gro_result_t napi_skb_finish(gro_result_t ret, struct sk_buff *skb)
3837 {
3838     switch (ret) {
3839     case GRO_NORMAL://将数据包送进协议栈
3840         if (netif_receive_skb(skb))
3841             ret = GRO_DROP;
3842         break;
3843
3844     case GRO_DROP:
3845         kfree_skb(skb);
3846         break;
3847
3848     case GRO_MERGED_FREE://表示skb可以被free，因为GRO已经将skb合并并保存起来
3849         if (NAPI_GRO_CB(skb)->free == NAPI_GRO_FREE_STOLEN_HEAD)
3850             kmem_cache_free(skbuff_head_cache, skb);
3851         else
3852             __kfree_skb(skb);
3853         break;
3854     
3855     case GRO_HELD://这个表示当前数据已经被GRO保存起来，但是并没有进行合并，因此skb还需要保存。
3856     case GRO_MERGED:
3857         break;
3858     }       
3859
3860     return ret;
3861 }

　　dev_gro_receive函数用于合并skb，并决定是否将合并后的大skb送入网络协议栈：

3743 static enum gro_result dev_gro_receive(struct napi_struct *napi, struct sk_buff *skb)
3744 {
3745     struct sk_buff **pp = NULL;    
3746     struct packet_offload *ptype;  
3747     __be16 type = skb->protocol;   
3748     struct list_head *head = &offload_base;
3749     int same_flow;
3750     enum gro_result ret;
3751
3752     if (!(skb->dev->features & NETIF_F_GRO) || netpoll_rx_on(skb))//不支持GRO
3753         goto normal;     
3754
3755     if (skb_is_gso(skb) || skb_has_frag_list(skb))//skb是GSO或skb有非线性空间的数据；这个skb已经是聚合状态了，不需要再次聚合
3756         goto normal;     
3757
3758     gro_list_prepare(napi, skb);//比较GRO队列中的skb与当前skb在链路层是否属于同一个流
3759
3760     rcu_read_lock();
3761     list_for_each_entry_rcu(ptype, head, list) {//遍历GRO处理函数注册队列
3762         if (ptype->type != type || !ptype->callbacks.gro_receive)//查找网络层GRO处理函数
3763             continue;
3764
3765         skb_set_network_header(skb, skb_gro_offset(skb));
3766         skb_reset_mac_len(skb);
3767         NAPI_GRO_CB(skb)->same_flow = 0;
3768         NAPI_GRO_CB(skb)->flush = 0;
3769         NAPI_GRO_CB(skb)->free = 0;
3770
3771         pp = ptype->callbacks.gro_receive(&napi->gro_list, skb);//调用inet_gro_receive或ipv6_gro_receive合并skb
3772         break;
3773     }
3774     rcu_read_unlock();
3775
3776     if (&ptype->list == head)//没有找到处理函数
3777         goto normal;
3778
3779     same_flow = NAPI_GRO_CB(skb)->same_flow;
3780     ret = NAPI_GRO_CB(skb)->free ? GRO_MERGED_FREE : GRO_MERGED;
3781
3782     if (pp) {
3783         struct sk_buff *nskb = *pp;
3784
3785         *pp = nskb->next;
3786         nskb->next = NULL;
3787         napi_gro_complete(nskb);//更新聚合后的skb信息,将包送入协议栈
3788         napi->gro_count--;
3789     }
3790
3791     if (same_flow)//找到与当前skb属与同一个流的skb，此时当前skb已经聚合到所属的流中
3792         goto ok;
3793
3794     if (NAPI_GRO_CB(skb)->flush || napi->gro_count >= MAX_GRO_SKBS)//skb不能聚合或GRO队列已满
3795         goto normal;
3796
3797     napi->gro_count++;
3798     NAPI_GRO_CB(skb)->count = 1;
3799     NAPI_GRO_CB(skb)->age = jiffies;
3800     skb_shinfo(skb)->gso_size = skb_gro_len(skb);
3801     skb->next = napi->gro_list;//将skb是一个新包，在gro_list中没有能与之合并的，需要加入到GRO队列中
3802     napi->gro_list = skb;
3803     ret = GRO_HELD; //存储当前包，不能释放
3804
3805 pull:
3806     if (skb_headlen(skb) < skb_gro_offset(skb)) {//如果头不全部在线性区，则需要将其copy到线性区
3807         int grow = skb_gro_offset(skb) - skb_headlen(skb);
3808
3809         BUG_ON(skb->end - skb->tail < grow);
3810
3811         memcpy(skb_tail_pointer(skb), NAPI_GRO_CB(skb)->frag0, grow);//将第一个页的内容转移到线性空间
3812
3813         skb->tail += grow;
3814         skb->data_len -= grow;
3815
3816         skb_shinfo(skb)->frags[0].page_offset += grow;
3817         skb_frag_size_sub(&skb_shinfo(skb)->frags[0], grow);
3818
3819         if (unlikely(!skb_frag_size(&skb_shinfo(skb)->frags[0]))) {//第一个页的内容已经全部转移到线性空间
3820             skb_frag_unref(skb, 0); //释放页
3821             memmove(skb_shinfo(skb)->frags,
3822                 skb_shinfo(skb)->frags + 1,
3823                 --skb_shinfo(skb)->nr_frags * sizeof(skb_frag_t));//数组内容向前移动
3824         }
3825     }
3826
3827 ok:
3828     return ret;
3829
3830 normal:
3831     ret = GRO_NORMAL;
3832     goto pull;
3833 }

　　 inet_gro_receive 函数是网络层skb聚合处理函数：

1351 static struct sk_buff **inet_gro_receive(struct sk_buff **head,
1352                      struct sk_buff *skb)
1353 {       
1354     const struct net_offload *ops;
1355     struct sk_buff **pp = NULL;
1356     struct sk_buff *p;
1357     const struct iphdr *iph;
1358     unsigned int hlen;
1359     unsigned int off;
1360     unsigned int id;
1361     int flush = 1;
1362     int proto;
1363
1364     off = skb_gro_offset(skb);
1365     hlen = off + sizeof(*iph); //MAC + IP头长度
1366     iph = skb_gro_header_fast(skb, off);
1367     if (skb_gro_header_hard(skb, hlen)) {
1368         iph = skb_gro_header_slow(skb, hlen, off);
1369         if (unlikely(!iph))
1370             goto out;
1371     }
1372
1373     proto = iph->protocol;
1374
1375     rcu_read_lock();
1376     ops = rcu_dereference(inet_offloads[proto]);//找到传输层注册的处理函数
1377     if (!ops || !ops->callbacks.gro_receive)
1378         goto out_unlock;
1379
1380     if (*(u8 *)iph != 0x45)//不是IPv4且头长度不是20字节
1381         goto out_unlock;
1382
1383     if (unlikely(ip_fast_csum((u8 *)iph, 5)))//检验和非法
1384         goto out_unlock;
1385
1386     id = ntohl(*(__be32 *)&iph->id);
1387     flush = (u16)((ntohl(*(__be32 *)iph) ^ skb_gro_len(skb)) | (id ^ IP_DF));
1388     id >>= 16;
1389
1390     for (p = *head; p; p = p->next) {
1391         struct iphdr *iph2;
1392
1393         if (!NAPI_GRO_CB(p)->same_flow)//与当前包不是一个流
1394             continue;
1395
1396         iph2 = ip_hdr(p);
1397
1398         if ((iph->protocol ^ iph2->protocol) |
1399             ((__force u32)iph->saddr ^ (__force u32)iph2->saddr) |
1400             ((__force u32)iph->daddr ^ (__force u32)iph2->daddr)) {//三元组不匹配，与当前包不是一个流
1401             NAPI_GRO_CB(p)->same_flow = 0;
1402             continue;
1403         }
1404
1405         /* All fields must match except length and checksum. */
1406         NAPI_GRO_CB(p)->flush |=
1407             (iph->ttl ^ iph2->ttl) |
1408             (iph->tos ^ iph2->tos) |
1409             ((u16)(ntohs(iph2->id) + NAPI_GRO_CB(p)->count) ^ id);//检查ttl、tos、id顺序，如果不符合则不是一个流
1410
1411         NAPI_GRO_CB(p)->flush |= flush;
1412     }
1413
1414     NAPI_GRO_CB(skb)->flush |= flush;
1415     skb_gro_pull(skb, sizeof(*iph));
1416     skb_set_transport_header(skb, skb_gro_offset(skb));
1417
1418     pp = ops->callbacks.gro_receive(head, skb);//指向tcp4_gro_receive或tcp6_gro_receive
1419
1420 out_unlock:
1421     rcu_read_unlock();
1422
1423 out:
1424     NAPI_GRO_CB(skb)->flush |= flush;
1425
1426     return pp;
1427 }

　　tcp4_gro_receive函数是传输层skb聚合处理函数：

2806 struct sk_buff **tcp4_gro_receive(struct sk_buff **head, struct sk_buff *skb)
2807 {       
2808     const struct iphdr *iph = skb_gro_network_header(skb);
2809     __wsum wsum;
2810     __sum16 sum;
2811
2812     switch (skb->ip_summed) {
2813     case CHECKSUM_COMPLETE:
2814         if (!tcp_v4_check(skb_gro_len(skb), iph->saddr, iph->daddr,
2815                   skb->csum)) {
2816             skb->ip_summed = CHECKSUM_UNNECESSARY;
2817             break;
2818         }
2819 flush:
2820         NAPI_GRO_CB(skb)->flush = 1;
2821         return NULL;
2822     
2823     case CHECKSUM_NONE:
2824         wsum = csum_tcpudp_nofold(iph->saddr, iph->daddr,
2825                       skb_gro_len(skb), IPPROTO_TCP, 0);
2826         sum = csum_fold(skb_checksum(skb,
2827                          skb_gro_offset(skb),
2828                          skb_gro_len(skb),
2829                          wsum));
2830         if (sum)
2831             goto flush;
2832
2833         skb->ip_summed = CHECKSUM_UNNECESSARY;
2834         break;
2835     }
2836
2837     return tcp_gro_receive(head, skb);
2838 }

　　 tcp_gro_receive函数：

3011 struct sk_buff **tcp_gro_receive(struct sk_buff **head, struct sk_buff *skb)
3012 {
3013     struct sk_buff **pp = NULL;
3014     struct sk_buff *p;
3015     struct tcphdr *th;
3016     struct tcphdr *th2;
3017     unsigned int len;
3018     unsigned int thlen;
3019     __be32 flags;
3020     unsigned int mss = 1;
3021     unsigned int hlen;
3022     unsigned int off;
3023     int flush = 1;
3024     int i;
3025
3026     off = skb_gro_offset(skb);
3027     hlen = off + sizeof(*th);
3028     th = skb_gro_header_fast(skb, off);
3029     if (skb_gro_header_hard(skb, hlen)) {
3030         th = skb_gro_header_slow(skb, hlen, off);
3031         if (unlikely(!th))
3032             goto out;
3033     }
3034
3035     thlen = th->doff * 4;
3036     if (thlen < sizeof(*th))
3037         goto out;
3038
3039     hlen = off + thlen;
3040     if (skb_gro_header_hard(skb, hlen)) {
3041         th = skb_gro_header_slow(skb, hlen, off);
3042         if (unlikely(!th))
3043             goto out;
3044     }
3045
3046     skb_gro_pull(skb, thlen);
3047
3048     len = skb_gro_len(skb);
3049     flags = tcp_flag_word(th);
3050
3051     for (; (p = *head); head = &p->next) {
3052         if (!NAPI_GRO_CB(p)->same_flow)//IP层与当前包不是一个流
3053             continue;
3054
3055         th2 = tcp_hdr(p);
3056
3057         if (*(u32 *)&th->source ^ *(u32 *)&th2->source) {//源端口不匹配，与当前包不是一个流
3058             NAPI_GRO_CB(p)->same_flow = 0;
3059             continue;
3060         }
3061
3062         goto found;
3063     }
3064
3065     goto out_check_final;
3066
3067 found:
3068     flush = NAPI_GRO_CB(p)->flush;
3069     flush |= (__force int)(flags & TCP_FLAG_CWR);//发生了拥塞，那么前面被缓存的数据包需要马上被送入协议栈，以便进行TCP的拥塞控制
3070     flush |= (__force int)((flags ^ tcp_flag_word(th2)) &
3071           ~(TCP_FLAG_CWR | TCP_FLAG_FIN | TCP_FLAG_PSH));//如果控制标志位除了CWR、FIN、PSH外有不相同的则需要马上被送入协议栈
3072     flush |= (__force int)(th->ack_seq ^ th2->ack_seq);//确认号不相同则需要马上被送入协议栈，以便尽快释放TCP发送缓存中的空间
3073     for (i = sizeof(*th); i < thlen; i += 4)
3074         flush |= *(u32 *)((u8 *)th + i) ^
3075              *(u32 *)((u8 *)th2 + i);//选项字段不同也不行
3076
3077     mss = skb_shinfo(p)->gso_size;
3078
3079     flush |= (len - 1) >= mss;
3080     flush |= (ntohl(th2->seq) + skb_gro_len(p)) ^ ntohl(th->seq);
3081
3082     if (flush || skb_gro_receive(head, skb)) { //flush非0意味着需要将skb立即送入协议栈；这样的包不能调用skb_gro_receive进行合并
3083         mss = 1;
3084         goto out_check_final;
3085     }
3086
3087     p = *head;
3088     th2 = tcp_hdr(p);
3089     tcp_flag_word(th2) |= flags & (TCP_FLAG_FIN | TCP_FLAG_PSH);
3090
3091 out_check_final:
3092     flush = len < mss;
3093     flush |= (__force int)(flags & (TCP_FLAG_URG | TCP_FLAG_PSH |
3094                     TCP_FLAG_RST | TCP_FLAG_SYN |
3095                     TCP_FLAG_FIN));//如果包中有URG、PSH、RST、SYN、FIN标记中的任意一个，则将合并后的包立即交付协议栈
3096
3097     if (p && (!NAPI_GRO_CB(skb)->same_flow || flush))
3098         pp = head;
3099
3100 out:
3101     NAPI_GRO_CB(skb)->flush |= flush;
3102
3103     return pp;
3104 }

　　这里有一个疑问：为什么匹配TCP流时只检查源端口而不检查目的端口？猜测：因为检查了seq和ack_seq。源IP和源端口相同意味着包来自与同一台主机，这种情况下seq和ack_seq都匹配且目的端口不同的概率极低，所以不用检查目的端口。
　skb_gro_receive函数用于合并同流的skb：

2942 int skb_gro_receive(struct sk_buff **head, struct sk_buff *skb)
2943 {
2944     struct sk_buff *p = *head;
2945     struct sk_buff *nskb;
2946     struct skb_shared_info *skbinfo = skb_shinfo(skb);
2947     struct skb_shared_info *pinfo = skb_shinfo(p);
2948     unsigned int headroom;
2949     unsigned int len = skb_gro_len(skb);
2950     unsigned int offset = skb_gro_offset(skb);
2951     unsigned int headlen = skb_headlen(skb);
2952     unsigned int delta_truesize;
2953
2954     if (p->len + len >= 65536)
2955         return -E2BIG;
2956
2957     if (pinfo->frag_list)　　//frag_list中有skb，证明不支持分散-聚集IO
2958         goto merge;
2959     else if (headlen <= offset) {//有一部分头在page中
2960         skb_frag_t *frag;
2961         skb_frag_t *frag2;
2962         int i = skbinfo->nr_frags;
2963         int nr_frags = pinfo->nr_frags + i;
2964
2965         offset -= headlen;
2966
2967         if (nr_frags > MAX_SKB_FRAGS)
2968             return -E2BIG;
2969
2970         pinfo->nr_frags = nr_frags;
2971         skbinfo->nr_frags = 0;
2972
2973         frag = pinfo->frags + nr_frags;
2974         frag2 = skbinfo->frags + i;
2975         do {//遍历赋值，将skb的frag加到pinfo的frgas后面
2976             *--frag = *--frag2;
2977         } while (--i);
2978
2979         frag->page_offset += offset;//去除剩余的头，只保留数据部分
2980         skb_frag_size_sub(frag, offset);
2981
2982         /* all fragments truesize : remove (head size + sk_buff) */
2983         delta_truesize = skb->truesize -
2984                  SKB_TRUESIZE(skb_end_offset(skb));
2985
2986         skb->truesize -= skb->data_len;
2987         skb->len -= skb->data_len;
2988         skb->data_len = 0;
2989
2990         NAPI_GRO_CB(skb)->free = NAPI_GRO_FREE;
2991         goto done;
2992     } else if (skb->head_frag) {//支持分散-聚集IO
2993         int nr_frags = pinfo->nr_frags;
2994         skb_frag_t *frag = pinfo->frags + nr_frags;
2995         struct page *page = virt_to_head_page(skb->head);
2996         unsigned int first_size = headlen - offset;
2997         unsigned int first_offset;
2998
2999         if (nr_frags + 1 + skbinfo->nr_frags > MAX_SKB_FRAGS)
3000             return -E2BIG;
3001
3002         first_offset = skb->data -
3003                    (unsigned char *)page_address(page) +
3004                    offset;
3005
3006         pinfo->nr_frags = nr_frags + 1 + skbinfo->nr_frags;
3007
3008         frag->page.p      = page;
3009         frag->page_offset = first_offset;
3010         skb_frag_size_set(frag, first_size);
3011
3012         memcpy(frag + 1, skbinfo->frags, sizeof(*frag) * skbinfo->nr_frags);
3013         /* We dont need to clear skbinfo->nr_frags here */
3014
3015         delta_truesize = skb->truesize - SKB_DATA_ALIGN(sizeof(struct sk_buff));
3016         NAPI_GRO_CB(skb)->free = NAPI_GRO_FREE_STOLEN_HEAD;
3017         goto done;
3018     } else if (skb_gro_len(p) != pinfo->gso_size)
3019         return -E2BIG;
3020 //不支持分散-聚集IO，则网卡不会将数据放在skb的frags数组中
3021     headroom = skb_headroom(p);
3022     nskb = alloc_skb(headroom + skb_gro_offset(p), GFP_ATOMIC);//申请新的skb
3023     if (unlikely(!nskb))
3024         return -ENOMEM;
3025
3026     __copy_skb_header(nskb, p);
3027     nskb->mac_len = p->mac_len;
3028
3029     skb_reserve(nskb, headroom);
3030     __skb_put(nskb, skb_gro_offset(p));
3031
3032     skb_set_mac_header(nskb, skb_mac_header(p) - p->data);
3033     skb_set_network_header(nskb, skb_network_offset(p));
3034     skb_set_transport_header(nskb, skb_transport_offset(p));
3035
3036     __skb_pull(p, skb_gro_offset(p));
3037     memcpy(skb_mac_header(nskb), skb_mac_header(p),
3038            p->data - skb_mac_header(p));
3039
3040     skb_shinfo(nskb)->frag_list = p;//将旧GRO队列头放入frag_list队列中
3041     skb_shinfo(nskb)->gso_size = pinfo->gso_size;
3042     pinfo->gso_size = 0;
3043     skb_header_release(p);
3044     NAPI_GRO_CB(nskb)->last = p;
3045
3046     nskb->data_len += p->len;
3047     nskb->truesize += p->truesize;
3048     nskb->len += p->len;
3049
3050     *head = nskb;
3051     nskb->next = p->next;
3052     p->next = NULL;
3053
3054     p = nskb;
3055
3056 merge:
3057     delta_truesize = skb->truesize;
3058     if (offset > headlen) {
3059         unsigned int eat = offset - headlen;
3060
3061         skbinfo->frags[0].page_offset += eat;
3062         skb_frag_size_sub(&skbinfo->frags[0], eat);
3063         skb->data_len -= eat;
3064         skb->len -= eat;
3065         offset = headlen;
3066     }
3067
3068     __skb_pull(skb, offset);
3069
3070     NAPI_GRO_CB(p)->last->next = skb;//将包放入GRO队列中
3071     NAPI_GRO_CB(p)->last = skb;
3072     skb_header_release(skb);
3073
3074 done:
3075     NAPI_GRO_CB(p)->count++;
3076     p->data_len += len;
3077     p->truesize += delta_truesize;
3078     p->len += len;
3079
3080     NAPI_GRO_CB(skb)->same_flow = 1;　　//标识当前skb已经找到同流的skb并进行了合并
3081     return 0;
3082 }

　　可见当网卡支持分散-聚集IO时，GRO会将多个skb合并到一个skb的frag page数组中，否则会合并到skb的的frag_list中。

　　即使在上述流程中skb被放入GRO队列中保存而没有被立即送入协议栈，它们也不会在队列中滞留太长时间，因为在收包软中断中会调用napi_gro_flush函数将GRO队列中的包送入协议栈：

3696 void napi_gro_flush(struct napi_struct *napi, bool flush_old)
3697 {
3698     struct sk_buff *skb, *prev = NULL;
3699
3700     /* scan list and build reverse chain */
3701     for (skb = napi->gro_list; skb != NULL; skb = skb->next) {//按照从老到新的顺序构建链表
3702         skb->prev = prev;
3703         prev = skb;      
3704     }
3705
3706     for (skb = prev; skb; skb = prev) {
3707         skb->next = NULL;
3708
3709         if (flush_old && NAPI_GRO_CB(skb)->age == jiffies)//只交付老的包且当前包是刚刚加入的
3710             return;      
3711
3712         prev = skb->prev;
3713         napi_gro_complete(skb);  //将包送入协议栈     
3714         napi->gro_count--;
3715     }
3716
3717     napi->gro_list = NULL;
3718 }

　　包加入GRO队列的时间比当前仅晚1个jiffies也会被视作旧包并交付协议栈处理，可见如果软中断每个jiffies都调用一次napi_gro_flush函数的话，开启GRO功能最多增加1个jiffies（1ms或10ms）的延迟 .
　　 napi_gro_complete 函数会先处理一下聚合包各层协议的首部信息，再将包交付网络协议栈：

3658 static int napi_gro_complete(struct sk_buff *skb)
3659 {                   
3660     struct packet_offload *ptype;
3661     __be16 type = skb->protocol;
3662     struct list_head *head = &offload_base;
3663     int err = -ENOENT;
3664
3665     BUILD_BUG_ON(sizeof(struct napi_gro_cb) > sizeof(skb->cb));
3666     
3667     if (NAPI_GRO_CB(skb)->count == 1) {
3668         skb_shinfo(skb)->gso_size = 0;
3669         goto out;
3670     }
3671
3672     rcu_read_lock();
3673     list_for_each_entry_rcu(ptype, head, list) {
3674         if (ptype->type != type || !ptype->callbacks.gro_complete)
3675             continue;
3676     
3677         err = ptype->callbacks.gro_complete(skb);//指向inet_gro_complete或ipv6_gro_complete
3678         break;
3679     }
3680     rcu_read_unlock();
3681
3682     if (err) {
3683         WARN_ON(&ptype->list == head);
3684         kfree_skb(skb);
3685         return NET_RX_SUCCESS;
3686     }
3687
3688 out:
3689     return netif_receive_skb(skb);//进入网络协议栈
3690 }

　　inet_gro_receive函数处理网络层首部信息：

1429 static int inet_gro_complete(struct sk_buff *skb)
1430 {
1431     __be16 newlen = htons(skb->len - skb_network_offset(skb));
1432     struct iphdr *iph = ip_hdr(skb);
1433     const struct net_offload *ops;
1434     int proto = iph->protocol;
1435     int err = -ENOSYS;   
1436
1437     csum_replace2(&iph->check, iph->tot_len, newlen);//重新计算IP检验和，因为聚合在一起的包共用一个IP头
1438     iph->tot_len = newlen;//重新计算包长
1439
1440     rcu_read_lock();     
1441     ops = rcu_dereference(inet_offloads[proto]);
1442     if (WARN_ON(!ops || !ops->callbacks.gro_complete))
1443         goto out_unlock;
1444
1445     err = ops->callbacks.gro_complete(skb);//指向tcp4_gro_complete或tcp6_gro_complete
1446
1447 out_unlock:
1448     rcu_read_unlock();
1449
1450     return err;
1451 }

　　tcp4_gro_complete函数处理TCP首部信息：

2840 int tcp4_gro_complete(struct sk_buff *skb)
2841 {
2842     const struct iphdr *iph = ip_hdr(skb);
2843     struct tcphdr *th = tcp_hdr(skb);
2844     
2845     th->check = ~tcp_v4_check(skb->len - skb_transport_offset(skb),
2846                   iph->saddr, iph->daddr, 0);//重算聚合后的包的TCP检验和
2847     skb_shinfo(skb)->gso_type = SKB_GSO_TCPV4;
2848
2849     return tcp_gro_complete(skb);
2850 }

　　 tcp_gro_complete函数：

3107 int tcp_gro_complete(struct sk_buff *skb)
3108 {       
3109     struct tcphdr *th = tcp_hdr(skb);
3110
3111     skb->csum_start = skb_transport_header(skb) - skb->head;
3112     skb->csum_offset = offsetof(struct tcphdr, check);
3113     skb->ip_summed = CHECKSUM_PARTIAL;
3114         
3115     skb_shinfo(skb)->gso_segs = NAPI_GRO_CB(skb)->count;
3116
3117     if (th->cwr)
3118         skb_shinfo(skb)->gso_type |= SKB_GSO_TCP_ECN;
3119
3120     return 0;
3121 }

　　可见，GRO的基本原理是将MAC层、IP层和TCP层都能合并的包的头只留一个，数据部分在frag数组或frag_list中存储，这样大大提高了包携带数据的效率。
　在完成GRO处理后，skb会被交付到Linux网络协议栈入口进行协议处理。聚合后的skb在被送入到网络协议栈后，在网络层协议、TCP协议处理函数中会调用pskb_may_pull函数将GRO skb的数据整合到线性空间：

1961 int tcp_v4_rcv(struct sk_buff *skb)
1962 {
1963     const struct iphdr *iph;
1964     const struct tcphdr *th;
1965     struct sock *sk;
1966     int ret;
1967     struct net *net = dev_net(skb->dev);
1968 
1969     if (skb->pkt_type != PACKET_HOST)
1970         goto discard_it;
1971 
1972     /* Count it even if it's bad */
1973     TCP_INC_STATS_BH(net, TCP_MIB_INSEGS);
1974 
1975     if (!pskb_may_pull(skb, sizeof(struct tcphdr)))   //将TCP基本首部整合到线性空间
1976         goto discard_it;
1977 
1978     th = tcp_hdr(skb);
1979 
1980     if (th->doff < sizeof(struct tcphdr) / 4)
1981         goto bad_packet;
1982     if (!pskb_may_pull(skb, th->doff * 4))  //将TCP全部首部数据整合到线性空间
1983         goto discard_it;
...

　　pskb_may_pull函数：

1459 static inline int pskb_may_pull(struct sk_buff *skb, unsigned int len)
1460 {
1461     if (likely(len <= skb_headlen(skb))) //线性区中的数据长度够pull len个字节
1462         return 1;
1463     if (unlikely(len > skb->len)) //skb中数据总长度小于len，包异常
1464         return 0;
1465     return __pskb_pull_tail(skb, len - skb_headlen(skb)) != NULL; //需要增加线性区中的数据
1466 }

　　__pskb_pull_tail函数：

1453 unsigned char *__pskb_pull_tail(struct sk_buff *skb, int delta)
1454 {
1455     /* If skb has not enough free space at tail, get new one
1456      * plus 128 bytes for future expansions. If we have enough
1457      * room at tail, reallocate without expansion only if skb is cloned.
1458      */
1459     int i, k, eat = (skb->tail + delta) - skb->end;
1460     
1461     if (eat > 0 || skb_cloned(skb)) {//如果空间不足或是有共享空间
1462         if (pskb_expand_head(skb, 0, eat > 0 ? eat + 128 : 0,
1463                      GFP_ATOMIC))//扩展线性空间
1464             return NULL;
1465     }
1466
1467     if (skb_copy_bits(skb, skb_headlen(skb), skb_tail_pointer(skb), delta))//将非线性空间中的数据填充到线性空间
1468         BUG();
1469         
1470     /* Optimization: no fragments, no reasons to preestimate
1471      * size of pulled pages. Superb.
1472      */
1473     if (!skb_has_frag_list(skb))//frag_list中没有skb
1474         goto pull_pages;
1475
1476     /* Estimate size of pulled pages. */
1477     eat = delta;
1478     for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {
1479         int size = skb_frag_size(&skb_shinfo(skb)->frags[i]);
1480
1481         if (size >= eat)//仅使用frags中的数据就填满了pull的长度
1482             goto pull_pages;
1483         eat -= size;
1484     }
1485                 
1486     /* If we need update frag list, we are in troubles.
1487      * Certainly, it possible to add an offset to skb data,
1488      * but taking into account that pulling is expected to
1489      * be very rare operation, it is worth to fight against
1490      * further bloating skb head and crucify ourselves here instead.
1491      * Pure masohism, indeed. 8)8)
1492      */
1493     if (eat) {//整理frag_list队列
1494         struct sk_buff *list = skb_shinfo(skb)->frag_list;
1495         struct sk_buff *clone = NULL;
1496         struct sk_buff *insp = NULL;
1497
1498         do {
1499             BUG_ON(!list);
1500
1501             if (list->len <= eat) {
1502                 /* Eaten as whole. */
1503                 eat -= list->len;
1504                 list = list->next;
1505                 insp = list;
1506             } else {
1507                 /* Eaten partially. */
1508
1509                 if (skb_shared(list)) {
1510                     /* Sucks! We need to fork list. :-( */
1511                     clone = skb_clone(list, GFP_ATOMIC);
1512                     if (!clone)
1513                         return NULL;
1514                     insp = list->next;
1515                     list = clone;
1516                 } else {
1517                     /* This may be pulled without
1518                      * problems. */
1519                     insp = list;
1520                 }
1521                 if (!pskb_pull(list, eat)) {
1522                     kfree_skb(clone);
1523                     return NULL;
1524                 }
1525                 break;
1526             }
1527         } while (eat);
1528
1529         /* Free pulled out fragments. */
1530         while ((list = skb_shinfo(skb)->frag_list) != insp) {//释放已经合并的skb
1531             skb_shinfo(skb)->frag_list = list->next;
1532             kfree_skb(list);
1533         }
1534         /* And insert new clone at head. */
1535         if (clone) {
1536             clone->next = list;
1537             skb_shinfo(skb)->frag_list = clone;
1538         }
1539     }
1540     /* Success! Now we may commit changes to skb data. */
1541
1542 pull_pages:
1543     eat = delta;
1544     k = 0;
1545     for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {
1546         int size = skb_frag_size(&skb_shinfo(skb)->frags[i]);
1547
1548         if (size <= eat) {//释放已经合并的page
1549             skb_frag_unref(skb, i);
1550             eat -= size;
1551         } else {
1552             skb_shinfo(skb)->frags[k] = skb_shinfo(skb)->frags[i];
1553             if (eat) {
1554                 skb_shinfo(skb)->frags[k].page_offset += eat;
1555                 skb_frag_size_sub(&skb_shinfo(skb)->frags[k], eat);
1556                 eat = 0;
1557             }
1558             k++;
1559         }
1560     }
1561     skb_shinfo(skb)->nr_frags = k;
1562
1563     skb->tail     += delta;
1564     skb->data_len -= delta;
1565
1566     return skb_tail_pointer(skb);
1567 }

　　 skb_copy_bits函数的功能是将非线性空间中的数据填充到线性空间：

1585 int skb_copy_bits(const struct sk_buff *skb, int offset, void *to, int len)
1586 {   
1587     int start = skb_headlen(skb);
1588     struct sk_buff *frag_iter;
1589     int i, copy;
1590
1591     if (offset > (int)skb->len - len)
1592         goto fault;
1593
1594     /* Copy header. */
1595     if ((copy = start - offset) > 0) {
1596         if (copy > len)
1597             copy = len;
1598         skb_copy_from_linear_data_offset(skb, offset, to, copy);
1599         if ((len -= copy) == 0)
1600             return 0;
1601         offset += copy;
1602         to     += copy;
1603     }       
1604                 
1605     for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {//将frags数组中数据整理到线性区
1606         int end;
1607         skb_frag_t *f = &skb_shinfo(skb)->frags[i];
1608
1609         WARN_ON(start > offset + len);
1610
1611         end = start + skb_frag_size(f);
1612         if ((copy = end - offset) > 0) {
1613             u8 *vaddr;
1614
1615             if (copy > len)
1616                 copy = len;
1617
1618             vaddr = kmap_atomic(skb_frag_page(f));
1619             memcpy(to,
1620                    vaddr + f->page_offset + offset - start,
1621                    copy);//复制页中数据到线性区
1622             kunmap_atomic(vaddr);
1623
1624             if ((len -= copy) == 0)//copy的长度如果达到了要pull的长度，则可以结束了
1625                 return 0;
1626             offset += copy;
1627             to     += copy;
1628         }
1629         start = end;
1630     }
1631
1632     skb_walk_frags(skb, frag_iter) {//frags队列中的page都已经合入线性区，但还是没有凑够要pull的长度，需要整理frag_list队列
1633         int end;
1634
1635         WARN_ON(start > offset + len);
1636
1637         end = start + frag_iter->len;
1638         if ((copy = end - offset) > 0) {
1639             if (copy > len)
1640                 copy = len;
1641             if (skb_copy_bits(frag_iter, offset - start, to, copy))
1642                 goto fault;
1643             if ((len -= copy) == 0)//copy的长度如果达到了要pull的长度，则可以结束了
1644                 return 0;
1645             offset += copy;
1646             to     += copy;
1647         }
1648         start = end;
1649     }
1650
1651     if (!len)
1652         return 0;
1653
1654 fault:
1655     return -EFAULT;
1656 }

　　pskb_may_pull的整合保证了TCP首部数据全部被放入线性空间，从而使GRO不影响TCP协议的处理。在应用进程使用系统调用收数据时，会将仍然分散在不连续空间中的数据copy到应用进程的缓存空间中。应用进程会使用tcp_recvmsg函数收取数据：

1545 int tcp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,
1546         size_t len, int nonblock, int flags, int *addr_len)
1547 {   
1548     struct tcp_sock *tp = tcp_sk(sk);
...
1856                 err = skb_copy_datagram_iovec(skb, offset,
1857                         msg->msg_iov, used);//copy数据到用户缓存
...

　　 skb_copy_datagram_iovec函数可以将skb的线性区和非线性区中的数据全部copy进用户缓存，Linux以GRO方式接收的数据会在这个函数中全部交付应用进程：

314 int skb_copy_datagram_iovec(const struct sk_buff *skb, int offset,
315                 struct iovec *to, int len)
316 {
317     int start = skb_headlen(skb);
318     int i, copy = start - offset;
319     struct sk_buff *frag_iter;
320
321     trace_skb_copy_datagram_iovec(skb, len);
322
323     /* Copy header. */
324     if (copy > 0) {
325         if (copy > len)
326             copy = len;
327         if (memcpy_toiovec(to, skb->data + offset, copy))//copy线性区中的数据
328             goto fault;
329         if ((len -= copy) == 0)
330             return 0;
331         offset += copy;
332     }
333
334     /* Copy paged appendix. Hmm... why does this look so complicated? */
335     for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {
336         int end;
337         const skb_frag_t *frag = &skb_shinfo(skb)->frags[i];
338
339         WARN_ON(start > offset + len);
340
341         end = start + skb_frag_size(frag);
342         if ((copy = end - offset) > 0) {
343             int err;
344             u8  *vaddr;
345             struct page *page = skb_frag_page(frag);
346
347             if (copy > len)
348                 copy = len;
349             vaddr = kmap(page);            
350             err = memcpy_toiovec(to, vaddr + frag->page_offset +
351                          offset - start, copy);//copy frags数组中存放的page里的数据
352             kunmap(page);
353             if (err)      
354                 goto fault;
355             if (!(len -= copy))                
356                 return 0;
357             offset += copy;
358         }
359         start = end;
360     }
361
362     skb_walk_frags(skb, frag_iter) {
363         int end;
364
365         WARN_ON(start > offset + len);
366
367         end = start + frag_iter->len;
368         if ((copy = end - offset) > 0) {
369             if (copy > len)
370                 copy = len;
371             if (skb_copy_datagram_iovec(frag_iter,
372                             offset - start,
373                             to, copy))//copy挂在frag_list中的数据
374                 goto fault;
375             if ((len -= copy) == 0)
376                 return 0;
377             offset += copy;
378         }
379         start = end;
380     }
381     if (!len)
382         return 0;
383
384 fault:
385     return -EFAULT;
386 }

　　至此，GRO的功能全部完成。

你可能感兴趣的:(tcp,linux内核)

【策划所需编程知识】叫我六胖子笔记游戏
1、TCP与UDP名称TCPUDP方式先奏后斩先斩后奏优点防外挂，慢但不出错用户体验好常用游戏MMORPGFPS、MOBA、IO类2、弱联网与实时联网名称弱联网实时联网方式只在必要时链接频率很高特点频率低频率高特点对宽带要求不高对宽带要求高常用游戏卡牌、放置挂机、轻度休闲、SLGFPS、MOBA、IO类
linux日志文件详解 MagnumOvO 云计算 linux 5G linux 运维 centos
目录一、日志文件的分类二、日志文件位置三、常见日志文件1.分析日志文件2.内核及系统日志四、日志消息等级五、日志文件分析1.用户日志2.程序日志六、日志分析注意事项一、日志文件的分类日志文件是用于记录Linux系统中各种运行消息的文件,相当于Linux主机的“日记”。不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等·日志文件对于诊断和解决系统中的问题很有帮助,因为
Linux系统日志管理多肉葡萄～ linux 运维服务器
日志文件作用日志文件用于记录linux系统的各种运行信息的文件，相当于linux主机的日记，不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等。日志文件对于诊断和解决问题很有帮助，因为linux运行的程序通常把系统的消息和错误写入对应的日志文件，这样系统可以有据可查，此外,当主机遭受攻击时,日志文件还可以帮助寻找攻击者留下的痕迹。几种日志管理工具的介绍在Linux系
RPC与HTTP API对比漫谈网络 NetDevOps 智联空间 rpc http 网络协议
一、核心流程对比环节RPCHTTPAPI调用方式调用远程函数/方法（如userService.getUser(123)）调用远程端点（如GET/users/123）参数传递通过序列化直接传递编程语言对象通过URL参数、Header或Body传递结构化数据网络传输通常基于TCP/UDP+二进制协议（如gRPC的HTTP/2）基于HTTP/HTTPS文本协议数据封装由框架自动处理序列化/反序列化需手动
Linux设备驱动开发详解 - 基于Linux 4.0内核
Linux设备驱动开发详解-基于Linux4.0内核去发现同类优质开源项目:https://gitcode.com/欢迎使用《Linux设备驱动开发详解》资源库本资源库致力于为Linux设备驱动开发者提供一份基于Linux4.0内核的详细指南和实践材料。随着Linux内核不断迭代，理解并掌握其最新特性和驱动开发的方法论变得尤为重要。本项目特别针对那些想要深入了解Linux内核机制、尤其是驱动程序开
Linux 设备树详解：从概念到实战 Jay_515 Linux 学习嵌入式 linux 设备树
关键词：设备树（DeviceTree）、DTS、DTC、DTB、嵌入式Linux驱动开发为什么需要设备树？在旧版Linux内核中，硬件信息（如内存映射、外设地址、中断号等）直接硬编码在内核源码中。这导致：内核臃肿，需为不同硬件编译不同版本硬件变动需重新编译内核代码冗余严重（一个board-*.c文件对应一块开发板）设备树（DeviceTree）的引入彻底解决了这一问题！它通过描述硬件拓扑结构的文本
Linux 驱动开发详解：从入门到实践 Jay_515 Linux 学习 linux 驱动嵌入式
本文带你深入理解Linux内核驱动的核心机制，掌握从零编写字符设备驱动的完整流程一、Linux驱动概述：内核与硬件的桥梁Linux驱动是操作系统内核的一部分，负责管理硬件设备并向上层应用程序提供统一接口。其核心价值在于：抽象硬件细节：让应用程序无需关心硬件具体实现统一设备接口：通过标准接口（如字符设备、块设备）访问硬件内核级资源管理：直接操作硬件寄存器，管理中断、DMA等Linux驱动的类型：驱动
既然 IP 层会分片，为什么 TCP 层还需要 MSS 呢？ chirrupy_hamal 网络网络 tcp ip
没有MSS的情况下，如果IP层有一个大小超过MTU的数据报，需要先对其进行分片再发送，目标主机接收后由IP层负责重组，接下来交给上一层，也就是TCP层当其中某个IP分片丢失后，接收主机的IP层就无法组装成一个完整的数据报，也就无法交给TCP层，进而接收方也就不会响应ACK给发送方，发送方迟迟收不到接收方的ACK就会触发「超时重传」机制，重传整个TCP段，而不是仅重传那个丢失的IP分片
springboot 集成mqtt 以bytes收发消息
springboot集成mqtt，且订阅和推送消息全部以bytesmaven加入依赖org.springframework.integrationspring-integration-streamorg.springframework.integrationspring-integration-mqttapplication.yml添加配置参数spring:#mqttmqtt:url:tcp://
fps游戏中网络同步优化方案你一身傲骨怎能输 Unity游戏性能优化游戏网络
在FPS（第一人称射击）游戏中，网络同步是确保所有玩家在游戏世界中看到一致状态的关键技术。网络延迟和丢包等问题可能导致玩家之间的游戏体验不一致，影响游戏的公平性和乐趣。以下是一些优化网络同步的方案：使用UDP协议:由于UDP协议比TCP协议有更低的延迟，它通常被用于实时游戏网络通信。客户端预测（ClientPrediction）:客户端可以预测玩家的移动和操作，而不是等待服务器的确认，这样可以减少
【软考】计算机网络 - TCP协议本本本添哥 008 -联网协议与网络通信编程 013 -软考学习（计算机基础）计算机网络网络服务器
一、TCP协议详解传输控制协议(TCP)是一种面向连接的、可靠的、基于字节流的传输层通信协议。它确保了数据包能够按照发送顺序无差错地到达接收方，并且提供了流量控制和拥塞控制机制来保证网络效率。面向连接：在数据传输之前，必须先建立一个连接。这个过程称为三次握手。可靠的数据传输：通过确认应答(ACK)机制来实现。如果发送方没有收到接收方的确认信息，则会重发该数据段。按序传递：每个数据段都带有序号，确保
【网络】Linux 内核优化实战 - net.ipv4.tcp_mem 锅锅来了 Linux性能优化原理和实战网络 tcp/ip linux
目录参数结构与含义与缓冲区大小参数的区别内存管理机制详解1.内存使用状态与触发逻辑2.与其他参数的协同关系典型调整场景与配置示例场景1：高并发低带宽服务（如API网关，数万连接但单连接流量小）场景2：高带宽低并发服务（如文件服务器，少量连接但流量大）场景3：防止突发流量导致OOM验证与监控方法注意事项与常见误区总结net.ipv4.tcp_mem是Linux内核中控制TCP内存分配和管理的重要参数
【网络】Linux 内核优化实战 - net.core.netdev_max_backlog 锅锅来了 Linux性能优化原理和实战网络 linux
目录Linux内核参数`net.core.netdev_max_backlog`详解一、参数概述二、参数功能与作用2.1核心功能2.2网络数据包处理流程三、查看当前参数值3.1通过`sysctl`命令3.2直接读取`/proc/sys`文件四、修改参数值4.1临时修改（立即生效，重启后失效）4.2永久修改（推荐）五、合理设置netdev_max_backlog的建议5.1根据网络设备性能调整5.2
深入浅出：KVM虚拟机连接LinuxBridge完全指南来自于狂人云计算
在虚拟化的世界里，网络连接如同现实世界的道路系统，而LinuxBridge就是那座关键的桥梁。本文将带你亲手搭建这座桥梁，让KVM虚拟机畅通无阻。一、核心概念：理解虚拟化网络的基石在动手配置前，我们需要理解几个关键概念：KVM(Kernel-basedVirtualMachine)基于Linux内核的完全虚拟化解决方案通过/dev/kvm接口直接使用硬件虚拟化扩展典型工具栈：libvirt+QEM
速通KVM(云计算学习指南）来自于狂人云计算
第一章云端的变形金刚：KVM的云计算基因1.1云计算与KVM的共生关系想象一下，你有一台魔法服务器，它能像变形金刚一样随时分解成多台独立的小服务器，又能瞬间合体恢复原状——这就是KVM在云计算中扮演的角色。作为Linux内核的原生虚拟化引擎，KVM完美诠释了云计算的三大核心特性：KVM能力KVM能力KVM能力云计算核心需求资源池化弹性伸缩安全隔离将物理服务器拆分为多个虚拟机毫秒级虚拟机创建/销毁硬
C#上位机开发进阶：多协议融合通信（S7、Modbus TCP、OPC UA）与西门子PLC联动威哥说编程网络 tcp/ip 网络协议 c#服务器开发语言
随着工业自动化和智能制造的快速发展，不同协议的设备和系统需要高效协同工作。这不仅要求我们能够与西门子PLC等设备进行有效通信，还需要能够跨越不同协议进行数据交换和设备控制。S7协议、ModbusTCP协议以及OPCUA协议是工业自动化领域中广泛应用的协议，而C#作为强大的开发语言，提供了丰富的库和工具来实现这些协议的融合通信。本文将通过实际示例，介绍如何在C#中实现多协议融合通信（S7、Modbu
【鸿蒙OS】在华为鸿蒙操作系统上开发基于Python的PyQt桌面应用
在华为鸿蒙操作系统上开发基于Python的PyQt桌面应用在鸿蒙系统上开发PyQt桌面应用需要特定的配置和适配，以下是详细技术指南：一、环境准备与兼容性说明1.系统兼容性支持版本：仅适用于搭载Linux内核的鸿蒙设备（如华为部分开发板）架构限制：需匹配设备CPU架构（ARM/x86）图形支持：需要X11或Wayland图形服务支持2.基础环境配置#安装必要依赖sudoapt-getupdatesu
docker部署redis集群 qq_31292011 docker redis 容器
Redis集群核心特性表特性说明数据分片16384个哈希槽均匀分布，每个键通过CRC16算法映射到特定槽位高可用性主节点故障时，从节点自动升级为主节点，故障转移时间6379/tcp,:::6379->6379/tcpredis01a184f2561514myredis:v1.0"/redis/redis-server…"25secondsagoUp23seconds(healthy)6379/tc
DPDK（mtcp）vs RDMA/ROCE weixin_34396103 网络
0.缠论：http://52investing.com/1.简书.DPDK：http://www.jianshu.com/p/dcb6ccc83ea52.mTCP和DPDK构造百万千万并发TCP连接3.基于SoftRoCE了解RDMA4.RoCE与RDMA技术:http://support.huawei.com/huaweiconnect/enterprise/thread-329081.html
网络数据包捕获工具源码解析与实战铭信
本文还有配套的精品资源，点击获取简介：本文介绍了抓包工具源码的重要性，主要用于网络分析、故障排查和安全监控。重点讨论了libcap和tcpdump这两个关键组件，它们分别提供了Linux内核能力接口的用户空间访问和命令行网络嗅探功能。通过分析libcap1.7.4和tcpdump4.7.4的源代码，开发者可以深入理解网络编程和数据包捕获机制，以及如何与libcap交互来实现网络数据包的捕获和解析。
Linux ss(Socket Statistics) 命令详解张太行_ linux 运维服务器
Linuxss命令详解ss(SocketStatistics)是Linux系统中的一个强大工具，用于查看套接字(socket)统计信息。它是传统netstat命令的现代替代品，速度更快且功能更强大。基本用法ss[options]常用选项显示所有连接ss-a#显示所有连接(监听和非监听)按协议过滤ss-t#TCP连接ss-u#UDP连接ss-w#RAW连接ss-x#UNIX域套接字显示监听端口ss-
C语言实现手动封装数据包发送并解析神里绫华的小td c语言开发语言
本文章的学习旨在完成手动封装以太网头部，外层IP头部，GRE头部，内层IP头部以及TCP头部的内容，并将数据发送给服务端，服务端接收后手动解析数据包的内容并打印出来。GREVPN（GenericRoutingEncapsulation）通用路由封装协议，是对某些网络层协议（如IP和IPX）的数据报进行封装，使这些被封装的数据报能够在另一个网络层协议（如IP）中传输。GRE是VPN（VirtualP
Ubuntu网络数据包发送工具大全张太行_ ubuntu 网络 linux
在Ubuntu系统中，有多种工具可以用于发送网络数据包，包括UDP、TCP、ICMP等协议。以下是一些常用的工具及其简要介绍：1.PacketSender功能：支持发送和接收TCP、UDP和SSL数据包，提供图形界面和命令行工具。安装：sudoapt-getupdatesudoapt-getinstallpacketsender特点：开源且跨平台（Windows、Linux、Mac）。支持ASCI
Linux网络协议栈的基石：深入剖析inet_hashtables.c的高效设计 109702008 编程 #C语言网络 linux 网络协议人工智能
百万并发连接的背后，是哈希表与锁的精妙博弈在Linux网络协议栈中，inet_hashtables.c是实现TCP/IP协议高性能的核心模块。它通过三层哈希表结构管理海量套接字，支撑百万级并发连接。本文将深入解析其设计思想与关键实现。一、哈希表分层设计：连接管理的基石Linux内核通过三层哈希结构管理套接字，应对不同场景：绑定哈希表（bhash）：管理端口绑定关系structinet_bind_b
Linux内核初始化机制：__init与initcall深度解析 109702008 编程 #C语言网络 linux 人工智能网络
Linux内核启动过程中，如何高效管理数百个初始化函数并优化内存使用？核心在于__init标记和initcall机制的完美配合。本文将深入剖析这一精妙设计。一、__init：内核初始化的记忆体标记__init宏是Linux内核启动优化的核心设计，其本质是编译器指令：#define__init__section(".init.text")__cold通过此标记，内核实现两大功能：内存生命周期管理：将
EMQ X 认证鉴权（二）- EMQ X 中 MQTT 连接认证核心概念与配置要点 EMQX 认证鉴权
前言安全保护几乎对于所有的项目都是一个挑战，对于物联网项目更是如，自普及应用以来物联网业内已经发生过多起安全事故。作为物联网通信协议事实标准，**MQTT协议**保持着较高的安全性，提供了多层次的安全设计：传输层：MQTT基于TCP/IP协议，可以在传输层上使用SSL/TLS进行加密传输：使用SSL/TLS加密通信数据，防止中间人攻击；使用客户端证书作为设备身份凭证，验证设备合法性。应用层：使用M
从TCP到MQTT再到HTTP：一文读懂网络协议的核心差异与关系豆豆（前端开发+ui设计）网络协议 tcp/ip http
TCP、MQTT、HTTP是网络通信中不同层次的协议，它们在功能和应用场景上有显著区别，同时也存在一定的关联。以下是它们的详细对比和关系说明：1.TCP（传输控制协议）定位：传输层协议（OSI第4层）。作用：提供可靠的、面向连接的数据传输，确保数据按序到达、不丢失、不重复。特点：三次握手建立连接，四次挥手断开连接。流量控制、拥塞控制机制。无应用层语义（仅传输字节流，不关心内容）。典型应用：作为底层
webman 利用tcp 做服务端对接物联网两个人的幸福online tcp/ip android 网络协议
用webman建立tcp的服务端安装webman安装composerrequirewebman/gateway-worker文件：config/plugin/webman/gateway-worker/process.php这里定义了两个协议，tcp用来对接物联网，ws用来对接im['handler'=>Gateway::class,'listen'=>'websocket://0.0.0.0:7
全面审视与优化Linux系统能力：系统编程与调试调优 OpenFPGA linux 运维服务器
一、课程介绍：本课程面向从事Linux内核与应用开发及系统性能调试与优化的工程师。课程内容深入讲解Linux工具链，详细分析进程调度、内存管理和I/O三者的交互机制，同时涵盖多进程、多线程及I/O编程与调试方法。重点介绍针对CPU、内存和I/O性能瓶颈的分析方法与工具，并介绍内存泄漏检测、内存分配优化、锁延迟问题诊断及系统锁死（lockup）分析调试。此外，课程将深入解析perf、eBPF、火焰图
Android技术内幕.系统卷 chiying5582 数据库移动开发 javascript ViewUI
Android技术内幕.系统卷01_Android系统概述.pdf:http://www.t00y.com/file/6024145202_Android系统开发综述.pdf:http://www.t00y.com/file/6024145303_Android的linux内核与驱动程序.pdf:http://www.t00y.com/file/6024145404_Android的底层库与程序.
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理