这里要注意,如果包由于一些原因,不能被forward,则必须发送ICMP消息到发送主机。
int ip_forward(struct sk_buff *skb) { struct iphdr *iph; /* Our header */ struct rtable *rt; /* Route we use */ struct ip_options * opt = &(IPCB(skb)->opt); //gso相关设置 if (skb_warn_if_lro(skb)) goto drop; //xfrm(ipsec)的相关检测 if (!xfrm4_policy_check(NULL, XFRM_POLICY_FWD, skb)) goto drop; //判断是否有Router_alter option(也就是保存发送端的ip),如果有的话,调用ip_call_ra_chain处理,当空间已满,则返回false,并继续处理。 if (IPCB(skb)->opt.router_alert && ip_call_ra_chain(skb)) return NET_RX_SUCCESS; //判断这个包是否是由本地主机的2层进行接受的。在2层设置帧的类型,当帧的目的地址就是本机2层地址的时候,skb->pkt_type设置为PCAKET_HOST. if (skb->pkt_type != PACKET_HOST) goto drop; //由于是forward,因此我们不需要在意4层的校验。设置ip_summed为CHECKSUM_NONE。 skb_forward_csum(skb); /* * According to the RFC, we must first decrease the TTL field. If * that reaches zero, we must reply an ICMP control message telling * that the packet's lifetime expired. */ //ttl小于1,此时丢掉这个包 if (ip_hdr(skb)->ttl <= 1) goto too_many_hops; //ipsec的检测 if (!xfrm4_route_forward(skb)) goto drop; //得到路由表 rt = skb->rtable; //判断是否是Strict源路由option。如果是的话,看源路由option所制定的路由能否和rt_gateway(下一跳)匹配。 if (opt->is_strictroute && rt->rt_dst != rt->rt_gateway) goto sr_failed; //检测一些相关域。如果出错,则发送icmp,并丢弃这个包 if (unlikely(skb->len > dst_mtu(&rt->u.dst) && !skb_is_gso(skb) && (ip_hdr(skb)->frag_off & htons(IP_DF))) && !skb->local_df) { IP_INC_STATS(dev_net(rt->u.dst.dev), IPSTATS_MIB_FRAGFAILS); icmp_send(skb, ICMP_DEST_UNREACH, ICMP_FRAG_NEEDED, htonl(dst_mtu(&rt->u.dst))); goto drop; } //由于我们将要修改这个skb的一些东西(在下面的ip_forward_finish中),因此我们需要复制一个拷贝(主要是防止skb共享) if (skb_cow(skb, LL_RESERVED_SPACE(rt->u.dst.dev)+rt->u.dst.header_len)) goto drop; iph = ip_hdr(skb); //减少ttl ip_decrease_ttl(iph); //如果我们所找到的下一跳地址比请求的更好的话,源host现在将会收到一个ICMP REDIRESCT消息(只有当源host没有请求 source routing option时) if (rt->rt_flags&RTCF_DOREDIRECT && !opt->srr && !skb->sp) ip_rt_send_redirect(skb); //QOS的优先级设置 skb->priority = rt_tos2priority(iph->tos); //最终返回netfilter的hook,这里我们还是暂时忽略netfilter,只关注ip_forward_finish. return NF_HOOK(PF_INET, NF_INET_FORWARD, skb, skb->dev, rt->u.dst.dev, ip_forward_finish); sr_failed: /* * Strict routing permits no gatewaying */ icmp_send(skb, ICMP_DEST_UNREACH, ICMP_SR_FAILED, 0); goto drop; too_many_hops: /* Tell the sender its packet died... */ IP_INC_STATS_BH(dev_net(skb->dst->dev), IPSTATS_MIB_INHDRERRORS); icmp_send(skb, ICMP_TIME_EXCEEDED, ICMP_EXC_TTL, 0); drop: kfree_skb(skb); return NET_RX_DROP; }
static int ip_forward_finish(struct sk_buff *skb) { struct ip_options * opt = &(IPCB(skb)->opt); IP_INC_STATS_BH(dev_net(skb->dst->dev), IPSTATS_MIB_OUTFORWDATAGRAMS); if (unlikely(opt->optlen)) ip_forward_options(skb); //最终返回dst_output,这个虚函数最终调用skb->dst_output,如果是单播则是ip_output,如果是多播则是ip_mc_output.而且切片(如果有需要)也会在这个函数进行).这里还有一个neighboring subsystem的概念,我们后面会讲到。 return dst_output(skb); }
int ip_local_deliver(struct sk_buff *skb) { /* * Reassemble IP fragments. */ //如果有切片,则开始组包。 if (ip_hdr(skb)->frag_off & htons(IP_MF | IP_OFFSET)) { if (ip_defrag(skb, IP_DEFRAG_LOCAL_DELIVER)) return 0; } //返回netfilter hook,最终会调用ip_local_deliver_finish.它最终会将数据包发送往4层。下一次我们会详细介绍这个函数。 return NF_HOOK(PF_INET, NF_INET_LOCAL_IN, skb, skb->dev, NULL,ip_local_deliver_finish); }
static int ip_local_deliver_finish(struct sk_buff *skb) { struct net *net = dev_net(skb->dev); __skb_pull(skb, ip_hdrlen(skb)); /* Point into the IP datagram, just past the header. */ skb_reset_transport_header(skb); rcu_read_lock(); { int protocol = ip_hdr(skb)->protocol; int hash, raw; struct net_protocol *ipprot; resubmit: //对raw socket进行处理。 raw = raw_local_deliver(skb, protocol); hash = protocol & (MAX_INET_PROTOS - 1); ipprot = rcu_dereference(inet_protos[hash]); if (ipprot != NULL) { int ret; //................................... //将数据包交给已注册的高层协议的处理函数。 ret = ipprot->handler(skb); if (ret < 0) { protocol = -ret; goto resubmit; } IP_INC_STATS_BH(net, IPSTATS_MIB_INDELIVERS); } //.......................................... } out: rcu_read_unlock(); return 0; }