Linux Kernel内源进源出笔记

这篇笔记还19年的债。

源进源出在不少网络设备上有实现,但是在linux kernel本身并没有,因为此时需要打通Layer 2到Layer4的信息,如果仔细看过kernel源码,会发现kernel在将数据包从一个协议栈传到上一层协议栈的时候,其实传递的是header的point,等于是把底层信息给剥离了,比如数据报从mac传到ip层,此时ip层已经看不到mac的信息,源进源出功能需要将mac信息和tcp信息绑定,tcp连接的的outbound数据根据sync inbound来确定,而不是走route table,可以有两个思路实现

  1. 额外通过EBPF(TC)机制或者NF机制,建立独立的TCP连接表,在连接表内保存TCP连接的MAC信息,该模式好处在于,可以不动kernel,用附加kenerl module可以实现,但是某种层度上是维护了自己的一个TCP状态机,需要有自己的timer机制。

2.通过修改现有的机制,使得Sock对象具备底层的MAC信息,outbound流量使用Sock上的附加信息直接xmit,该模式的好处在于,不用弄自己的TCP状态机,但是要魔改kernle ,以后upgrade维护不易。

下面是我尝试实现第二种,也就是魔改kernel对源进源出进行初步的实现笔记:

/net/ipv4/tcp_ipv4.c 中的

tcp_v4_conn_request

该方法处理创建连接的整体流程,在该流程中,可以看到linux对收到syn包有两种模式
Syn cookie模式和正常模式,在正常模式下会使用request_sock创建半连接队列,syn cookie模式下
无该半连接队列,而是使用特殊的syn ack中的seq号,如对方最后的ack能对应上seq号直接就创建连接

在需要源进源出的情况下,需要对syn ack和socket后续的所有包都进行mac地址操作,根据第一个syn包的来源mac和目的mac进行回包,对syn ack的回包和socket后续的回包操作分为两个部分:

在tcp_v4_conn_request中对第一个syn包进行回报的方法进行修改:

原方法: ip_build_and_send_pkt 位于 ip_output.c
新增方法:synack_ip_build_and_send_pkt,位于ip_output.c ,注意在ip.h中添加一个该方法的声明:

该方法的声明

 int synack_ip_build_and_send_pkt(struct sk_buff *skb, struct sk_buff *skb_syn,struct sock *sk,
                          __be32 saddr, __be32 daddr, struct ip_options_rcu *opt)

额外在输入参数中增加一个struct sk_buff *skb_syn,是收到的syn包的结构体
该方法添加后续:

unsigned char mac_temp[ETH_ALEN] = {0};  
struct ethhdr *mach = NULL;  
mach = (struct ethhdr *)(skb->head-skb->mac_header);  
memcpy(mac_temp, (unsigned char *)mach->h_dest, ETH_ALEN);  
memcpy(mach->h_dest, (unsigned char *)mach->h_source, ETH_ALEN);  
memcpy(mach->h_source, mac_temp, ETH_ALEN);  
skb_push(skb , ETH_HLEN);    

 if (0 > dev_queue_xmit(skb)) goto out;
  ret = 0;
out:
  if (0 != ret && NULL != skb) {kfree_skb (skb);}
  return (ret);

删除 ip_local_out 的字段,该修改会使得该数据包直接发送不经过后续的ip nf hook

后续访问:

/include/net/sock.h :

struct sock 增加两个字段:

 unsigned char   h_source[ETH_ALEN];
 unsigned char   h_dest[ETH_ALEN];

用作保留该sock在初始化过程中收到最后一个ack时候的mac地址。

tcp_minisocks.c 中修改tcp_child_process方法,这个函数主要是完成最终的三次握手,将子socket设置为TCP_ESTABLISHED然后根据条件唤醒被accept阻塞的主socket:
在该方法中加入以下代码:

        skb->head = skb_push(skb, ETH_HLEN);
        skb->mac_header=0;
        struct ethhdr *syn_mac_header = (struct ethhdr *)(skb_syn->head+skb_syn->mac_header);
        struct ethhdr *mac_header = (struct ethhdr *)(skb->head+skb->mac_header);
        memcpy(mac_header->h_source, (unsigned char *)syn_mac_header->h_dest, ETH_ALEN);
        memcpy(mac_header->h_dest, (unsigned char *)syn_mac_header->h_source, ETH_ALEN);
        mac_header->h_proto = __constant_htons (ETH_P_IP);

        int ret=1 ;
        if (0 > dev_queue_xmit(skb)) goto out;
        ret = 0;
out:
        if (0 != ret && NULL != skb) {kfree_skb (skb);}
        return (ret);

将skb中的mac地址保存在sock对象中

然后在NF_HOOK 的IP_LOCAL_OUT中增加一个环节。
如果fib_lookup能找到sock中的dest mac 就直接发,如果找不到,就回到原流程,这部分
比较简单,就不详细写了。

实际效果是初步实现单机socket的源进源出,但是会有一些莫名的log,kernel的水还是有点深,有时间有精力有人的话,建议还是用module来实现,用module来做的话,比较潮就是EBPF,但是由于XDP没有outbound的控制点,所以需要TC了,而且只能适配4版本以上的kernel,某种程度上为了广泛的兼容性,走回NF Hook比较实际。

你可能感兴趣的:(Linux Kernel内源进源出笔记)