Linux Kernel内源进源出笔记

这篇笔记还19年的债。

源进源出在不少网络设备上有实现，但是在linux kernel本身并没有，因为此时需要打通Layer 2到Layer4的信息，如果仔细看过kernel源码，会发现kernel在将数据包从一个协议栈传到上一层协议栈的时候，其实传递的是header的point，等于是把底层信息给剥离了，比如数据报从mac传到ip层，此时ip层已经看不到mac的信息，源进源出功能需要将mac信息和tcp信息绑定，tcp连接的的outbound数据根据sync inbound来确定，而不是走route table，可以有两个思路实现

额外通过EBPF（TC）机制或者NF机制，建立独立的TCP连接表，在连接表内保存TCP连接的MAC信息，该模式好处在于，可以不动kernel，用附加kenerl module可以实现，但是某种层度上是维护了自己的一个TCP状态机，需要有自己的timer机制。

2.通过修改现有的机制，使得Sock对象具备底层的MAC信息，outbound流量使用Sock上的附加信息直接xmit，该模式的好处在于，不用弄自己的TCP状态机，但是要魔改kernle ，以后upgrade维护不易。

下面是我尝试实现第二种，也就是魔改kernel对源进源出进行初步的实现笔记：

/net/ipv4/tcp_ipv4.c 中的

tcp_v4_conn_request

该方法处理创建连接的整体流程，在该流程中，可以看到linux对收到syn包有两种模式
Syn cookie模式和正常模式，在正常模式下会使用request_sock创建半连接队列，syn cookie模式下
无该半连接队列，而是使用特殊的syn ack中的seq号，如对方最后的ack能对应上seq号直接就创建连接

在需要源进源出的情况下，需要对syn ack和socket后续的所有包都进行mac地址操作，根据第一个syn包的来源mac和目的mac进行回包,对syn ack的回包和socket后续的回包操作分为两个部分：

在tcp_v4_conn_request中对第一个syn包进行回报的方法进行修改：

原方法: ip_build_and_send_pkt 位于 ip_output.c
新增方法:synack_ip_build_and_send_pkt,位于ip_output.c ,注意在ip.h中添加一个该方法的声明：

该方法的声明

 int synack_ip_build_and_send_pkt(struct sk_buff *skb, struct sk_buff *skb_syn,struct sock *sk,
                          __be32 saddr, __be32 daddr, struct ip_options_rcu *opt)

额外在输入参数中增加一个struct sk_buff *skb_syn,是收到的syn包的结构体
该方法添加后续：

unsigned char mac_temp[ETH_ALEN] = {0};  
struct ethhdr *mach = NULL;  
mach = (struct ethhdr *)(skb->head-skb->mac_header);  
memcpy(mac_temp, (unsigned char *)mach->h_dest, ETH_ALEN);  
memcpy(mach->h_dest, (unsigned char *)mach->h_source, ETH_ALEN);  
memcpy(mach->h_source, mac_temp, ETH_ALEN);  
skb_push(skb , ETH_HLEN);    

 if (0 > dev_queue_xmit(skb)) goto out;
  ret = 0;
out:
  if (0 != ret && NULL != skb) {kfree_skb (skb);}
  return (ret);

删除 ip_local_out 的字段，该修改会使得该数据包直接发送不经过后续的ip nf hook

后续访问：

/include/net/sock.h :

struct sock 增加两个字段：

 unsigned char   h_source[ETH_ALEN];
 unsigned char   h_dest[ETH_ALEN];

用作保留该sock在初始化过程中收到最后一个ack时候的mac地址。

tcp_minisocks.c 中修改tcp_child_process方法，这个函数主要是完成最终的三次握手,将子socket设置为TCP_ESTABLISHED然后根据条件唤醒被accept阻塞的主socket:
在该方法中加入以下代码：

        skb->head = skb_push(skb, ETH_HLEN);
        skb->mac_header=0;
        struct ethhdr *syn_mac_header = (struct ethhdr *)(skb_syn->head+skb_syn->mac_header);
        struct ethhdr *mac_header = (struct ethhdr *)(skb->head+skb->mac_header);
        memcpy(mac_header->h_source, (unsigned char *)syn_mac_header->h_dest, ETH_ALEN);
        memcpy(mac_header->h_dest, (unsigned char *)syn_mac_header->h_source, ETH_ALEN);
        mac_header->h_proto = __constant_htons (ETH_P_IP);

        int ret=1 ;
        if (0 > dev_queue_xmit(skb)) goto out;
        ret = 0;
out:
        if (0 != ret && NULL != skb) {kfree_skb (skb);}
        return (ret);

将skb中的mac地址保存在sock对象中

然后在NF_HOOK 的IP_LOCAL_OUT中增加一个环节。
如果fib_lookup能找到sock中的dest mac 就直接发，如果找不到，就回到原流程,这部分
比较简单，就不详细写了。

实际效果是初步实现单机socket的源进源出，但是会有一些莫名的log，kernel的水还是有点深，有时间有精力有人的话，建议还是用module来实现，用module来做的话，比较潮就是EBPF，但是由于XDP没有outbound的控制点，所以需要TC了，而且只能适配4版本以上的kernel，某种程度上为了广泛的兼容性，走回NF Hook比较实际。

Linux Kernel内源进源出笔记

你可能感兴趣的:(Linux Kernel内源进源出笔记)