这篇笔记还19年的债。
源进源出在不少网络设备上有实现,但是在linux kernel本身并没有,因为此时需要打通Layer 2到Layer4的信息,如果仔细看过kernel源码,会发现kernel在将数据包从一个协议栈传到上一层协议栈的时候,其实传递的是header的point,等于是把底层信息给剥离了,比如数据报从mac传到ip层,此时ip层已经看不到mac的信息,源进源出功能需要将mac信息和tcp信息绑定,tcp连接的的outbound数据根据sync inbound来确定,而不是走route table,可以有两个思路实现
- 额外通过EBPF(TC)机制或者NF机制,建立独立的TCP连接表,在连接表内保存TCP连接的MAC信息,该模式好处在于,可以不动kernel,用附加kenerl module可以实现,但是某种层度上是维护了自己的一个TCP状态机,需要有自己的timer机制。
2.通过修改现有的机制,使得Sock对象具备底层的MAC信息,outbound流量使用Sock上的附加信息直接xmit,该模式的好处在于,不用弄自己的TCP状态机,但是要魔改kernle ,以后upgrade维护不易。
下面是我尝试实现第二种,也就是魔改kernel对源进源出进行初步的实现笔记:
/net/ipv4/tcp_ipv4.c 中的
tcp_v4_conn_request
该方法处理创建连接的整体流程,在该流程中,可以看到linux对收到syn包有两种模式
Syn cookie模式和正常模式,在正常模式下会使用request_sock创建半连接队列,syn cookie模式下
无该半连接队列,而是使用特殊的syn ack中的seq号,如对方最后的ack能对应上seq号直接就创建连接
在需要源进源出的情况下,需要对syn ack和socket后续的所有包都进行mac地址操作,根据第一个syn包的来源mac和目的mac进行回包,对syn ack的回包和socket后续的回包操作分为两个部分:
在tcp_v4_conn_request中对第一个syn包进行回报的方法进行修改:
原方法: ip_build_and_send_pkt 位于 ip_output.c
新增方法:synack_ip_build_and_send_pkt,位于ip_output.c ,注意在ip.h中添加一个该方法的声明:
该方法的声明
int synack_ip_build_and_send_pkt(struct sk_buff *skb, struct sk_buff *skb_syn,struct sock *sk,
__be32 saddr, __be32 daddr, struct ip_options_rcu *opt)
额外在输入参数中增加一个struct sk_buff *skb_syn,是收到的syn包的结构体
该方法添加后续:
unsigned char mac_temp[ETH_ALEN] = {0};
struct ethhdr *mach = NULL;
mach = (struct ethhdr *)(skb->head-skb->mac_header);
memcpy(mac_temp, (unsigned char *)mach->h_dest, ETH_ALEN);
memcpy(mach->h_dest, (unsigned char *)mach->h_source, ETH_ALEN);
memcpy(mach->h_source, mac_temp, ETH_ALEN);
skb_push(skb , ETH_HLEN);
if (0 > dev_queue_xmit(skb)) goto out;
ret = 0;
out:
if (0 != ret && NULL != skb) {kfree_skb (skb);}
return (ret);
删除 ip_local_out 的字段,该修改会使得该数据包直接发送不经过后续的ip nf hook
后续访问:
/include/net/sock.h :
struct sock 增加两个字段:
unsigned char h_source[ETH_ALEN];
unsigned char h_dest[ETH_ALEN];
用作保留该sock在初始化过程中收到最后一个ack时候的mac地址。
tcp_minisocks.c 中修改tcp_child_process方法,这个函数主要是完成最终的三次握手,将子socket设置为TCP_ESTABLISHED然后根据条件唤醒被accept阻塞的主socket:
在该方法中加入以下代码:
skb->head = skb_push(skb, ETH_HLEN);
skb->mac_header=0;
struct ethhdr *syn_mac_header = (struct ethhdr *)(skb_syn->head+skb_syn->mac_header);
struct ethhdr *mac_header = (struct ethhdr *)(skb->head+skb->mac_header);
memcpy(mac_header->h_source, (unsigned char *)syn_mac_header->h_dest, ETH_ALEN);
memcpy(mac_header->h_dest, (unsigned char *)syn_mac_header->h_source, ETH_ALEN);
mac_header->h_proto = __constant_htons (ETH_P_IP);
int ret=1 ;
if (0 > dev_queue_xmit(skb)) goto out;
ret = 0;
out:
if (0 != ret && NULL != skb) {kfree_skb (skb);}
return (ret);
将skb中的mac地址保存在sock对象中
然后在NF_HOOK 的IP_LOCAL_OUT中增加一个环节。
如果fib_lookup能找到sock中的dest mac 就直接发,如果找不到,就回到原流程,这部分
比较简单,就不详细写了。
实际效果是初步实现单机socket的源进源出,但是会有一些莫名的log,kernel的水还是有点深,有时间有精力有人的话,建议还是用module来实现,用module来做的话,比较潮就是EBPF,但是由于XDP没有outbound的控制点,所以需要TC了,而且只能适配4版本以上的kernel,某种程度上为了广泛的兼容性,走回NF Hook比较实际。