新旧架构详细对比:
http://blog.csdn.net/wangbin579/article/details/8949315
tcpcopy运行需要intercept的支持,tcpcopy负责抓包和发包工作,而intercept负责截获应答包
tcpcopy代码下载地址:
git clone http://github.com/session-replay-tools/tcpcopy
configure:
./configure (默认raw socket方式抓包)
或者
./configure --pcap-capture (pcap方式抓包,在某些场景下,丢包率会高于raw socket方式抓包,这时候需要类似pf_ring的支持)
对于intercept:
代码下载地址:
git clone http://github.com/session-replay-tools/intercept
configure方式:
./configure
运行方法参考下面具体例子(tcpcopy采用了configure来编译):
这是一个内网的应用例子,我们的目的是复制下图中adserver应用服务器的请求到测试系统中去。
在线adserver有2台,主要供nginx调用,所以客户端IP地址来自于nginx所在机器的IP地址,均为同一网段的IP地址。
我们假设在线adserver机器为10.100.10.1,10.100.10.2,nginx所在的机器ip地址为:10.100.10.11,10.100.10.12,10.100.10.13,
测试服务器有10.100.10.31,10.100.10.32(辅助服务器)
其中,10.100.10.31运行着类似在线adserver的应用,端口为11511,而在线应用端口是11311
我们在10.100.10.31上面添加如下路由:
route add -host 10.100.10.11 gw 10.100.10.32
route add -host 10.100.10.12 gw 10.100.10.32
route add -host 10.100.10.13 gw 10.100.10.32
这里的意思就是说,在测试服务器10.100.10.31返回给客户端10.100.10.11~13的响应走默认网关10.100.10.32,但10.100.10.32机器其实并没有开启路由模式,所以这些响应包到了10.100.10.32机器后,会在ip层被drop掉,留给我们的机会就是可以在10.100.10.32的数据链路层抓到这些响应包。
我们在10.100.10.32机器(辅助服务器)上面运行intercept,用来捕获响应包,命令如下:
执行intercept命令(需要root权限):
./intercept -i eth0 -F 'tcp and src port 11511' -d
我们在在线机器上面运行tcpcopy(root权限):
./tcpcopy -x 11311-10.100.10.31:11511 -s 10.100.10.32 -d
这里tcpcopy的含义是复制在线11311端口的数据包到10.100.10.31上面的11511端口中去,-s指定运行intercept所在机器的ip地址。
这样请求就过去了,测试结果如下:
[root@hz12-26 logs]# grep 'Thu 10:30' access_0516_10.log -c
99415
[root@hz12-25 logs]# grep 'Thu 10:30' access_0516_10.log -c
99414
[root@bgp176-148 logs]# grep 'Thu 10:30' access_0516_10.log -c
198693
最后,需要注意新架构的若干细节:
1)发起请求的客户端所在机器,不能同时运行相应的intercept,因为响应数据包路由回来后,这台机器的tcp层会发送reset数据包给测试服务器,这样就会干扰测试的进行。
2)在线服务和测试服务不要在一台机器
如果在线服务响应的目的ip地址和测试服务响应的目的ip地址是一样的,路由设置的时候,是无法区分在线的响应和测试的响应
3)对于外网应用,由于客户端ip地址来自于世界各地,路由策略如下:
a)用两个网卡,一个外网网卡,一个内网网卡,让外网请求都路由到第二台测试服务器上面去
比如改变测试服务器上面的默认路由:
route del default gw 真正的网关ip地址
route add default gw 辅助服务器的ip地址
b)利用tcpcopy的-c参数,修改客户端源ip地址,这样就方便设置路由
比如:./tcpcopy -x 11311-10.100.10.31:11511 -s 10.100.10.32 -c 192.168.100.x
相应路由设置:
route add -net 192.168.100.0 netmask 255.255.255.0 gw 10.100.10.32
4)如果是在同一网段利用外网地址访问,在机器B上面设置去往机器A的响应,走机器C,那么设置默认外网网卡路由不会生效,需要显式指定,比如:
route add -host 机器A的外网ip地址 gw 机器C的外网ip地址
5)如果是内网应用,由于客户端ip地址少,建议采用如下:
route add -host 内网客户端ip地址 gw 辅助服务器的ip地址
或者
//如果客户端ip地址来自于其它网段的话
route add -net xxx.xxx.xxx.0 netmask 255.255.255.0 gw 辅助服务器的ip地址
不要采用默认网关的方式
6)如果tcpcopy遇到大量“unsend:too many packets”的报警,请采用raw socket方式来抓请求数据包
7)如果客户端来自于同一网段,那么响应包可能会直接通过mac地址返回给客户端,导致路由设置不起作用,响应包不会被intercept所截获,导致复制失败
解决策略有两个:
1)检测路由命令是否有冲突,导致响应包直接返回给客户端
2)tcpcopy运行的时候通过-c参数来改变客户端的ip地址为不同网段的ip地址,就可以解决此问题。
8)如果同时有内网访问和外网访问,应该分别针对外网应用和内网应用,设置相应路由
9)运行intercept的辅助服务器,为方便路由设置,最好要和测试服务器在同一个网段,而且不要设置ip_forward
10)本文档更新时间为2014.8.25