从一个简单的代理服务器开始(1)

代理里边用的一些基本模块不一一介绍了。

我们先从代理服务器谈起吧。

很多公司都严格控制上网。所有的网页浏览都要从一个指定的代理服务器入口。

什么是代理服务器?当你使用代理服务器时,发生了什么事情。公司为什么能从代理服务器上监控员工的上网行为?

让我们一步一步的来揭开这个秘密,并且手把手的教你如何编写这么一个简单的web代理。

单位的电脑,通常给你的IP是一个私有的IP地址,比如192.168.1.16。这个IP地址出去的所有数据包要经过一个网关,比如192.168.1.1才能送到Internet上去。那为啥我们还需要代理服务器呢?这就是很多公司毒辣的地方了。公司里边所有电脑,除了代理服务器都不能上网。怎么做到的?很简单,在网关处加一条规则就是了。具体怎么弄的,大伙也不需要知道,反正办法多的是。言归正传,回到代理上来。浏览器给代理发送的是什么东东?让我们来观察下,不需要抓包,上NC吧。

让我们用NC启动一个tcp server作为假的代理服务器,来观测一下从用户浏览器到代理服务器之间的http数据包传输。

#nc -l 8080

在另外的窗口,我们用curl来通过代理服务器访问一个url

#curl -x localhost:8080 'http://baidu.com/'

GET http://baidu.com/ HTTP/1.1
User-Agent: curl/7.32.0
Host: baidu.com
Accept: */*
Proxy-Connection: Keep-Alive


跟不用代理比,有几个地方的差别:

1:GET后面跟的不是一个相对路径,而是一个绝对路径。

2:用头Proxy-Connection来替代原来的Connection。

简化起见,我们先不考虑Proxy-Connection吧。我们的程序会根据URI是否是一个绝对路径来区分发送到代理服务器上的请求是否是代理请求吧。

假定代理服务器已经拿到了这个完成的URI,我们还是采用Perl脚本,要如何才能完成这个HTTP请求呢?很多人会想到LWP。我们第一个代理版本就用LWP吧。(待续)

你可能感兴趣的:(从一个简单的代理服务器开始(1))