1. 设计并实现一个基本HTTP代理服务器。要求在指定端口接收来自客户的HTTP请求并且根据其中的URL地址访问该地址所指向的HTTP服务器(原服务器),接收HTTP服务器的响应报文,并将响应报文转发给对应的客户进行浏览。
2. 设计并实现一个支持Cache功能的HTTP代理服务器。要求能缓存原服务器响应的对象,并能够通过修改请求报文(添加if-modified-since头行),向原服务器确认缓存对象是否是最新版本。
3. 扩展HTTP代理服务器,支持如下功能:
首先了解一下客户端和服务器端的基本任务:
客户端(Client) | 服务器端(Server) |
---|---|
|
|
本实验实现的即是一个HTTP代理服务器,接收并发送来自客户的HTTP请求,同时转发来自HTTP服务器的响应报文到客户端。在此过程中,既充当客户端,又充当服务器端的角色。
总体上使用InitSocket()函数初始化套接字socket,利用while(true)循环与listen函数实现对指定端口的持续监听;使用accept函数接收请求,同时创建子线程进行报文的转发响应;处理完成后,等待200ms关闭该线程,并清理缓存;重复循环处理下一个请求
此函数主要分为两步:加载套接字库和初始化套接字。
i). 加载套接字库。此步骤加载Socket库,并检查winsock.dll的加载是否成功以及版本是否匹配。
ii). 初始化套接字。利用socket(AF_INET,SOCK_STREAM)方法创建套接字,第一个参数代表协议族,AF_INET表示是IPV4地址簇;第二个参数代表套接字类型,SOCK_STREAM表示是面向TCP连接的流式套接字;有时后面还会有第三个参数,代表协议号,默认设置为0;而后使用bind()方法将套接字与本机地址及响应端口绑定,并设置为监听状态。
在线程函数中,首先需要使用ZeroMemory()方法初始化内存,再使用recv()函数接收来自客户端的HTTP请求,消息内容缓存在Buffer中,recvSize为实际收到的报文字节数,而后使用ParseHttpHead函数对HTTP报文首部进行解析。
之后调用ConnectToServer函数,根据发送端套接字的协议族和端口号还有套接字类型,以及目的主机的IP地址和端口号进行建立和服务器之间的连接。连接成功后,调用send()将客户端发送的HTTP请求报文转发给目标服务器。
接下来调用recv()函数等待目标服务器返回数据,可以理解为网页内容, 接受之后将返回的数据直接转发给客户端,结束本次线程处理。
最后是异常处理,如果在过程中有异常均跳转到error,结束线程运行。
根据下图HTTP请求报文头部结构,使用strtok_s()方法对报文信息进行分割提取,得到方法、URL、Host、Cookie等信息。
与InitSocket()函数中创建套接字过程类似,根据发送端套接字的协议簇和端口号还有套接字类型,以及目的主机的IP地址和端口号进行建立连接,如果连接成功,放回TRUE。
当访问某网站时,首先通过URL对应的文件名寻找本地对应缓存文件,
1) 若无对应文件,即为第一次访问某网站,则代理服务器通过writeinCache()函数将该请求返回的响应数据写入缓存即相应文件中
2) 若匹配到本地缓存文件,则获取文件中的Date信息,利用MakeNewHTTP()函数构造条件GET报文,即为报文在Host后插入If-Modified-Since头部行。
再向服务器端发送请求,通过服务器返回的数据码判断是否为最新的数据,若返回304,则内容并未再次更新,直接使用readCache()方法读取缓存中的内容并转发给客户端;若返回200,则将此响应报文直接发给客户端,同时更新本地缓存。
由于上述writeinCache(),readCache(),MakeNewHTTP()均为简单的文件读写、字符串插入等操作,此处不再给出截图。
a) 网站过滤:允许/不允许访问某些网站;
设置字符串数组存储屏蔽网站地址,对请求的HTTP报文头部进行解析,提取其
中的访问地址URL,并与屏蔽网站地址进行匹配,若匹配成功,则代码跳转至error部分,打印相关提示信息,立即关闭套接字,断开连接。
b) 用户过滤:支持/不支持某些用户访问外部网站;
一种方法是直接更改套接字绑定的主机地址,绑定主机127.0.0.1即限制仅本机用户可访问服务器ProxyServerAddr.sin_addr.S_un.S_addr=inet_addr("127.0.0.1")。
也可以在accept()监听套接字时获取客户端IP与禁止访问IP进行字符串比较以实现用户屏蔽。
c) 网站引导:将用户对某个网站的访问引导至一个模拟网站
设置字符串数组存储钓鱼网站地址,设置引导目的网站地址,同样解析匹配URL,若匹配成功,则更改HTTP头部字段的访问网址URL 与Host主机地址,实现网页的钓鱼跳转。