基于HTTP协议实现的自主web服务器

  1. 为什么要做这个项目??
    我想从服务器后台开发角度深入了解一个简单的http服务器的运行原理,并从本质上理解http协议的特征,掌握该协议的定制过程。

  2. 什么是http服务器??
    通过浏览器(客户端)对服务器的访问,连接远程的http服务器,服务器通过分析http请求,构建http响应,将解析出来的数据返回给客户端,从外在表现就是得到一个相对应的web页面。

做这个项目我们最终达成的目标:

  • 实现一个基于HTTP/1.0的web服务器,客户端能使用GET、POST方法访问相应资源
  • 服务器通过读取请求,分析请求并处理请求,最终能够返回相应的资源,并能够进行差错处理(如若访问资源不存在,服务器返回一个404页面)
  • 服务器能进行简单的cgi运行。(如:客户在表单输入数据后,服务器能将运行结果返回给客户)

一、基础知识

HTTP协议

  • 超文本传输协议,是互联网上应用最广泛的网络协议。它本身位于应用层,底层基于TCP协议通信。
  • 工作流程:客户通过浏览器向服务器发送文档请求,浏览器将请求的资源回应给浏览器,然后关闭连接。即:连接->请求->响应->关闭连接。
  • 基本特征:无连接 、无状态 、简单快速 。
  • URL(统一资源定位符)、URI(统一资源标识符)
    平时我们所说的“网址”,指的就是URL,是用来定位互联网上的资源的,通常以路径的形式展现(资源所处的路径)。
    URL是 URI 的子集。任何东西,只要能够唯一地标识出来,都可以说这个标识是 URI 。如果这个标识是一个可获取到上述对象的路径,那么同时它也可以是一个 URL ;但如果这个标识不提供获取到对象的路径,那么它就必然不是 URL 。
    基于HTTP协议实现的自主web服务器_第1张图片
  • GET与POST方法
    GET方法使用带参数的URL,参数通过URL传递;POST方法使用不带参数的URL,参数通过正文传递。

HTTP请求与响应
基于HTTP协议实现的自主web服务器_第2张图片
具体请求:
基于HTTP协议实现的自主web服务器_第3张图片
具体响应:
基于HTTP协议实现的自主web服务器_第4张图片

二、服务器的基本实现思路

  1. http是基于TCP通信的,因此需要熟悉基于TCP的基本套接字编程,用于实现跨网络不主机间通信。
  2. 保证两个主机通信后接着就是处理逻辑了,当服务器收到http请求后,根据请求的基本结构,分析请求,请求方法得重视(因为web服务器需要支持cgi模式,我们的服务器项目中只处理GET和POST方法)。
  3. 方法确定后,应当分析请求的URI,我们需要根据URI找到相应的资源,予以返还(注意URI中参数的提取,GET方法携带参数就是在URI当中)。
  4. 判断资源是否存在,不存在直接返回404页面,如果存在,判断该资源是一个目录(目录需要拼接一个默认的index.html)、普通文件、还是一个可执行程序。
    非cgi模式 :如果是GET方法且不带参数就是非cgi模式,直接将资源返回;否则就是cgi模式运行(GET方法带参,POST方法)。
    http下的cgi
    基于HTTP协议实现的自主web服务器_第5张图片
    上面的图描述运行cgi的基本过程,首先从浏览器读取参数,然后创建出一个子进程,进行cgi处理,根据cgi标准GET方法通过环境变量的方式进行传参,POST方法通过管道进行传参,父进程将参数传给子进程,子进程运行完成将结果交给父进程,父进程输出给浏览器。在这个过程中父进程只是“ 中转站 ”的工作,因此子进程将标准输入标准输出进行重定向,宏观上看是子进程直接与浏览器关联。
    下面来看一下具体父子进程都干了哪些工作:
    基于HTTP协议实现的自主web服务器_第6张图片

三、差错处理

当请求页面不存在时,服务器给客户端返回一个404页面,告知客户端资源不存在!!
基于HTTP协议实现的自主web服务器_第7张图片

四、项目文件

基于HTTP协议实现的自主web服务器_第8张图片

cgi: 运行cgi部分的代码。
ctrl.sh:服务器控制脚本,用于实现服务器的启动,暂停,重启和状态查看。
HttpServer.hpp:具体服务器的实现细节的封装。
Log.hpp:日志信息,边写边观察,具体理解协议细节,还有助于后面调试。
main.cc:服务器的主逻辑
Protocol.hpp:具体协议细节的处理,封装三个大类,Request(对读上来的请求做分析)、Response(构建响应)、Endpoint(桥接请求与响应)。
Sock.hpp:对基本套接字的封装
tags文件:用命令ctags -R 生成,用于实现过程中文件间的跳转
ThreadPool.hpp:线程池的封装
Util.hpp:实现过程中基本工具的封装(如:读取请求的方法)
wwwroot:本服务器的web根目录

五、项目成果

请求资源:

通过表单提交参数,运行cgi后的结果:
基于HTTP协议实现的自主web服务器_第9张图片

六、项目源码

点击这里

七、项目的扩展与不足

  1. 可以将请求方法,状态码多样化,本服务器有点单一。
  2. 在业务处理方面可以进行扩展,由于本人没有学过前端页面,所以对cgi程序执行后返回的页面没法优化。

你可能感兴趣的:(linux,网络,http,linux)