通过Servlet和CGI协议深入理解web数据传输

写在前面:由于我自身水平有限,可能文章中有些地方的用词以及概念理解不是很标准,欢迎大家留言指正。这篇文章主要是总结一下我通过学习CGI,然后结合自己的理解对web请求中数据传输的认识。写出来给大家一个参考。

为什么会去研究这个?主要是因为在看公司自己开发的一个php框架的时候,发现自己对web底层数据传输存在疑惑,觉得有必要深入了解一下一个请求怎样通过web服务器(例如nginx,apache)变成编程语言可以处理的数据。

一、基本概念

  1. CGI:即通用网关接口,是一种协议,定义了web服务器和应用程序交互数据的基本格式。例如一个请求发送到nginx后,nginx应该按照CGI协议将请求按照规定的格式处理好后(标准的请求头信息,查询字符串,请求路径等等),然后启用相应的应用程序解析器(php就是php解释器,python就是python解释器),然后把数据传输给解析器,这个时候解析器就可以定位到我们编写的处理代码对请求进行处理,处理完以后按照CGI协议规定的数据格式将结果返回给web服务器,最后退出进程。
  2. fastcgi:fastcgi可以看作是cgi协议的改良版,cgi是通过启用一个解释器进程来处理每个请求,耗时且耗资源,而fastcgi则是通过master-woker形式来处理每个请求,即启动一个master主进程,然后根据配置启动几个worker进程,当请求进来时,master从worker进程中选择一个去处理请求,这样就避免了重复的开启和结束进程带来频繁cpu上下文切换而导致耗时。所以fastcgi也是一种规定了如何实现web服务器和应用程序通信的协议,但是比cgi协议更先进。

几乎所有的语言都可以通过实现CGI或者fastcgi协议编写一个web应用。java的servlet实现是自己规定了一套协议,与这两种方式不同。

二、php结合nginx举例

通过cgi实现

  1. 用户请求http://www.baidu.com?key=码农&platform=linux。
  2. 省略一系列DNS解析然后将数据传输到nginx监听的端口上。
  3. nginx根据配置文件判断该请求是否是静态文件,是的话直接从文件系统读取返回给浏览器。不是的话将接收到的数据进行处理(按照CGI或者fastcgi协议规定的格式),提取出请求头,请求参数,资源路径等信息。
  4. nginx通过配置文件启动一个cgi程序,例如php_cgi,由于php_cgi程序是实现了cgi协议的,所以它能够识别出nginx传过来的数据,然后去执行相应的php文件。
  5. php_cgi将执行后的结果返回给nginx,然后进程退出。
  6. nginx将获得的结果按照http协议规范处理后返回给浏览器。

通过fastcgi实现

  1. Web Server启动时载入FastCGI进程管理器(IIS ISAPI,Apache Module或者php-fpm)
  2. FastCGI进程管理器自身初始化,启动多个CGI解释器进程(多个php-cgi)并等待WebServer的连接。
  3. 当客户端请求到达Web Server时,FastCGI进程管理器选择并连接到一个CGI解释器。 Web server将CGI环境变量和标准输入发送到FastCGI子进程php-cgi。
  4. FastCGI子进程完成处理后将标准输出和错误信息从同一连接返回Web Server。当FastCGI子进程关闭连接时,请求便告处理完成。FastCGI子进程接着等待并处理来自FastCGI进程管理器(运行在Web Server中)的下一个连接。

三、java实现

java的实现不是CGI协议,java servlet是基于多线程来处理每一个请求,即每个请求是在一个线程中去处理,由web容器去维护这个线程池和该每个servlet实例的生存周期。

在java中,是规定了自己的网关数据交互协议(与CGI类似),所以java有自己的web服务器(例如tomcat,jetty等),而不能直接用nginx直接作为web服务器与web容器进行数据交互。java的web服务器可以直接处理来自浏览器的请求,也可以处理来自nginx代理转发的数据,然后将数据重新处理成java web容器能够处理的数据格式。

需要补充一点的是,现在绝大部分java web服务器都实现了web容器的功能,所以很难从实际上去感受这两者之间的区别,但是这种层次关系是存在的。

四、多进程和多线程处理请求的区别

  1. 进程内传递数据只是一个引用,同一份数据无需反复多次解析。而FastCGI之类通过IPC、环境变量传递数据,毫无疑问会面临数据序列化、拷贝、反序列化的overhead,而且这还是单程通讯的开销。
  2. Servlet方案的瓶颈在于线程的动态管理、调度成本高过Async I/O,但那往往是访问请求到10K/S以后的事。而且到了那个层面,优先考虑的不是单机的Scale up问题,而是整个机群的Scale out问题
  3. 关于动静态页面分离,这是一个架构的复杂度和效率的取舍。首先不要想当然认为不分离性能就不好。设计良好的servlet application自然有caching机制,用java写的hashmap在很多情况下benchmark还比native的版本高。

五、感悟

在软件工程里面,重要的是好的设计和规范,难点也往往在这里,而对于实现却可以有很多种方式,只需要根据业务场景取舍就行。比如用php或者java实现一个分布式的多模块系统,对于java而言,开源的实现很多,所以在相同的条件下,选择java会更好,但是可能由于公司的技术体系需要选择php,这个时候可能就需要自己去实现一套适用于php的分布式服务框架。以后的工作和学习中应该着重加强自己在这方面的能力。

六、参考资料

  1. Java Servlet为什么不做成FastCGI模式?
  2. Difference between FastCGI and Java Servlet API
  3. Servlet的生命周期,Servlet和CGI的区别
  4. 搞不清FastCgi与PHP-fpm之间是个什么样的关系
  5. 维基百科fastcgi

你可能感兴趣的:(通过Servlet和CGI协议深入理解web数据传输)