Nginx (engine x) 是一个高性能的HTTP(解决C10k的问题)和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。
反代图示
高并发
IO多路复用
epoll
异步
非阻塞
第一种方法
最传统的多进程并发模型 (每进来一个新的I/O流会分配一个新的进程管理。)
第二种方法
I/O多路复用 (单个线程,通过记录跟踪每个I/O流(sock)的状态,来同时管理多个I/O流 。)
发明它的原因,是尽量多的提高服务器的吞吐能力。
在同一个线程里面, 通过拨开关的方式,来同时传输多个I/O流
select
仅作了解
poll
仅作了解
epoll
特点
异步,非阻塞
每进来一个request,会有一个worker进程去处理。但不是全程的处理,处理到什么程度呢?处理到可能发生阻塞的地方,比如向上游(后端)服务器转发request,并等待请求返回。那么,这个处理的worker不会这么一直等着,他会在发送完请求后,注册一个事件:“如果upstream返回了,告诉我一声,我再接着干”。于是他就休息去了。这就是异步。此时,如果再有request 进来,他就可以很快再按这种方式处理。这就是非阻塞和IO多路复用。而一旦上游服务器返回了,就会触发这个事件,worker才会来接手,这个request才会接着往下走。这就是异步回调。
CPU时钟/中断设计
ADSL
HTTP--Hyper Text Transfer Protocol,超文本传输协议,
是一种建立在TCP上的无状态连接,整个基本的工作流程是客户端发
送一个HTTP请求,说明客户端想要访问的资源和请求的动作,服务
端收到请求之后,服务端开始处理请求,并根据请求做出相应的动作
访问服务器资源,最后通过发送HTTP响应把结果返回给客户端。
其中一个请求的开始到一个响应的结束称为事务,当一个事物结束后
还会在服务端添加一条日志条目。
官方链接
https://developer.mozilla.org/zhCN/docs/Web/HTTP/Basics_of_HTTP/Identifying_resources_on_the_Web
知识点
简介
统一资源标识符(Uniform Resource Identifier,或URI)
HTTP 请求的内容通称为"资源"。”资源“这一概念非常宽泛,
它可以是你能够想到的格式。每个资源都由一个 (URI) 来进行标识。
URL即统一资源定位符,它是 URI 的一种。一份文档,一张图片,
或所有其他。URI包含URL,URN
URL
URL 用于定位
全称叫做:统一资源定位符(URL,英语Uniform Resource Locator的缩写)
也被称为网页地址
示例
https://developer.mozilla.org
https://developer.mozilla.org/en-US/docs/Learn/
https://developer.mozilla.org/en-US/search?q=URL
在浏览器的地址栏中输入上述任一地址,浏览器就会加载相应的网页(资源)。
URL 由多个必须或可选的组件构成。下面给出了一个复杂的 URL:
http://www.example.com:80/path/to/myfile.html?
key1=value1&key2=value2#SomewhereInTheDocument
URN
用于区分
URN仅用于命名,而不指定地址。用于标识唯一书目的ISBN系统是一个典型的URN使用范例。例如,ISBN 0486275574(urn:isbn:0-486-27557-4)无二义性地标识出莎士比亚的戏剧《罗密欧与朱丽叶》的某一特定版本。
URN是另一种形式的URI,它通过特定命名空间的唯一名称来标识是资源
urn:isbn:9780141036144
urn:ietf:rfc:7230
上面两个 URN 标识了下面的资源:
• 乔治·奥威尔所著的《1984》
• IETF规范7230,超文本传输协议 (HTTP/1.1):Message Syntax and Routing.
"http://”告诉浏览器使用何种协议。对于大部分web资源,通常使用HTTP协议或其他安全版本,HTTPS协议。
另外,浏览器也知道如何处理其他协议。例如“ftp”指浏览器处理文件传输。
常见的方案有:
www.example.com既是一个域名,也代表着管理该域名的机构。它指示了需要向网络上哪一台主机发起请求。也可以直接向主机的ip地址发起请求,较不常见。
:80 是端口。它表示用于访问 Web 服务器上资源的技术“门”。如果访问的该 Web 服务器使用HTTP协议的标准
端口(HTTP为80,HTTPS为443)授予对其资源的访问权限,则通常省略此部分。否则端口就是 URI 必须的部分。
/path/to/myfile.html 是 Web 服务器上资源的路径。在 Web 的早期,类似这样的路径表示 Web 服务器上的物理文件位置。现在,它主要是由没有任何物理实体的 Web 服务器抽象处理而成的。
⑤ 查询
?key1=value1&key2=value2 是提供给 Web 服务器的额外参数。这些参数是用 & 符号分隔的键/值对列表。Web 服务器可以在将资源返回给用户之前使用这些参数来执行额外的操作。每个 Web 服务器都有自己的参数规则,想知道特定 Web 服务器如何处理参数的唯一可靠方法是询问该 Web 服务器所有者。
⑥ 片段
#SomewhereInTheDocument 是资源本身的某一部分的一个锚点。锚点代表资源内的一种“书签”,它给予浏览器显示位于该“加书签”点的内容的指示。 例如,在HTML文档上,浏览器将滚动到定义锚点的那个点上;在视频或音频文档上,浏览器将转到锚点代表的那个时间。值得注意的是 # 号后面的部分,也称为片段标识符,永远不会与请求一起发送到服务器。
客户端和服务端通过交换各自的消息来进行交互。通常由像浏览器这样的客户端发出的消息叫做
requests,那么被服务端回应的消息就叫做 responses。
HTTP是一个client-server协议:请求通过一个实体被发出,实体也就是用户代理。大多数情况下,这
个用户代理都是指浏览器,当然它也可能是任何东西,比如一个爬取网页来生成和维护搜索引擎索引的机器。
每一个发送到服务器的请求,都会被服务器处理并且返回一个消息,也就是response。在client与server之
间,还有许许多多的被称为proxies的实体,他们的作用与表现各不相同,比如有些是网关,还有些是caches等。
严格意义来说,user-agent就是任何能够为用户发起行为的工具。但实际上,这个角色通常都是由浏览器
来扮演。对于发起请求来说,浏览器总是作为发起一个请求的实体。
要渲染出一个网页,浏览器首先要发送第一个请求来获取这个页面的HTML文档,再解析它并根据文档中的
资源信息发送其他的请求来获取脚本信息,或者CSS来进行页面布局渲染,还有一些其它的页面资源(如图片
和视频等)。然后,它把这些资源结合到一起,展现出来一个完整的文档,也就是网页。打开一个网页后,浏
览器还可以根据脚本内容来获取更多的资源来更新网页。
一个网页就是一个超文本文档,也就是说有一部分显示的文本可能是链接,启动它(通常是鼠标的点击)就
可以获取一个新的网页。网页使得用户可以控制它的user-agent来导航Web。浏览器来负责翻译HTTP请求的命
令,并翻译HTTP的返回消息让用户能明白返回消息的内容。
在上述通信过程的另一端,就是一个Web Server来服务并提供客户端请求的文档。Server只是虚拟意义上:
它可以是许多共同分担负载(负载平衡)的一组服务器组成的计算机群,也可以是一种复杂的软件,通过向其他
计算机发起请求来获取部分或全部资源的软件。
在浏览器和服务器之间,有许多计算机和其他设备转发了HTTP的消息。因为Web栈层次结构的原因,它们大多数都出现在传输层、网络层和物理层上,对于HTTP的应用层来说就是透明的(虽然它们可能会对应用层的性能有重要影响)。而还有一部分表现在应用层上的,就叫做proxies了。Proxies既可以表现得透明,又可以不透明(看请求是否通过它们),主要表现在这几个功能上:
请求*
• 一个HTTP的method,经常是由一个动词像GET, POST 或者一个名词像OPTIONS,HEAD来定义客户端的动
作行为的。通常客户端的操作都是获取资源(用GET方法)或者发送一个HTML form表单的值(用POST方法),
虽然在一些情况下也会有其他的操作。
• 要获取的资源的路径,通常是上下文中就很明显的元素资源的URL,它没有protocol (http://),domain(developer.mozilla.org),或是TCP的port(HTTP是80端口)。
• HTTP协议的版本号。
• 为服务端表达其他信息的可选择性的headers。
回应
目的
wget下载一个源码包,分析HTTP头部的信息
通过wget -d选项,学习HTTP头部字段信息。
了解http通信原理,为后期优化打下基础。
wget -d http://nginx.org/download/nginx-1.12.1.tar.gz
2 分析Debug信息
DEBUG output created by Wget 1.14 on linux-gnu.
---request begin---
请求开始
GET /download/nginx-1.12.1.tar.gz HTTP/1.1
动作下载 页面地址 HTTP版本
User-Agent: Wget/1.14 (linux-gnu)
代理程序:wget
Accept: */*
接收的类型:任何类型
Host: nginx.org
目标主机:nginxorg
Connection: Keep-Alive
链接类型:启动长连接
---request end---
请求结束
HTTP request sent, awaiting response...
发送请求中
---response begin---
响应开始
HTTP/1.1 200 OK
协议版本 状态码 结果
Server: nginx/1.13.3
服务器版本
Date: Fri, 06 Oct 2017 09:05:15 GMT
相应时间
Content-Type: application/octet-stream
接收应用类型:字节流(软件类)
Content-Length: 981093
文档大小
Last-Modified: Tue, 11 Jul 2017 15:45:09 GMT
资源最后修改的时间(stat文件即可查看)
Connection: keep-alive
长连接开启
Keep-Alive: timeout=15
长连接有效期
ETag: "5964f285-ef865"
校验值
Accept-Ranges: bytes
接收范围:字节的范围
---response end---
200 OK
Registered socket 3 for persistent reuse.
Length: 981093 (958K) [application/octet-stream]
Saving to: ‘nginx-1.12.1.tar.gz’
3 相关资料
HTTP/1.1 HTTP协议版本1.1;
200 OK 响应的状态码是200,即正常返回数据,不同场景会有其它如2xx、3xx、4xx、5xx;
Server 服务器软件是Nginx,版本是1.13.3;
Date 从服务器获取该资源时间,时间差8小时,时区不同;
Content-Type 响应的数据类型,这里的资源是文件,则是application/octet-stream了,其它还有图片,
视频、json、html、xml、css等;
Content-Length response body的长度,也就是源码包的字节大小;
Last-Modified 即下载的文件在服务器端最后修改的时间;
Connection keep-alive Nginx开启了TCP长连接;
ETag ETag HTTP响应头是资源的特定版本的标识符。这可以让缓存更高效,并节省带宽,
因为如果内容没有改变,Web服务器不需要发送完整的响应;
Accept-Ranges 响应头 Accept-Range 标识自身支持范围请求,字段值用于定义范围请求的单位。
206 Partial Content
Accept-Ranges 告诉我们服务器是否支持指定范围请求及哪种类型的分段请求,这里是byte
Content-Range 告诉我们在整个返回体中本部分的字节位置,我们请求的是图片的前100字节