Q:http是干嘛的?
A:http是数据传输协议(超文本传输协议),用来沟通客户端和服务器的!
Q:什么是资源?
A:记住一句话,网络上的一切内容皆资源,无论是静态文件,还是动态生成的代码等!
Q:什么是媒体类型?
A:其实就是一种数据类型标记,用来告诉接收端,接收到的数据是什么类型,让接收端知道怎么才能处理该文件!常见标记方式就是MIME,MIME描述了文件的主要类型以及特定子类型,例如:“Content-Type”:“text/html”,其中text描述的文件的主要类型是文本,而其特定类型是html文档!
Q:怎么理解URI以及它的子集?
A:首先URI从其概念来说是统一资源标识符,它的作用就是在网络上唯一确定一个资源,就好比,在中国,身份证能唯一确定一个人一样!知道身份证号,就一定能确定一个人姓甚名谁一样!它有两个子集:URL(统一资源定位符)和URN(统一资源名),首先不特别声明,我们所说的URI就是指URL,URL是跟资源其在网络上的位置有关!而URN是指资源跟其名字有关,URN是未来的趋势,不过貌似具体实施现在还在商讨中!所以短时间之内URN难以取代URL!
Q:什么是事务?
A:说白了事务就是“一次http链接(不包括tcp/ip连接,只包括一次http报文发送与接收)”的整个过程,由请求命令和响应结果组成!中间数据格式是http报文。我们平常打开一个网站,里面包括很多事务!如:请求网页文档、请求某个logo图片及请求某个视频等!
Q:方法指什么?
A:方法就是客户端向服务器发起的请求命令!常见方法有:get、post、delete、put、head!
Q:状态码有什么用?
A:状态码对程序有用,便于程序进行相关控制!原因短语对人有用!
Q:简单介绍一些报文!
A:首先报文是http协议一种纯文本的数据格式,分为请求报文和响应报文,两种报文都具有类似的结构,分别由三个部分构成:起始行、首部、主体,起始行描述报文干了什么!首部描述报文传输的具体细节!主体描述传输的实际内容!
Q:什么是TCP/IP?跟HTTP有什么关系?
A:tcp/ip是全世界的计算机和网络设备常用的层次化分组交换网络协议集!简单的说,http协议是一个应用层协议,位于tcp/ip协议的上一层,tcp/ip协议的主要作用就是过滤掉每个计算机的差异性,隐藏相关弱点,使得对于http协议来说提供的都是“相同的”接口!
Q:在一次网络请求中,分别经历那些过程?
A:步骤如下:
(a)浏览器从url中解析处服务器的主机名;
(b)浏览器将服务器的主机名转换成服务器的的ip地址;(可能经过去dns服务器查询)
©浏览器将端口号(如果有的话)从url中解析出来;
(d)浏览器建立一条与web服务器的tcp连接;
(e)浏览器向服务器发送一条http请求报文;
(f)服务器向浏览器回送一条http响应报文;
(g)关闭连接,浏览器显示文档
Q:http协议有哪些版本?
A:
http/0.9,这个版本有严重设计权限
http/1.0,广泛使用
http/1.0+ 非官方的http/1.0的扩展版本
http/1.1 目前正在使用的版本,修复的相关设计缺陷,增加的相关特性
http-NG 将来使用与否正在商讨中
Q:介绍一下web中的一些结构组件?
A:主要有代理、缓存、网关以及隧道!分别简介如下:
代理:代理位于客户端和服务器之间,接收所有客户端的HTTP请求,并把这些请求转发给服务器(可能会对请求进行修改之后转发)。对用户来说,这些应用程序就是一个代理,代表用户访问服务器。代理的主要作用有过滤、屏蔽等!(还有需要注意一点:代理既可以代表服务器对客户端进行响应,又可以代表客户端对服务器进行请求!)
缓存:首先说明一下,缓存某种意义上来说也是一种代理服务器。它主要使用代表服务器对客户端进行响应。发送预先缓存好的资源的副本。这样会加快事务响应速度、同时也会减少服务器的负载、减轻带宽等问题!
网关:网关是一种特殊的服务器,面对客户端时好像它就是服务器,而对于服务器,他又充当客户端的角色,它的主要作用是协议转换!例如HTTP/FTP网关。
隧道:就是一个连接通道,用于在http信道上发送非http协议的资源。
Agent代理:说白了就是我们平时所说的浏览器,以及web机器人、爬虫等!
://:@:/;?#
其中:
scheme:方法描述了请求资源时用了什么协议,用“:”与url其它部分隔开;
user:用户名描述了访问是带的用户名;
password:密码描述了用户名后面可能跟的密码,用“:”跟用户名隔开;
host:主机描述了网站主机名或ip地址,如果前面有用户名和密码,用@分开;
post:服务器当前正在监听的端口,http默认为80,https默认为443;
path:路劲描述了资源在服务器上的位置,用‘/’跟前面部分隔开;
params:参数描述了请求需要附加的参数,用“;”与其他部分隔开;
query:查询是用来激活服务器程序去执行某些操作,比如查询数据库等,用“?”与其余部分隔开;
frag:片段只在客户端使用,不发送到服务器端;
url快捷方式描述了一种程序如何通过相对地址解析处绝对地址的过程以及在浏览器地址栏输入部分url浏览器自动补全主机名的一种机制!
相对地址转换为绝对地址:首先会根据一个基础地址来得出协议、主机名、端口等!基础地址可以通过base标签显示定义,也可以由当前所在资源的地址得出!相关接口通过继承的方式附在相对地址上,最后得到绝对地址。
浏览器扩展地址主要通过主机名扩展和历史扩展等方式实现自动地址补全!
Q:为什么需要编码?
A:主要从url的一致性、安全性、以及完整性来强调需要对url字符进行编码。比如因为一个url连接的两端可能出现的机器种类很多,为了让大家都能够解析出一个相同的url,所以有必要对某些不安全的url字符进行转义。
Q:url字符集由什么编码构成?
A:早前的url是有US-ASCII码编码,但是随着网络在全世界的流行,有很多字符是US-ASCII不能编码的,因为US-ASCII码最多只能编译127个字符。通过转义序列,就可以用US-ASCII字符集的有限子集对任意字符值或数据进行编码了。
Q:编码机制?
A:为了避开安全字符集表示法带来的限制,人们设计了一种编码机制,用来在URL中表示各种不安全的字符。这种编码机制就是通过一种“转义”表示法来表示不安全字符的,这种转义表示法包含一个百分号(%),后面跟着两个表示字符的ASCII码的十六进制数。
Q:那些字符不建议在URL里面使用?
A:在URL中,有几个字符被保留起来,有着特殊的含义。有些字符不在定义的US-ASCII可打印字符集中。还有些字符会与某些因特网网关和协议产生混淆,因此不赞成使用,比如“%”。
这一章内容较多,介绍了http报文的诸多相关概念,譬如起始行、首部、主体以及它们代表的含义等!同时还介绍了常见的状态码及其含义,常见的首部字段及其含义。本章内容较丰实,所以概念模糊的部分可以参阅原书相关章节!
这是形容http报文的
首先说明,报文由三个部分组成,起始行、首部、主体。起始行和首部都是ascll文本,而主体则可以是任意类型文件,比如二进制,视频等!且起始行和首部都已一个crlf作为结束符,并且首部与主体之间应始终存在一个以crlf序列作为结束的空行。当然了为了兼容老版本的http,这里有时并不是那么严格要求非要crlf同时存在!
报文的语法
http报文分为请求报文和相应报文,其语法分别如下:
//请求报文
<method> <request-URL> <version>
<headers>
<entity-body>
//响应报文
<version> <status> <reason-phrase>
<headers>
<entity-body>
相关概念分别如下:
方法是客户端希望执行的动作,如GET、POST等
请求url是指请求资源的路径
http版本号,格式为http/.,分别代表主要版本号和次要版本号,其含义应分开理解
status code其实说白了就是用一个数字表示当前事务处于什么状态,便于开发者处理
原因短语,实际意义不大,就是为了方便人看的
首部就是一个包含零个或多个的键值对,键值对以crlf隔开,而键、值之间以‘:’隔开,期间包含一个可选的空格
主体任意格式组成的数据块,也是实际发送的内容
起始行
分为请求行和响应行,格式前面一个在前面,相关概念不在赘述!
首部
说一下首部分类,主要有五类:通用首部、请求首部、响应首部、主体首部、扩展首部。通用首部就是请求报文和响应报文都可以用,用以说明报文的一般属性;请求首部出现在请求报文中,用于客户端告诉服务器是什么情况,比如能接受什么,不能接受什么等;响应报文用于响应报文中,服务器端用来告诉客户端什么情况;主体首部用来描述主体的信息,比如主体的长度是多少等;扩展报文是非官方的报文,但是http也支持发送。
安全方法
能在服务器端有操作的就是非安全方法,比如delete、put、post,不在服务器端有操作的就是安全方法,比如get、head,当然了安全方法并非不能在服务器端有操作,这是开发者可以控制的!
GET方法用于请求服务器端发送某个资源
HEAD方法跟GET方法类似,区别就是不返回主体
PUT方法用于向服务器端修改、插入数据
POST方法用于向服务器端发送数据
TRACK方法用于向服务器端请求报文在发送的过程中经过了什么修改,主要用于测试
OPTIONS用于请求服务器告知其支持什么功能
DELETE用于向服务器删除某个指定的资源
扩展方法其实类似于自定义方法
100-199 信息性状态码
200-299 成功状态码 (常见200表示请求成功)
300-399 重定向状态码 (常见302重定向)
400-499 客户端错误状态码 (常见404,请求资源不存在)
500-599 服务端错误状态码
状态码 原因短语 含义
100 Continue 说明收到了请求的初始部分,请客户端继续,发送了这个状态码之后,
服务器在收到请求之后必须进行响应。
101 Switching Protocols 说明服务器正在根据客户端的指定,将协议切换成Update首部所列的
协议
200 OK 请求没问题,实体的主体部分包含了所请求的资源
201 Created 用于创建服务器对象的请求(比如,PUT)。响应的实体主体部分中
应该包含各种引用了已创建的资源的URL,Location首部包含的则是最具体的引用。
202 Accepted 请求已被接受,但服务器还未对其执行任何动作。不能保证服务器会完成这
个请求;这只是意味着接受请求时,它看起来是有效的。服务器应该在实体的主体部分包含对请求状态的描述,或许还应该有对请求完成时间的估计(或者包含一个指针,指向可以获取此信息的位置)
203 Non-Authoritative 实体首部包含的信息不是来自原远端服务器,而是来自于资源的一份副本。
Information 如果中间节点上有一份资源副本,但无法或者没有对它所发送的与资源有关的
元信息进行验证,就会出现这种情况
204 No Content 响应报文中包含若干首部和一个状态行,但没有实体的主体部分。主要用于在
浏览器不转为显示新文档的情况下,对其进行更新(比如刷新一个表单页面)
205 Reset Content 另一个主要用于浏览器的代码。负责告知浏览器清除当前页面中的所有HTML
表单元素
206 Partial Content 成功执行了一个部分或Range(范围)请求。稍后我们会看到,客户端可以通过
一些特殊的首部来获取部分或某个范围内的文档————这个状态码就说明范围请求成功了。
注:在对那些包含了重定向状态码的非HEAD请求进行响应时,最好要包含一个实体,并在实体中包含描述信息和指向(多个)重定向URL的链接。如:
HTTP/1.1 301 OK
Location: http://www.gentle-grooming.com/
Content-Length: 56
Content-Type: text/plain
Please go to our partner site,
www.gentle-grooming.com
300 Multiple Choices 客户端请求一个实际指向多个资源的URL时会返回这个状态码,比如服务器
上有某个HTML文档的英语和法语版本。返回这个代码时会带有一个选项列表;这样用户就可以选择它希望使用的那一项了。有多个版本可用时,客户端需要沟通解决。
301 Moved Permanently 在请求的URL已被移除时使用。响应的Location首部中应该包含资源现在所处
的URL
302 Found 与301状态码类似,但是,客户端应该使用Location首部给出的URL来临时定位
资源。将来的请求仍应该使用老的URL
303 See Other 告知客户端应该用另一个URL来获取资源。新的URL位于响应报文的Location
首部。其主要母的是允许POST请求的响应将客户端定向到某个资源上去
304 Not Modified 客户端可以通过所包含的请求首部,使其请求变成有条件的。如果客户端发起
了一个条件GET请求,而最近资源未被修改的话,就可以用这个状态码来说明
资源未被修改。带有这个状态码的响应不应该包含实体的主体部分。
305 Use Proxy 用来说明必须通过一个代理访问资源;代理的位置由Location首部给出。很
重要的一点是,客户端是相对某个特定资源来解析这条响应的,不能假定所有请求。甚至所有对持有请求资源的服务器的请求都通过这个代理进行。如果客户端错误地让代理介入了某条请求,可能会引发破坏性的行为,而且会造成安全漏洞。
307 Temporary Redireat 与301状态码类似;但客户端应该使用Location首部给出的URL来临时定位资源
。将来的请求应该使用老的URL
400 Bad Request 用于告知客户端发起了一个错误的请求
401 Unauthorized 返回适当的首部,用于获取客户端访问资源的权限
402 Payment Required 此状态码未使用,保留
403 Forbidden 服务器拒绝请求,可在响应主体中告知原因
404 Not Found 用于告知客户端请求的资源在服务器不存在
405 Method Not Allowd 告知客户端不支持当前方法,并在Allow首部返回支持的方法
406 Not Acceptable 没有客户端支持的资源类型
407 Proxy Authentication 跟401类似,不过用户代理服务器
Requireed
408 Request Timeout 超时提醒
409 Conflict 请求会造成服务器冲突
410 Gone 跟404一样,只不过服务器曾经拥有过该请求资源
411 Length Required 要求客户端发送Content-Length首部
412 Precondition Failed 部分条件验证不通过
413 Request Entity Too Large 客户端发送的主体超过了服务器的希望的长度
414 Request URL Too Long 客户端请求的时间比服务希望的时间长
415 Unsupported Media Type 服务器无法理解客户端请求的主体类型
416 Requested Range Not 请求报文所请求的是指定资源的某个范围,而此范围无效或无法满足时
Satisfiable ,使用此状态码
417 Expectation Failed 请求中包含Expect首部,服务器无法满足
500 Internal Server Error 服务器错误
501 Not Implemented 请求超出了服务器能处理的范围
502 Bad Gateway 作为代理或网关使用的服务器从请求响应链的下一条链路上收到了一条
伪响应(比如,它无法连接到其父网关)时,使用此状态码
503 Service Unavailable 用来说明服务器现在无法为请求提供服务,但将来可以。如果服务器
知道什么时候资源会变为可用的,可以在响应中包含包含一个
Retry-After首部。
504 Gateway Timeout 与状态码408类似,只是这里的响应来自一个网关或代理,它们在等待另
一服务器对其请求进行响应时超时了
505 HTTP Version Not 服务器收到的请求使用了它无法或不愿支持的协议版本时,使用此
Supported 状态码。有些服务器应用程序会选择不支持协议的早起版本
注:首部分为通用首部、请求首部、响应首部、主体首部、扩展首部!
通用首部
通用的信息性首部
首部 描述
Connection 允许客户端和服务器指定与请求/响应连接有关的选项
Date 提供了日期的时间标志,说明报文是什么时间创建的
MIME-Version 给出了发送端使用的MIME版本
Trailer 如果报文采用了分块传输编码方式,就可以用这个首部列出位于报文拖挂部分的首部集合
Transfer-Encoding 告知接收端为了保证报文的可靠传输,对报文采用了什么编码方式
Update 给出了发送端可能想要“升级”使用的新版本或协议
Via 显示了报文经过的中间节点(代理、网关)
通用缓存首部
首部 描述
Cache-Control 用于随报文传送缓存指示
Pragma 另一种随报文传送指示的方式,但并不专用缓存
请求首部
请求的信息性首部
首部 描述
Client-IP 提供了运行客户端的机器的IP地址
From 提供了客户端用户的E-mail地址
Host 给出了接收请求的服务器的主机名和端口号
Referer 提供了包含当前请求URL的文档的URL
UA-Color 提供了与客户端显示器的显示颜色有关的信息
UA-CPU 给出了客户端CPU的类型或制造商
UA-Disp 提供了与客户端显示器(屏幕)能力有关的信息
UA-OS 给出了运行在客户端机器上的操作系统名称及版本
UA-Pixels 提供了客户端显示器的像素信息
User-Agent 将发起请求的应用程序名称告知服务器
Accept首部
首部 描述
Accept 告诉服务器能够发送那些媒体类型
Accept-Charset 告诉服务器能够给发送那些字符集
Accept-Encoding 告诉服务器能够发送那些编码方式
Accept-Language 告诉服务器能够发送那些语言
TE 告诉服务器可以使用那些扩展传输编码
条件请求首部
首部 描述
Expect 允许客户端列出某请求所要求的服务器行为
If-Match 如果实体标记与文档当前的实体标记相匹配,就获取这份文档
If-Modified-Since 除非在某个指定的日期之后资源被修改过,否则就限制这个请求
If-None-Match 如果提供的实体标记与当前文档的标记不相符,就获取文档
If-Range 允许对文档的某个范围进行条件请求
If-Unmodified-Since 除非在某个指定日期之后资源没有被修改过,否则就限制这个请求
Range 如果服务器支持范围请求,就请求资源的指定范围
安全请求首部
首部 描述
Authorization 包含了客户端提供给服务器,以便对其自身进行认证的数据
Cookie 客户端用它向服务器传送一个令牌————它并不是真正的安全首部,但确实隐含了安全功能
Cookie2 用来说明请求端支持的cookie版本
代理请求首部
首部 描述
Max-Forward 在通往源端服务器的路径上,将请求转发给其他代理或网关的最大次数————与TRACE方法一同
使用
Proxy-Authorization 与Authorization首部相同,但这个首部是在与代理进行认证时使用的
Proxy-Connection 与Connection首部相同,但这个首部是在与代理建立连接时使用的
响应首部
响应的信息性首部
首部 描述
Age (从最初创建开始)响应持续时间
Public 服务器为其资源支持的请求方法列表
Retry-After 如果资源不可用的话,在此日期或时间重试
Server 服务器应用程序软件的名称和版本
Title 对HTML文档来说,就是HTML文档的源端给出的标题
Warning 比原因短语中更详细的警告报文
协商首部
首部 描述
Accept-Ranges 对此资源来说,服务器可接受的范围类型
Vary 服务器查看的其他首部的列表,可能会使响应发生变化;也就是说,这是一个首部列表,
服务器会根据这些首部的内容挑选处最合适的资源版本发送个客户端
安全响应首部
首部 描述
Proxy-Authenticate 来自代理的对客户端的质询列表
Set-Cookie 不是真正的安全首部,但隐含有安全功能;可以在客户端设置一个令牌,以便服务器对客户端
进行标志
Set-Cookie2 与Set-Cookie类似
WWW-Authenticate 来自服务器的对客户端的质询列表
实体首部
实体的信息性首部
首部 描述
Allow 列出了可以对此实体执行的请求方法
Location 告知客户端实体实际上位于何处;用于将接收端丁香到资源的位置上去
内容首部
首部 描述
Content-Base 解析主体中的相对URL时使用的基础URL
Content-Encoding 对主体执行的任意编码方式
Content-Language 理解主体时最适宜使用的自然语言
Content-Length 主体的长度或者尺寸
Content-Location 资源实际所处的位置
Content-MD5 主体的MD5校验和
Content-Range 在整个资源中此实体表示的字节范围
Content-Type 这个主体的对象类型
实体缓存首部
首部 描述
ETag 与此实体相关的实体标记
Expires 实体不再有效,要从原始的源端再次获取此实体的日期和时间
Last-Modified 这个实体最后一次被修改的日期和时间
TCP/IP是全球计算机及网络设备都在使用的一种常用的分组交换网络分层协议集,位于http下层。其实常谈论的http连接实际上就是tcp连接加上一些使用连接的规则,tcp为http提供了一条可靠的比特传输管道。一旦连接建立起来,在客户端和服务器的计算机之间交换的报文就永远不会丢失、受损或失序。
通常http事务发生时会经过几个步骤,下面以访问http://www.xxx.com:80/path/index.html为例说明:
浏览器从地址栏中解析处域名(主机名),也就是拿到www.xxx.com
浏览器根据得到的主机名查询出ip地址,比如算出ip为202.43.78.3,(中间可能经过查找host文件或去查询dns服务器)
浏览器解析出端口(http默认为80,https默认为443)
浏览器发起一条到202.43.78.3端口为80的链接,(重建需要经过几次确定相关参数的来回“握手”)
浏览器发起请求报文
服务器返回响应报文
浏览器关闭连接(其实浏览器和服务器都可以在不通知对方的情况关闭连接)
TCP流是分段的,由IP分组传输,也就是说最终http报文是以ip分组的形式在网络之间传输。一个ip分组包含的数据信息如下:
1. ip分组首部(通常为20字节)
2. tcp段首部 (通常为20字节)
3. tcp数据块 (0个或多个字节,实际http报文数据就在这里)
用一句话描述这个过程就是,http报文流给到tcp,tcp把报文分成一段一段的,然后tcp把每个tcp段交给ip,ip封装成一个ip分组,最后传输的是ip分组。(当然了这里我们忽略了ip下面的数据链路层和物理层)
TCP确定一个连接
首先客户端解析ip地址或者端口号需要时间,如果当前没有访问过相关资源,那么解析还需要查询dns服务器,此操作,造成的时延较多,可能花费数十秒。
建立tcp链接会有建立时延,通常2s左右,如果当前的http事务较多,那么会很快叠加上去。
传输、处理请求报文需要时间
回传响应报文需要时间
当然还有其他因素,比如硬件、网络负载,以及报文尺寸等!
性能聚焦区域
这里简要说明一下,建立tcp链接这个过程可能存在的时延分析,包括:经典三次“握手”、tcp慢启动拥塞控制机制等!
经典三次“握手”说的就是http事务在建立tcp连接是需要做的相关参数确认过程,大概如下:
客户端发送携带“SYN”标记的TCP段说明发起连接请求
服务端返回“SYN”和“ACK”的TCP段说明已接受
最后客户端发送确认信息以确认连接
connection能承载三种字段值:
HTTP首部字段名,列出了只与此有关的首部;
任意标签值,用于描述此链接的非标准选项;
值close,说明操作完成之后需关闭这条持久连接。
接收端在收到请求报文之后,对报文进行解析,并查看connection首部中列出的首部列表,并在转发出去之前,删除相关首部,这一行为称为:“对首部的保护”。
此种机制描述了http事务一个一个接着发起,不能同时下载更多的资源,使得界面上用户看不到东西,体验不够好。串行连接没有很好的利用tcp/ip连接的慢启动机制!
优化方法主要有:
并行连接
通过多条TCP连接发起并发的HTTP连接
持久连接
重用TCP连接,以消除连接及关闭时延
管道化连接
通过共享的TCP连接发起并发的HTTP请求
HTTP/1.1允许在持久连接上可选地使用请求管道。这是在keep-alive连接上的进一步性能优化。在响应到达之前,可以将多条请求放入队列。当第一条请求通过网络流向地球另一端的服务器时,第二条和第三条请求也可以开始发送了。在高时延网络条件下,这样做可以降低网络的环回时间,提高性能。
如果不是持久连接就不要使用管道连接
接收端必须按收到请求报文的顺序返回响应报文,因为HTTP报文中没有序列号标签。所以必须靠按序发送响应报文来达到“数据对应”
发送端应该做好数据没有发送完连接就关闭的准备并开始重新发送数据。
HTTP客户端不应该用管道化的方式发送会产生副作用的请求(比如POST)。
略
定义:实现提供资源或应答的提供者都可以谓之为服务器!
从不同形式划分,服务器有以下几种:
标准计算机上安装的通用服务器,如apache
购买的服务器
嵌入式服务器
接受建立连接请求
接受请求
处理请求
访问报文中指定的资源
构建响应
发送响应
记录事务处理过程
解析请求行,得知方法、url、协议版本,以及crlf符
解析得到以crlf结尾的首部
得到以crlf结尾,标志首部结束的空行(如果有的话)
解析得到主体,(如果有的话)
web服务可能还会把请求报文用一种自己能快速处理的内部数据结构来存储请求报文!
不同的服务器配置预示它能同时处理的事务情况:
单线程web服务器:只能处理一个请求,待当前请求处理完成之后才能处理下一个请求!优点:简单已于实现,适用于低负荷服务器。缺点:不能及时处理其他请求,容易引发延迟过长而导致性能问题。
多线程及多进程web服务器:能同时处理多个请求!优点:响应及时。缺点:构建复杂,容易快速引起内存消耗过大而死机!最好应该对能同时处理的连接数量进行限制!
复用i/o的web服务器:复用i/o
复用i/o和多线程的web服务器:2和3的结合
这里介绍了请求资源的一种路径映射关系,说白了就是找到客户端请求资源在服务器的上的目录路径!相关概念有:docroot(文档根目录)、不允许访问根目录的上一级目录。
虚拟托管的docroot:在一个服务器上挂了几个web站点,那么这样当请求的资源路径相同时,服务器应该从请求报文首部的host、uri字段找出真正的资源目录,这些目录都是可以配置的!
注:这里对用户配置文件根目录和虚拟目录做一下示例说明,以apache为例:
配置文件根目录
在配置文件httpd.conf中添加一个DocumentRoot行就可以为Apache Web服务器设置文档的根目录了,如:
DocumentRoot /user/local/httpd/files
配置虚拟目录
对大多数Web服务器来说,配置虚拟托管的文档根目录是很简单的。对常见的Apache Web服务器来说,需要为每个虚拟Web
站点配置一个VirtualHosts块,而且每个虚拟服务器都要包含DocumentRoot,如:
ServerName www.joes-hardware.com
DocumentRoot /docs/joe
TransferLog /logs/joe.access_log
ErrorLog /logs/joe.error_log
ServerName www.marys-antiques.com
DocumentRoot /docs/mary
TransferLog /logs/mary.access_log
ErrorLog /logs/mary.error_log
...
构建响应报文:1、正确设置响应主体的长度(content-length);2、设置报文的mime类型(content-type),主要通过与一直mime类型文件匹配得到当前的文件的mime类型,还可以通过文件扩展名,以及硬规定特定目录下的文件拥有某个mime类型;3、控制重定向!
服务器端如何得出文件的MIME类型:
Web服务器要负责确定响应主体的MIME类型。有很多配置服务器的方法可以将MIME类型与资源关联起来。
1、MIME类型(mime.types)
Web服务器可以用文件的扩展名来说明MIME类型。Web服务器会为每个资源扫描一个包含了所有扩展名的MIME类型的文件,以确定其MIME类型。这种基于扩展名的类型相关是最常见的!
2、魔法分类(Magic typing)
Apache Web服务器可以扫描每个资源的内容,并将其与一个已知模式表(被称为魔法文件)进行匹配,以决定每个文
件的MIME类型。这样做可能比较慢,但很方便,尤其是文件没有标准扩展名的时候。
3、显示分类(Explicit typing)
可以对Web服务器进行配置,使其不考虑文件的扩展名或内容,强制特定文件或目录内容拥有某个MIME类型
4、类型协商
有些Web服务器经过配置,可以以多种文档格式来存储资源。在这种情况下,可以配置Web服务器,使其可以通过与用户的协商来是决定使用哪种格式(及相关的MIME类型)“最好”。
永久删除的资源,状态码为301
临时删除的资源,状态码为303或307
URL增强,状态码为303或307
负载均衡,主要是减少服务器的压力,让请求跑到一个负载不大的服务器上去,状态码为303或307
服务器关联,去保存有用户本地信息的服务器上获取用户信息,状态码为303或307
规范目录名称,客户端请求的URI是一个不带尾部斜线的目录名时,大多数Web服务器都会将客户端重定向到一个加了斜线的URI上,这样相对链接就可以正常工作了!
web上的代理服务器是代表客户端对事务请求处理的中间人!分为私有代理(只代理一个客户端)和公共代理(代理多个客户端)。
代理和网关的对比:代理的两端使用相同的协议,而网关的两端使用不同的协议,网关负责协议转换!
主要使用代理作以下功能使用:
1、儿童过滤器:如服务器响应的成人内容进行过滤
2、文档访问控制:验证客户端访问某个的文件需要的证书
3、安全防火墙:提供一个防火墙保护客户端或服务器
4、web缓存(缓存资源的副本):对客户端响应资源的副本,节省带宽、减少网络拥堵
5、反向代理(原始服务的替代物,能访问其他服务器,作服务器加速器使用):反向代理伪装成原始服务器,不过与服务器不同的是反向代理还可以向其他服务器发送请求,以便实现按需定位所请求的内容!
6、内容路由器:比如网络中实现为了一些付费用户提供更好、更快的网络速度,让请求发往缓存服务器,而没有付费的用户请求则发往更远或原始服务器!
7、转码器(比如改变图片格式,以便更轻巧利于传输)
8、匿名者:保护客户端隐私
按部署代理的位置代理可以分为一下几种:
1、出口代理:部署在本地网络端,用于保护本地网络或者限制公司带宽
2、访问(入口)代理:用于实现提供缓存响应
3、反向代理:部署在服务器端本地网络上,用于实现更精确的请求和提供性能
4、网络交换代理:部署在网络上,用于检测流浪等
代理层次结构描述的代理的部署层级结构,比如一级代理,二级代理等,这是一种静态层级结构,有父代理和子代理的概念,离原始服务器进的的代理是离服务器远的代理的父代理!但是代理层级不应该静态的,而应该可以是动态的,以保证代理可以根据实际网络负载情况而下发报文到不同的代理!从而产生的动态层级代理概念有负载均衡、地理位置附近的路由等!
http请求报文是怎么进入代理的,描述的怎么把http请求报文流量导入代理!主要有一下几种方式:
1、修改客户端:比如现在的客户端都支持收手动和自动配置代理!
2、修改网络:网络通过一些技术在客户端不知情的情况揽入流量进入代理!
3、修改dns命名空间:把主机名映射为代理的ip地址,比如修改系统的dns映射文件,让代理伪装成原始服务器,从而把web请求导入代理!
4、修改服务器:让服务器返回一个重定向有关的代码,把http请求报文导入到代理!
手工配置 : 显示地设置要使用的代理
预先配置浏览器 : 浏览器厂商或发行商会在将浏览器发送给其客户之前预先对浏览器(或所有其他的Web客户端)的代理设置进行手工配置
代理的自动配置(Proxy Auto-Configuration,PAC):一个代理配置的js文件,客户端在请求之前会取回这个js文件,从而判断如何决定使用代理
WPAD的代理发现 : 略
1、发送给服务其的url可以是相对路径,而发送给代理的是包含方法、主机名等完整路径!
2、与虚拟主机目录同样存在的问题,可以通过在请求报文的host首部发送确定的主机信息!
3、拦截代理会受到部分url!
4、代理既可以处理代理请求,也可以处理服务器请求!
5、转发过程中对URI的修改
6、URI的客户端自动扩展和主机名解析
7、没有代理URI的解析
8、有显示代理的URI的解析
9、有拦截代理的URI的解析
现在代理请求逐步流行的情况下,需要一种机制来追踪我们的报文经过了那些节点。此时报文中via字段就是一个描述报文在代理中逐级传输的过程中所经过代理的方式!如下:
GET /index.html HTTP/1.0
Accept: text/html
Host: www.joes-hardware.com
Via: 1.1 proxy-62.irenes-isp.net,1.0 cache.joes-hardware.com
via字符告诉我们报文流经了两个代理。这个字符串说明第一个代理名为proxy-62.irenes-isp.net,它实现了HTTP/1.1协议,第二个代理被称为cache.joes-hardware.com,实现了HTTP/1.0。
Server响应首部字段对原始服务器使用的软件进行了描述,如下有几个例子:
Server: Apache/1.3.14 (Unix) PHP/4.0.4
Server: Netscape-Knterprise/4.1
Server: Microsoft-IIS/5.0
注:如果响应报文是通过代理转发的,一定要确保代理没有修改Server首部。Server首部是用于原始服务器的。代理应该添加的是Via首部。
略
略
缓存减少了冗余的数据传输,因为毕竟每次http事务请求的东西都是一样的时候,多次发送同样的数据是不必要和冗余的!
缓存缓解了网络瓶颈的问题,不需要更多的带宽就能够更快地加载页面!
缓存降低了对原始服务器的要求,因为想象一下,从一个性能很差劲的原始服务器和从一个性能和牛逼的缓存服务器请求事务,肯定会弥补服务器的缺点的,同时也会减少服务器过载情况,因为大部分请求都由缓存代劳处理了!
缓存降低了距离时延,因为从较远的地方加载页面会更慢一些!
*缓存命中与缓存未命中:*一次http事务请求如果是从得到的响应是从缓存得到的原始响应副本,那么这样的过程就称之为缓存命中。反之,如果缓存没有响应的副本,而要去请求原始服务,那么就把这个过程称之为缓存未命中!
http再验证:原始响应内容是在变化的,所以缓存应该在文档“过期时间”之后去验证缓存的副本是不是新鲜的,这个过程就叫做http再验证!如果再验证之后得知缓存副本是新鲜的,那么原始服务器返回304 not modified。此时,称之为再验证命中或缓存慢命中!如果得知缓存不是新鲜的,那么服务器返回200 ok。此时,称之为再验证未命中!如果原始对象已经被删除了,返回404 not found响应。相应地缓存副本要删除。(注:虽然再验证命中需要跟原始服务器沟通一次,但是它与直接请求服务器相比,还是要快一点,因为再验证命中只是返回了一些新的过期时间有关的新首部而已,并没有发送主体对象。)
命中率指由缓存返回副本事务在全部事务中所占的比例,称为缓存命中率。这个数据实际中意义不是很大!而字节命中率从资源大小总量的角度说明缓存命中所占的比例。因为他从数据流量的角度出发,所以实际中这个数据的意义挺大的!
区分命中和未命中,简单来说,http没有相应的机制来告知客户端响应是从缓存得到的还是从原始服务器得到的!但我们可以从http响应报文首部中的date字段得知这一情况:如果这个字段的时间比当前时间更早得多,说明这是从缓存得到的,因为date描述的服务器第一次响应的时间,而缓存是不会对这个字段进行修改的!
缓存分为私有缓存(只为一个客户端服务,比如我们给浏览器配置的代理)和共有缓存(为多个客户端服务,现实中是以代理缓存服务器的形式踹出现)。
代理缓存的层级结构:此种结构描述的以父、子层级出现的层次结构,同时离客户端越近的子缓存的命中率较低(较廉价),他们可以把请求上升到父缓存(较昂贵),从而在父缓存那里实现事务处理!
代理缓存的网状结构描述的缓存结构并不是很明显呈现父子关系的结构,而是呈无规则的网状!这种结构的思想就是子缓存可以动态选择上一级缓存,从而实现更灵活的缓存控制!
接收————解析————查询————新鲜度检测————创建响应————发送————记入日志
第一步接收:读取网络连接http请求报文
第二部解析:把报文解析为片段,并把首部放入到缓存易操作的数据结构中
第三步查询:查找存下来缓存副本
第四步新鲜度检测:说白了检查缓存副本是不是还有效的
第五步创建响应:缓存服务器用原始服务器的缓存副本实现响应的起点,同时再在此基础上做一些修改,比如协议转换等
第六步发送:发送报文
第七步日志:事务完成之后,在日志文件插入一个条目,用以记录缓存处理情况,以及记录一些与缓存命中率的数据
Cache-Control: Max-Age=484200
Expires: Fri, 28 Oct 2016 03:03:47 GMT
上面的Max-Age是相对时间,以秒为单位,理解为使用期,expires为绝对时间,为到期时间。
服务器在验证,描述的过期的文档并不是就是原始服务器的原始文档不一样了,而是需要向服务器发起新鲜度验证请求。
用条件方法进行再验证:涉及到的两个首部为If-Modified-Since和If-None-Match。格式为:
If-Modified-Since: <date>
实际上上面那个date为服务器响应报文里面Last-Modified的时间。
If-None-Match:实体标签再验证!此种机制主要跟If-Modified-Since不同在于:If-Modified-Since是根据修改时间来判断文档新鲜度的,但有些情况这样做是不适用的,因为比如我们只是加了注释什么的,其中实际内容是没有变化的,此时我们也应该认为文档是新鲜的!
强弱验证器:描述的是一种对内容的更改“严不严重,影不影响主要含义”的实体标签验证!
缓存控制能力描述的是服务器可以通过设置相关首部来控制文档的缓存过期时间的能力!相关首部如:
Cache-Control: no-store //不能缓存
Cache-Control: no-cache //在没有对服务器验证之前不能提供内容
Cache-Control: must-revalidate //严格遵守新鲜验证规则
Cache-Control: max-age //设置多长时间的过期时间(相对时间)
Expires: //设置多长的过期时间(绝对时间)
(试探性过期)不设置首部,让缓存来决定,这个方式涉及到一种算法,比如缓存服务器通过查看最后修改时间,从而得到该文档的修改频繁度,从而为其设置缓存过期时间
上面的优先级从上到下依次降低。
客户端的新鲜度限制:Web浏览器都有Refresh(刷新)或Reload(重载)按钮,可以强制对浏览器或代理缓存中可能过期的内容进行刷新。Refresh按钮会发布一个附加了Cache-Control请求首部的GET请求,这个请求会强制进行再验证,或者无条件地从服务器获取文档。Refresh的确切行为取决于特定的浏览器、文档以及拦截缓存的配置。客户端可以用Cache-Control请求首部来强化或放松对过期时间的限制,先关首部介绍如下:
Cache-Control请求指令
指令 目的
Cache-Control: max-stale 缓存可以随意提供过期的文件。如果指定了参数,在这段
Cache-Control: max-stale = 时间内,文档就不能过期,这条指令放松了缓存的规则
Cache-Control: min-fresh= 至少在未来秒内文档要保持新鲜。这就使缓存规则更加严格了
Cache-Control: max-age = 缓存无法返回缓存时间长于秒的文档。这条指令会使得缓存规则更加
严格,除非同时还发送了max-stale指令,在这种情况下,使用期可能会
超过其过期时间
Cache-Control: no-cache 除非资源进行了再验证,否则这个客户端不会接受已缓存的
Pragma: no-cache 资源
Cache-Control: no-store 缓存应该尽快从存储器中删除文档的所有痕迹,因为其中可能会包含敏感信息
Cache-Control: only-if-cached 只有当缓存中有副本存在时,客户端才会获取一份副本
mod_headers:加载之后就能对相关首部进行配置了,如:
Header set Cache-control no-cache
mod_expires:mod_expires模块提供的程序逻辑可以自动生成带有正确过期日期的Expires首部
mod_cern_meta:略
本章主要讲解了:
http和其他协议及应用程序之间起到接口作用的网关;
允许不同类型的web应用程序互相通信的应用程序接口;
允许用户在http连接上发送非http流量的隧道;作为一种简化的http代理,一次将数据转发一跳的中继。
<客户端协议>/<服务器端协议>
协议网关主要描述了几种架构在客户端和服务器端之间的网关,它们两侧使用了不同的协议来达到通信的目的,主要有:HTTP/*(服务器端web网关)、HTTP/HTTPS(服务器端安全网关)、HTTPS/HTTP(客户端安全网关加速器)。这里主要以HTTP/FTP为例讲解一次http请求在经过FTP网关时网关会去做什么事:
1、发送USER和PASS命令登录到服务器上去;
2、发布CWD命令,转移到服务器上合适的目录中去;
3、将下载类型设置ASCII;
4、用MDTM获取文档的最后修改时间;
5、用PASV告诉服务器将有被动数据获取请求到达;
6、用RETR请求进行对象获取;
7、打开到FTP服务器的数据连接,服务器端口由控制信道返回;一旦数据信道打开了,就将对象内容回送给网关。
Web隧道允许用户通过HTTP连接发送非HTTP流量,这样就可以在HTTP上捎带其他协议数据了。使用Web隧道最常见的原因就是要在HTTP连接中嵌入HTTP流量,这样,这类流量就可以穿过只允许Web流量通过的防火墙了。
Web隧道使用HTTP的CONNECT方法建立起来的。 CONNECT方法并不是HTTP/1.1核心规范的一部分,但却是一种得到广泛应用的扩展。
CONNECT连接:除了起始行之外,CONNECT的语法与其他HTTP方法类似。一个后面跟着冒号和端口号的主机名取代了请求URL.主机和端口都比如指定:
请求
CONNECT home.netscape.com:443 HTTP/1.0
User-Agent:Mozilla/4.0
响应
HTTP/1.0 200 Connection Established
Proxy-agent:Netscape-Proxy/1.1
“爬虫”主要采取的爬行方式是获取第一个web页面,然后递归地对各种信息性web站点进行遍历,从而获取相关页面。搜索引擎的爬虫是一些复杂的爬虫,因为他们不仅会爬行web页面,而且会把相关数据拉取回来建立数据库,方便用户搜索!
爬虫会从根集开始爬行
爬虫会解析页面所有的url,并把它们转换绝对形式
要避免环路的出现,因为这些环路会暂停或减缓机器人的爬行过程
环路对爬虫有害的三个原因:
爬虫会陷入循环之中,从而兜圈子,浪费带宽,无法获取新页面!
爬虫无限的请求服务器,从而阻塞了真正的用户去请求服务器,这是可以作为法律诉讼理由的!
爬虫服务器会被重复的数据充斥
网络中两个url表面上看起来不一样,但是指向的是同一资源,那么这两个url就互相称为“别名”,由于别名问题的存在,所以爬虫会爬行重复的数据,所以爬虫有必要把url的进行规范化!从而解决相关数据重复问题。相关规范方法如:没有端口默认为80,把字符转义为等价字符,删除#标签等。
规范化URL:将URL转换为标准形式以避免语法上的别名
广度优先的爬行:每次爬虫都有大量潜在的URL要去爬行,如果实行广度URL优先爬行,那么即时碰到环路,机器人也可以回到环路中获取的下一个页面之前,如果采用深度优先方式,那么机器人很容易陷入环路,越陷越深。
节流:限制一段时间内机器人可以从一个web站点获取的页面数量。通过节流来限制重复的页面总数和对服务器的访问总数。
限制URL的大小:机器人可能会拒绝爬行超出特定长度(通常是1KB)的URL。如果环路使URL的长度增加,长度限制就会最终终止这个环路。但要小心,用此种技术肯定会让你错过一些内容,因为现在很多url都绑定了很多状态信息,所以一般情况下,它们长度都会很长。
URL/站点黑名单:维护一个与机器人环路和陷阱相对应的已知站点及URL列表,然后像躲避瘟疫一样避开它们。发现新问题时,就将其加入黑名单。
模式检测:文件系统的符号连接和类似的错误配置所造成的环路会遵循某种模式,比如,URL会随着组件的复制逐渐增加。有些机器人会将具有重复组件的URL当作潜在的环路,拒绝爬行带有多于两或三个重复组件的URL。如形如“/dir/dir/dir…”格式的URL,那么机器人就怀疑它是潜在的环路,从而拒绝爬行。
内容指纹:说白了就是机器人对曾经爬行过的内容进行计算从而算出一个校验和,那么继续爬行其他页面时候,如果发现其它页面的“校验和”和前面算的相等,那么机器人就认为此内容已经获取过了,不需要进行重新获取。
人工监视:如题,人工检测,因为设计再好的机器人总是会陷入环路不能出来的时候,那么就需要人工进行干预,比如收集日志什么的。
相关首部
User-Agent :机器人名字
From :提供机器人管理者的E-mail地址
Accept : 告知服务器可以发送那些媒体类型
Referer :提供包含了当前请求的URL的文档的URL
虚拟主机需要爬虫带Host首部,要不然会返回错误主机的数据
让爬虫使用条件请求是有意义的,因为有的数据内容没有改变,所以重复抓取是浪费空间的,只有在内容实际改变的时候才重新发起请求,即条件请求。
失控的机器人,比正常用户的请求速度快很多,当这类爬虫设计出现错误的时候,很容易短时间之内增加服务器的负载,阻止真正用户的访问,原因诸如:编程逻辑错误、陷入环路之中
失效的url,url可能已经失效了,但是爬虫依然取请求它 ,这样会让服务器的日志文档里面增加了很多请求出错的记录。
很长的错误url,同样请求这样一个url,会让服务器日志文档增加一个很杂论的出错记录
爱打听的机器人,访问了一些管理者不允许访问的内容,涉及侵犯隐私
动态网关访问
通过一个叫robots.txt的文件来约束机器人的访问。它的思想就是指定那些部分机器人可以访问,那些部分机器人不能访问
。如果机器人遵循这个自愿约束标准,那么在请求所有资源之前,它需要获取robots.txt并解析它。
请求robots.txt时针对服务器返回的状态码,爬虫所作的动作:
如果返回2xx代码,机器人就必须对内容进行解析,并使用排斥规则从那个站点上获取内容
如果返回404,机器人认为服务器没有激活排斥规则,所以它不受限制
如果返回401或403(访问限制),表示机器人是完全受限的
如果返回503(服务器临时故障),那么机器人暂时停止访问,知道正常之后继续请求robots.txt
如果返回重定向代码,那么机器人也应该重定向到相关页面
robots.txt文件的格式:包括三种内容注释行、空行、规则行。如:
# this robots.txt file allows Slurp & Webcrawler to crawl
# the public parts of our site,but no other robots...
User-Agent: slurp
User-Agent: webcraler
Disallow: /private
User-Agent: *
Disallow:
搜索引擎是web机器人用得最多的领域
最初开始的搜索引擎就是一个简单的数据,哪里维护者一个用户可能搜索的信息列表。但如今的搜索引擎确实一个相当复杂的数据库,存储有大量信息,用了很多爬虫去爬取数据。所以对用户来说,搜索引擎的检索信息的速度以及爬虫获取数据的速度是搜索引擎需要必须考虑的问题。
全文检索就是一个数据库,给它一个单词,它可以立即提供包含那个单词的所有文档。创建了索引之后,就不需要对文档自身进行扫描了。
搜索引擎都有自己的排序算法,如相关性排名算法,如某个单词在很多内容都出现了,那么它的相关度就很高,所有与此单词有关的内容都应该排在考前。当然了这样的索引差不多在爬虫去获取内容的时候就已经建立起这种索引了!
1、http相当复杂,由此实现http软件是相当复杂的
2、扩展性不好
3、性能不好,有些造成时延较大
4、传输依赖性,http是依赖于tcp/ip协议的
http-ng的出现正式为了修正http存在的复杂性高、可扩展性差、性能不好、传输依赖性等问题!虽然这个版本尚未被广泛使用(也有可能永远不使用)。
http-ng主要有一下几个特点:
模块化及功能增强
相关报文模块采用分层设计,更利于扩展(主要有三层:Web应用功能、远程操作调用、报文传输)
以在线商店为例讲解有了http有了验证身份的机制之后可以实现那些功能,(当然没有这个机制的情况下也可以实现,但是可能会传很多参数来保证身份信息):
1、个性化的问候
2、有的放矢的推荐
3、管理信息的存档
4、记录会话
1、From:用户的E-mail地址
2、User-Agent:用户代理或爬虫标记
3、Referer:当前页面是从那个页面跳过来的
4、Authoriztion:用户的用户名和密码
5、Client-IP : 扩展(请求)
6、X-Forwarded-For : 扩展(请求)
7、Cookie:扩展(请求)
早起的web曾以客户端的ip地址信息来作为验证用户的身份机制,但存在很多缺点,如:
1、首先ip标记是客户端机器,而不是用户,也就是说多个用户公用一台机器,是无法识别的!
2、很多ip地址是动态的,所以不能在一次会话之间用ip地址来验证一个用户信息
3、使用代理的时候,此时发送的ip地址是代理的ip地址,而不是用户的ip地址,虽然代理可以加一个首部来保证最初的ip地址信息,但是不兼容
4、ip地址很容伪造,所以不安全
把用户信息添加进url的url称为胖url,以此来验证用户身份,但这种机制有以下缺点:
1、丑陋的url
2、无法共享url,因为用户信息在url里面,共享url同时也会把用户信息共享出去了
3、破坏缓存
4、额外的服务器负荷
5、逃逸口,很容易造成用户不小心跳到另一个网站,返回过来的收用户的信息全部没了,比如购物车里面的东西全部没了
6、会话是非持久的
分类:会话Cookie(非持久Cookie)和持久Cookie
原理:用户第一次请求服务器时,服务器返回一个带Set-Cookie(Set-Cookie1)首部的报文,值为键值对,描述了cookie的名字、值、域、路径等信息,然后客户端接下来每次访问服务器的时候都会带上一个Cookie首部的报文,它的值刚好是前面响应报文返回的名字键值对,从而达到验证用户身份的信息。
domain : cookie的域
allh : 那些主机可以使用此cookie
path :那些路径能使用cookie
secure : 是否在发送https报文的时候使用cookie
expires : 过期时间
name : cookie的名字
value : cookie的值
cookie机制有个两个版本,一个是网景公司主导的“版本0”,主要是服务器返回“Set-Cookie”首部,而客户端请求发送“Cookie”首部,客户端发送请求时,会将所有与域、路径和安全过滤器相匹配的未过期cookie都发送给这个站点。所有cookie都被组合到一个Cookie首部中,如:
Cookie: session-id=002-1145265-8016938; session-id-time=1311313313131
cookie机制还有一个版本就是RFC 2965定义的一个cookie的扩展版本。这个版本1标准引入了Set-Cookie2首部和Cookie2首部,但它也能与“版本0”系统进行互操作。“版本1”跟“版本0”的区别就是,提供了更多的属性来描述一个cookie,同时服务器端发送的是“Set-Cookie”首部,而客户端发送的是“Cookie”首部,如:
服务器端
Set-Cookie2: ID="29046"; Domain=".joes-hardware.com"
Set-Cookie2: color=blue
Set-Cookie2: support-pref="L2"; Domain="customer-care.joes-hardware.com"
Set-Cookie2: Coupon="hammer027"; Version="1"; Path="/tools"
Set-Cookie2: Coupon="handvac103"; Version="1";Path="/tools/cordless"
客户端
Cookie: $Version="1";
ID="29046"; $Domain=".joes-hardware.com";
color="blue";
Coupon="hammer027"; $Path="/tools";
Coupon="handvac103"; $Path="/tools/cordless"
另外Cookie2首部是用来沟通支持版本0和版本1的服务器的,它会发送当前客户端支持的最新版本cookie版本,如:
Cookie2: $Version="1"
认证就是给出一种身份证明
HTTP的质询/响应认证框架:简单来说就是客户端和服务器端之间通信需要通过不断验证身份的过程来完成一个会话。web第一次发起一条http请求报文时,服务器返回一个“认证质询”响应,要求客户端提供用户信息,用户再次发起请求时,就会附上身份信息证书,如果验证通过,那么就完成会话,否则继续发起质询/认证!
认证协议与首部:http官方定义了两个官方的认证协议:基本认证和摘要认证。与此有关的报文首部如下:
WWW-Authenticate————发生在服务器向客户端发起质询时,此时服务端返回401状态码,同时此首部定义了服务器端那个域需要验证质询认证
Authorization————发生在客户端发起认证时,携带用户名和密码等信息
Authentication-Info————发生在认证成功时,服务器返回200 ok,并以此首部携带一些信息
安全域:安全域说明了不同的资源需要使用不同的访问权限!说白了你访问服务器不同的路径需要不同的验证方式,也就是说你可能需要重新验证!
基本认证实现服务器端可以拒绝一个事务,并要求验证客户端信息,返回401状态码,发起质询/认证!
Base-64用户名/密码编码:是一种编码机制
代理认证:就是代替服务器向客户端发起质询/认证,与服务器端发起的质询/认证主要有几点不同:质询的时候返回的是407状态码,服务器端质询返回的首部是Proxy-Authenticate,客户端认证时发送的是Proxy-Authorizatio首部,认证成功之后返回的是Proxy-Authentication-Info首部。
基本认证简单快捷,但并不安全,存在以下缺陷:
1、基本认证是采用网络以明文的方式发送用户名和密码,容易被别人捕获。
2、即使是密文发送 ,也很容易被别人解码
3、适用于很简单的会话服务
4、没有中间节点的保护措施
5、容易假冒服务器骗过基本认证
本章提供HTTP官方定义的另外一种认证协议————摘要认证。
摘要认证跟基本认证兼容,但更安全,虽然没有得到广泛应用,但对安全事务来说,这些概念是很重要的。
与基本认证相比,摘要认证虽不是最安全的认证方式,但却在以下几点上做了一些改进,以此来降低安全事务风险。
1、永远不会以明文方式在网络上发送密码
2、可以防止恶意用户捕获并重新认证的握手过程
3、可以有选择地防止对报文内容的篡改
4、防范其他几种常见的攻击方式
用摘要保护密码:永远不在网络上发送密码,而是发送密码的摘要,客户端和服务器端是知道密码的,然后服务端计算从客户端传送过来的摘要看是否和本地的密码摘要相匹配,从而验证用户身份。
单向摘要:摘要是一种单向函数,常见的摘要很是是MD5,会将任意长度的字节序列转换为一个128位的摘要,通常被写成一个32位16进制的字符。
用随机数防止重放攻击:就是服务器发送一个随机数,用于和密码摘要组成新的摘要,这样就能避免重放攻击了。
http的安全版本应该具有:高效、可移植且易于管理,不但能够适应不断变化的情况而且还应该能满足社会和政府的各项要求。总结如下:
1、服务器认证:(客户端知道它们是在与真正的而不是伪造的服务器通话)
2、客户端认证:(服务器知道它们是在与真正的而不是伪造的客户端通话)
3、完整性:(客户端与服务器的数据不会被修改)
4、加密:(客户端和服务器的对话是私密的,无需担心被窃听)
5、效率:(一个运行的足够快的算法,以便低端的客户端和服务器使用)
6、普适性:(基本上所有的客户端和服务器都支持这些协议)
7、管理的可扩展性:(在任何地方的任何人都可以立即进行安全通信)
8、适应性:(能够支持当前最知名的安全方法)
9、在社会上的可行性:(满足社会的政治文化需要)
HTTPS:https是http的安全版本协议,所有现代浏览器和服务器都支持这个协议。用户可以在地址栏那里的看url的方法是https还是http来区分。所有https要求所有数据在进行网络传输前进行加密处理,https是在http和tcp/ip之间加了一个安全传输层SSL(或者TLS,跟SSL区别不大,不作特别声明的情况下,它们可以互指)。大部分困难和复杂的编码和解码算法都在SSL中完成的,所以客户端和服务器在使用https不用做过多的协议处理逻辑!
首先需要知道以下概念:
1、密码:对文本进行编码,是偷窥者无法识别的算法(注意是“算法”)
2、秘钥:改变密码行文的数字化参数
3、对称秘钥加密系统:编/解码使用相同密钥的算法
4、公开秘钥加密系统:一种能够使数百万计算机便捷地发送机密报文的系统
5、数字签名:用来验证报文未被伪造或篡改的检验和
6、数字证书:由一个可信的组织验证和签发的识别信息
密码:一种(方法)特殊的报文编码方式和一种稍后使用的相应解码方式的结合体。被编码的报文称为密文,被解码的报文称为明文。在一次请求(响应)中过程中,报文的状态为:明文————密文————明文。如果只使用密码的话,其实有很大的安全缺陷的,因为对方只要知道的你的密码算法,就能够解码处明文。
秘钥:正因为密码算法有缺陷,所有才有了秘钥。说的直白一点,你只有密码的话,别人知道了算法,照样能解码,但是除了密码还有秘钥,别人知道密码就不一定能解码出来了,至少有些困难,那么秘钥是什么呢!它就是一个数字参数,有了它就可以实现,每次解码的算法不一样。就好像一个函数,每次传的参数不一样。秘钥就是那个“参数”!
对称秘钥加密技术:发送端和接受端使用同样的秘钥进行加密的密码算法技术。
枚举攻击:输完所有的可能值来达到解码的一种攻击方案。也就是说如果秘钥的可能方案越多,那么解码所花的代价越大。而秘钥的数量取决于秘钥的位数以及有效位数。所以可以从这些方面来增加密码的安全级别。
公开秘钥加密技术:由于对称秘钥加密技术会有秘钥数目的N*N的问题,所有公开秘钥加密技术要求发送端使用公用的秘钥,在接收端使用私有秘钥的解码。
数字签名:签名就是一种证明身份的机制,是一种校验机制。
数字证书:一种由某官方机构颁发的证书
建立安全传输:https与http的不同就是,中间了增加了一次SSL握手的步骤。具体情况就是,https在建立tcp/ip连接之后还需要进行一次SSL层的传输连接工作连接,同时在关闭tcp/ip连接之前需要增加一次关闭SSL层的通知工作。
SSL握手过程中确定了以下工作细节:
1、交换协议版本号;
2、选择一个两端都了解的密码;
3、对两端的身份进行认证;
4、生成临时的会话秘钥,以便加密信道。
SSL握手步骤为:
1、客户端发送可供选择的密码并请求证书
2、服务器发送选中的密码和证书
3、客户端发送保密信息;客户端和服务端生成秘钥
4、客户端和服务器相互告知,开始加密过程
为了更好的描述http所传输数据的类型、大小、有效性等,http协议应该为主体提供以下描述信息:
1、可以被正确的识别(通过Content-Type首部说明媒体格式),以便接收端能够识别并正确处理内容
2、是最新的(通过实体验证码和缓存过期控制)
3、符合用户的需要(基于Accept系列的内容协商首部)
4、在网络上可以快速有效地传输(通过范围请求、差异编码以及其他数据压缩方法)
5、完整到达、未被篡改(通过传输编码首部和Content-MD5校验和首部)
实体由实体首部和实体主体组成,实体首部是描述货物信息的,实体主体是原始货物。
相关首部如下:
1、Content-Type:实体中所承载对象的类型
2、Content-Length:所传送实体主体的长度或大小,(注意:如果主体采取了内容编码进行压缩,那么它所指的是压缩后的长度或大小,此首部是描述报文主体结束的关键,尤其在持久连接时对多个报文进行正确分段)
3、Content-Language:与所传送对象最相配的人类语言
4、Content-Encoding:对象数据所做的任意变换(比如,压缩)
5、Content-Location:一个备用位置,请求时可通过它来获得对象
6、Content-Range:如果这是部分实体,这个首部说明它是整体的那个部分
7、Content-MD5:实体主体内容的校验和
8、Last-Modified:所传输内容在服务器上创建或最后修改的日期时间
9、Expires:实体主句将要失效的日期时间
10、Allow:改资源所允许的各种请求方法,例如,GET和HEAD
11、ETag:这份文档特定实例的唯一验证码,ETag首部没有正式定义为实体首部,但它对许多涉及实体的操作来说,都是一个重要的首部
12、Cache-Control:指出应该如何缓存该文档。和ETag首部类似,Cache-Control首部没有正式定义为实体首部
http的早期版本采用关闭连接的办法来划定报文的结束,但是,没有Content-Length的话,客户端就无法判别到底是报文结束时正常的连接关闭,还是报文传输中由于服务器崩溃而导致的连接关闭。客户端需要通过Content-Length来检测报文截尾。注意这个后果对于缓存是很严重的,可能造成缓存长时间用不完整的内容来响应客户端。
Content-Length与持久连接:拥有Content-Length就能对报文进行正确的分段
内容编码:有时候服务器采用内容编码来压缩实体主体以节省空间,Content-Length描述的是压缩过后的长度或大小
确定实体主体长度的规则,以下规则,谁先匹配到就用谁:
1、如果特定的HTTP报文类型中不允许带有主体,那么就忽略Content-Length首部。常见情况有:1XX、204以及304响应,还有HEAD方法的响应。
2、如果报文中含有描述传输编码的Transfer-Encoding首部,那么实体就应由一个称为“零字节块”的特殊模式结束。
3、如果报文中,有Content-Length首部而无Transfer-Encoding首部,那么Content-Length就是描述首部的长度。如果有Content-Length首部,同时也有Transfer-Encoding首部,那么就必须忽略Content-Length,因为传输编码会改变实体主体的表示和传输方式(因此可能就会改变传输的字节数)。
4、如果报文使用了multipart/byteranges(多部分/字节范围)媒体类型,且无Content-Length首部,那么报文长度有报文去自定界。
5、如果以上规则都不匹配,实体的长度就是关闭连接时所得到的的主体的长度。这个值实际上由服务器关闭连接得到。客户端关闭连接将使服务器无法响应。
编码过程:
1、生成原始响应报文,有Content-Type和Content-Length首部。
2、编码服务器对报文进行编码,编码之后同样拥有Content-Type和Content-Length首部,但是Content-Length可能不同(比如主体被压缩了),同时增加了Content-Encoding首部,这样接收端就知道怎样去解码了。
3、接收端解码,得到原始报文
Accept-Encoding首部:该首部描述了接收端能处理的编码方式
相关首部:Transfer-Encoding首部告诉接收方自己使用了何种编码。TE首部告诉发送端自己希望收到何种编码。
分块编码:首先分块编码是一种传输编码,其格式大致为:http响应首部块开始,随后就是一系列分块,每个分块包含一个长度值和该分块的数据。长度值是16进制形式并将CRLF与数据分隔开。最后一个块有点特别,它的长度值为0,表示“主体结束”。
分块报文中的拖挂(可选),拖挂中可以包含附带的首部字段,它们的值在报文开始的时候可能是无法确定的(例如,必须要先生成主体的内容)。Content-MD5首部就是一个可以在拖挂中发送的首部。
相关语法:
1、Expires: 要求客户端和服务器时钟同步。
2、Cache-Control: 其相关参数如下(括号中的值表示用在请求报文还是响应报文):
no-cache(请求),在重新向服务器验证之前,不要返回文档的缓存版本
no-store(请求),不要返回文档的缓存版本,不要保存服务器的响应
max-age(请求),缓存中的文档不能超过指定的试用期
max-stale(请求),文档允许过期,但不能超过指令中的指定的过期值
min-fresh(请求),文档的试用期不能小于这个指定的时间与它的当前存活时间之和,换句话说,响应必须至少在指定的这段时间之内保持新鲜
no-transform(请求),文档在发送之前不允许被转换only-if-cached(请求),只要当文档在缓存中才发送,不要联系原始服务器
public(响应),响应可以被任何服务器缓存
private(响应),响应可以被缓存,但只能被单个客户端访问,换句话说,就是本地缓存。
no-cache(响应),如果该指令伴随一个首部列表的话,那么内容可以被缓存并提供给客户端,但必须先删除所列出的首部,如果没有指定首部,缓存中的副本在没有重新向服务器验证之前不能提供给客户端。
no-store(响应),不允许被缓存
no-transform(响应),响应在提供给客户端之前不能做任何形式的修改
must-revalidate(响应),响应在提供给客户端之前必须重新向服务器验证
proxy-revalidate(响应), 共享的缓存在提供给客户端之前必须重新向原始服务器验证,私有的缓存可以忽略这条执行
max-age(响应),指定文档可以被缓存的时间以及新鲜度的最长时间
s-max-age(响应),指定文档作为共享缓存时的最长使用时间,私有的缓存可以忽略本指令
有条件的请求与验证码,概念如下:
1、有条件的请求,仅当资源改变时才请求副本,这种特殊请求称为有条件的请求。
2、验证码,说白一点客户端发送什么条件过去可以获知当前文档不新鲜了,所以常用的验证码就是文档最后修改时间以及实例标记。比如有条件的首部If-Modified-Since测试的是文档实例最后被修改的日期时间,因此我们最后被修改的日期时间就是验证码。
相关首部(括号里面的就是其验证码):
1、If-Modified-Since(Last-Modified):如果在前一条响应的Last-Modified首部中说明的时间之后,资源的版本发生变化,就发送其副本。
2、If-Unmodified-Since(Last-Modified):仅在前一条响应的Last-Modified首部中说明的时间之后,资源的版本没有变化,才发送其副本
3、If-Match(ETag):如果实体的标记与前一次响应首部的ETag相同,就发送该资源的副本
4、If-None-Match(ETag):如果实体的标记与前一次响应首部中的ETag不同,就发送该资源的副本
弱验证码和强验证码:弱验证码不一定能唯一标志资源的一个实例,而强验证码能唯一标志一个文档的实例。例如用文档字节数来验证一个文档是否有改变,可能会出现的情况就是,虽然字节数大小没有变,但是内容确实变了,所以字节数验证码是弱验证码,而资源内容的加密校验和(比如MD5)就是强验证码,因为当文档改变时它总是会改变。注:在ETag首部的值前面加上W/,把其标记为弱验证码,此时只是主体发生显著变化时,才会从服务器取资源。
概念:差异编码是HTTP协议的一个扩展,它通过交换对象改变的部分而不是完整的对象来优化传输性能。
相关首部:A-IM(请求)指出接受何种差异编码,IM(响应)指出使用了何种差异编码。
Content-Type: text/html; charset=iso-8859-6
把二进制码转换为字符要经过两个步骤:
1、文档中的二进制码被转换成字符代码,它表示了特定编码字符集中某个特定编号的字符。
2、字符代码用于从编码的字符集中选取特定的元素。如在iso-8859-6中,值255对应阿拉伯字母“FEH”。
不同的字符集相同的字符代码其字符不一定相同:如获得字符代码是225,那么字符集iso-8859-1和字符集iso-8859-2所代表的字符就不一样。
字符集术语:
1、字符是指字母、数字、标点、表意文字、符号,或其它文本形式的书写‘原子’
2、字形描述字符的笔画图案或唯一的图形化形状
3、编码后的字符分配给字符的唯一数字编号,这样我们就可以操作它了
4、代码空间:计划用于字符代码值的整数范围
5、代码宽度:每个(固定大小的)字符代码所用的位数
6、字符库:特定的工作字符集(全体字符的一个子集)
7、编码后的字符集:组成字符库(从全球的字符中选出若干字符)的已编码字符集,并为每个字符分配代码空间中的一个代码
8、字符编码方案:把数字化的字符代码编码成一系列二进制码的算法
MIME中的charset值所命名的是把数据位映射为唯一的字符的一整套算法。它是字符编码方案和编码后的字符集这两种概念的组合。
字符是书写的最基本的构建单元。不要把字符和字形混淆,字符是唯一的、抽象的语言“原子”。字形是画出每个字符时使用的特定方式。根据艺术形式和手法的不同,每个字符可以有很多不同的字形。如果用一种字形替代另一种的时候,文本的意思变了,那这些字形就是不同的字符。否则,它们就是同一个字符的不同风格的表示形式而已。
字符编码方案:
1、固定宽度:固定宽度方式的编码用固定数量的比特表示每个编码后的字符。它们能被快速处理,但可能会浪费空间
2、可变宽度(无模态):可变宽度方式的编码对不同的字符代码数字采用不同数量的比特。对于常用字符,这样可以减少需要的位数,而且还能减少需要的位数,而且还能在允许使用多字节来表示国际性字符的同时,保持对传统8位字符集的兼容性。
3、可变宽度(有模态):有模态的编码使用特殊的“转义”模式在不同的模态之间切换。例如,可以用有模态的编码在文本中使用多个互相有重叠的字符集。有模态的编码处理起来比较复杂,但它们可以有效地支持复杂的书写系统。
变体:单一的一个url,根据用户的不同需要,服务器发送不同版本的响应给用户,我们把这种服务器发送的不同版本的响应称为变体。例如一个网页有英语和中文版本,通过内容协商的方法实现精确发送那个版本的给客户端,这两个版本的网页就是变体。
转码:有时根据客户端设备的不同,需要将资源转换成响应的格式的文件以让客户端设备更好的处理资源,这种类似的操作就称作转码。
内容协商技术从实现方式来说有三种:
1、客户端驱动实现方式:客户端发起请求,服务器返回资源可用版本的列表,这种方式实现起来简单,但同时有个问题就是至少需要发送两次请求才能得到自己喜欢的响应(第一次获取列表,第二次才是得到资源),显然会造成时延、浪费带宽。
2、服务器驱动实现方式:这种方式由服务器通过检测客户端发送过来的内容协商首部来主动决定发送相应版本的资源,涉及到著名q值检测技术。这种方式的问题就是,如果客户端的发送过来的相关首部不明确的话,那么就得服务器自己去判断了。
3、透明方式(代理缓存处理):让代理代替客户端与服务器端进行协商,从而减轻了服务器端的请求压力。
我们知道客户端驱动的协商会增加额外的通信量,那么避免这种情况就是让服务器端主动决定发送什么给客户端。但是为了做到这一点,客户端必须发送有关客户偏好的足够信息。以便能够左春准确的决策。服务器通过客户端请求的首部集来获得这方面的信息。相关客户端可以发送给服务器做判断的首部如下:
1、Accept首部集
2、User-Agent
Accept 告知服务器发送何种媒体类型
Accept-Language 告知服务器发送何种语言
Accept-Charset 告知服务器发送何种字符集
Accept-Encoding 告知服务器采用何种编码
Accept首部集和匹配的文档首部集
——————————————————————————————————————————
*Accept首部* *实体首部*
——————————————————————————————————————————
Accept Content-Type
Accept-Language Content-Language
Accept-Charset Content-Type
Accept-Encoding Content-Encoding
质量值:HTTP提供了一种机制,可以让使得客户端足以描述自己的偏好信息,这种机制就是质量值(简称q值)。
http协议中定义了质量值,允许客户端为每种偏好类别列出多种选项,并为每种偏好选项关联了一个优先次序。例如,客户端可以发送下列形式的Accept-Language首部:
Accept-Language: en;q=0.5, fr;q=0.0, nl;q=1.0, tr;q=0.0
其中q值的范围从0.0~1.0(0.0是优先级最低的,而1.0是优先级最高的)。上面列出的那个首部,说明该客户端最愿意接收荷兰语(缩写为nl)文档,但英语(缩写为en)文档也行;无论如何,这个客户端都不愿意收到法语(缩写为fr)或土耳其语(缩写为tr)的版本。注意,偏好的排列顺序并不重要,只有与偏好相关的q值才是重要的。如果上面的列表中,服务器没有找到自己匹配的文档,那么服务器将会采取转码等修改文档方式来实现响应。
如User-Agent(此方式没有q值机制)实现发送不支持javascript版本的资源给客户端。
Vary首部:这个首部告知缓存(还有客户端的和所有下游的代理)服务器根据哪些首部来决定发送响应的最佳版本。
如果服务器没有能满足客户端需求的文档会怎么样呢?服务器可以给出一个错误响应。但理论上,服务器可以把现存的文档转换成某种客户端可用的文档。这种选项称为转码。有三种类别的转码:格式转换、信息综合以及内容注入。
1、格式转换是指将数据从一种格式转换成另一种格式,使之可以被客户端查看。
2、信息综合是从文档中提取关键的信息片段称为信息综合。
3、前面描述的两类转码通常会减少Web文档的内容,但还有另一类转换会增加文档的内容,即内容注入转码。
此外,转码的替代做法是在web服务器上建立Web页面的不同副本,例如一个是HTML;一个是WML。但这种方式操作起来工程量大,一个小小的改动,所有的相关的页面都要更改,加大了存储空间等。
Web主机托管:对内容资源的存储、协调以及管理的职责统称为Web主机托管。主机托管是服务器的主要功能之一。
托管者:如果某个公司想建立一个网站,但不想自行管理服务器所需的软硬件,就需要主机托管服务,即托管者。
专用托管:一台物理服务器对应一个主机
虚拟主机托管:许多Web托管者通过让一些顾客共享一台计算机来提供便宜的Web主机托管服务,这称为共享主机托管或虚拟主机托管。每个网站看起来是托管在不同的服务器上,但实际上是托管在同一个物理服务器上。————但这并不意味着上千个网站是用一台PC机来提供服务的。托管者可以创建成排同样的服务器,称为服务器集群。
背景:不幸的是,HTTP/1.0中的一个设计缺陷会使虚拟主机托管者抓狂。HTTP/1.0规范中没有为共享的Web服务器提供任何方法来设别要访问的是哪一个托管的网站。
造成的后果:如果在一台物理服务器上托管了两个网站www.site1.com和www.site2.com。用户1想去获取www.site1.com的主页,于是在它发送了的请求报文为请求行GET /index.html HTTP/1.0,这里并没有发送主机信息,所以很可能服务器返回的是www.site2.com的主页。
为了解决HTTP/1.0无法提供主机设别的缺陷,Web托管者需要开发变通的方案和约定来支持共享的虚拟主机托管。主要有四种技术:
1、通过URL路径进行虚拟主机托管:可以通过分配不同的URL路径,用这种笨方法把共享服务器上的虚拟站点隔离开。例如,可以给每个逻辑网站一个专门的路径前缀。
Joe的五金商店可以是:http://www.joes-hardware.com/joe/index.html
Mary的古董拍卖店可以是:http://www.marys-antiques.com/mary/index.html
当请求到达服务器时,其中并没有主机名信息,但服务器可以通过路径来区分它们。
请求Joe的五金商店的网址是 GET /joe/index.html
请求Mary的古董拍卖店的网址是 GET /mary/index.html
显然这不是一个好方法,/joe和/mary这样的前缀是多余的,并且那种常规输入主机地址显示主页的约定不存在了!
2、通过端口号进行虚拟主机进行托管:托管者为每个主机提供一个单独的端口号,用来区分每个网站。这个方法也有同样的显著问题,因为终端用户很少去输入端口号的。
3、通过IP地址进行虚拟主机托管:一个更常用的、更好的方法是通过IP地址进行虚拟化。每个虚拟网站都分配一个或多个唯一的IP地址。所有虚拟网站的IP地址都绑定到同一个共享的服务器上。服务器可以查询HTTP连接的目的IP地址,并以此来判断客户端的目标网扎。这种方法对大的托管者来说,虚拟IP的主机托管能够工作,但它会带来一些麻烦。1)ip地址是有限制的,服务器上托管成百上千的虚拟站点的服务商不一定能实现愿望。2)IP地址是稀缺资源。3)服务器通过赋值服务器来增加容量时,ip地址短缺的问题就更严重了。
4、通过Host首部进行虚拟主机托管:这个方法主要是在请求首部增加Host首部,用来发送目的主机信息和端口。
出现下列情况,网站是服务运作的。
1、服务器宕机
2、交通拥塞:服务器过载,甚至使它彻底停机
3、网络中断或掉线
常见解决办法:
1、镜像的服务器集群,涉及的技术:HTTP重定向:该内容的URL会解析到主服务器的ip地址,然后它会发送重定向到复制服务器。DNS重定向:该内容的URL会解析到四个IP地址,DNS服务器可以选择发送给客户端的IP地址。
2、内容分发网络
重定向技术通常可以用来确定报文是否终结于某个代理、缓存或服务器集群中某台特定的服务器。重定向技术可以将报文发送到客户端没有显示请求的地方去。与此需要涉及到的技术:
1、HTTP重定向
2、DNS重定向
3、任播路由
4、策略路由
5、IP MAC转发
6、IP地址转发
7、WCCP(Web缓存协调协议)
8、ICP(缓存间通信协议)
9、HTCP(超文本缓存协议)
10、NECP(网元控制协议)
11、CARP(缓存阵列路由协议)
12、WRAD(Web代理自动发现协议)
原因如下:
1、 可靠地执行HTTP事务
2、最小化时延
3、节约网络带宽
1、HTTP重定向:原始服务器通过发送重定向响应报文,让客户端去其它可用的资源地点请求资源。常见发送状态码为302的响应报文,有以下缺点:1)原始服务器处理负载较大;2)增加了用户时延,因为需要多一次访问原始服务器;3)如果重定向服务器出现故障,站点就会瘫痪。
2、DNS重定向:其实tcp/ip视同ip地址来确定一个连接的,所以DNS重定向的原理就是通过DNS解析器确定合适的ip地址路劲来建立连接的。相关技术有DNS轮转。
HTTP方法:主要记录事务用了什么方法
客户端和服务器的HTTP版本:给出客户端和服务器有关的提示,比如兼容性提示什么的
所请求资源的URL:记录Web站点某个资源的访问频率和受欢迎程度
响应的HTTP状态码:主要说明请求的执行情况成功与否
请求和响应报文的尺寸(包含所有的实体主体部分):记录大小
事务开始时的时间戳:记录发生时间
Referer首部和User-Agent首部的值:主要记录从那个页面跳过来以及用户代理
以下是常用格式字段
remotehost 请求端机器的主机名或IP地址(如果没有配置服务器去执行反
向DNS或无法查找请求段的主机名,就使用IP地址)
username 如果执行了ident查找,就是请求端已认证的用户名
auth-username 如果进行了认证,就是请求端已认证的用户名
timestamp 请求的日期和时间
request-line 精确的HTTP请求行文本,GET /index.html HTTP/1.1
response-code 响应中返回的HTTP状态码
response-size 响应主体中的Content-Length,如果响应中没有返回主体,就记录0
组合日志格式与常用日志格式很类似。实际上,它就是常用日志格式的精确镜像,只是添加了两个字段。User-Agent字段用于说明是哪个HTTP客户端应用程序在发起已被记录的请求,而Referer字段则提供了更多与请求端在何处找到这个URL的有关信息。
新加的组合日志格式字段
Referer Referer首部的内容
User-Agent User-Agent首部的内容
网景的格式是基于NCSA的常用日志格式的,但它扩展了该格式,以支持与代理和Web缓存这样的HTTP应用程序相关的字段。网景扩展日志格式的前7个字段与常用日志格式中的那些字段完全相同。
网景扩展日志格式新加的字段
proxy-response-code 如果事务处理经历了某个代理,就是从服务器传往代理的HTTP响应码
proxy-response-size 如果事务处理经历过了某个代理,就是发送给代理的服务器响应实体
的Content-Length
client-request-size 发给代理的客户端请求的所有主体或实体的Content-Length
proxy-request-size 如果事务处理经历过了某个代理,就是代理发往服务器的
请求的所有主体或者实体的Content-Length
client-request-hdr-size 以字节为单位的客户端请求首部的长度
proxy-response-hdr-size 如果事务处理经过了某个代理,就是以字节为单位的,发送给请求
端的代理响应首部的长度
proxy-request-hdr-size 如果事务处理经历过了某个代理,就是以字节为单位的,发送
给服务器的代理请求首部的长度
server-response-hdr-size 以字节为单位的,服务器响应首部的长度
proxy-timetamp 如果事务处理经历过了某个代理,就是请求和响应经过代理
传输所经过的时间(单位为秒)
另一种网景日志格式,网景扩展2日志格式采用了扩展日志格式,并添加了一些与HTTP代理和Web缓存应用程序有关的附加信息。这些附加字段有助于更好地描绘HTTP客户端和HTTP代理应用程序间的交互图景。
附加的网景扩展2日志格式字段
route 代理用来向客户端发送请求的路径
client-finish-status-code 客户端完成状态码。说明了发送给代理的客户端请求
是成功完成(FIN)了,还是被打断了(INTR)
proxy-finish-status-code 代理完成状态码,说明代理发送给服务器的请求是成功完成(FIN)
了,还是被打断了(INTR)
cache-result-code 缓存结果代码;说明缓存是如何响应请求的
Squid日志格式字段
timestamp 请求到达时的时间戳,是从格林尼治标准时间1970年
1月1日开始的秒数
time-elapsed 请求和响应通过代理传输所经历的时间(以毫秒为单位)
host-ip 客户端(请求端)主机的IP地址
result-code/status result字段是Squid类型的,用来说明在此请求过程中代理
采取了什么动作,code字段是代理发送客户端的HTTP响应代码
size 代理响应客户端的字节长度,包括HTTP响应首部和主体
method 客户端请求的HTTP方法
url 客户端请求中的URL
rfc931-ident 客户端经过认证的用户名
hierarchy/from 与网景格式中的route字段一样,hierarchy字段说明了代理向客户端
发送请求时经由的路径。from字段说明了代理发起请求时的服务器名称
content-type 代理响应实体的Content-Type
缓存服务器位于客户端和服务器之间,用于防止服务器同时处理大量访问请求(这正是缓存的目的)。缓存要处理很多HTTP请求,并在不访问原始服务器的情况下满足它们的请求,服务器中没有客户端访问其内容的记录,导致日志文件中出现遗漏。由于日志数据会遗失,所以,内容提供者会对其最重要的页面进行缓存清除(cachebust)。缓存清除是指内容提供者有意将某些内容设置为无法缓存,这样,所有对此内容的请求都会被导向原始服务器。于是,原始服务器就可以记录下访问情况了。不使用缓存可能会生成更好的日志,但会减缓原始服务器和网络的请求速度,并增其负荷。
命中率测量协议是对HTTP的一种扩展,它为这个问题提供了一种解决方案。命中率测量协议要求缓存周期性地向原始服务器汇报缓存访问的统计数据。