《图解HTTP》读书心得

读书初衷

1.最近开发nutch网页解析插件遇到不少网页返回状态码让我在意。
2.对一些需要2次请求的页面的参数意义不明。
3.据说scrapy爬HTTPS会遇到困难,这东西究竟什么鬼?

梗概

整理一下对我有用的知识点,不感兴趣的暂时没有细读。

HTTP状态码

  • 1XX 信息性状态码 接受的请求正在处理
    100 (继续) 请求者应当继续提出请求。 服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。
    101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换。

  • 2XX Success 请求正常处理完毕
    200 (成功) 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。
    201 (已创建) 请求成功并且服务器创建了新的资源。
    202 (已接受) 服务器已接受请求,但尚未处理。
    203 (非授权信息) 服务器已成功处理了请求,但返回的信息可能来自另一来源。
    204 (无内容) 服务器成功处理了请求,但没有返回任何内容。
    205 (重置内容) 服务器成功处理了请求,但没有返回任何内容。
    206 (部分内容) 服务器成功处理了部分 GET 请求。

  • 3XX Redirection 需要附加操作以完成请求
    300 (多种选择) 针对请求,服务器可执行多种操作。 服务器可根据请求者 (user agent) 选择一项操作,或提供操作列表供请求者选择。
    301 (永久移动) 请求的网页已永久移动到新位置。 服务器返回此响应(对 GET 或 HEAD 请求的响应)时,会自动将请求者转到新位置。
    302 (临时移动) 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。
    303 (查看其他位置) 请求者应当对不同的位置使用单独的 GET 请求来检索响应时,服务器返回此代码。
    304 (未修改) 自从上次请求后,请求的网页未修改过。 服务器返回此响应时,不会返回网页内容。
    305 (使用代理) 请求者只能使用代理访问请求的网页。 如果服务器返回此响应,还表示请求者应使用代理。

  • 4XX Client Error 服务器无法处理请求
    400 (错误请求) 服务器不理解请求的语法。
    401 (未授权) 请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。
    403 (禁止) 服务器拒绝请求。
    404 (未找到) 服务器找不到请求的网页。
    405 (方法禁用) 禁用请求中指定的方法。
    406 (不接受) 无法使用请求的内容特性响应请求的网页。
    407 (需要代理授权) 此状态代码与 401(未授权)类似,但指定请求者应当授权使用代理。
    408 (请求超时) 服务器等候请求时发生超时。
    409 (冲突) 服务器在完成请求时发生冲突。 服务器必须在响应中包含有关冲突的信息。
    410 (已删除) 如果请求的资源已永久删除,服务器就会返回此响应。
    411 (需要有效长度) 服务器不接受不含有效内容长度标头字段的请求。
    412 (未满足前提条件) 服务器未满足请求者在请求中设置的其中一个前提条件。
    413 (请求实体过大) 服务器无法处理请求,因为请求实体过大,超出服务器的处理能力。
    414 (请求的 URI 过长) 请求的 URI(通常为网址)过长,服务器无法处理。
    415 (不支持的媒体类型) 请求的格式不受请求页面的支持。
    416 (请求范围不符合要求) 如果页面无法提供请求的范围,则服务器会返回此状态代码。
    417 (未满足期望值) 服务器未满足”期望”请求标头字段的要求。

  • 5XX Server Error 服务器处理请求出错
    500 (服务器内部错误) 服务器遇到错误,无法完成请求。
    501 (尚未实施) 服务器不具备完成请求的功能。 例如,服务器无法识别请求方法时可能会返回此代码。
    502 (错误网关) 服务器作为网关或代理,从上游服务器收到无效响应。
    503 (服务不可用) 服务器目前无法使用(由于超载或停机维护)。 通常,这只是暂时状态。
    504 (网关超时) 服务器作为网关或代理,但是没有及时从上游服务器收到请求。
    505 (HTTP 版本不受支持) 服务器不支持请求中所用的 HTTP 协议版本。

<爬取中经常碰到的两个状态码>
遇到的status.getCode()=16对应1,不过并没看到响应解释。
status.getCode() =502对应5,状态为显示无法响应。

HTTP首部

HTTP请求是客户端向服务器端发起。
* 通用首部字段(请求相应都用)
* 请求首部字段(请求的附加内容、客户端信息、相应内容相关优先级)
* 响应首部字段(补充响应的附加内容,也会要求客户端附加额外内容)
* 实体首部字段(主要是一些资源实体信息)

关于缓存

HTTP首部字段将缓存代理行为定义为端到端首部End-to-end,非缓存代理行为定义为逐跳首部Hop-by-hop。
备注:Cache-Control字段控制缓存行为,缓存最大的好处在于可以减少服务器处理请求的压力,缓存有效期内,客户端的请求返回缓存内容即可。

关于Cookie

HTTP是无状态协议,也就是不会记录任何请求和操作的状态,这样设计是为了保证HTTP的轻量级特性。
Cookie管理服务器与客户端之间的状态,具体的说是用户识别及状态管理。调用Cookie时,可校验有效期,发送方的域、路径、协议等信息。
Cookie省略expires属性时,有效期仅限于浏览器会话Session的时间段内。

HTTPS

HTTP不够安全:明文通信不加密易被窃听,不验证身份可能被伪装,不检验内容完整性内容可能被篡改。
添加了加密及认证机制的HTTP成为HTTPS(HTTP Secure)。
HTTPS=HTTP+加密+认证+完整性保护

  • SSL或TLS外壳
  • 证书机制(密钥技术)
  • 完整性认证(MD5/SHA-1)

HTTPS的问题

增加了通信开销,计算开销,证书的成本开销,所以通常只用于个人敏感信息处理。

HTTP的5个瓶颈

  • 一条连接上(如TCP)只可发送一个请求
  • 请求只能从客户端开始。客户端不接收除响应以外的指令
  • 请求/响应首部未压缩就发送,带来延迟
  • 首部冗长,每次发送相同的首部浪费资源
  • 可任意选择数据压缩格式,不强制压缩

解决办法
1. Ajax(异步JS和XML技术)利用JS和DOM局部替换加载Web页面,故需要少量响应内容即可。问题是仍需要大量请求。
2. Comet 模拟实现Server Push,响应挂起,一更新就推送。问题是需要长时间维持连接。
3. SDPY协议 会话层,SSL传输,压缩首部,推送功能,服务器提示功能,多路请求复用一个连接,请求优先级策略。
4. 浏览器端的改进- WebSocket全双工通信技术,从Web内容编写方式角度入手。
5. HTTP/2.0 :
* SPDY
* HTTP Speed + Mobility
* Network-Friendly HTTP Upgrade

//TODO

scrapy爬取以后研究

你可能感兴趣的:(爬虫)