C.Python爬虫基础之HTTP协议

HTTP协议，.即超文本传输协议（HyperText Transfer Protocol），是一种规定了浏览器和万维网服务器之间互相通信的规则。设计HTTP最初目的是为了提供发布和接收HTML页面的方法。

HTTP工作原理

采用了请求Request/响应Response模式:

客户端向服务器发送一个请求报文，请求报文包含请求的方法、URL、协议版本、请求头部和请求数据；
服务器以一个状态行作为响应，响应报文内容包括协议的版本、连接状态、服务其信息、响应头部和响应数据。

报文格式来源网络

在浏览器地址栏键入URL后，按回车会经历以下流程：
1、浏览器向DNS服务其请求解析URL中域名所对应的IP地址；
2、解析出IP地址后，根据该IP地址和默认端口80，和服务器建立TCP连接；
3、浏览器发出读取文件的HTTP请求，该请求报文作为TCP三次握手的第三个报文的数据发送给服务器；
4、服务器对浏览器请求作出响应，并把对应html文本发送给浏览器；
5、释放TCP连接；
6、浏览器将该html文本并显示内容。

HTTP协议常见请求方法

GET 要求将URL定位的资源放在响应报文的数据部分，回送给客户端。使用GET方法时，请求参数和值附加在URL后面，利用一个问号（“？”）代表URL结尾与请求参数的开始，传递参数长度受限制；
HEAD 与GET方法一样，都是向服务器发出指定资源的请求。该方法不必传输全部内容，就可以获取其中“关于该资源的信息”元数据；
POST 向指定资源提交数据，请求服务器进行处理（例如提交表单或上传文件）。数据被包含在请求中，请求可能回创建新的资源或修改现有资源，以名称/值形式出现；
PUT 向指定资源未知上传器最新内容；
DELETE 请求服务其删除Request-URI所标识的资源；
TRACE 回显服务器收到的请求，主要用于测试或诊断；
CONNECT 通常用于SSL加密服务的链接；
OPTIONS 可使服务器传回该资源所支持的所有HTTP请求方法，用“*”表示资源名称，向Web服务器发送OPTIONS请求，可测试服务器功能是否正常运作。

HTTP协议响应状态码

100 Continue；
200 OK 请求成功（其后是对GET和POST请求的应答文档）；
305 Use Proxy 客户请求的文档应通过Location头所指明的代理服务器提取；
400 Bad Request 服务器未能理解请求；
404 Not Found 服务器无法找到请求页面；
500 Internal Server Error 请求未完成。服务器遇到不可预知的情况。

HTTP协议与HTTPS协议区别

HTTPS协议需要拿到CA证书，一般免费证书较少，需要交费；
HTTP协议运行在TCP之上，所有传输内容都是铭文，HTTPS运输在SSL/TLS之上，所有传输的内容都济公加密；
HTTP默认端口80、HTTPS默认端口443；
HTTPS可以有效防止运营商劫持。

TCP/IP四层模型

数据链路层（主机-网络层）：物理传输通道，可使用多种传输介质传输，可建立在任何物理传输网上，如光纤、双绞线。
网络层：负责提供基本的数据封包（Packet）传送功能，让每一块数据包都能够到达目的主机（但不检查是否被正确接收），如网际协议（IP）。
传输层：主要任务是向上一层提供可信的端到端（End-to-End）服务，确保“报文”无差错、有序、不丢失、无重复地传输。如传输控制协议（TCP）、用户数据报协议（UDP）等。这一层向高层屏蔽了下层数据通信的细节，是计算机通信最关键的一层。
应用层：确定进程间通信的性质，满足用户的需求。如简单电子邮件传输（SMTP）、文件传输协议（FTP）、网络远程访问协议（Telnet）、超文本传输协议HTTP等。

好处是：在分层体系机构中，各层之间是完全独立的，编程只需要关注应用层，而不需用考虑底层的编写及传输规则。

积累、探索，做到每天突破一点点！不焦虑、不浮躁，奥里给！小野s

C.Python爬虫基础之HTTP协议

你可能感兴趣的:(C.Python爬虫基础之HTTP协议)