C.Python爬虫基础之HTTP协议

HTTP协议,.即超文本传输协议(HyperText Transfer Protocol),是一种规定了浏览器和万维网服务器之间互相通信的规则。设计HTTP最初目的是为了提供发布和接收HTML页面的方法。

HTTP工作原理

采用了请求Request/响应Response模式:

  • 客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据;
  • 服务器以一个状态行作为响应,响应报文内容包括协议的版本、连接状态、服务其信息、响应头部和响应数据。
    报文格式来源网络

在浏览器地址栏键入URL后,按回车会经历以下流程:
1、浏览器向DNS服务其请求解析URL中域名所对应的IP地址;
2、解析出IP地址后,根据该IP地址和默认端口80,和服务器建立TCP连接;
3、浏览器发出读取文件的HTTP请求,该请求报文作为TCP三次握手的第三个报文的数据发送给服务器;
4、服务器对浏览器请求作出响应,并把对应html文本发送给浏览器;
5、释放TCP连接;
6、浏览器将该html文本并显示内容。

HTTP协议常见请求方法

  • GET 要求将URL定位的资源放在响应报文的数据部分,回送给客户端。使用GET方法时,请求参数和值附加在URL后面,利用一个问号(“?”)代表URL结尾与请求参数的开始,传递参数长度受限制;

  • HEAD 与GET方法一样,都是向服务器发出指定资源的请求。该方法不必传输全部内容,就可以获取其中“关于该资源的信息”元数据;

  • POST 向指定资源提交数据,请求服务器进行处理(例如提交表单或上传文件)。数据被包含在请求中,请求可能回创建新的资源或修改现有资源,以名称/值形式出现;

  • PUT 向指定资源未知上传器最新内容;

  • DELETE 请求服务其删除Request-URI所标识的资源;

  • TRACE 回显服务器收到的请求,主要用于测试或诊断;

  • CONNECT 通常用于SSL加密服务的链接;

  • OPTIONS 可使服务器传回该资源所支持的所有HTTP请求方法,用“*”表示资源名称,向Web服务器发送OPTIONS请求,可测试服务器功能是否正常运作。

HTTP协议响应状态码

100 Continue
200 OK 请求成功(其后是对GET和POST请求的应答文档);
305 Use Proxy 客户请求的文档应通过Location头所指明的代理服务器提取;
400 Bad Request 服务器未能理解请求;
404 Not Found 服务器无法找到请求页面;
500 Internal Server Error 请求未完成。服务器遇到不可预知的情况。

HTTP协议与HTTPS协议区别

  • HTTPS协议需要拿到CA证书,一般免费证书较少,需要交费;
  • HTTP协议运行在TCP之上,所有传输内容都是铭文,HTTPS运输在SSL/TLS之上,所有传输的内容都济公加密;
  • HTTP默认端口80、HTTPS默认端口443;
  • HTTPS可以有效防止运营商劫持。

TCP/IP四层模型

  • 数据链路层(主机-网络层)物理传输通道,可使用多种传输介质传输,可建立在任何物理传输网上,如光纤、双绞线。

  • 网络层:负责提供基本的数据封包(Packet)传送功能,让每一块数据包都能够到达目的主机(但不检查是否被正确接收),如网际协议(IP)。

  • 传输层:主要任务是向上一层提供可信的端到端(End-to-End)服务,确保“报文”无差错、有序、不丢失、无重复地传输。如传输控制协议(TCP)、用户数据报协议(UDP)等。这一层向高层屏蔽了下层数据通信的细节,是计算机通信最关键的一层。

  • 应用层确定进程间通信的性质,满足用户的需求。如简单电子邮件传输(SMTP)、文件传输协议(FTP)、网络远程访问协议(Telnet)、超文本传输协议HTTP等。

好处是:在分层体系机构中,各层之间是完全独立的,编程只需要关注应用层,而不需用考虑底层的编写及传输规则。


积累、探索,做到每天突破一点点!不焦虑、不浮躁,奥里给!小野s

你可能感兴趣的:(C.Python爬虫基础之HTTP协议)