HTTP协议

协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定常见的协议有TCP/IP. SOAP协议,HTTP协议,SMTP协议等等...

 

HTTP是基于客户/服务器模式,且面向连接的。典型的HTTP事务处理有如下的过程:

(1)客户与服务器建立连接;

(2)客户向服务器提出请求;

(3)服务器接受请求,并根据请求返回相应的文件作为应答;

(4)客户与服务器关闭连接。HTTP协议可以把一条消息分为二大块内容

 

请求:

1 请求行 -> 请求方式请求urL地址协议

2 请求头 ->放一些服务器要使用的附加信息

3 请求体 ->一般放一些请求参数

 

响应:

1 状态行 -> 协议状态码

2 响应头 -> 放一些客户端要使用的一些附加信息

3 响应体 -> 服务器返回的真正客户端要用的内容(HTML,json)等

 

请求头中最常见的一些重要内容(爬虫需要):

1. User-Agent :请求载体的身份标识(用啥发送的请求)

2. Referer: 防盗链(这次请求是从哪餐页面来的?反爬会用到)

3. cookie: 本地字符串数据信息(用户登录信息,反爬的token)

响应头中一些重要的内容:

1. cookie: 本地字符串数据信息(用户登录信息,反爬的token)

2.各种神奇的莫名其妙的字符串(这个需要经验了,-般都是token字样,防止各种攻击和反爬)

 

HTTP 请求可以使用多种请求方法。

HTTP1.0 定义了三种请求方法: GET, POST 和 HEAD 方法。

HTTP1.1 新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

1 GET 请求指定的页面信息,并返回实体主体。

2 HEAD 类似于 GET 请求,只不过返回的响应中没有具体的内容,用于获取报头 

3 POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。 

4 PUT 从客户端向服务器传送的数据取代指定的文档的内容。 

5 DELETE 请求服务器删除指定的页面。 

6 CONNECT HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。 

7 OPTIONS 允许客户端查看服务器的性能。 

8 TRACE 回显服务器收到的请求,主要用于测试或诊断。 

9 PATCH 是对 PUT 方法的补充,用来对已知资源进行局部更新 。

HTTP状态码:

200 - 请求成功

301 - 资源(网页等)被永久转移到其它URL

404 - 请求的资源(网页等)不存在

500 - 内部服务器错误

你可能感兴趣的:(http)