2021-01-27

爬虫前导知识

端口

我们想要进行数据通讯分几步?

  1. 找到对方ip
  2. 数据要发送到对方指定的应用程序上。为了标识这些应用程序,所以给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字,叫做“端口”。这里的“端口” 我们一般都叫做“逻辑端口”。
  3. 定义通讯规则。这个通讯规则我们一般称之为协议

通讯协议

  • 国际组织定义了通用的通信协议 TCP/IP协议
  • 所谓协议就是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则
  • HTTP又叫做超文本传输协议(是一种通信协议) HTTP 它的端口是 80

网络模型

image.png

后期更新了新的参考模型 TCP/IP参考模型

image.png

HTTPS是什么呢?

  • https=http+ssl,顾名思义,https是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成的
  • https是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL

SSL怎么理解?

SSL也是一个协议主要用于web的安全传输协议

image.png

Http请求与响应

HTTP通信由两部分组成: 客户端请求消息 与 服务器响应消息

image.png
  1. 当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。
  2. 当我们在浏览器输入URL http://www.baidu.com 的时候,浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。
  3. 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。
  4. 当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

HTTP的请求和响应小结(重点)

General全部的

  • Request URL 请求的地址
  • Request Method 请求的方式(get post)
  • Status Code 状态码


    image.png

Response Headers  服务器的响应

image.png

Request Headers  服务器的请求

  • Host: www.so.com (主机和端口号)对应的网址
  • Connection: keep-alive  (链接类型)
  • User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36 QIHU 360SE/12.2.1632.0 (用户代理)
  • Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3 (传输文件的类型)
  • Referer: https://hao.360.com/?src=lm&ls=n2455205098 (页面的跳转处)
  • Cookie: (记录了用户的相关信息)
image.png

Query String Parameters 请求地址的参数

image.png

客户端的Http请求

URL只是标识资源的位置,而HTTP是用来提交和获取资源。客户端发送一个HTTP请求到服务器的请求消息,包括以下格式:

请求行、请求头部、空行、请求数据

四个部分组成,下图给出了请求报文的一般格式。

01_request.png

你可能感兴趣的:(2021-01-27)