Python爬虫学习( 一 )——请求和响应

Python爬虫学习( 一 )

Web大致有三层
  • 客户端:访问远程网站;
  • 服务端:为网站和Web API 提供数据;
  • Web API 和服务:用另一种不同于可视化网页的方式来交换数据。

互联网最底层的网络传输使用的是:传输控制协议 / 因特网协议,更常用的叫法是TCP/IP

TCP/IP

​ 因特网是基于规则的,这些规则定义了如何创建连接、交换数据、中止连接、处理超时等,这些规则被称为协议

​ 它们被分布在不同的层中,分层的目的是兼容多种实现方法,你可以在某一层中做任何想做的事情,只要遵循上一个层和下一层的约定。

​ 最底层处理的是电信号,其余层都是基于下面的层构建而成,在大约中间的的位置是 IP( 因特网协议 )层,这层规定了网络位置和地址的映射方法以及数据包的传输方式。

爬虫基础:

URI 和 URL

​ URI指的是统一资源标识符,URL是统一资源定位符

​ 我们可以用 URL/URI 来唯一指定某个网站的访问方式,例如:https://www.baidu.com:443,这其中包括了访问协议https、访问路径…。通过这样的一个链接,我们可以从互联网上找到这个资源,这个就URL/URI。

​ URL是URI的子集,也就是说每个URL都是URI,但不是每个URI都是URL。URI还包括一个子类叫做URN,叫做统一资源名称。URN只命名资源而不指定如何定位资源。例如urn:0451450523指定了一本书的ISBN( 国际标准书号 ),可以唯一标识这本书,但是没有指定到哪里定位这本书,这就是URN。

HTTP和HTTPS

​ URL的开头会有http或https,这就是访问资源需要的协议类型。有时候,我们还会看到ftp、sftp、smb开头的URL,它们都是协议类型。在爬虫中,我们抓取的网页通常就是http或https协议的。

​ HTTP的中文名叫超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。

​ HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS

​ HTTPS的安全基础是SSL,因此通过它传输的内容都是经过SSL加密的,它的主要作用可以分为两种:

  1. 建立一个信息安全通道来保证数据传输的安全。
  2. 确认网站的真实性,凡是使用了HTTPS的网站,都可以通过点击浏览器地址栏的锁头标志,来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。
HTTP请求过程

​ 我们在浏览器中输入一个URL,回车之后便会在浏览器中观察到页面内容。实际上,这个过程是浏览器向网站所在的服务器发送了一个请求,网站服务器接受到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器。响应里包含了页面的源代码等内容,浏览器再对其进行解析,便将网页呈现了出来。

​ 客户端>>>服务器,服务器>>>客户端

​ 此处客户端代表我们自己的PC( 个人计算机 )或者手机浏览器,服务器即要访问的网站所在的服务器。

Python爬虫学习( 一 )——请求和响应_第1张图片
Python爬虫学习( 一 )——请求和响应_第2张图片
点开可以看到,存在Response Headers 和 Request Headers,这分别代表响应头请求头。请求头里带有许多请求信息,例如浏览器表示、Cookies、Host等信息,这是请求的一部分,服务器会根据请求头内的信息判断请求是否合法,进而做出对应的响应。Response Headers就是响应的一部分,例如其中包含了服务器的类型、文档类型、日期等信息,浏览器接受到响应后,会解析响应内容,进而呈现网页内容。

请求

​ 请求,由客户端向服务端发出,可以分为4部分内容:

请求方法( Request Method )、请求的网址( Request URL )、请求头( Request Headers )、请求体( Request Body )

​ 1、请求方法

常见的请求方法有两种:GET 和 POST

​ 在浏览器中直接输入URL并回车,这便发起了一个GET请求,请求的参数会直接包含到URL里。

​ 例如,在百度中搜索Python,这就是一个GET请求,链接为https://www.baidu.com/s?wd=Python,其中URL中包含了请求的参数信息,这里参数wd表示要搜寻的关键字。

在这里插入图片描述

POST请求大多在表单提交时发起。比如,对于一个登录表单,输入用户名和密码后,点击"登录"按钮,这通常会发起一个POST请求,其数据通常以表单的形式传输,而不会体现在URL中。

GET和POST请求方法有如下区别:

  • GET请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单的形式传输,会包含在请求体中;

  • GET请求提交的数据最多只有1024字节,而POST方式没有限制;

一般来说,登录时,需要提交用户名和密码,其中包含了敏感信息,使用GET方式请求的话,密码就会暴露在URL里面,造成密码泄露,所以这里最好以POST方式发送。上传文件时,由于文件内容比较大,也会选用POST方式。

Python爬虫学习( 一 )——请求和响应_第3张图片

​ 2、请求的网址

​ 请求的网址,即统一资源定位符URL,它可以唯一确定我们想请求的资源。

3、请求头

​ 请求头,用来说明服务器使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent等。

  • Cookie:也常用复数形式Cookies,这是网站为了辨别用户进行会话跟踪而储存在用户本地的数据。它的主要功能是维持当前访问会话。例如,我们输入用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就是Cookies的功劳。Cookies里有信息标识了我们所对应的服务器的会话,每次浏览器在请求该站点的页面时,都会在请求头中加上Cookies并将其发送给服务器,服务器通过Cookies识别出是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容。

  • Referer:此内容用来表示这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做来源统计、防盗链处理等。

  • User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫。

因此,请求头使请求的重要组成部分,在写爬虫时,大部分情况下都需要设定请求头。

​ 4、请求体

​ 登录之前,我们填写了用户名和密码信息,提交时这些内容就会以表单数据的形式交给服务器,此时注意例子Request Headers 中指定Content-Type 为 application/x-www-form-urlencoded。只有Content-Type设置为application/x-www-form-urlencoded,才会以表单数据的形式提交。
Python爬虫学习( 一 )——请求和响应_第4张图片
​ 在爬虫中,如果要构造POST请求,需要使用正确的Content-Type,并了解各种请求库的各个参数设置时使用的使哪种Content-Type,不然可能会导致POST提交后无法正常响应。

响应

​ 响应,由服务端返回给客户端。可以分为三部分:

响应状态码( Response Status Code )、响应头( Response Headers )和响应体( Response Body )

​ 1、响应状态码表示服务器的响应状态,如 200 代表服务器正常响应,404 代表页面未找到,500 代表服务器内部发生错误。在爬虫中,我们可以根据状态码来判断服务器响应状态,如状态码为200,则证明成功返回数据,再进行进一步处理, 否则直接忽略。
Python爬虫学习( 一 )——请求和响应_第5张图片

​ 2、响应头

​ 响应头包含了服务器对请求的应答信息,如Content-Type、Server、Set-Cookie等。

  • Date:标识响应产生的时间;
  • Last-Modified:指定资源的最后修改时间;
  • Content-Encoding:指定响应内容的编码
  • Server:包含服务器的信息,比如名称、版本号等;
  • Content-Type:文档类型,指定返回的数据类型是什么。如text/html代表返回HTML文档;
  • Set-Cookie:设置Cookies。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies请求。
  • Expires:指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓存中。如果再次访问时,就可以直接从缓存中加载,降低服务器负载,缩短加载时间。

3、响应体

​ 最重要的当属响应体的内容了。响应的正文数据都在响应体中,比如请求网页时,它的响应体就是网页的HTML代码;请求一张图片时,它的响应体就是图片的二进制数据。我们做爬虫请求网页后,要解析的内容就是响应体。

​ 在做爬虫时,我们主要通过响应体得到网页的源代码、JSON数据等,然后从中做响应内容的提取。
在浏览器开发者工具中点击 Preview,就可以看到网页的源代码,也就是响应体的内容,它是解析的内容。
Python爬虫学习( 一 )——请求和响应_第6张图片

提示:
内容大多来自崔庆才《Python3——网络爬虫开发实战》
网址:https://www.ituring.com.cn/book/tupubarticle/29396
如有侵权,请联系本人删除,谢谢。
本人只是某大学学生,发布该篇博客作为该书的学习笔记,和大家一起分享学习和交流。

你可能感兴趣的:(Python,python,爬虫)