第一章 爬虫简介

第一章 爬虫简介

文章目录

  • 第一章 爬虫简介
    • 1.1 HTTP原理
      • 1.1.1 URI与URL
      • 1.1.2 超文本
      • 1.1.3 HTTP与HTTPS
      • 1.1.4 HTTP请求过程
    • 1.2 请求
      • 1.2.1 请求方法
      • 1.2.2 请求头
      • 1.2.3 请求体
      • 1.2.4 响应
    • 1.3 网页基础
      • 1.3.1 网页组成
      • 1.3.2 选择器
    • 1.4 爬虫介绍
      • 1.4.1 通用与聚焦爬虫
      • 1.4.2 反爬机制
      • 1.4.3 反反爬策略

1.1 HTTP原理

1.1.1 URI与URL

URI:Uniform Resource Identifier统一资源标志符。

URL:Universal Resource Locater统一资源定位符。

访问方式:访问协议https,访问路径,资源名称;如: https://github .com/favicon.ico

URL是URI的子集,每一个URL都是URI,但是URI不一定是URL,URI还包括一个子类URN(Universal Resource Name)统一资源名称。

第一章 爬虫简介_第1张图片

在目前网络中URN用的非常少,几乎所有的URI都是URL,一般的网页链接我们就叫他URL或者URI,大多数人习惯叫URL。

1.1.2 超文本

​ 超文本hypertext,在浏览器中看到网页就是超文本解析成的。打开浏览器的开发者工具,在Elements选项中可以看到网页的源代码,这些源代码都是超文本。

1.1.3 HTTP与HTTPS

​ URL的开头会有http或https。即访问资源需要的访问类型。还有ftp、sftp、smb开头的URL。

​ HTTP全称hyper text transfer protocol超文本传输协议。

​ HTTPS全称hyper text transfer protocol over secure socket layer以安全为目标的HTTP通道。就是HTTP安全版,在HTTP下加入SSL层,就叫做HTTPS。

1.1.4 HTTP请求过程

  • 客户端向服务器发送请求。
  • 服务器接收到请求后进行处理和解析。
  • 返回对应的响应,接着传给浏览器,浏览器解析响应中的源码,得到网页。

1.2 请求

1.2.1 请求方法

常见的两种请求方法:GET与POST

GET请求:在浏览器中直接输入URL并回车,请求的参数会直接包含到URL中。

POST请求:大多在表单提交时发起,POST请求的URL不会包含请求的参数,这些数据都是通过表单形式传输的,包含在请求体中。

  • GET请求提交的数据最多只有1024字节,POST方式没有限制。

如登录的用户名和密码,上传的文件都是POST请求。

方法 描述
GET 请求页面并返回页面内容
HEAD 类似于GET请求,但是返回的响应中没有具体内容,用于获取报头
POST 大多用于提交表单或上传文件,数据包含在请求体中
PUT 从客户端向服务器传送的数据取代指定文档中的内容
DELETE 请求服务器删除指定的页面
CONNECT 把服务器当作跳板,让服务器代替客户端访问其他网页
OPTIONS 允许客户端查看服务器的性能
TRACE 回显服务器收到的请求,主要用于测试或者诊断

1.2.2 请求头

用来说明服务器要使用的附加信息,比较重要的信息有:Cookie、Referer、User-Agent等。

常用的头信息:

头信息 描述
Accept 请求报头域,用于指定客户端可接受哪些类型的信息
Accept-Language 指定客户端可接受的语言类型
Accept-Encoding 指定客户端可接受的内容编码
Host 用于指定请求资源的主机IP和端口号,其内容为请求URL的原始服务器或网关的位置。从HTTP1.1开始,请求必须包含此内容
Cookie/Cookies 网站为了辨别用户进行会话跟踪,而存储在用户本地的数据。主要功能是维持当前访问会话
Referer 用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应处理,如:来源统计,防盗链处理等
User-Agent 一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本,浏览器及版本等信息。在爬虫时加上此信息可以伪装成浏览器,否则很容易被识别出来是爬虫。
Content-Type 也叫做互联网媒体类型或MIME类型,在HTTP协议消息头中,用来表示具体请求头中的媒体类型信息

1.2.3 请求体

请求体一般承载的内容是POST请求中的表单数据,而对GET请求,请求体为空。

Connect-Type和POST提交数据方式:

Connect-Type 提交数据的方式
application/x-www-forrn-urlencoded 表单数据
multi part/form-data 表单文件
application/json 序列化json数据
ext/xml xml数据
  • 在爬虫中,如果要构造POST请求,需要使用正确的Connect-Type,并了解各种请求库的各个参数设置时使用的是哪种Connect-Type,不然会导致POST提交后无法正常响应。

1.2.4 响应

由服务器返回给客户端,分为:响应状态码(Response Status Code),响应头(Response Headers),响应体(Response Body)

  • 可以通过状态码判断服务器响应状态,如:200-成功返回数据,403-拒绝访问,404-未找到请求的页面,…
  • 响应头包含了服务器对请求的应答信息。
  • 响应的正文数据都在响应体中,如请求网页时,其响应体就是网页的HTML代码;请求图片时其响应体就是图片的二进制数据。

我们做爬虫请求网页后,要解析的内容就是响应体。

在浏览器开发者工具中点击Preview,即网页的源代码,也就是响应体。

1.3 网页基础

1.3.1 网页组成

由三部分组成:HTML,CSS,JavaScript

HTML相当于骨架,JavaScript相当于肌肉,CSS相当于皮肤。

  • HTML:超文本标记语言,不同类型的元素用不同标签表示,如:图片用img标签,视频用video标签,段落用p标签,它们之间的布局又常通过布局标签div嵌套组合
  • 为了让网页更美观,借助了CSS(层叠样式表)。
  • JavaScript简称JS,是一种脚本语言。HTML与CSS配合使用,提供给用户的只是一种静态信息,缺乏交互性。如下载进度条,轮播图,提示框等。JavaScript通常也是以单独的文件形式加载的,后缀为.js。在HTML中通过script标签引入。

所有标签定义的内容都是节点,构成了HTML DOM树(DOM即文档对象模型,是W3C的标准,是中立于平台与语言的接口,允许程序或者脚本动态地访问或更新文档内容、结构和样式)。

第一章 爬虫简介_第2张图片

通过HTML DOM,树中的所有节点均可通过JavaScript访问,所有HTML节点元素可以被修改、创建、删除。

1.3.2 选择器

CSS选择器根据不同节点设置不同的样式规则

选择器 例子 描述
.class .intro 选择class="intro"的所有节点
#id #firstname 选择id="firstname"的所有节点
* * 选择所有节点
element p 选择所有p节点
element,element div,p 选择所有div节点和所有p节点
element element div p 选择div节点内部的所有p节点
element>element div>p 选择父节点为div节点的所有p节点
element+element div+p 选择紧接在div节点之后的所有p节点
[attribute] [target] 选择带有target属性的所有节点
:link a:link 选择所有未被访问的链接
:visited a:visited 选择所有已被访问的链接

1.4 爬虫介绍

1.4.1 通用与聚焦爬虫

爬取网页->解析数据

1.通用爬虫

  • 抓取的数据大多无用
  • 不能根据用户的需求精准获取数据

2.聚焦爬虫

  • 根据需要,实现爬虫程序。抓取需要的数据

1.4.2 反爬机制

  • User-Agent:用户代理,一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本,浏览器及版本等信息。
  • 临时或永久封禁来访ip
  • 验证码访问
  • 动态加载网页,网站返回的是js数据,并不是网页的真实数据,异步加载(Ajax)
  • 数据加密

1.4.3 反反爬策略

  • UA伪装

    让爬虫对应的请求载体身份标识伪装成某一款浏览器。可以将对应的User-Agent封装到字典中,应用到请求方法中。

    headers = {
    	'User-Agent': '打开任意网站在抓包工具中文件的请求头的UA'
    }
    
  • 代理IP

  • 如果不是每次都弹验证码也可以使用高匿代理IP解决;如果每次都弹验证码那就得涉及到验证码识别了,简单的验证码可以自己写代码处理,但复杂的验证码例如涉及逻辑判断和计算、字符粘连变形、前置噪音多色干扰、多语种字符混搭的大多也只能靠接入人工打码平台来对抗了

  • 由于采用异步加载方式,网页内容不会一次性全部展示出来,需要将滚动条滑到最底部才能继续浏览下一页内容,此时可以使用selenium+phantomjs解决,phantomjs是一个无头无界面浏览器,使用selenium可以驱动它模拟浏览器的一切操作,但缺点也很明显,爬取效率低

你可能感兴趣的:(爬虫学习笔记,爬虫,http,https,python)