【Python3 爬虫学习笔记】爬虫基础 4 ——爬虫的基本原理

三、爬虫的基本原理

1.爬虫概述

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

1.1 爬取网页

爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码。源代码包含了网页的部分有用信息,所以只要把源代码获取下载,就可以从中提取想要的信息。可以使用urllib、requests来爬取页面。

1.2 提取信息

获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。首先,最通用的方法便是采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。
由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS选择器或XPath来提取网页信息的库,如Beautiful Soup、pyquery、lxml等。使用这些库,可以高效快速地从中提取网页信息,如节点的属性、文本值等。

1.3 保存数据

提取信息后,一般会将提取到的数据保存到某处以便后续使用。保存形式有多种多样,如可以简单保存为TXT文本或JSON文本,也可以保存到数据库,如MySQL和MongoDB等,也可以保存至远程服务器,如记住SFTP进行操作等。

1.4 自动化程序

说到自动化程序,意思是说爬虫可以代替人来完成这些操作。首先,我们手工当然可以提取这些信息,但是当量特别大或者想快速获取大量数据的话,肯定还是要借助程序。爬虫就是代替我们来完成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取持续高效地运行。

你可能感兴趣的:(学习笔记)