实战项目:基础爬虫

停更了许久,从今天开始继续更新。

基础爬虫架构及运行流程

爬虫架构由5部分组成,爬虫调度器,URL管理器,HTML下载器,HTML解析器和数据存储器。其功能如下:

爬虫调度器:主要负责统筹其他四个模块的协调工作。

URL管理器:负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的借口。

HTML下载器:用于从URL管理器中获取未爬取的URL链接并下载HTML网页。

HTML解析器:用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效的数据交给数据存储器。

数据存储器:用于将HTML解析器解析出来的数据通过文件或数据库的形式存储起来。

URL管理器

URL管理器主要包括两个变量,一个是已爬取URL的集合,另一个是未爬取的URL集合,采用python中的set数据类型,进行去重,另外还配有以下接口,以便供其他模块使用。

你可能感兴趣的:(实战项目:基础爬虫)