爬虫简介

爬虫:一段自动抓取互联网信息的程序

爬虫简介_第1张图片


价值:互联网数据,为我所用!

爬虫简介_第2张图片


简单爬虫架构

爬虫简介_第3张图片

简单爬虫架构-运行流程

爬虫简介_第4张图片

URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合

- 防止重复抓取、防止循环抓取

爬虫简介_第5张图片

- 实现方式

爬虫简介_第6张图片

网页下载器

网页下载器:将互联网上URL对应的网页下载到本地的工具

爬虫简介_第7张图片

python有哪几种网页下载器?


爬虫简介_第8张图片

Resource is from www..imooc.com/learn/563

你可能感兴趣的:(爬虫简介)