python_轻量级爬虫开发

课程内容

1.爬虫简介

2.简单爬虫架构

3.URL管理器

4.网页下载器(urllib2)

5.网页解析器(BeautifulSoup)

6.完整实例

爬取百度百科Python词条相关的1000个页面数据


爬虫简介:

爬虫:一段自动抓取互联网信息的程序

python_轻量级爬虫开发_第1张图片

价值:有价值的互联网数据。

python_轻量级爬虫开发_第2张图片

简单爬虫架构:

python_轻量级爬虫开发_第3张图片

时序图:

python_轻量级爬虫开发_第4张图片

URL管理器:管理待抓取URL集合和已抓取URL集合

-防止重复抓取、防止循环抓取

python_轻量级爬虫开发_第5张图片


URL实现方式(3种)

第一种:将带爬取的URL集合和已爬取的URL集合放在内存中

python内存:

 待爬取URL集合:set()

 已爬取URL集合:set()

第二种:将URL存储在关系型数据库中

MySQL:urls(url,is_crawled)

第三种:将URL放在缓存数据库 redis

     待爬取URL集合:set

已爬取URL集合:set

你可能感兴趣的:(python_轻量级爬虫开发)