爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba

注意:爬不到response.text 需要去看看allowed_domains 或者setting配置
1、cmd(scrapy startproject nba)创建好项目之后,创建spider文件
配置setting文件
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第1张图片2、创建好spider类
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第2张图片
2、判断要不要使用中间件selenium,如果页面是ajax请求,js代码,需要点击等要使用selenium。会返回html给spider
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第3张图片
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第4张图片
然后后测试一下
3、如果不需要seleniu也要先测试
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第5张图片
4、分页,想办法获取最大页码,最简单的办法就是在url页码数字输入最大数
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第6张图片
5、获取数据
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第7张图片
去重方法1:利用redis去重,爬取过的url不获取
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第8张图片

6、获取详情页信息
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第9张图片
7、pipelines
配置:
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第10张图片
写pipeline.py
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba_第11张图片
第二种去重方法
在这里插入图片描述

你可能感兴趣的:(爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba)