CrawlSpider
1.创建项目
scrapy startproject + 项目名称
2.cd spider
3.scrapy genspider -t ceawl 名称 + 域
scrapy genspider -t crawl qidian qidian.com
1).继承的类
2).rules
RULE
linkExtroct
3).不能用parse方法
4).parse_start_url
下载中间件:处于引擎和下载起之间
反爬措施:
1.基于请求头的反爬(合理构建请求头)(请求头参数User-Agent Referer cookie,常见状态码,常见的请求方式)
2.基于cookie的反爬(cookie池,文件存储,数据库存储【需要登录注册信息时候,需要cookie信息才会用到】)
3.基于IP的反爬(代理,代理的原理,代理怎么获取,代理如何检测,代理池)
4.基于动态加载的网页(ajax,js,jq)(seleium、无头,有头浏览器?selenium)
5.关于数据加密?(js,app,web网页)
下载中间件的方法
@classmethod
def from_crawler(cls,crawler)
def process_request(self,request,spider)
所有的request请求在交给下载器之前都会经过这个方法
# - return None: continue processing this request
# - or return a Response object
# - or return a Request object
# - or raise IgnoreRequest: process_exception() methods of
# installed downloader middleware will be called
def process_response(self,request,response,spider)
所有的响应结果会经过这个方法
# - return a Response object
# - return a Request object
# - or raise IgnoreRequest
def process_exception(self,request,exception,spider)
#处理异常错误
中间件:
User-Agent
Cookies
IP
Selenium
激活中间件(settings.py):中间件后面的数值越小,优先级越高
DOWNLOADER_MIDDLEWARES = {
# 'downloadmiddlerware.middlewares.DownloadmiddlerwareDownloaderMiddleware': 543,
# 'downloadmiddlerware.middlewares.UserAgentDownloadMiddlerware':543,
'downloadmiddlerware.middlewares.SeleniumDownloadMiddlerWare':543,
}
下载cookie中间件视为了 在每次发起请求是可以携带多个不同的用户发起请求
setting.py
COOKIE = [
{'cookie1':'xxxxx'},
{'cookie2':'xxxxx'},
{'cookie3':'xxxxx'},
{'cookie4':'xxxxx'}
]
scrapy并不支持动态网页的加载
设置selenium中间件
class SeleniumDownloadXXXXX(object):
#设置浏览器加载
self.drive = webdriver.Chrome(
executable_path=''
)
self.drive.set_page_load_timeout(10)
def process_request(self,request,spider)
关于爬虫的断电爬取:
scrapy crawl 项目名称 -s JOBDIR=crawls/爬虫名称 项目路径
request.queue:保存的请求的任务队列
request.seen:保存的是指纹
spider.status:爬虫运行的状态
scrapy settings.py设置文件(相关参数)
分布式
pip3 install scrapy-redis
修改设置文件
(1)#设置去重组件,使用的是scrapy_redis的去重组件,而不再使用scrapy框架
自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
(2)#设置调度器,使用的是scrapy_redis重写的调度器,而不再使用scrapy框架
自带的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
(3)#可以实现断点爬取(请求的记录不会丢失,会存储在redis数据库中,
不会清除redis的任务队列)
SCHEDULER_PERSIST = True
(4)#设置任务队列的模式(三选一)
SpiderPriorityQueue是scrapy_redis默认使用的队列模式
(有自己的优先级)
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
使用了队列的形式,任务先进先出
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
采用了栈的形式,任务先进后出
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"
(5)
实现这个管道,可以将爬虫端获取的item数据,统一保存
在redis数据库中
'scrapy_redis.pipelines.RedisPipeline': 400,
(6)
指定要存储的redis数据库的主机ip
REDIS_HOST = '127.0.0.1'
指定redis数据库主机的端口
REDIS_PORT = 6379
"xcfCrawlSpider:requests":存储的是请求的request对象
"xcfCrawlSpider:items":存储的爬虫端获取的items数据
"xcfCrawlSpider:dupefilter":存储的指纹(为了实现去重)
127.0.0.1:6379> type xcfCrawlSpider:requests
zset
127.0.0.1:6379> type xcfCrawlSpider:items
list
127.0.0.1:6379> type xcfCrawlSpider:dupefilter
set
第一中情况:只设置settings.py文件,并没有实现分布式,知识使用了sctapy_redis的数据存储和去重功能
第二中情况:实现通用爬虫的分布式爬虫
from scrapy_redis.spiders import RedisCrawlSpider
#继承制:RedisCrawlSpider
class MyCrawler(RedisCrawlSpider):
"""Spider that reads urls from redis queue (myspider:start_urls)."""
name = 'mycrawler_redis'
allowed_domains = ['dmoz.org']
#缺少了start_url,多了redis_key:根据redis_key从redis
#数据库中获取任务
redis_key = 'mycrawler:start_urls'
启动爬虫:scrapy crawl 爬虫名称
现象:爬虫处于等待状态
需要设置起始任务:
lpush mycrawler:start_urls 目标url
第三中情况:实现scrpy.spider爬虫的分布式爬虫
from scrapy_redis.spiders import RedisSpider
#继承制:RedisSpider
class MyCrawler(RedisSpider):
"""Spider that reads urls from redis queue (myspider:start_urls)."""
name = 'mycrawler_redis'
allowed_domains = ['dmoz.org']
#缺少了start_url,多了redis_key:根据redis_key从redis
#数据库中获取任务
redis_key = 'mycrawler:start_urls'
启动爬虫:scrapy crawl 爬虫名称
现象:爬虫处于等待状态
需要设置起始任务:
lpush mycrawler:start_urls 目标url
dmoz.py