下载器中间件(Downloader middlewares)
https://cloud.tencent.com/info/557b853f48ed88bf74ee82f006149bff.html
在下载器处理request之前触发
下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。
三大方法:
-
process_request(request,spider)
当每个request通过下载中间件时,该方法被调用,要求返回None, Response, Request对象, raise IgnoreRequest:
- None: Scrapy将继续处理该request,执行其他的中间件的相应方法,直到合适的下载器处理函数(download handler)被调用,该request被执行(其response被下载)。 即不做任何操作,不影响后面中间件执行, 不影响下载流程
- Response对象: Scrapy将不会调用任何其他的process_request()或process_exception() 方法,或相应地下载函数;其将返回该response。 已安装的中间件的 process_response() 方法则会在每个response返回时被调用。即执行该中间件process_response()方法来接盘
- Request对象:Scrapy则停止调用 process_request方法并重新调度返回的request。当新返回的request被执行后, 相应地中间件链将会根据下载的response被调用。 Request重新返回调度器队列
- raise一个IgnoreRequest异常:则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常, 则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常, 则该异常被忽略且不记录。 process_exception方法来接盘
-
process_response(request, response, spider)
process_response 不能返回 None
当每个response通过下载中间件时,该方法被调用。process_response的返回值也是有三种:response对象,request对象,或者raise一个IgnoreRequest异常:- response对象: (可以与传入的response相同,也可以是全新的对象), 该response会被在链中的其他中间件的 process_response() 方法处理。 后续的中间件接收response, 跳过process_request了
- Request 对象: 则中间件链停止, 返回的request会被重新调度下载。处理类似于 process_request() 返回request所做的那样。回炉调度器
- IgnoreRequest 异常,则调用request的errback(Request.errback)。 如果没有代码处理抛出的异常,则该异常被忽略且不记录(不同于其他异常那样) process_exception方法来接盘
-
process_exception(request, exception, spider)
当下载处理器(download handler)或 process_request() (下载中间件)抛出异常(包括 IgnoreRequest 异常)时,Scrapy调用 process_exception()。也是返回三者中的一个: 返回 None 、 一个 Response 对象、或者一个 Request 对象。None: Scrapy将会继续处理该异常,接着调用已安装的其他中间件的 process_exception() 方法,直到所有中间件都被调用完毕,则调用默认的异常处理。即把这个异常传递给后续的中间件的process_exception
Response 对象: 则已安装的中间件链的 process_response() 方法被调用。Scrapy将不会调用任何其他中间件的 process_exception() 方法。 后续中间件的process_response()接力
Request 对象: 则返回的request将会被重新调用下载。这将停止中间件process_excepption() 方法执行,就如返回一个response的那样。 这个是非常有用的,就相当于如果我们失败了可以在这里进行一次失败的重试,例如当我们访问一个网站出现因为频繁爬取被封ip就可以在这里设置增加代理继续访问。 回炉调度器
了解完这个, 我们来看下几个默认的下载中间件的源码:
在scrapy.settings.default_settings中查看:
DOWNLOADER_MIDDLEWARES = {}
DOWNLOADER_MIDDLEWARES_BASE = {
# Engine side
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
# Downloader side
}
1, RetryMiddleware
重试下载
RetryMiddleware 可以通过下列设定进行配置 (更多内容请参考设置文档):
RETRY_ENABLED = True
RETRY_TIMES = 2 # initial response + 2 retries = 3 requests
RETRY_HTTP_CODES = [500, 502, 503, 504, 522, 524, 408]
def __init__(self, settings):
if not settings.getbool('RETRY_ENABLED'):
raise NotConfigured
self.max_retry_times = settings.getint('RETRY_TIMES')
self.retry_http_codes = set(int(x) for x in settings.getlist('RETRY_HTTP_CODES'))
self.priority_adjust = settings.getint('RETRY_PRIORITY_ADJUST')
@classmethod
def from_crawler(cls, crawler):
return cls(crawler.settings)
中间件启动的时候配置, 初始化配置
def process_response(self, request, response, spider):
if request.meta.get('dont_retry', False):
return response
if response.status in self.retry_http_codes:
reason = response_status_message(response.status)
return self._retry(request, reason, spider) or response
return response
没有process_exception方法(只处理前面传来的response和exception情况)
process_response中 dont_retry是request.meta中包含的键, 该request将会被本中间件忽略(如果个别url不想retry,可以在Request请求中带meta = {'dont_retry': False})。 返回结果分为这么几种情况:
- Response对象: meta不包含 dont_retry键值 或者包含 设置为True
- Request对象: 执行_retry, retry_times <= retry_times时, 返回调度器队列末尾重试
- Response对象: 执行_retry,retry_times > retry_times时, 尝试已满, 尽管response的状态码是self.retry_http_codes, 还是将其返回(所以说,我们自己的spider parse函数中需要去判断respose.status, scrapy不管正确与否都会给你返回一个response)
- response对象: 正常返回的response, 无需重试
** 前面传来的response的状态码status异常, 重试, 否则原样传递**
def _retry(self, request, reason, spider):
retries = request.meta.get('retry_times', 0) + 1
retry_times = self.max_retry_times
if 'max_retry_times' in request.meta:
retry_times = request.meta['max_retry_times']
stats = spider.crawler.stats
if retries <= retry_times:
logger.debug("Retrying %(request)s (failed %(retries)d times): %(reason)s",
{'request': request, 'retries': retries, 'reason': reason},
extra={'spider': spider})
retryreq = request.copy()
retryreq.meta['retry_times'] = retries
retryreq.dont_filter = True
retryreq.priority = request.priority + self.priority_adjust
if isinstance(reason, Exception):
reason = global_object_name(reason.__class__)
stats.inc_value('retry/count')
stats.inc_value('retry/reason_count/%s' % reason)
return retryreq
else:
stats.inc_value('retry/max_reached')
logger.debug("Gave up retrying %(request)s (failed %(retries)d times): %(reason)s",
{'request': request, 'retries': retries, 'reason': reason},
extra={'spider': spider})
Request(url, meta={'max_retry_times': 5}, callback = self.parse)
覆盖setting中的配置 RETRY_TIMES。
copy一份request, 并修改它的meta字典, 增加retry_times用来标记这个第几次尝试。 返回request。 前面说到, process_response()方法返回request对象, 会停止后续的中间件, 添加到调度器回炉重新调度。 即重试。 重试次数满了以后, 返回None
def process_exception(self, request, exception, spider):
if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \
and not request.meta.get('dont_retry', False):
return self._retry(request, exception, spider)
异常process_exception处理, 两种情况:
-
如果承接的参数exception异常类型是self.EXCEPTIONS_TO_RETRY 并且检查有request.meta的dont_retry键值是True, 那么 调用 self._retry:
- Request: 尝试未满, 回炉
- None: 尝试已满, 同下一条None的后续处理
异常不是self.EXCEPTIONS_TO_RETRY 返回None, 调用剩下的中间件的process_exception方法
2, RedirectMiddleware
该中间件根据response的状态处理重定向的request。
通过该中间件的(被重定向的)request的url可以通过 Request.meta 的 redirect_urls 键找到。
默认Setting:
REDIRECT_ENABLED = True
REDIRECT_MAX_TIMES = 20 # uses Firefox default setting
REDIRECT_PRIORITY_ADJUST = +2
class RedirectMiddleware(BaseRedirectMiddleware):
"""
Handle redirection of requests based on response status
and meta-refresh html tag.
"""
def process_response(self, request, response, spider):
if (request.meta.get('dont_redirect', False) or
response.status in getattr(spider, 'handle_httpstatus_list', []) or
response.status in request.meta.get('handle_httpstatus_list', []) or
request.meta.get('handle_httpstatus_all', False)):
return response
allowed_status = (301, 302, 303, 307, 308)
if 'Location' not in response.headers or response.status not in allowed_status:
return response
location = safe_url_string(response.headers['location'])
redirected_url = urljoin(request.url, location)
if response.status in (301, 307, 308) or request.method == 'HEAD':
redirected = request.replace(url=redirected_url)
return self._redirect(redirected, request, spider, response.status)
redirected = self._redirect_request_using_get(request, redirected_url)
return self._redirect(redirected, request, spider, response.status)
继承了BaseRedirectMiddleware, 只实现了process_response(), 因为只有拿到Response才能判断 是否重定向了.
同样的 Rquest对象中meta的dont_redirect键控制
allowed_status = (301, 302, 303, 307, 308)
if 'Location' not in response.headers or response.status not in allowed_status:
return response
非跳转链接, 返回正常的response
location = safe_url_string(response.headers['location'])
redirected_url = urljoin(request.url, location)
redirected_url跳转后的链接, request.url是本来要访问的页面
找一个重定向的页面 看下response.headers['location']
补充:
- HEAD 类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头
- GET 请求指定的页面信息,并返回实体主体。
- POST 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
父类BaseRedirectMiddleware的_redirect是返回两种情况:
- 修改后重定向的Request(meta标记第几次跳转了) 回调度器再访问
- IgnoreRequest 异常, process_exception来处理, 但是没有实现process_exception方法, 所以忽略该异常
没看懂为啥根据request的headers和status分为这俩种情况
- response.status in (301, 307, 308) or request.method == 'HEAD'
- response.status in (302, 303) and or request.method != 'HEAD'
有大神了解http这块的, 还望赐教~
补充一个涉及到状态码的表
http://tool.oschina.net/commons?type=5
状态码 | 含义 |
---|---|
301 | 被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个 URI 之一 |
302 | 请求的资源现在临时从不同的 URI 响应请求。由于这样的重定向是临时的,客户端应当继续向原有地址发送以后的请求 |
303 | 对应当前请求的响应可以在另一个 URI 上被找到,而且客户端应当采用 GET 的方式访问那个资源 |
307 | 请求的资源现在临时从不同的URI 响应请求。由于这样的重定向是临时的,客户端应当继续向原有地址发送以后的请求 |
400 | 1、语义有误,当前请求无法被服务器理解。除非进行修改,否则客户端不应该重复提交这个请求。 2、请求参数有误。 |
401 | 当前请求需要用户验证。该响应必须包含一个适用于被请求资源的 WWW-Authenticate 信息头用以询问用户信息 |
403 | 服务器已经理解请求,但是拒绝执行它。与401响应不同的是,身份验证并不能提供任何帮助,而且这个请求也不应该被重复提交。如果这不是一个 HEAD 请求,而且服务器希望能够讲清楚为何请求不能被执行,那么就应该在实体内描述拒绝的原因。当然服务器也可以返回一个404响应,假如它不希望让客户端获得任何信息 |
404 | 请求失败,请求所希望得到的资源未被在服务器上发现。 |
500 | 服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。一般来说,这个问题都会在服务器的程序码出错时出现。 |
502 | 作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。 |
503 | 由于临时的服务器维护或者过载,服务器当前无法处理请求。这个状况是临时的,并且将在一段时间以后恢复. 如果能够预计延迟时间,那么响应中可以包含一个 Retry-After 头用以标明这个延迟时间。如果没有给出这个 Retry-After 信息,那么客户端应当以处理500响应的方式处理它。 注意:503状态码的存在并不意味着服务器在过载的时候必须使用它。某些服务器只不过是希望拒绝客户端的连接 |
504 | 作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器(URI标识出的服务器,例如HTTP、FTP、LDAP)或者辅助服务器(例如DNS)收到响应。 注意:某些代理服务器在DNS查询超时时会返回400或者500错误 |
522 | |
524 | |
408 | 请求超时。客户端没有在服务器预备等待的时间内完成一个请求的发送。客户端可以随时再次提交这一请求而无需进行任何更改。 |
3, DefaultHeadersMiddleware
该中间件设置 DEFAULT_REQUEST_HEADERS 指定的默认request header。
class DefaultHeadersMiddleware(object):
def __init__(self, headers):
self._headers = headers
@classmethod
def from_crawler(cls, crawler):
headers = without_none_values(crawler.settings['DEFAULT_REQUEST_HEADERS'])
return cls(headers.items())
def process_request(self, request, spider):
for k, v in self._headers:
request.headers.setdefault(k, v)
这个比较简单, 使用setting中 DEFAULT_REQUEST_HEADERS 来作为request.headers, 在Request构造函数中也可以指定headers, 所以没什么用
class Request(object_ref):
def __init__(self, url, callback=None,
method='GET',
headers=None, body=None,
cookies=None, meta=None,
encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None)
4, CookiesMiddleware
该中间件使得爬取需要cookie(例如使用session)的网站成为了可能。 其追踪了web server发送的cookie,并在之后的request中发送回去, 就如浏览器所做的那样。
- 涉及到setting中的COOKIES_ENABLED 和 COOKIES_DEBUG 配置
- COOKIES_ENABLED: 默认: True, 是否启用cookies middleware。如果关闭,cookies将不会发送给web server。
- COOKIES_DEBUG: 默认: False, 如果启用,Scrapy将记录所有在request(Cookie 请求头)发送的cookies及response接收到的cookies(Set-Cookie 接收头)。
- meta的cookiejar键值. 单spider多cookie session
for i, url in enumerate(urls):
yield scrapy.Request("http://www.example.com", meta={'cookiejar': i},
callback=self.parse_page)
def parse_page(self, response):
# do some processing
return scrapy.Request("http://www.example.com/otherpage",
meta={'cookiejar': response.meta['cookiejar']},
callback=self.parse_other_page)
来看下源码:
def process_request(self, request, spider):
if request.meta.get('dont_merge_cookies', False):
return
cookiejarkey = request.meta.get("cookiejar")
jar = self.jars[cookiejarkey]
cookies = self._get_request_cookies(jar, request)
for cookie in cookies:
jar.set_cookie_if_ok(cookie, request)
# set Cookie header
request.headers.pop('Cookie', None)
jar.add_cookie_header(request)
self._debug_cookie(request, spider)
def process_response(self, request, response, spider):
if request.meta.get('dont_merge_cookies', False):
return response
# extract cookies from Set-Cookie and drop invalid/expired cookies
cookiejarkey = request.meta.get("cookiejar")
jar = self.jars[cookiejarkey]
jar.extract_cookies(response, request)
self._debug_set_cookie(response, spider)
return response
4, RobotsTxtMiddleware
robots 条款, ROBOTSTXT_OBEY
class RobotsTxtMiddleware(object):
DOWNLOAD_PRIORITY = 1000
def __init__(self, crawler):
if not crawler.settings.getbool('ROBOTSTXT_OBEY'):
raise NotConfigured
self.crawler = crawler
self._useragent = crawler.settings.get('USER_AGENT')
self._parsers = {}
@classmethod
def from_crawler(cls, crawler):
return cls(crawler)
def process_request(self, request, spider):
if request.meta.get('dont_obey_robotstxt'):
return
d = maybeDeferred(self.robot_parser, request, spider)
d.addCallback(self.process_request_2, request, spider)
return d
def process_request_2(self, rp, request, spider):
if rp is not None and not rp.can_fetch(
to_native_str(self._useragent), request.url):
logger.debug("Forbidden by robots.txt: %(request)s",
{'request': request}, extra={'spider': spider})
raise IgnoreRequest()
def robot_parser(self, request, spider):
url = urlparse_cached(request)
netloc = url.netloc
if netloc not in self._parsers:
self._parsers[netloc] = Deferred()
robotsurl = "%s://%s/robots.txt" % (url.scheme, url.netloc)
robotsreq = Request(
robotsurl,
priority=self.DOWNLOAD_PRIORITY,
meta={'dont_obey_robotstxt': True}
)
dfd = self.crawler.engine.download(robotsreq, spider)
dfd.addCallback(self._parse_robots, netloc)
dfd.addErrback(self._logerror, robotsreq, spider)
dfd.addErrback(self._robots_error, netloc)
if isinstance(self._parsers[netloc], Deferred):
d = Deferred()
def cb(result):
d.callback(result)
return result
self._parsers[netloc].addCallback(cb)
return d
else:
return self._parsers[netloc]
def _logerror(self, failure, request, spider):
if failure.type is not IgnoreRequest:
logger.error("Error downloading %(request)s: %(f_exception)s",
{'request': request, 'f_exception': failure.value},
exc_info=failure_to_exc_info(failure),
extra={'spider': spider})
return failure
def _parse_robots(self, response, netloc):
rp = robotparser.RobotFileParser(response.url)
body = ''
if hasattr(response, 'text'):
body = response.text
else: # last effort try
try:
body = response.body.decode('utf-8')
except UnicodeDecodeError:
# If we found garbage, disregard it:,
# but keep the lookup cached (in self._parsers)
# Running rp.parse() will set rp state from
# 'disallow all' to 'allow any'.
pass
# stdlib's robotparser expects native 'str' ;
# with unicode input, non-ASCII encoded bytes decoding fails in Python2
rp.parse(to_native_str(body).splitlines())
rp_dfd = self._parsers[netloc]
self._parsers[netloc] = rp
rp_dfd.callback(rp)
def _robots_error(self, failure, netloc):
rp_dfd = self._parsers[netloc]
self._parsers[netloc] = None
rp_dfd.callback(None)
需要先下载,得到response解析后才能拿到robots.txt 条款
在robot_parser()方法中,
robotsurl = "%s://%s/robots.txt" % (url.scheme, url.netloc)
robotsreq = Request(
robotsurl,
priority=self.DOWNLOAD_PRIORITY,
meta={'dont_obey_robotstxt': True}
)
dfd = self.crawler.engine.download(robotsreq, spider)
self.crawler.engine.download 下载器
解析robots 包from six.moves.urllib import robotparser 提供了方法, python包真是多,
5, RedisMiddleware
关于Redis存储已爬取的urlhash,需要实现RedisMiddleware。
class RedisMiddleware(object):
"""
redis 存储已爬取的urlHash, 已存在则不下载
"""
enabled_setting = 'REDIS_ENABLED'
def __init__(self, settings):
if not settings.getbool(self.enabled_setting):
raise NotConfigured
self.redis_opera = RedisOpera()
# redis 连接池
self.redis_conf = settings.getdict('REDIS_CONF')
if self.redis_conf == {} or 'keys' not in self.redis_conf.keys():
raise NotConfigured
# 初始化redis-keys
self.redis_opera.init_url_set(self._get(self.redis_conf, 'db', 0),
self.redis_conf['keys'],
self._get(self.redis_conf, 'db_name'),
self._get(self.redis_conf, 'initialUrlListSql')
)
@staticmethod
def _get(dct, name, default=None):
return dct[name] if dct[name] is not None else default
@classmethod
def from_crawler(cls, crawler):
return cls(crawler.settings)
def process_request(self, request, spider):
hash_id = get_md5(request.url)
flag = self.redis_opera.is_exists(hash_id, self.redis_conf['db'], self.redis_conf['keys'])
if not flag:
return None
else:
raise IgnoreRequest()
def process_exception(self, request, exception, spider):
pass