Scrapy Shell
Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码
启动Scrapy Shell
scrapyshell"https://hr.tencent.com/position.php?&start=0#a"
Selectors选择器
ScrapySelectors内置XPath和CSSSelector表达式机制
Selector有四个基本的方法,最常用的还是xpath:
xpath():传入xpath表达式,返回该表达式所对应的所有节点的selectorlist列表
extract():序列化该节点为Unicode字符串并返回list,extract_first()
css():传入CSS表达式,返回该表达式所对应的所有节点的selectorlist列表,语法同BeautifulSoup4中soup.select()
re():根据传入的正则表达式对数据进行提取,返回Unicode字符串list列表
# 使用xpath
response.xpath('//title')
练习: Scrapy爬取新浪新闻存入数据库 http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml
Spider类
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说,Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。
scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。
主要用到的函数及调用顺序为:
__init__():
初始化爬虫名字和start_urls列表
start_requests()
调用make_requests_from_url():生成Requests对象交给Scrapy下载并返回response
parse(self,response):
解析response,并返回Item或Requests(需指定回调函数)。
Item传给Itempipline持久化,而Requests交由Scrapy下载,并由指定的回调函数处理(默认parse()),一直进行循环,直到处理完所有的数据为止。
Spider类源码参考
#所有爬虫的基类,用户定义的爬虫必须从这个类继承
classSpider(object_ref):
# 定义spider名字的字符串(string)。
# spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的。
# name是spider最重要的属性,而且是必须的。
# 一般做法是以该网站(domain)(不加后缀 )来命名spider。 例如,如果spider爬取 mywebsite.com ,该spider通常会被命名为 mywebsite
name=None
# 初始化,提取爬虫名字,start_urls
def__init__(self,name=None,**kwargs):
ifnameisnotNone:
self.name=name
# 如果爬虫没有名字,中断后续操作则报错
elifnotgetattr(self,'name',None):
raiseValueError("%s must have a name"%type(self).__name__)
# python 对象或类型通过内置成员__dict__来存储成员信息
self.__dict__.update(kwargs)
#URL列表。当没有指定的URL时,spider将从该列表中开始进行爬取。 因此,第一个被获取到的页面的URL将是该列表之一。 后续的URL将会从获取到的数据中提取。
ifnothasattr(self,'start_urls'):
self.start_urls= []
# 打印Scrapy执行后的log信息
deflog(self,message,level=log.DEBUG,**kw):
log.msg(message,spider=self,level=level,**kw)
# 判断对象object的属性是否存在,不存在则断言处理
defset_crawler(self,crawler):
assertnothasattr(self,'_crawler'),"Spider already bounded to %s"%crawler
self._crawler=crawler
@property
defcrawler(self):
asserthasattr(self,'_crawler'),"Spider not bounded to any crawler"
returnself._crawler
@property
defsettings(self):
returnself.crawler.settings
#该方法将读取start_urls内的地址,并为每一个地址生成一个Request对象,交给Scrapy下载并返回Response
#该方法仅调用一次
defstart_requests(self):
forurlinself.start_urls:
yieldself.make_requests_from_url(url)
#start_requests()中调用,实际生成Request的函数。
#Request对象默认的回调函数为parse(),提交的方式为get
defmake_requests_from_url(self,url):
returnRequest(url,dont_filter=True)
#默认的Request对象回调函数,处理返回的response。
#生成Item或者Request对象。用户必须实现这个
defparse(self,response):
raiseNotImplementedError
@classmethod
defhandles_request(cls,request):
returnurl_is_from_spider(request.url,cls)
def__str__(self):
return"<%s %r at 0x%0x>"%(type(self).__name__,self.name,id(self))
__repr__=__str__
主要属性和方法
name
定义spider名字的字符串。唯一
allowed_domains
包含了spider允许爬取的域名(domain)的列表,可选。
start_urls
初始URL元祖/列表。当没有制定特定的URL时,spider将从该列表中开始进行爬取。
start_requests(self)
该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取(默认实现是使用 start_urls 的url)的第一个Request。
当spider启动爬取并且未指定start_urls时,该方法被调用。
parse(self, response)
当请求url返回网页没有指定回调函数时,默认的Request对象回调函数。用来处理网页返回的response,以及生成Item或者Request对象。
log(self, message[, level, component])
使用 scrapy.log.msg() 方法记录日志信息。
CrawlSpider
CrawlSpider是Spider的派生类,Spider类的设计原则是只爬取start_urls列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。
CrawlSpider类源码参考
classCrawlSpider(Spider):
rules= ()
def__init__(self,*a,**kw):
super(CrawlSpider,self).__init__(*a,**kw)
self._compile_rules()
#首先调用parse()来处理start_urls中返回的response对象
#_parse()则将这些response对象传递给了_parse_response()函数处理,并设置回调函数为parse_start_url()
#设置了跟进标志位True
#parse将返回item和跟进了的Request对象
def_parse(self,response):
returnself._parse_response(response,self.parse_start_url,cb_kwargs={},follow=True)
#处理start_url中返回的response,需要重写
defparse_start_url(self,response):
return[]
defprocess_results(self,response,results):
returnresults
#从response中抽取符合任一用户定义'规则'的链接,并构造成Resquest对象返回
def_requests_to_follow(self,response):
ifnotisinstance(response,HtmlResponse):
return
seen=set()
#抽取之内的所有链接,只要通过任意一个'规则',即表示合法
forn,ruleinenumerate(self._rules):
links= [lforlinrule.link_extractor.extract_links(response)iflnotinseen]
#使用用户指定的process_links处理每个连接
iflinksandrule.process_links:
links=rule.process_links(links)
#将链接加入seen集合,为每个链接生成Request对象,并设置回调函数为_repsonse_downloaded()
forlinkinlinks:
seen.add(link)
#构造Request对象,并将Rule规则中定义的回调函数作为这个Request对象的回调函数
r=Request(url=link.url,callback=self._response_downloaded)
r.meta.update(rule=n,link_text=link.text)
#对每个Request调用process_request()函数。该函数默认为indentify,即不做任何处理,直接返回该Request.
yieldrule.process_request(r)
#处理通过rule提取出的连接,并返回item以及request
def_response_downloaded(self,response):
rule=self._rules[response.meta['rule']]
returnself._parse_response(response,rule.callback,rule.cb_kwargs,rule.follow)
#解析response对象,会用callback解析处理他,并返回request或Item对象
def_parse_response(self,response,callback,cb_kwargs,follow=True):
#首先判断是否设置了回调函数。(该回调函数可能是rule中的解析函数,也可能是 parse_start_url函数)
#如果设置了回调函数(parse_start_url()),那么首先用parse_start_url()处理response对象,
#然后再交给process_results处理。返回cb_res的一个列表
ifcallback:
#如果是parse调用的,则会解析成Request对象
#如果是rule callback,则会解析成Item
cb_res=callback(response,**cb_kwargs)or()
cb_res=self.process_results(response,cb_res)
forrequests_or_iteminiterate_spider_output(cb_res):
yieldrequests_or_item
#如果需要跟进,那么使用定义的Rule规则提取并返回这些Request对象
iffollowandself._follow_links:
#返回每个Request对象
forrequest_or_iteminself._requests_to_follow(response):
yieldrequest_or_item
def_compile_rules(self):
defget_method(method):
ifcallable(method):
returnmethod
elifisinstance(method,basestring):
returngetattr(self,method,None)
self._rules= [copy.copy(r)forrinself.rules]
forruleinself._rules:
rule.callback=get_method(rule.callback)
rule.process_links=get_method(rule.process_links)
rule.process_request=get_method(rule.process_request)
defset_crawler(self,crawler):
super(CrawlSpider,self).set_crawler(crawler)
self._follow_links=crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS',True)
LinkExtractors
使用LinkExtractors的目的:提取链接。每个LinkExtractor有唯一的公共方法是extract_links(),它接收一个Response对象,并返回一个scrapy.link.Link对象。
scrapy.linkextractors.LinkExtractor(
allow= (),
deny= (),
allow_domains= (),
deny_domains= (),
deny_extensions=None,
restrict_xpaths= (),
tags= ('a','area'),
attrs= ('href'),
canonicalize=True,
unique=True,
process_value=None
)
主要参数:
allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
deny:与这个正则表达式(或正则表达式列表)匹配的URL一定不提取。
allow_domains:会被提取的链接的domains。
deny_domains:一定不会被提取链接的domains。
restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。
rules
在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。
scrapy.spiders.Rule(
link_extractor,
callback=None,
cb_kwargs=None,
follow=None,
process_links=None,
process_request=None
)
link_extractor:是一个LinkExtractor对象,用于定义需要提取的链接。
callback:从link_extractor中每获取到链接时,参数所指定的值作为回调函数,该回调函数接受一个response作为其第一个参数。
注意:当编写爬虫规则时,避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑,如果覆盖了parse方法,crawlspider将会运行失败。
follow:是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。如果callback为None,follow默认设置为True,否则默认为False。
process_links:指定该spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。
process_request:指定该spider中哪个的函数将会被调用,该规则提取到每个request时都会调用该函数。(用来过滤request)
练习:爬取糗事百科翻页爬取地址: https://www.qiushibaike.com/text/
练习:抓取笔趣阁玄幻小说
链接地址: https://www.biquge5200.cc/xuanhuanxiaoshuo/
要求: 爬取所有玄幻小说, 玄幻小说名作为文件夹名(如: “牧神记”), 每个章节作为文件名(如: “第一章 天黑别出门.txt”)
robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt文件是一个文本文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片