爬虫Scrapy框架进阶

Scrapy Shell

Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码

启动Scrapy Shell

scrapyshell"https://hr.tencent.com/position.php?&start=0#a"

Selectors选择器

ScrapySelectors内置XPath和CSSSelector表达式机制

Selector有四个基本的方法,最常用的还是xpath:

    xpath():传入xpath表达式,返回该表达式所对应的所有节点的selectorlist列表

    extract():序列化该节点为Unicode字符串并返回list,extract_first()

    css():传入CSS表达式,返回该表达式所对应的所有节点的selectorlist列表,语法同BeautifulSoup4中soup.select()

    re():根据传入的正则表达式对数据进行提取,返回Unicode字符串list列表


# 使用xpath

response.xpath('//title')

练习: Scrapy爬取新浪新闻存入数据库 http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml

Spider类

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说,Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。

scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。

主要用到的函数及调用顺序为:

__init__():

    初始化爬虫名字和start_urls列表

start_requests()

    调用make_requests_from_url():生成Requests对象交给Scrapy下载并返回response

parse(self,response):

    解析response,并返回Item或Requests(需指定回调函数)。

    Item传给Itempipline持久化,而Requests交由Scrapy下载,并由指定的回调函数处理(默认parse()),一直进行循环,直到处理完所有的数据为止。

Spider类源码参考

#所有爬虫的基类,用户定义的爬虫必须从这个类继承

classSpider(object_ref):

# 定义spider名字的字符串(string)。

# spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的。

# name是spider最重要的属性,而且是必须的。

# 一般做法是以该网站(domain)(不加后缀 )来命名spider。 例如,如果spider爬取 mywebsite.com ,该spider通常会被命名为 mywebsite

name=None

# 初始化,提取爬虫名字,start_urls

def__init__(self,name=None,**kwargs):

ifnameisnotNone:

self.name=name

# 如果爬虫没有名字,中断后续操作则报错

elifnotgetattr(self,'name',None):

raiseValueError("%s must have a name"%type(self).__name__)

# python 对象或类型通过内置成员__dict__来存储成员信息

self.__dict__.update(kwargs)

#URL列表。当没有指定的URL时,spider将从该列表中开始进行爬取。 因此,第一个被获取到的页面的URL将是该列表之一。 后续的URL将会从获取到的数据中提取。

ifnothasattr(self,'start_urls'):

self.start_urls= []

# 打印Scrapy执行后的log信息

deflog(self,message,level=log.DEBUG,**kw):

log.msg(message,spider=self,level=level,**kw)

# 判断对象object的属性是否存在,不存在则断言处理

defset_crawler(self,crawler):

assertnothasattr(self,'_crawler'),"Spider already bounded to %s"%crawler

self._crawler=crawler

@property

defcrawler(self):

asserthasattr(self,'_crawler'),"Spider not bounded to any crawler"

returnself._crawler

@property

defsettings(self):

returnself.crawler.settings

#该方法将读取start_urls内的地址,并为每一个地址生成一个Request对象,交给Scrapy下载并返回Response

#该方法仅调用一次

defstart_requests(self):

forurlinself.start_urls:

yieldself.make_requests_from_url(url)

#start_requests()中调用,实际生成Request的函数。

#Request对象默认的回调函数为parse(),提交的方式为get

defmake_requests_from_url(self,url):

returnRequest(url,dont_filter=True)

#默认的Request对象回调函数,处理返回的response。

#生成Item或者Request对象。用户必须实现这个

defparse(self,response):

raiseNotImplementedError

@classmethod

defhandles_request(cls,request):

returnurl_is_from_spider(request.url,cls)

def__str__(self):

return"<%s %r at 0x%0x>"%(type(self).__name__,self.name,id(self))

__repr__=__str__

主要属性和方法

name

定义spider名字的字符串。唯一

allowed_domains

包含了spider允许爬取的域名(domain)的列表,可选。

start_urls

初始URL元祖/列表。当没有制定特定的URL时,spider将从该列表中开始进行爬取。

start_requests(self)

该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取(默认实现是使用 start_urls 的url)的第一个Request。

当spider启动爬取并且未指定start_urls时,该方法被调用。

parse(self, response)

当请求url返回网页没有指定回调函数时,默认的Request对象回调函数。用来处理网页返回的response,以及生成Item或者Request对象。

log(self, message[, level, component])

使用 scrapy.log.msg() 方法记录日志信息。

CrawlSpider

CrawlSpider是Spider的派生类,Spider类的设计原则是只爬取start_urls列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。

CrawlSpider类源码参考

classCrawlSpider(Spider):

rules= ()

def__init__(self,*a,**kw):

super(CrawlSpider,self).__init__(*a,**kw)

self._compile_rules()

#首先调用parse()来处理start_urls中返回的response对象

#_parse()则将这些response对象传递给了_parse_response()函数处理,并设置回调函数为parse_start_url()

#设置了跟进标志位True

#parse将返回item和跟进了的Request对象    

def_parse(self,response):

returnself._parse_response(response,self.parse_start_url,cb_kwargs={},follow=True)

#处理start_url中返回的response,需要重写

defparse_start_url(self,response):

return[]

defprocess_results(self,response,results):

returnresults

#从response中抽取符合任一用户定义'规则'的链接,并构造成Resquest对象返回

def_requests_to_follow(self,response):

ifnotisinstance(response,HtmlResponse):

return

seen=set()

#抽取之内的所有链接,只要通过任意一个'规则',即表示合法

forn,ruleinenumerate(self._rules):

links= [lforlinrule.link_extractor.extract_links(response)iflnotinseen]

#使用用户指定的process_links处理每个连接

iflinksandrule.process_links:

links=rule.process_links(links)

#将链接加入seen集合,为每个链接生成Request对象,并设置回调函数为_repsonse_downloaded()

forlinkinlinks:

seen.add(link)

#构造Request对象,并将Rule规则中定义的回调函数作为这个Request对象的回调函数

r=Request(url=link.url,callback=self._response_downloaded)

r.meta.update(rule=n,link_text=link.text)

#对每个Request调用process_request()函数。该函数默认为indentify,即不做任何处理,直接返回该Request.

yieldrule.process_request(r)

#处理通过rule提取出的连接,并返回item以及request

def_response_downloaded(self,response):

rule=self._rules[response.meta['rule']]

returnself._parse_response(response,rule.callback,rule.cb_kwargs,rule.follow)

#解析response对象,会用callback解析处理他,并返回request或Item对象

def_parse_response(self,response,callback,cb_kwargs,follow=True):

#首先判断是否设置了回调函数。(该回调函数可能是rule中的解析函数,也可能是 parse_start_url函数)

#如果设置了回调函数(parse_start_url()),那么首先用parse_start_url()处理response对象,

#然后再交给process_results处理。返回cb_res的一个列表

ifcallback:

#如果是parse调用的,则会解析成Request对象

#如果是rule callback,则会解析成Item

cb_res=callback(response,**cb_kwargs)or()

cb_res=self.process_results(response,cb_res)

forrequests_or_iteminiterate_spider_output(cb_res):

yieldrequests_or_item

#如果需要跟进,那么使用定义的Rule规则提取并返回这些Request对象

iffollowandself._follow_links:

#返回每个Request对象

forrequest_or_iteminself._requests_to_follow(response):

yieldrequest_or_item

def_compile_rules(self):

defget_method(method):

ifcallable(method):

returnmethod

elifisinstance(method,basestring):

returngetattr(self,method,None)

self._rules= [copy.copy(r)forrinself.rules]

forruleinself._rules:

rule.callback=get_method(rule.callback)

rule.process_links=get_method(rule.process_links)

rule.process_request=get_method(rule.process_request)

defset_crawler(self,crawler):

super(CrawlSpider,self).set_crawler(crawler)

self._follow_links=crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS',True)

LinkExtractors

使用LinkExtractors的目的:提取链接。每个LinkExtractor有唯一的公共方法是extract_links(),它接收一个Response对象,并返回一个scrapy.link.Link对象。

scrapy.linkextractors.LinkExtractor(

allow= (),

deny= (),

allow_domains= (),

deny_domains= (),

deny_extensions=None,

restrict_xpaths= (),

tags= ('a','area'),

attrs= ('href'),

canonicalize=True,

unique=True,

process_value=None

)

主要参数:

    allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。

    deny:与这个正则表达式(或正则表达式列表)匹配的URL一定不提取。

    allow_domains:会被提取的链接的domains。

    deny_domains:一定不会被提取链接的domains。

    restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。

rules

在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。

scrapy.spiders.Rule(

link_extractor,

callback=None,

cb_kwargs=None,

follow=None,

process_links=None,

process_request=None

)

link_extractor:是一个LinkExtractor对象,用于定义需要提取的链接。

callback:从link_extractor中每获取到链接时,参数所指定的值作为回调函数,该回调函数接受一个response作为其第一个参数。

    注意:当编写爬虫规则时,避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑,如果覆盖了parse方法,crawlspider将会运行失败。

follow:是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。如果callback为None,follow默认设置为True,否则默认为False。

process_links:指定该spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。

process_request:指定该spider中哪个的函数将会被调用,该规则提取到每个request时都会调用该函数。(用来过滤request)

练习:爬取糗事百科翻页爬取地址: https://www.qiushibaike.com/text/

练习:抓取笔趣阁玄幻小说

链接地址:  https://www.biquge5200.cc/xuanhuanxiaoshuo/

要求: 爬取所有玄幻小说, 玄幻小说名作为文件夹名(如: “牧神记”), 每个章节作为文件名(如: “第一章 天黑别出门.txt”)

robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt文件是一个文本文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

User-agent: *  这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

你可能感兴趣的:(爬虫Scrapy框架进阶)