Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。下图显示了Scrapy的大体架构,其中包含了scheduler、item pipeline、downloader、spider以及engine这几个组件模块,而其中的绿色箭头则说明了整套系统的数据处理流程。
下面就来一个个解释每个组件的作用及数据的处理过程。
scrapy-admin.py startproject blog_crawl
1、ScrapyEngine(Scrapy引擎)
Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。
2、Scheduler(调度)
调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。
3、Downloader(下载器)
下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。
4、Spiders(蜘蛛)
蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。
蜘蛛的整个抓取流程(周期)是这样的:
(1)首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
(2)在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
(3)在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
(4)最后,从蜘蛛返回的项目通常会进驻到项目管道。
5、Item Pipeline(项目管道)
项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。
项目管道通常执行的过程有:
清洗HTML数据
验证解析到的数据(检查项目是否包含必要的字段)
检查是否是重复数据(如果重复就删除)
将解析到的数据存储到数据库中
6、Downloadermiddlewares(下载器中间件)
下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展 Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。
7、Spider middlewares(蜘蛛中间件)
蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。
8、Schedulermiddlewares(调度中间件)
调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。
Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:
1引擎打开一个域名,蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
2引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
3引擎从调度那获取接下来进行爬取的页面。
4调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
5当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
6引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
7蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
8引擎将抓取到的项目项目管道,并向调度发送请求。
系统重复第二步后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。
scrapy能够很好的处理问题,它通过几个组件完成不同的部分,将类似下载网页数据的这些通用操作封装起来,减少了我们编写爬虫时的难度,并且各个部件之间通过异步来处理,能够最大限度利用了网络带宽。我们只需要按照它的要求来实现几个模块就可以了。
fromscrapy.spider importBaseSpider
classtest(BaseSpider):
name ="test"
allowed_domains =["hao123.com"]
start_urls =["http://www.hao123.com"]
defparse(self,response):
printresponse.url
通常的爬取数据的处理的流程是:
1. 将一个开始的网页url存放到list中
2. 不断从list中取出url进行数据获取
3. 在获取到的网页数据中的链接都存放到list里面
4. 不断重复2、3步骤
#encoding=utf-8
__author__='dragon'
importurllib2
importos
importpymongo
importtime
importhashlib
defmyspider(startweb, keyword):
list=[startweb]
curindex =0
Keyword =keyword
#网络上MongoHQ
#con = pymongo.Connection("paulo.mongohq.com",10042)
#db = con.mytest
#db.authenticate("dragon","dragon")
#db.urllist.drop()
#本地数据库
con =pymongo.Connection("localhost", 27017)
db =con.mytest
whilecurindex < len(list):
url =list[curindex]
print"list count =", len(list), " curcheck ",curindex
print"try to visit ", url
headers =('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/29.0.1547.66 Safari/537.36')
try:
opener =urllib2.build_opener()
opener.addheaders =[headers]
openness =opener.open(url, None, 30)
data =openness.read()
opener.close()
except:
print"some error ..."
curindex +=1
continue
print"finish get data..."
os.remove("d:/test.txt")
file=open("d:/test.txt","a")
print>> file, data
file.close()
myfile =open("d:/test.txt", "r")
mystring =myfile.read()
myfile.close()
#找到标题
title =""
headstart =mystring.find("<head>")
headend =mystring.find("</head>")
ifheadstart < 0:
headstart =mystring.find("<HEAD>")
headend =mystring.find("</HEAD>")
ifheadstart > 0:
titlestart =mystring.find("<title>")
titleend =mystring.find("</title>")
iftitlestart < 0:
titlestart =mystring.find("<TITLE>")
titleend =mystring.find("</TITLE>")
iftitleend >titlestart andtitlestart < headend andtitleend < headend:
title =mystring[titlestart+len("<title>"):titleend]
dbdata ={"title":"", "url":"","time":""}
try:
title =title.decode("utf-8").encode("utf-8")
except:
try:
title =title.decode("gbk").encode("utf-8")
except:
pass
dbdata["title"] =title
dbdata["url"] =url
dbdata["time"] =time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
try:
db.urllist.insert(dbdata)
except:
print"insert error"
iflen(mystring) >0:
whilelen(mystring) > 0:
start =mystring.find("href=\"")
ifstart <=0:
break
substring =mystring[start+6:]
end =substring.find("\"")
weblink =substring[:end]
ifKeyword !="":
ifweblink.find(Keyword)>=0andlist.count(weblink) <=0:
list.append(weblink)
elif0>weblink.find("video.sina.com.cn") \
and0>weblink.find("video.baidu.com") \
and0<=weblink.find("http:") \
and0>=list.count(weblink):
list.append(weblink)
mystring =mystring[start+6:]
curindex +=1
if__name__ =='__main__':
myspider("http://www.hao123.com","hao123")
scrapy结构清晰,可以很方便得修改它来实现更复杂的需求
快速的link extracto
首先从初始 URL 开始,Scheduler 会将其交给 Downloader 进行下载,下载之后会交给 Spider 进行分析,Spider 分析出来的结果有两种:一种是需要进一步抓取的链接,例如之前分析的“下一页”的链接,这些东西会被传回 Scheduler ;另一种是需要保存的数据,它们则被送到 Item Pipeline 那里,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。parse 方法是我们需要定义的回调函数,默认的 request 得到 response 之后会调用这个回调函数,我们需要在这里对页面进行解析,返回两种结果(需要进一步 crawl 的链接和需要保存的数据),让我感觉有些奇怪的是,它的接口定义里这两种结果竟然是混杂在一个 list 里返回的,不太清楚这里为何这样设计。
Scrapy为每一个start_urls创建一个scrapy.http.Request对象,并将爬虫的parse方法指定为回调函数。这些Request首先被调度,然后被执行,之后通过parse()方法,将scrapy.http.Response对象被返回,结果也被反馈给爬虫。
Scrapy使用的是XPath表达式,通常叫做XPath selectors。
这里有一些表达式的例子和它们相关的含义:
/html/head/title: 选择<title>元素,在HTML文档的<head>元素里
/html/head/title/text(): 选择<title>元素里面的文本
//td: 选择所有的<td>元素
//div[@class="mine"]: 选择所有的div元素里面class属性为mine的
为了更好使用XPaths, Scrapy提供了一个XPathSelector类,它有两种方式, HtmlXPathSelector(HTML相关数据)和XmlXPathSelector(XML相关数据)。如果你想使用它们,你必须实例化一个Response对象。
x = HtmlXPathSelector(response)
选择器有三种方法(点击方法你能够看见完整的API文档)。
select(): 返回选择器的列表,每一个select表示一个xpath表达式选择的节点。
extract(): 返回一个unicode字符串 ,该字符串XPath选择器返回的数据。
re(): 返回unicode字符串列表,字符串作为参数由正则表达式提取出来。
每个select()调用返回一个selectors列表,所以我们可以结合select()去挖掘更深的点:
sites = hxs.select('//ul/li')
for site in sites:
title = site.select('a/text()').extract()
link = site.select('a/@href').extract()
desc = site.select('text()').extract()
print title, link, desc