scrapy的基本使用

scrapy框架

image.png
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)
image.png

scrapy的项目的步骤

  • 1.scrapy startproject 爬虫项目名称

  • 2.(编写items.py):明确你想要抓取的目标

items.py文件:自定义字段,确定要爬取的目标网站数据

import scrapy
class DoubanItem(scrapy.Item):

    # 标题
    title = scrapy.Field()
    # 是否可播放的状态
    playable = scrapy.Field()
    # 简介
    content = scrapy.Field()
    # 评分
    star = scrapy.Field()
    # 评论数量
    commentnum = scrapy.Field()
    # 主题
    inq = scrapy.Field()

spiders/douban.py 文件: 爬虫文件,在这里编写爬虫代码,解析数据,获取新的url
name:是项目的名字
allowed_domains:是允许爬取的域名,比如一些网站有相关链接,域名就和本网站不同,这些就会忽略。

settings.py文件: 设置文件,在这里设置User-Agent,激活管道文件等...
pipelines.py管道:这里进行数据的清洗和持久化

  • 3.scrapy genspider 爬虫文件名称 域名:制作爬虫开始爬取网页

  • 4. 存储内容

(pipelines.py):设计管道存储爬取内容

通过pip安装scrapy

pip3 install Scrapy
image.png

scrapy通用爬虫

scrapy genspider -t crawl 爬虫文件 域名
它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则Rule来提供跟进链接的方便的机制,从爬取的网页结果中获取链接并继续爬取的工作.

CrawlSpider使用rules属性来决定爬虫的爬取规则,并将匹配后的url请求提交给引擎,完成后续的爬取工作。
在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了某种特定操作,比如提取当前相应内容里的特定链接,是否对提取的链接跟进爬取,对提交的请求设置回调函数等。如果多个rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。
Link Extractors 的目的很简单: 提取链接。
每个LinkExtractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象。
Link Extractors要实例化一次,并且 extract_links 方法会根据不同的 response 调用多次提取链接。
link_extractor:是一个Link Extractor对象,用于定义需要提取的链接。
callback: 从link_extractor中每获取到链接得到Responses时,会调用参数所指定的值作为回调函数,该回调函数接收一个response作为其一个参数。
follow:是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。如果callback为None,follow 默认设置为True ,否则默认为False。
process_links:指定spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。
process_request:指定处理函数,根据该Rule提取到的每个Request时,该函数将会被调用,可以对Request进行处理,该函数必须返回Request或者None
爬取规则(Crawling rules

第一步:根据要爬取的网页确定需要保存的字段
第二步:编写爬虫类 ,LinkExtractor实例对象

request请求和response响应

 url: 就是需要请求,并进行下一步处理的url

callback: 指定该请求返回的Response,由那个函数来处理。

method: 请求一般不需要指定,默认GET方法,可设置为"GET", "POST", "PUT"等,且保证字符串大写

headers: 请求时,包含的头文件。一般不需要。内容一般如下: # 自己写过爬虫的肯定知道 Host: [media.readthedocs.org](http://media.readthedocs.org/)User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0 Accept: text/css,*/*;q=0.1 Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: gzip, deflate Referer: [http://scrapy-chs.readthedocs.org/zh_CN/0.24/](http://scrapy-chs.readthedocs.org/zh_CN/0.24/) Cookie: _ga=GA1.2.1612165614.1415584110; Connection: keep-alive If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT Cache-Control: max-age=0
meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型
 request_with_cookies = Request(
          url="http://www.example.com",
          cookies={'currency': 'USD', 'country': 'UY'},
          meta={'dont_merge_cookies': True}
      )
encoding: 使用默认的 'utf-8' 就行。
dont_filter: 表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False。
errback: 指定错误处理函数

response响应

status: 响应码
_set_body(body): 响应体
_set_url(url):响应url
self.request = request (request对象)
self.headers = Headers (响应头)

如何使用shell

Scrapy Shell根据下载的页面会自动创建一些方便使用的对象,例如 Response 对象,以及 Selector 对象 (对HTML及XML内容)。

######运行shell:scrapy shell "http://hr.tencent.com/position.php?&start=0#a"
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"  "http://hr.tencent.com/position.php?&start=0#a"

Selectors选择器 Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制 Selector有四个基本的方法,最常用的还是xpath:

xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表
extract(): 序列化该节点为字符串并返回list
css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表,语法同 BeautifulSoup4
re(): 根据传入的正则表达式对数据进行提取,返回字符串list列表

数据库永久化保持

items.py文件:自定义字段,确定要爬取的目标网站数据
spiders/douban.py 文件: 爬虫文件,在这里编写爬虫代码,解析数据,获取新的url

init() : 初始化爬虫名字和start_urls列表

start_requests() 调用
make_requests_from url():生成Requests对象交给Scrapy下载并返回response
parse():

解析response,并返回Item或Requests(需指定回调函数)。
Item传给Item pipline持久化 , 而Requests交由Scrapy下载,并由指定的回调函数处理(默认parse()),一直进行循环,直到处理完所有的数据为止。

settings.py文件: 设置文件,在这里设置User-Agent,激活管道文件等...
pipelines.py管道:这里进行数据的清洗和持久化

运行文件

scrapy crawl 项目名称

你可能感兴趣的:(scrapy的基本使用)