Scrapy学习入门经验

Scrapy介绍:
一个python的爬虫框架。允许用户定义自己的spiders(蜘蛛)
特点:
1、 带有异步处理请求功能。
2、 可设置CPU使用率。
流程:


Scrapy学习入门经验_第1张图片
scrapy_architecture.png

Items->Spiders->pipelines
构建->请求->储存

使用说明:
1.先startproject 创建一个项目
-- spiders name 这只蜘蛛的名称
-- 设置allowed_domains 允许蜘蛛爬取的域名范围
-- bash_url 第一个开始的url地址(似乎非必须)

  1. 在Scrapy中的items.py文件中定义储存器
    -- 通过储存器来接受需要保存的数据
    -- 定义储存器的语法:
    ---变量名称=scrapy.field()
    ---如:MaxName=scrapy.field()
    ---其中field()是scrapy的一种类型,还有其他许多类型。目前暂不做介绍
  2. 通过定义一个初始函数start_requests()来发送第一次请求
    --设置请求的url
    --使用yield()来返回数据
    ---Scrapy 自带的Requests(url,callback=function)函数来发生请求,类似python的requests库
    ---callback参数设置回调函数,即请求响应的内容发生给哪里。
  3. 定义一个新的函数,如data_response来接受响应的数据
    --响应函数一定要写在Requests里的callback参数里,语法格式:self.函数名称
    --将需要保存的数据赋值给itme的储存器
    --语法:item['声明变量名称']=值
    ---如:item['MaxName']='马克思之谜'
    -- 使用yield item 来返回item字典
    5.在settings.py里启用ITEM_PIPELINES
    --ITEM_PIPELINES里的数字为优先级,越大优先级越高
    6.编辑pipelines.py
    --这是系统自带的储存通道
    --可此编写储存语句
    --item的字典所有数据都会返回到这个通道里

你可能感兴趣的:(Scrapy学习入门经验)