Scrapy框架学习笔记(一)

Scrapy框架学习笔记(一)

关于 Spider


概念

用于从Scrapy(内部)传递过来的Response对象中,提取数据,并装进Items对象里,然后返回给Scrapy处理

怎么用

  • 创建Spider文件

项目/Spiders/

添加Spider类,如:文件名,类名,其属性name的最好一致

  • 在文件里写到
import scrape
class 类名(spider):
    name = 类名
    # ...
    # ...
  • scrapy 如何启动你写好的spider类

在命令行里,你的根目录下输入:scrapy crawl 类名

  • 定制spider的行为

– (默认),提前写好你要分析的url,和通用的parse方法,来决定你要怎么分析URL里Response的内容

– 自定义的,写好你要分析的URL,及其对应的URL的回调函数(非parse),来不同地分析对应URL的response的内容

  • 如何分析Response里的内容

– 单纯的填充Item对象,并返回给Spider

– 深度的分析,Response里的其他url,然后在进一步的设计其回调函数

  • 其他: 让你的Spider,可以接收从命令行而来的参数

  • 其他:如何从Response的内容里,遍历快捷的获取数据

使用selector选择器

  • 使用Scrapy内置的多种spider,来实现更多的功能

  • 自定义自己的Spider,实现更多你想要的内容

你可能感兴趣的:(Scrappy)