scrapy使用小结

scrapy使用小结

使用scrapy框架爬虫是为 比较大的爬虫项目,scrapy比自己用面向对象、多进程+协程更加方便 代码量比较少 但是得理解到scrapy 框架的作用 多个模块配合使用
缺点:scrapy项目占用资源多 项目庞大

  1. 在爬虫器里面写爬虫代码 主要是处理 response数据

    • 调度器 调度下载器request 获得 response 交给spiders处理
    • 返回时用yield 不用return
  2. 爬虫器处理后 将数据返回给items

    • item保存这些需要的 数据 准备给管道调用
  3. items 里面写需要接收来自爬虫器的数据

    • 以下面这种方式声明 这也就是爬虫器需要返回的数据

    • author = scrapy.Field()
      content = scrapy.Field()
      
  4. 管道器 pipelines将处理完成的数据 存入数据库中

    • process_item 将处理完成的数据保存 例如将数据转成json存入文件中 或者存入数据库中
  5. settings 项目设置

    1. 创建任务之后 settings里面有默认开启的语句 也有语句需要我们手动开启

    2. ROBOTSTXT_OBEY=Ture (默认开启) 表示我们爬虫程序需要遵守 robots.txt规则 只爬取网页允许的内容

      开发需要 我们会设置为False ROBOTSTXT_OBEY=False

    3. DOWNLOAD_DELAY = 3 下载器的下载间隔时长 默认为不开启 我们可以手动开启防止被反爬

    4. DEFAULT_REQUEST_HEADERS 默认不开启 这是我们访问页面带的浏览器 header 我们需要手动开启

    5. ITEM_PIPELINES 管道器 默认不开启 需要使用时开启

你可能感兴趣的:(框架,爬虫,小白程序员,python,程序人生,经验分享)