Python爬虫5.7 — scrapy框架Shell命令的使用

Python爬虫5.7 — scrapy框架Shell命令的使用

    • 综述
    • Scrapy Shall
    • 打开Scrapy Shall
    • 总结
    • 其他博文链接

综述

本系列文档用于对Python爬虫技术的学习进行简单的教程讲解,巩固自己技术知识的同时,万一一不小心又正好对你有用那就更好了。
Python 版本是3.7.4

本篇文章主要讲解Scrapy Shall的使用。

Scrapy Shall

我们想要再爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为Scrapy是一个比较重的框架,每次运行起来都要等待一段时间,因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy提供了一个shell,用来方便的测试规则,当然也不仅仅局限于这一功能。

打开Scrapy Shall

打开cmd终端,进入到Scrapy项目所在的目录,然后进入到Scrapy框架所在的虚拟环境中(有的人直接使用本地环境也是可以的),输入命令

scrapy shell [链接]

就会进入到scrapy的shell环境中,你可以跟在爬虫的parse方法中一样的使用了。

总结

  1. 可以方便我们做一些数据提取的测试代码。
  2. 如果想要执行scrapy命令,那么毫无疑问,肯定要先进入到scrapy所在的环境中。
  3. 如果想要读取某个项目的配置信息,那么应该进入到这个项目中。再执行scrapy shell命令。

其他博文链接

  • Python爬虫1.1 — urllib基础用法教程
  • Python爬虫1.2 — urllib高级用法教程
  • Python爬虫1.3 — requests基础用法教程
  • Python爬虫1.4 — requests高级用法教程
  • Python爬虫2.1 — BeautifulSoup用法教程
  • Python爬虫2.2 — xpath用法教程
  • Python爬虫3.1 — json用法教程
  • Python爬虫3.2 — csv用法教程
  • Python爬虫3.3 — txt用法教程
  • Python爬虫4.1 — threading(多线程)用法教程
  • Python爬虫4.2 — ajax(动态网页数据抓取)用法教程
  • Python爬虫4.3 — selenium基础用法教程
  • Python爬虫4.4 — selenium高级用法教程
  • Python爬虫4.5 — tesseract(图片验证码识别)用法教程
  • Python爬虫5.1 — scrapy框架简单入门
  • Python爬虫5.2 — scrapy框架pipeline模块的使用
  • Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用
  • Python爬虫5.4 — scrapy框架items模块的使用
  • Python爬虫5.5 — scrapy框架logging模块的使用
  • Python爬虫5.6 — scrapy框架setting模块的使用

你可能感兴趣的:(Python爬虫,Python)