命令行工具

startproject

  • 语法:
scrapy startproject  [project_dir]
  • 需要项目:

  • 说明: 创建一个新项目,如果没有指定 project_dir ,将会在当前路径创建。

  • 例子:

$ scrapy startproject myproject




genspider

  • 语法:
scrapy genspider [-t template]  
  • 需要项目:

  • 说明: 在当前文件夹或当前项目的 spiders 文件夹创建一个新爬虫,如果是在项目中使用该命令。 参数设置为 spider 的名称,而 用于生成 allowed_domains 和 start_urls 属性。

  • 例子:

# 创建爬取 "example.com",名为:example 的爬虫
$ scrapy genspider example example.com
# 创建爬取 "scrapy.org",名为:scrapyorg,使用模板为 crawl 的爬虫
$ scrapy genspider -t crawl scrapyorg scrapy.org

可用的模板:

  basic
  crawl
  csvfeed
  xmlfeed




crawl

  • 语法:
scrapy crawl 
  • 需要项目:

  • 说明: 启动指定的爬虫开始爬取

  • 例子:

$ scrapy crawl myspider




check

待补充




list

  • 语法:
scrapy list
  • 需要项目:

  • 说明: 列出项目所有爬虫

  • 例子:

$ scrapy list
spider1
spider2




edit

待补充




fetch

  • 语法:
scrapy fetch 
  • 需要项目:

  • 说明: 打开网页,并返回网页的 html 代码,如果在项目内使用,会使用我们编写的爬虫的设置,如果在项目外使用,则使用 Scrapy 默认的下载器。

  • 可选项:

--spider=SPIDER:使用指定爬虫加载网页
--headers:只显示网页 header 信息
--no-redirect:不遵循HTTP 3xx重定向
  • 例子:
$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]
$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],




view

  • 语法:
scrapy view 
  • 需要项目:

  • 说明: 在浏览器打开网页




shell

  • 语法:
scrapy shell [url]
  • 需要项目:

  • 说明: 进入 shell 模型,可以不给定 url。




parse

  • 语法:
scrapy parse  [options]
  • 需要项目:

  • 说明: 加载并解释指定的 url,用 --callback (或简写为:-c)指定相应的爬虫。

  • 例子:

$ scrapy parse http://www.example.com/ -c parse_item




settings

  • 语法:
scrapy parse  [options]
  • 需要项目:

  • 说明: 获取设定值

  • 例子:

$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0

你可能感兴趣的:(命令行工具)