Scrapy爬虫文件结构及常用命令

用命令行进入对应文件夹,用下面创建工程,再用pycharm打开

scrapy startproject test001

如图

Scrapy爬虫文件结构及常用命令_第1张图片

 记一下每个文件的用处

  • __init__.py   #包定义
  • items.py   #模型定义
  • pipelines.py    #管道定义
  • setting.py   #配置文件
  • spider.py   #蜘蛛文件夹
    __init__.py    #默认的蜘蛛代码文件
  • scrapy.cfg    #scrapy的运行配置文件,用于指向具体爬网时采用的python代码

scrapy的几个命令的作用还是很常用的,如下

  1.   bench         Run quick benchmark test
  2.   check         Check spider contracts
  3.   crawl         Run a spider
  4.   edit          Edit spider
  5.   fetch         Fetch a URL using the Scrapy downloader
  6.   genspider     Generate new spider using pre-defined templates
  7.   list          List available spiders
  8.   parse         Parse URL (using its spider) and print the results
  9.   runspider     Run a self-contained spider (without creating a project)
  10.   settings      Get settings values
  11.   shell         Interactive scraping console
  12.   startproject  Create new project
  13.   version       Print Scrapy version
  14.   view          Open URL in browser, as seen by Scrapy

翻译如下:

  • bench    运行快速基准测试
  • check    检查蜘蛛合同
  • crawl     运行一个蜘蛛
  • edit        编辑蜘蛛
  • fetch      使用Scrapy downloader获取URL
  • genspider     使用预定义模板生成新的爬行器
  • list     列出可用的蜘蛛
  • parse    解析URL(使用它的爬行器)并打印结果
  • runspider    运行自包含的爬行器(不创建项目)
  • settings    获取设置值
  • shell   交互式刮控制台
  • stratprojects    创建新项目
  • version    打印Scrapy版本
  • view     在浏览器中打开URL,如图所示

你可能感兴趣的:(爬虫)