scrapy的文件目录结构及相应命令

scrapy的文件目录结构及相应命令

 

目录结构

主要文件:

cfg,配置文件,指定路径

items,指定保存文件的数据结构

middlewares,中间件,处理request和reponse等相关配置

pipelines,项目管道,可以输出items

settings,设置文件,指定项目的一些配置

爬虫文件spiders

name指定名称,文件唯一标识

allowed_domains以及start_urls标识开始的网址

parse执行的具体操作

 

scrapy操作命令

scrapy      #弹出相应的操作,版本号、命令等等

scrapy startproject 项目名      #创建一个项目

cd 项目名      #进入项目

scrapy genspider 爬虫名 要爬的网址      #创建第一个爬虫,创建爬虫时有四个模板,指定要创建的爬虫类型

scrapy genspider -t 模板 爬虫名 要爬网址      #一般用的有basic(默认)和crawl

scrapy crawl 爬虫名 -o 文件名      #运行爬虫,并输出特定文件(文件可不输出)

scrapy check      #检查代码是否存在错误,并且指出错误

scrapy list      #返回项目里所有的爬虫名称

scrapy edit 爬虫名      #在命令行进行编辑(不方便,一般不用)

scrapy parse 网址 --callback 方法      #输出项目爬虫里执行将要输出的内容

scrapy settings -h 配置名      #获取配置信息

scrapy runspider 爬虫名.py      #运行爬虫文件

scrapy version -v      #查看scrapy以及依赖库的版本

scrapy bench      #测试使用,测试当前的爬行速度,和电脑性能有关

cd ..      #退出项目

scrapy fetch 网址      #请求这个网址并且返回内容

命令 --nolog             #不显示日志

命令 --headers          #返回响应头信息

命令 --no-redirect     #网址重定向

 

scrapy view 网址      #保存一个网址成文件,并且从浏览器打开,调试工具

scrapy shell 网址      #进入shell模式,进行调试运行,查看相应的命令输出,比较方便

 

      其他命令一般就不怎么使用了,可登陆官网进行查看全部命令及用法。


      这其中有不合适或者不正确的地方欢迎指正,我的QQ号码:2867221444(乔金明),谢谢,也可以相互交流下,备注信息随意,只要能看得出是开发者或者学习者即可。

 

 

 

 

 

 

 

你可能感兴趣的:(scrapy的文件目录结构及相应命令)