cfg,配置文件,指定路径
items,指定保存文件的数据结构
middlewares,中间件,处理request和reponse等相关配置
pipelines,项目管道,可以输出items
settings,设置文件,指定项目的一些配置
name指定名称,文件唯一标识
allowed_domains以及start_urls标识开始的网址
parse执行的具体操作
scrapy #弹出相应的操作,版本号、命令等等
scrapy startproject 项目名 #创建一个项目
scrapy genspider 爬虫名 要爬的网址 #创建第一个爬虫,创建爬虫时有四个模板,指定要创建的爬虫类型
scrapy genspider -t 模板 爬虫名 要爬网址 #一般用的有basic(默认)和crawl
scrapy crawl 爬虫名 -o 文件名 #运行爬虫,并输出特定文件(文件可不输出)
scrapy check #检查代码是否存在错误,并且指出错误
scrapy list #返回项目里所有的爬虫名称
scrapy edit 爬虫名 #在命令行进行编辑(不方便,一般不用)
scrapy parse 网址 --callback 方法 #输出项目爬虫里执行将要输出的内容
scrapy settings -h 配置名 #获取配置信息
scrapy runspider 爬虫名.py #运行爬虫文件
scrapy version -v #查看scrapy以及依赖库的版本
scrapy bench #测试使用,测试当前的爬行速度,和电脑性能有关
scrapy fetch 网址 #请求这个网址并且返回内容
命令 --nolog #不显示日志
命令 --headers #返回响应头信息
命令 --no-redirect #网址重定向
scrapy view 网址 #保存一个网址成文件,并且从浏览器打开,调试工具
scrapy shell 网址 #进入shell模式,进行调试运行,查看相应的命令输出,比较方便
其他命令一般就不怎么使用了,可登陆官网进行查看全部命令及用法。
这其中有不合适或者不正确的地方欢迎指正,我的QQ号码:2867221444(乔金明),谢谢,也可以相互交流下,备注信息随意,只要能看得出是开发者或者学习者即可。