scrapy爬虫之scrapy命令行

scrapy全局命令

全局命令有
startproject:创建项目
settings:查看设置信息
runspider:运行爬虫
shell:打开shell调试
fetch:下载网页信息
view:使用浏览器打开指定网址
version:查看版本

scrapy项目命令(需在项目中才能执行)

项目命令有
crawl:运行指定爬虫
check:检查爬虫代码
list:列出所有的爬虫
edit:使用默认的编辑器编辑爬虫
parse:使用爬虫抓取指定URL
genspider:创建爬虫
bench:快速的性能测试

scrapy常用命令

创建项目和爬虫
#startproject和genspider一般都是配合使用的
#语法
scrapy startproject 项目名
cd 项目名
scrapy genspider 爬虫文件名 爬取的域名
genspider可以使用四种模板
basi:基本爬虫模板,继承Spider
crawl:继承CrawlSpider的模板
csvfeed:继承CSvFeedSpider
xmlfeed:继承XMLFeedSpider
----------------------------------
演示一下
[root@fengzhilaoling ~]# scrapy startproject baidu
New Scrapy project 'baidu', using template directory '/usr/local/python3/lib/python3.6/site-packages/Scrapy-2.2.0-py3.6.egg/scrapy/templates/project', created in:
    /root/baidu

You can start your first spider with:
    cd baidu
    scrapy genspider example example.com
[root@fengzhilaoling ~]# cd baidu
[root@fengzhilaoling baidu]# scrapy genspider baiduspider baidu.com
Created spider 'baiduspider' using template 'basic' in module:
  baidu.spiders.baiduspider

绿色框中是,执行genspider后生成的,这些文件干啥的下一篇介绍
scrapy爬虫之scrapy命令行_第1张图片

运行爬虫
#语法
scrapy crawl 爬虫标识 -o 数据存储文件
爬虫标识:以上边项目为例说:在baiduspider.py文件中的name变量的值 
#例
scrapy crawl books -o books.csv
查看项目中的爬虫
#语法
scrapy list

scrapy shell命令

是一个可以交互的终端,可以用来做数据提取的测试

语法:
scrapy shell URL
#进入之后可以使用
view(response)  #在浏览器打开页面
response.xpath()  #来提取数据
演示:
 scrapy shell www.baidu.com
2020-07-08 17:06:55 [scrapy.utils.log] INFO: Scrapy 2.2.0 started (bot: scrapybot)
。。。。。。
2020-07-08 17:06:56 [asyncio] DEBUG: Using selector: EpollSelector
In [1]:

你可能感兴趣的:(python)