创建项目命令:
scrapy startproject [项目名]
Items定义要爬取的东西;spiders文件夹下可以放多个爬虫文件;pipelines爬虫后处理的文件,例如爬取的信息要写入数据库;settings项目设置
2.Scrapy常用模板
Scrapy-般通过指令管理爬虫项目,常用的指令有:
basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板
(1)查看爬虫模板命令
scrapy genspider -l
basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板
(2)创建爬虫命令
scrapy genspider -t [爬虫模板] [爬虫文件名] [爬取网址的域名]
2.Scrapy爬虫编写基础
编写一个Scrapy爬虫项目,一般按照如下流程进行:
4.使用scrapy编写阿里文学数据
第一步:定义目标
在items中定义目标
第二步:完善爬虫文件的编写
yield这里转交给pipelines文件处理
纠正一下:图中第①点我的目录应该是ali_first
(运行之后报错才发现,这个笔记是边做项目边写的,懒得重新截图编辑了)
第三步:开启pipelines
修改settings文件
第四步:完善pipelines文件内容
具体还有其它的爬虫需要的可以留言邮箱