python scrapy详细解析文档

Scrapy爬虫项目

  1. Cmd命令行创建项目

创建项目命令:

scrapy startproject [项目名]

python scrapy详细解析文档_第1张图片

python scrapy详细解析文档_第2张图片

python scrapy详细解析文档_第3张图片

 

Items定义要爬取的东西;spiders文件夹下可以放多个爬虫文件;pipelines爬虫后处理的文件,例如爬取的信息要写入数据库;settings项目设置

       2.Scrapy常用模板

Scrapy-般通过指令管理爬虫项目,常用的指令有:

  1. startproject创建爬虫项目
  2. genspider -I查看爬虫模板
  3. genspider -t模版爬虫文件名域名创建爬虫
  4. crawl运行爬虫
  5. list查看有哪些爬虫

basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板

     

(1)查看爬虫模板命令

scrapy genspider -l

python scrapy详细解析文档_第4张图片

 

basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板

(2)创建爬虫命令

scrapy genspider -t [爬虫模板] [爬虫文件名] [爬取网址的域名]

python scrapy详细解析文档_第5张图片

 

python scrapy详细解析文档_第6张图片

   2.Scrapy爬虫编写基础

编写一个Scrapy爬虫项目,一般按照如下流程进行:

  1. 创建爬虫项目
  2. 编写items
  3. 创建爬虫文件
  4. 编写爬虫文件
  5. 编写pipelines
  6. 配置settings

 

    4.使用scrapy编写阿里文学数据

第一步:定义目标

在items中定义目标

python scrapy详细解析文档_第7张图片

第二步:完善爬虫文件的编写

python scrapy详细解析文档_第8张图片

yield这里转交给pipelines文件处理

纠正一下:图中第①点我的目录应该是ali_first

(运行之后报错才发现,这个笔记是边做项目边写的,懒得重新截图编辑了)

第三步:开启pipelines

修改settings文件

python scrapy详细解析文档_第9张图片

 

第四步:完善pipelines文件内容

python scrapy详细解析文档_第10张图片

具体还有其它的爬虫需要的可以留言邮箱

 

你可能感兴趣的:(Python)