1.scrapy初探

scrapy帮助命令:

scrapy -h

使用scrapy创建一个爬虫项目

第一步:先确定在哪个目录下创建,假如在D盘下的scrapy文件夹下创建这个项目,在dos下进入这个文件夹,使用scrapy startproject +项目名称 命令来创建

进入dos --> d: --> cd d:\fscrapy  -->scrapy startproject dangdang

这样在该文件夹下就创建了一个名称为dangdang的项目

第二步:创建一个爬虫文件 scrapy genspider -t basic dd

当当网练习:

第一步:在fscrapy文件夹下创建一个项目名称为ddw

scrapy startproject ddw

第二步:在dos下进入ddw文件夹,创建一个爬虫文件dangdang.py

scrapy genspider -t basic dangdang dangdang.com

用basic模板创建一个爬虫文件dangdang.py它要爬取的网址域名为dangdang.com

第三步:要爬取什么信息,在items.py里面去定义

第四步:编写爬虫文件dangdang.py

将start_urls替换为自己要爬取的页面

从items.py里面导入要使用的类:from ddw.items import 类名

然后实例化类,将response中的信息保存到实例化后的类名称里面,最后yield 实例化的类

第五步:处理pipelines文件

在settings文件里把pipelines给打开

第六步:写进数据库

第七步:多页爬取

你可能感兴趣的:(1.scrapy初探)