Scrapy爬虫项目创建

1.新建一个爬虫项目

可以使用 scrapy startproject 项目名称

2.创建一个自己的爬虫文件

scrapy genspider 文件名字+目标网站的域名

3.在items文件中定义自己要爬取的字段

字段的名字自己定义

4.在自己创建的爬虫文件夹下编写爬虫代码

这个自动生成的类中有一个parse方法,这个方法中有自带的response对象(可以直接使用xpath语法),只需要在这个方法中编写自己的爬虫,然后导入自己在items中创建的字段类,把获取到的数据保存到这些字段当中,最后用yield函数返回数据到管道(pipelines)当中

5.在管道中对获取到的数据进行持久化操作

如果保存数据库的话可以在settings文件中提前设置号各个数据库要用到的变量,然后导入这些数据库的信息,构建连接数据库的方式,最后插入数据

6.进入自己创建的爬虫目录下

使用(scrapy crawl +自己爬虫文件的名称)来进行项目的运行

你可能感兴趣的:(Scrapy爬虫项目创建)