2022-01-19scrapy开发流程

一:创建项目文件
1.创建一个空的文件夹,名字随意,如:爬虫框架scrapy



2.在上面的文件夹下创建一个py文件,名字随意,如:createmain



3.在创建的py文件里导入模块:from scrapy.cmdline import execute

注意:因为我用的是wingide,所以会加第一行#encoding:utf8,其他ide不用这行,注意后面的所有py文件都要再第一行加#encoding:utf8,其他的ide不用

4.在上面的基础上,敲入下面代码,



创建爬虫项目,execute括号里是列表,列表里三个元素,第三个元素是这个py文件同级目录下的文件夹名称,执行后效果如下:



5.点击cnblogs左边>,可以看到这个文件夹下的内容:

items.py 定义爬虫信息字段
middlewares.py 设置中间件配置
piplines.py 保存解析后的数据(保存到文件或者数据库)
settings.py 设置爬虫配置
6.右击下面的cnblogs创建一个文件,随意起名,如spidermain2




不要点到Add Existing File了

7.把前面的复制过来


再写一行:execute(['scrapy','genspider','blog2','www.cnblogs.com'])

执行一下如下图:



spiders文件夹下多了个blog2.py,这个文件用来 接收响应内容,解析响应数据

二、修改文件内容
先看一下整体:



各个模块的含义:
blog2.py 接收响应内容,解析响应数据
items.py 定义爬虫信息字段
middlewares.py 设置中间件配置
piplines.py 保存解析后的数据(保存到文件或者数据库)
settings.py 设置爬虫配置

1.双击打开item.py,出现以下内容



定义需要提取的字段:


2.双击打开blog2.py,出现以下内容



这个文件里需要输入解析数据的代码:


3.双击打开pipelines.py,出现以下内容



修改后如下:


image.png

4.双击打开settings.py,设置请求头和pipelines的配置


取消这几行注释

把请求头添加进去:



取消这几行注释

5.修改完后,回到spidermain2.py,



加一行代码:execute(['scrapy','crawl','blog2'])
点击运行
运行顺序是:spidermain2.py➡settings.py➡item.py➡blog2.py➡pipelines.py➡➡blog2.py

需要加#encoding:utf8的文件有三个:
spidermain2.py、blog2.py、pipelines.py
因为我用的是wingide,其他的不同加这个

你可能感兴趣的:(2022-01-19scrapy开发流程)