这一节我们学习一下这个框架的基本架构,了解一下各组件是如何交互的。
对照上面的图片:
并不是所有部分我们都需要关注,这些组成中引擎,下载器和调度器,是不需要我们编写的。我们的重点在其他部分。
接下来我们了解一下创建项目后的结构,在需要存储代码的目录下运行终端cmd:scrapy startproject 爬虫名称
完成后我们会发现已经出现了项目目录,内容如下:
爬虫名称/
scrapy.cfg # 项目配置文件,包含配置路径,部署信息
爬虫名称/ # 项目的Python模块,您将从这里导入代码
__init__.py
items.py # 用来定义Item数据结构
middlewares.py # 用来实现中间件
pipelines.py # 用于编写管道文件,也就是处理数据
settings.py # 项目的全局配置信息
spiders/ # 用来存放日后编写的爬虫文件
__init__.py
本节介绍了Scrapy框架的基础知识,各部分具体如何实现后面会讲,但是这节要理解掌握工作流程,这有助于后面工作的进行。