1、创建一个scrapy的开发环境
mkvirtualenv article
mkvirtualenv --python=C:\Users\Administrator\AppData\Local\Programs\Python\Python\python.exe
2、使用 scrapy 来创建 ArticleSpider项目
在文件夹中右键,在此处打开命令窗口,本人是在这个目录 C:\Users\win\Desktop\scrapytest
然后输入下面的指令:
scrapy startproject ArticleSpider
然后将项目导入到pycharm中,项目的结构目录如下图所示
settings.py是一个总配置文件:
BOT_NAME : 工程名字
SPIDER_MODULES:
NEWSPIDER_MODULE:
下面module的配置路径
pipelines.py 这个是一个跟数据存储相关的文件
middlewares.py 可以自定义,让scrapy更加可控
items.py 这个文件有点类似于 django中的一个form,定义了数据保存的格式
,但是它要比django的form应用简单,因为它的字段是十分单一的
spider文件夹:这个文件夹中存放的是具体的某个网站的爬虫.
3、通过命令行,我们可以创建出属于自己的一个spider
首先先进入到项目下面,然后执行命令本人项目路径是: C:\Users\win\Desktop\scrapytest\ArticleSpider
scrapy genspider jobbole blog.jobbole.com
于是便看到了项目中已经新建了一个 jobbole.py文件,如下图所示:
我们看到jobbole.py这个文件中已经默认生成了python代码,并且这个类继承自 scrapy.Spider