Scrapy的基本使用(一)

产生步骤(一)

应用Scrapy爬虫框架主要时编写配置型代码

步骤1:建立一个Scrapy爬虫工程
选取一个目录(G:\pycodes\),然后执行以下命令

生成的工程目录:



产生步骤(二)

步骤2:在工程中生成一个Scrapy爬虫
进入工程目录然后执行以下命令


该命令作用:
(1)生成一个名为demo的spider
(2)在spiders目录下增加demo.py文件
(该命令仅用于生成demo.py,该文件也可以手工生成

demo.py文件

parse()用于处理响应,解析内容形成字典,发现新的URL爬取请求

产生步骤(三)

步骤3:配置产生的spider爬虫
配置:
(1)初始的URL地址
(2)获取页面后的解析方式

产生步骤(四)

步骤4:运行爬虫,获取网页
在命令行下执行如下命令


demo爬虫被执行,捕获页面被储存在demo.html

demo.py代码的完整版

两个等价版本的区别:yield关键字的使用

你可能感兴趣的:(Scrapy的基本使用(一))