Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
本文编写一个简单的Python 爬虫用于抓取http://desk.zol.com.cn/的部分壁纸。
开发环境是mac OS ,python 版本是2.7.
step1 需要先安装python 的虚拟环境。virtualenv可以搭建虚拟且独立的python环境,可以使每个项目环境与其他项目独立开来,保持环境的干净,解决包冲突问题。
pip install virtualenv
创建一个虚拟且独立空间。env 是虚拟环境的名称
virtualenv env
启动虚拟环境(就是运行 目录env/bin 下的activate 文件)
. env/bin/activate
step2 安装Scrapy。
pip install Scrapy
安装Python 图形处理库,下载图片时需要使用到这个库。
pip install Pillow
step3 创建项目 ,download 是项目名称。
scrapy startproject download
定义抓取的Item。第一步是定义我们需要爬取的数据结构。
`items.py`