Scrapy抓取壁纸图片

1 安装Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

本文编写一个简单的Python 爬虫用于抓取http://desk.zol.com.cn/的部分壁纸。

开发环境是mac OS ,python 版本是2.7.

step1 需要先安装python 的虚拟环境。virtualenv可以搭建虚拟且独立的python环境,可以使每个项目环境与其他项目独立开来,保持环境的干净,解决包冲突问题。

pip install virtualenv

创建一个虚拟且独立空间。env 是虚拟环境的名称

virtualenv env

启动虚拟环境(就是运行 目录env/bin 下的activate 文件)

. env/bin/activate

step2 安装Scrapy。

pip install Scrapy

安装Python 图形处理库,下载图片时需要使用到这个库。

pip install Pillow

step3 创建项目 ,download 是项目名称。

scrapy startproject download


2 编写爬虫

定义抓取的Item。第一步是定义我们需要爬取的数据结构。

`items.py`
 
 

你可能感兴趣的:(python)