scrapy是python编写的用来进行网络抓取的一个开源的框架。具体的介绍可以参见下面的连接:
scrapy--百度百科
scrapy官方网站
scrapy依赖许多的库文件,所以scrapy的安装比较的麻烦。下面我说下我的安装过程。
一般情况下,scrapy以及依赖包是从官方网站https://pypi.python.org/simple/来进行下载,但是由于该网站连接相当慢(你懂得),所以我们可以选择修改下载源。通常可以选择豆瓣的源pypi.douban.com/simple
当我们用python setup.py install 进行安装的时候,默认的是采用的官方的源,如果想要改的话,可以修改里面的配置文件setup.cfg,在里面添加这么两行:
[easy_install]
index_url = http://pypi.douban.com/simple
这样的话,就可以了。
修改了setup.cfg之后,以后配置就可以随着源码走了。
如果使用的是pip安装,那么就可以修改~/.pip/pip.conf
~/.pip/pip.conf
1 2 |
[global] index-url = http://pypi.douban.com/simple |
但是如果是使用setup.py安装的话,还需要修改distutils的配置。可以通过~/.pydistutils.cfg来配置distutils的源。如下:
~/.pydistutils.cfg
1 2 |
[easy_install] index_url = http://pypi.douban.com/simple |
然后就可以在setup.py安装依赖的时候使用豆瓣源了。
这样的话,就可以快速的下载了。
windows的安装主要参考http://www.phpno.com/scrapy-install.html 中的安装方法。(但是其中也有些稍微的改动,最主要的不同在于所选择的源的不同。)
可以从网络中获取python的安装包来进行安装。或者通过官网进行下载http://www.python.org/ftp/python/2.7.5/python-2.7.5.msi
我选择的是python2.7。然后就需要将python的路径加入环境变量:一个是python的安装路径(D:\Python27),另外一个是(D:\Python27\Scripts),我们最后安装成功的scrapy最后就是在scripts里面。
官网下载setuptools(http://pypi.python.org/pypi/setuptools)& 傻瓜安装
官网下载Zope.Interface(http://pypi.python.org/pypi/zope.interface/)& 傻瓜安装
验证是否安装ok
1 2 3 4 5 6 |
C:\Users\admin>python Python 2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)] on win 32 Type "help", "copyright", "credits" or "license" for more information. >>> import zope.interface >>> |
官网下载Twisted(http://twistedmatrix.com/trac/wiki/Downloads)& 傻瓜安装
官网下载w3lib(http://pypi.python.org/pypi/w3lib)安装
1 2 |
#进入插件目录并执行命令安装 >D:\python-plugin\w3lib-1.3>python setup.py install |
验证
1 2 3 4 5 6 |
D:\python-plugin\w3lib-1.3>python Python 2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)] on win 32 Type "help", "copyright", "credits" or "license" for more information. >>> import w3lib >>> |
官网下载libxml2(http://users.skynet.be/sbi/libxml-python/)& 傻瓜安装
官网下载pyOpenSSL(https://pypi.python.org/pypi/pyOpenSSL)& 傻瓜安装
pyopenssl 现在改成需要setup.py来进行安装,但是它的正确安装需要首先安装cryptography。安装cryptography需要已经正确的安装了openssl,并且需要正确的设置了头文件和库文件
set LIB=C:\OpenSSL-win32\lib;%LIB%
set INCLUDE=C:\OpenSSL-win32\include;%INCLUDE%
python setup.py cryptography
这样,正确的安装了cryptography之后,才可以安装pyopenssl
官网下载scrapy(https://pypi.python.org/pypi/Scrapy)
安装
1 2 |
#进入scrapy目录并执行安装 >D:\python-plugin\Scrapy-0.16.5>python setup.py install |
验证
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
D:\python-plugin\Scrapy-0.16.5>scrapy Scrapy 0.16.5 - no active project
Usage: scrapy <command> [options] [args]
Available commands: fetch Fetch a URL using the Scrapy downloader runspider Run a self-contained spider (without creating a project) settings Get settings values shell Interactive scraping console startproject Create new project version Print Scrapy version view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
D:\python-plugin\Scrapy-0.16.5> |
安装完毕 OK
下载最新scrapy, 进去python setup.py install, 如果pypi通畅的话就一直下来,如果卡在哪个包上就手动下载安装。依赖的包很不少呢,比如Twisted, cryptography-0.2.2, zope.interface-4.1.0.tar.gz等,在这个过程中会有编译不过的一些包,主要原因是还有几个devel的库没有install, 确保install了下边这些库就行了:
easy_install Cython
yum install libxslt-devel libxml2-devel libffi-devel openssl-devel
验证:scrapystartproject tutorial不出错就OK啦~