Published: 2016-12-03 15:59:00
Scrapy的安装说明
关于爬虫,Scrapy,在官网上资料很多,在这里
主要记录一下流程,忽略的步骤等等
以及爬出来的坑,也提醒一下自己
还有就是一些自己接触的新概念的学习--是什么,怎么做,为什么,改进或者升级
搭建语言环境
0.操作系统,操作系统的位数
Windows 32bit
1.Python的版本以及位数
安装Python完成后,记得设置环境变量
C:\Python2.7\;
C:\Python2.7\Scripts\;
查看 python -V Python的版本以及位数,打开命令提示符输入python ,看到以下内容,可见我安装的是32位的
Python 2.7.11 (v2.7.11:6d1b6a68f775, Dec 5 2015, 20:32:19) [MSC v.1500 32 bit (Intel)] on win32
2.从 http://sourceforge.net/projects/pywin32/ 安装 pywin32
https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/
出现ImportError: No module named win32api 或者出现 ImportError: No module named win32con,说明你的库没有安装好。
Pywin32像VC一样的形式来使用PYTHON开发win32应用
库里面最重要的模块:win32api就是通过python对win32的本地api进行了封装
下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证。验证方式 在python环境下 import win32com 没提示错即证明安装成功
3.安装pip,对于版本小于2.7.9的需要安装,版本比较新的则不需要,查看
pip -version
4.Win32OpenSSL这个很可能是在我之前安装其他的程序已经安装了,所以在这里是不需要了。具体在自己的电脑上再具体分析吧
http://slproweb.com/products/Win32OpenSSL.html
爬虫安装过程
在Windows下安装,由于编译问题,很可能lxml安装不成功,对于这个问题,
简单的解决办法是,安装编译包
编译包的下载地址:windows版的各种Python库安装包下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
注意版本库之间的相互依赖关系,以及自己操作系统的位数
将cmd当前目录切换到下载的文件所在的位置 然后在命令行安装,例如我把lxml-3.6.4-cp36-cp36m-win32.whl下载到C:\downloads
cd downloads
pip install lxml-3.6.4-cp36-cp36m-win32.whl
在Linux下安装lmxl 可以参见:
http://lxml.de/installation.html
安装openssl,网址:https://pypi.python.org/pypi/pyOpenSSL
Scrapy的库依赖
Scrapy 1.2.1的python介绍 https://pypi.python.org/pypi/Scrapy/1.2.1
Requires Distributions
w3lib (>=1.15.0)
six (>=1.5.2)
service-identity
queuelib
pyOpenSSL
parsel (>=0.9.3)
lxml
cssselect (>=0.9)
Twisted (>=10.0.0)
PyDispatcher (>=2.0.5)
ubuntu安装数据库MySQL模块
以mysql为例,一般先要安装mysqlclient模块
1.ubuntu下python版本为2.x中的mysqlclient安装方式
apt-get install python-dev libmysqlclient-dev
pip install MySQL-python
2.ubuntu下python版本为3.x中的mysqlclient安装方式
apt-get install python3-dev libmysqlclient-dev
pip install MySQL-python
关于安装的编译问题
关于Python的解释器
CPython即用C语言实现Python及其解释器(JIT编译器),Linux,OS X等自带的也是这个版本,第三方包Numpy等也是使用CPython。大多数第三方包仅兼容CPython。
Jython是用Java语言来实现,
Pypy是用Python来实现(准确说是个Python子集)
IronPython是用.NET实现的
Visual C++ |CPython
--------------------
14.0 |3.5
10.0 |3.3, 3.4
9.0 |2.6, 2.7, 3.0, 3.1, 3.2
对于Python的底层实现学习不学习,主要看时间投资是否值得以及自己的兴趣爱好的强烈程度。
Python标准库与第三方库
参考概念:
OpenSSL整个软件包大概可以分成三个主要的功能部分:SSL协议库、应用程序以及密码算法库
<1>MySQL-Python 1.2.5 does not support Python 3.0+ yet
<2>Even if you havea 64bit computer, if you installed a 32bit version of Python you must install
the 32bit version of pywin32.
参考网址:
Scrapy安装指南:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html
安装出错中的一些参考网站:http://stackoverflow.com/questions/22388519/problems-with-pip-install-numpy-runtimeerror-broken-toolchain-cannot-link-a
PyPI - the Python Package Index https://pypi.python.org/pypi2016/11/20