python爬虫如何连接数据库_Python爬虫框架和数据库连接

Published: 2016-12-03 15:59:00

Scrapy的安装说明

关于爬虫,Scrapy,在官网上资料很多,在这里

主要记录一下流程,忽略的步骤等等

以及爬出来的坑,也提醒一下自己

还有就是一些自己接触的新概念的学习--是什么,怎么做,为什么,改进或者升级

搭建语言环境

0.操作系统,操作系统的位数

Windows 32bit

1.Python的版本以及位数

安装Python完成后,记得设置环境变量

C:\Python2.7\;

C:\Python2.7\Scripts\;

查看 python -V Python的版本以及位数,打开命令提示符输入python ,看到以下内容,可见我安装的是32位的

Python 2.7.11 (v2.7.11:6d1b6a68f775, Dec 5 2015, 20:32:19) [MSC v.1500 32 bit (Intel)] on win32

2.从 http://sourceforge.net/projects/pywin32/ 安装 pywin32

https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/

出现ImportError: No module named win32api 或者出现 ImportError: No module named win32con,说明你的库没有安装好。

Pywin32像VC一样的形式来使用PYTHON开发win32应用

库里面最重要的模块:win32api就是通过python对win32的本地api进行了封装

下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证。验证方式 在python环境下 import win32com 没提示错即证明安装成功

3.安装pip,对于版本小于2.7.9的需要安装,版本比较新的则不需要,查看

pip -version

4.Win32OpenSSL这个很可能是在我之前安装其他的程序已经安装了,所以在这里是不需要了。具体在自己的电脑上再具体分析吧

http://slproweb.com/products/Win32OpenSSL.html

爬虫安装过程

在Windows下安装,由于编译问题,很可能lxml安装不成功,对于这个问题,

简单的解决办法是,安装编译包

编译包的下载地址:windows版的各种Python库安装包下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

注意版本库之间的相互依赖关系,以及自己操作系统的位数

将cmd当前目录切换到下载的文件所在的位置 然后在命令行安装,例如我把lxml-3.6.4-cp36-cp36m-win32.whl下载到C:\downloads

cd downloads

pip install lxml-3.6.4-cp36-cp36m-win32.whl

在Linux下安装lmxl 可以参见:

http://lxml.de/installation.html

安装openssl,网址:https://pypi.python.org/pypi/pyOpenSSL

Scrapy的库依赖

Scrapy 1.2.1的python介绍 https://pypi.python.org/pypi/Scrapy/1.2.1

Requires Distributions

w3lib (>=1.15.0)

six (>=1.5.2)

service-identity

queuelib

pyOpenSSL

parsel (>=0.9.3)

lxml

cssselect (>=0.9)

Twisted (>=10.0.0)

PyDispatcher (>=2.0.5)

ubuntu安装数据库MySQL模块

以mysql为例,一般先要安装mysqlclient模块

1.ubuntu下python版本为2.x中的mysqlclient安装方式

apt-get install python-dev libmysqlclient-dev

pip install MySQL-python

2.ubuntu下python版本为3.x中的mysqlclient安装方式

apt-get install python3-dev libmysqlclient-dev

pip install MySQL-python

关于安装的编译问题

关于Python的解释器

CPython即用C语言实现Python及其解释器(JIT编译器),Linux,OS X等自带的也是这个版本,第三方包Numpy等也是使用CPython。大多数第三方包仅兼容CPython。

Jython是用Java语言来实现,

Pypy是用Python来实现(准确说是个Python子集)

IronPython是用.NET实现的

Visual C++ |CPython

--------------------

14.0 |3.5

10.0 |3.3, 3.4

9.0 |2.6, 2.7, 3.0, 3.1, 3.2

对于Python的底层实现学习不学习,主要看时间投资是否值得以及自己的兴趣爱好的强烈程度。

Python标准库与第三方库

参考概念:

OpenSSL整个软件包大概可以分成三个主要的功能部分:SSL协议库、应用程序以及密码算法库

<1>MySQL-Python 1.2.5 does not support Python 3.0+ yet

<2>Even if you havea 64bit computer, if you installed a 32bit version of Python you must install

the 32bit version of pywin32.

参考网址:

Scrapy安装指南:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html

安装出错中的一些参考网站:http://stackoverflow.com/questions/22388519/problems-with-pip-install-numpy-runtimeerror-broken-toolchain-cannot-link-a

PyPI - the Python Package Index https://pypi.python.org/pypi2016/11/20

你可能感兴趣的:(python爬虫如何连接数据库)