安装python之前,需安装gcc,否则在执行./configure时会报错
yum install gcc
安装zlib包,否则报错ZipImportError: can't decompress data; zlib not available
yum -y install zlib*
安装libffi-devel,否则报错ModuleNotFoundError: No module named '_ctypes'
yum install libffi-devel -y
安装openssl-devel,否则在安装virtualenv的时候,会报错pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.
yum install openssl-devel -y
安装sqlite-devel,否则在启动爬虫的时候,会找不到sqlite。
yum install sqlite-devel
一、安装python3
1、官网下载安装包,这里下载的为当前最新版本3.7.2(直接wget可能报错,我也不知道为啥。可以用浏览器下载,再用ftp上传)
wget https://www.python.org/ftp/python/3.7.2/Python-3.7.2.tgz
2、解压下载的安装包
tar -zxvf Python-3.7.2.tgz -C ~/app
注:-C ~/app 指解压到当前用户下的app目录下,具体路径根据自己习惯。
3、进入解压目录
cd Python-3.7.2
./configure --with-ssl
make && make install
注:这里要分配权限,可以用root直接安装,新增的用户,可能因为权限,安装失败。
4、测试:
[root@www Python-3.7.2]# python3
Python 3.7.2 (default, Dec 30 2018, 15:17:51)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>
python3安装成功
二、安装爬虫框架scrapy
1、安装python虚拟环境
pip3 install virtualenv
2、新建虚拟环境,新建文件夹myproject,在myproject中创建虚拟环境名称为spider3.7
mkdir myproject
cd myproject
virtualenv --no-site-packages env001
3、进入新的虚拟环境(需要在env001所在目录执行此命令)
source env001/bin/activate
4、安装Twisted(直接安装爬虫框架scrapy报错缺少Twisted)注:以下安装都是在spider3.7虚拟环境下安装的
安装wget
yum -y install wget
下载Twisted
wget https://twistedmatrix.com/Releases/Twisted/18.9/Twisted-18.9.0.tar.bz2
安装bzip2,否则下面无法解压tar.bz2
yum -y install bzip2
解压到安装目录
tar -xvf Twisted-18.9.0.tar.bz2 -C /home/hadoop/app
安装Twisted
cd /Twisted-18.9.0/
python3 setup.py install
5、安装scrapy
pip install scrapy
安装完成后,可将本地的爬虫项目直接copy到linux中
1、进入python3虚拟环境
source env001/bin/activate
2、进入项目执行main.py文件
python3 main.py
爬虫正常启动,接下来就可以用定时任务,让爬虫自己定时爬取内容了。
加油···