scrapy_在linux环境下部署scrapy分布式

分布式爬虫linux部署环境步骤

1. (以下为linux环境下进行)

Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上,scrapy的依赖库比较多
执行如下命令安装依赖库:
sudo apt-get install build-essential python3-dev libxml2-dev python3-pip libxslt1-dev zlib1g-dev libffi-dev libssl-dev
注意:可以先使用命令 apt-get update 先升级apt-get后在安装依赖库

2. (在windows下执行)

安装windows下项目所用到的包
先使用命令行进入到开发目录中,然后执行如下命令,命令作用为将项目所用到的包放到一个文件中
pip freeze > requirements.txt

注意:使用pip命令的时候一定要进入你需要进行部署的项目的虚拟环境

3.(在linux环境下执行)

如下命令将windows的文件发送到服务器(linux)
rz
补充:
通常linux服务器是通过ssh客户端来进行远程登录和管理的。
然而如何方便的实现客户端与linux服务器端的文件交互呢?这就需要用到rz(上传)、sz(下载)工具。
sudo apt-get install lrzsz

4.(在linux环境下执行)

参考网址:https://www.cnblogs.com/freely/p/8022923.html

创建虚拟环境,创建虚拟环境的原因为在windows下每个项目所用到的包都不一样,所以在linux下需要创建一个虚拟环境,在这个虚拟环境中安装该项目所用到的包,进行数据抓取,每个项目都对应一个虚拟环境,创建虚拟环境命令如下(这里要安装到python3的环境下):

mkvirtualenv –p /usr/bin/python3 crawler-env

解析:

         -p :python的路径

         后面是指定的环境名

root@zt-VirtualBox:~# which python3

/usr/bin/python3

或使用如下命令创建虚拟环境:

mkvirtualenv env_fang  --python=python3.5

补充 :

安装mkvirtualenv 相关模块:

pip install virtualenv

pip install virtualenvwrapper

sudo apt-get install python-virtualenv

注意:因为我的linux中有python2.7和python3.5所以我在执行上免前两个pip命令的时候,分时在python2.7和3.5的环境下安装

eg:

pip install virtualenv  python2.7

pip3 install virtualenv python3.5

 

上述工具装好后找不到mkvirtualenv命令,需要执行以下环境变量设置。

1.创建目录用来存放虚拟环境
  mkdir $HOME/.virtualenvs
2.在~/.bashrc中添加行:
  export WORKON_HOME=$HOME/.virtualenvs
  source /usr/local/bin/virtualenvwrapper.sh
3.运行:
  source ~/.bashrc
4.这里可能会报错:
  bash: /usr/local/bin/virtualenvwrapper.sh: 没有那个文件或目录
  将上面.bashrc中的内容改成如下即可:
  export WORKON_HOME=$HOME/.virtualenvs
  source ~/.local/bin/virtualenvwrapper.sh

参考网址:

https://blog.csdn.net/liu_xzhen/article/details/79293373

https://blog.csdn.net/gyniu/article/details/81022534

5.(在linux环境下执行)

在创建环境后系统会自动进入到虚拟环境中,执行如下命令安装项目所需要的包

 pip install –r  requirements.txt

补充:

         Linux下不需要安装pywin32,所以在文件中,将pywin32删除即可

到这里算是部署成功

你可能感兴趣的:(python问题及解决方案,爬虫问题,scrapy,分布式,mkvirtualenv)