ubuntu18.10目标检测算法环境部署+开机自启动脚本创建screen下的web服务

内容概要

  • cuda+cudnn+python环境安装
  • ubuntu18的开机自启动脚本
  • screen服务开启

以我个人的实践来看,把python开发的算法封装成webserver的服务供前端程序调用是个不错的方案,解决了不同语言直接做接口的复杂性,同时后期的运营、维护、监控也比较方便。但是python的环境部署确实比较麻烦的,一两台机器还行,大规模部署的话几十上百台机器想想就头大,正规的做法是用docker,这里先撇开不谈。但其实条件允许的话,可以在一台机器上部署环境,然后将系统镜像用systemback打包,再安装到其他机器,新环境的部署就简单了,装完系统,环境就ok了,再配上开机自启动的算法服务,简直完美(ubuntu18亲测有效)。

cuda+cudnn+python环境安装

安装文件自行下载,这里提供我的安装包供参考链接:https://pan.baidu.com/s/1WShQSF94iQYPwNX4kwle6A
提取码:slqs

安装cuda环境网上教程非常多,这里不再赘述。需要注意cuda和cudnn版本匹配,显卡驱动版本、以及gcc版本需注意。下面以cuda10.1+cudnn7+nvidia驱动440+Anaconda3-5.2.0为例,列举下可能的操作:

  • 卸载之前存在的cuda或驱动
sudo /usr/bin/nvidia-uninstall
sudo apt-get purge nvidia*
  • 安装驱动
编辑:
sudo nano /etc/modprobe.d/blacklist.conf
加入:
blacklist nouveau
options nouveau modeset=0
Ctrl+O保存,Ctrl+X退出
sudo update-initramfs -u
最好重启下
lsmod | grep nouveau 无输出即可
  • gcc/g++降级
apt-get install gcc-7 g++-7

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 100
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 50
sudo update-alternatives --config gcc命令查看gcc的默认版本
  • 安装cuda
chmod +x cuda_10.1.168_418.67_linux.run
sudo ./cuda_10.1.168_418.67_linux.run
进入界面后 空格取消驱动安装选项
等待安装完成
设置环境变量:
sudo nano ~/.bashrc
export CUDA_HOME=/usr/local/cuda-10.1
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64
export PATH=${CUDA_HOME}/bin:${PATH}
Ctrl+O保存
source ~/.bashrc 使生效
输入nvcc -V验证

-cudnn安装

sudo dpkg -i libcudnn7_7.6.5.32-1+cuda10.1_amd64.deb
deb解压安装即可,压缩包的话需要拷贝文件到对应的cuda文件夹
  • Anaconda安装
这里需要注意,如果是安装在用户目录下,打包镜像安装到其他机器上会导致python无法使用,因为用户名是写死在环境变量中了。建议安装在非用户目录,我这里安装路径是/usr/local/anaconda3  供参考。
sudo sh Anaconda3-5.2.0-Linux-x86_64.sh

anaconda和cuda环境变量

ubuntu18的开机自启动脚本

这部分走了不少弯路,主要是想自启动脚本里能实现在创建的screen下开启算法服务,这样的话后期监控,直接screen -r name进入查看即可,而且是真后台运行,各种优点吧。实现过程中遇到了不少问题,如conda虚拟环境无法进入、环境变量未激活、启动脚本不执行等。好在最终解决,这里直接给出可行方案:

  • 编辑自启动服务
    由于该系统没有自带其他linux版本自带的rc.local文件的开机自启动方法,所以要自己生成rc.local文件。
    先编辑rc-local.service:
sudo nano /etc/systemd/system/rc-local.service
写入:
[Unit]
Description=/etc/rc.local Compatibility
ConditionPathExists=/etc/rc.local  
 
[Service]
Type=forking
ExecStart=/etc/rc.local start
TimeoutSec=0    
StandardOutput=tty  
RemainAfterExit=yes
SysVStartPriority=99 
 
[Install]
WantedBy=multi-user.target


然后编辑rc.local:
sudo nano /etc/rc.local
写入:
#!/bin/bash
#
# rc.local
#
# This script is executed at the end of each multiuser runlevel.
# Make sure that the script will "exit 0" on success or any other
# value on error.
#
# In order to enable or disable this script just change the execution
# bits.
#
# By default this script does nothing.
source ~/.bashrc
sh /home/online_stagex/auto_start/start.sh > /dev/null 2>&1 &
exit 0

最后执行:
sudo chmod +x /etc/rc.local
sudo systemctl enable rc-local
sudo systemctl start rc-local.service
sudo systemctl status rc-local.service

rc.local中sh无法执行?
sudo rm /bin/sh
sudo ln -s /bin/bash /bin/sh
rc-local.service文件
rc.local

其中,start.sh是开机自启动脚本,前面的路径是存放位置,记得加上可执行权限。chmod +x

screen服务创建及服务的开启

在自启动脚本start.sh中定义了,启动要干的事情,这里面写的是创建screen并开启服务的过程。


创建screen

需要说明的是自启动脚本是root用户下执行的,创建的screen也是在root下面,查看需要sudo screen -ls指令。创建的screen在sh环境下,需要使能环境变量source ~/.bashrc否则无法使用py环境。发送到screen的指令太长的话可以重新写个脚本。

st_8381.sh

上面的脚本就是最终执行python代码的指令,在web_start_8381.py中封装了算法服务。
重启测试,服务开起来了,log里也有日志,进入到screen有算法后台输出,完美!


screen
nvidia-smi查看gpu进程

2021.1.12 update:
在ubuntu20.04server版上部署开机自启动遇到一个问题,rc.local里sh命令貌似不执行,后来发现其实执行了在sudo screen里 source 环境变量不生效,在su下重新设置环境变量即可

你可能感兴趣的:(ubuntu18.10目标检测算法环境部署+开机自启动脚本创建screen下的web服务)