新系统Ubuntu18.4以上深度工具合集安装(Nvidia+CUDA+Tensorflow+Caffe+Torch)

之前在装有caffe的基础上,换CUDA7.5不成功,然后终于找到github上一个教程,一定要按里面的流程安装.把市面上用到的深度工具都装在ubuntu14.04上.现在更新了新系统Ubuntu18.04,显卡还是4路1080Ti,问题贼多,系统装完开机黑屏,无界面,卸载驱动出现循环登录可能,还可能界面鼠标顿卡,记录一下这三天的心塞历程,更新在最后面。有问题请留言.

深度学习理论基础知识与进阶书下载:

《深度学习-花书》链接: https://pan.baidu.com/s/1pMeyhvUtgucy8vUFwvYETQ 提取码: nvig

Basics

1、首选装好系统运行下面的代码:

sudo apt-get update  
sudo apt-get upgrade  
sudo apt-get install build-essential  
sudo apt-get autoremove 

碰到的问题:https://linux.cn/article-3874-1.html

问题:我试着通过运行apt-get update命令来再次同步包索引文件,但是却出现了“404 无法找到”的错误,看起来似乎是我不能从先前添加的第三方PPA仓库中获取最新的索引。我怎样才能清除这些破损而且陈旧的PPA仓库呢?

Err http://ppa.launchpad.net trusty/main amd64 Packages
  404  Not Found
Err http://ppa.launchpad.net trusty/main i386 Packages
  404  Not Found
W: Failed to fetch http://ppa.launchpad.net/finalterm/daily/ubuntu/dists/trusty/main/binary-amd64/Packages  404  Not Found

W: Failed to fetch http://ppa.launchpad.net/finalterm/daily/ubuntu/dists/trusty/main/binary-i386/Packages  404  Not Found

E: Some index files failed to download. They have been ignored, or old ones used instead.

当你试着更新APT包索引时,“404 无法找到”错误总是会在版本更新之后发生。就是说,在你升级你的Ubuntu发行版后,你在旧的版本上添加的一些第三方PPA仓库就不再受新版本的支持。在此种情况下,你可以像下面这样来鉴别并清除那些破损的PPA仓库

首先,找出那些引起“404 无法找到”错误的PPA。

$ sudo apt-get update|grep"Failed"

$ sudo add-apt-repository--remove ppa:finalterm/daily

你得去重复重复再重复,把上面找到的所有过时的PPA仓库一个一个地移除。

如果在GUI中删除的话,https://itsfoss.com/how-to-remove-or-delete-ppas-quick-tip/

这样就解决了。

2、安装git

sudo apt-get install git 

Nvidia Drivers

1、找机子的显卡

lspci | grep -i nvidia 

2、自己下载Nvidia-352.41.run或在线安装

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-352

3、重启

sudo shutdown -r now

4、nvidia检查

cat /proc/driver/nvidia/version

CUDA

1、下载CUDA7.5

sudo dpkg -i cuda-repo-ubuntu1404*amd64.deb
sudo apt-get update
sudo apt-get install cuda

2、添加CUDA环境

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

3、检查CUDA版本

nvcc -V

4、重启

sudo shutdown -r now

Checking your CUDA Installation (Optional)

1、编译cuda的sample:

/usr/local/cuda/bin/cuda-install-samples-7.5.sh ~/cuda-samples
cd ~/cuda-samples/NVIDIA*Samples
make -j $(($(nproc) + 1))

2、查看显卡里面的信息

bin/x86_64/linux/release/deviceQuery

Check

1、终端查看

 nvidia-smi

Tensorflow

1、先下载v0.8版的GPU支持

sudo apt-get install python-pip python-dev 

2、如果中途安装不了可以先下载那个网址东西,下载好了,然后安装,中途会有几个包的numpy、six、protobuf、wheel下载安装比较慢或者下载不了,可以单独安装。

sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.8.0-cp27-none-linux_x86_64.whl

3、测试Tensorflow

python
>>> import tensorflow as tf
>>> exit()

4、我碰到的一个问题"AttributeError: NewBase is_abstract, ImportError: libcudart.so.7.5"

解决:是因为six版本问题。

$sudo pip install six --upgrade --target="/usr/lib/python2.7/dist-packages"

5、推荐IDE调试工具

pyCharm免费的社区版(community release)不支持远程调试,百度下载然后到bin里面,运行pycharm安装文件就可以了。

OpenBLAS

1、先下载git,然后安装OpenBLAS

mkdir ~/git
cd ~/git
git clone https://github.com/xianyi/OpenBLAS.git
cd OpenBLAS 
sudo apt-get install gfortran
make FC=gfortran -j $(($(nproc) + 1))
sudo make PREFIX=/usr/local install

2、添加lib库的变量路径

echo 'export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH' >> ~/.bashrc

Common Tools

1、安装来自Scipy的普通tools

sudo apt-get install -y libfreetype6-dev libpng12-dev
pip install -U matplotlib ipython[all] jupyter pandas scikit-image

2、如果安装matplotlib时无法安装,按照下面方法:

先下载:here

然后减压matplotlib-1.5.0,并进入matplotlib-1.5.0里面

最后运行

python setup.py build
python setup.py install

OpenCV

我安装的opencv版本是2.4.10,因为CUDA版本比较新,所以opencv版本不能太新,3.x的编译不支持(已测试)。编译中途出现的问题:

issue:

nvcc fatal   : Unsupported gpu architecture 'compute_11'
CMake Error at cuda_compile_generated_matrix_operations.cu.o.cmake:206 (message):
  Error generating
/home/smie/Documents/opencv2.4.11/build/modules/core/CMakeFiles/cuda_compile.dir/__/dynamicuda/src/cuda/./cuda_compile_gene

rated_matrix_operations.cu.o
make[2]: ***
[modules/core/CMakeFiles/cuda_compile.dir/__/dynamicuda/src/cuda/./cuda_compile_generated_matrix_operations.cu.o] Error 1
make[1]: *** [modules/core/CMakeFiles/opencv_core.dir/all] Error 2 make[1]: *** Waiting for unfinished jobs....

solution:

cmake -D BUILD_opencv_gpu=OFF -D WITH_CUDA=OFF -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local -D CUDA_GENERATION=Kepler -D WITH_TBB=ON -D BUILD_NEW_PYTHON_SUPPORT=ON -D WITH_V4L=ON -D INSTALL_C_EXAMPLES=ON -D INSTALL_PYTHON_EXAMPLES=ON -D BUILD_EXAMPLES=ON -D WITH_QT=OFF -D WITH_OPENGL=ON -D BUILD_TIFF=ON ..

基本其他问题就简单了。

近期opencv3.4版本的更新了,又尝试了一下新的Ubuntu18.4+opencv3.4组合,发现Ubuntu界面改善了很多,用起来也很方便,在安装opencv3.4的时候遇到好多坑,继续填坑。

首先是安装opencv3.4,然后遇到ippicv的坑,下不下来,只能手动下载之后再拷贝,重新make。

链接参考:

https://blog.csdn.net/neilooo/article/details/78425559

https://github.com/opencv/opencv_3rdparty/tree/ippicv/master_20170822

其次就是编译caffe的坑,hdf5的报错。

链接参考:

http://www.cnblogs.com/xiangfeidemengzhu/p/7058391.html

https://blog.csdn.net/striker_v/article/details/51615197

这个问题就解决了。

Caffe

1、caffe相信大家都很熟悉了,下面是一些基础依赖库

sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends libboost-all-dev
sudo apt-get install python-skimage ipython python-pil python-h5py ipython python-gflags python-yaml
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev

2、克隆caffe

cd ~/git
git clone https://github.com/BVLC/caffe.git
cd caffe
cp Makefile.config.example Makefile.config

3、如果安装了cuDNN然后把Makefile文件的USE_CUDNN := 1注释去掉

sed -i 's/# USE_CUDNN := 1/USE_CUDNN := 1/' Makefile.config

4、如果安装了OpenBLAS,修改BLAS参数

sed -i 's/BLAS := atlas/BLAS := open/' Makefile.config

5、安装需求build和测试caffe,编译PyCaffe

sudo pip install -r python/requirements.txt
make all -j $(($(nproc) + 1))
make test -j $(($(nproc) + 1))
make runtest -j $(($(nproc) + 1))
make pycaffe -j $(($(nproc) + 1))

6、添加caffe的环境变量

echo 'export CAFFE_ROOT=$(pwd)' >> ~/.bashrc
echo 'export PYTHONPATH=$CAFFE_ROOT/python:$PYTHONPATH' >> ~/.bashrc
source ~/.bashrc

7、测试caffe接口

ipython
>>> import caffe
>>> exit()

Torch

1、这个是facebook的深度框架

git clone https://github.com/torch/distro.git ~/git/torch --recursive
cd torch; bash install-deps;
./install.sh

2、添加环境变量

source ~/.bashrc 

3、推荐IDE工具eclipse,安装相应的插件(Lua Development Tools)

首先安装eclipse c/c++的开发版,然后在官网搜索Lua,看到LDT就点进去,找到Existing Eclipse installation,按照官网指示安装插件,就ok了。

------------------------------------------------------------更新线--------------------------------------------------------------------

机器Super Workstation7048GR-TR + Ubuntu18.04+ 4路NVIDIA 1080Ti装机问题记录:

机器若果停留在两种状态下:

第一种状态:已经装过系统和显卡驱动之后,但是停留在卡死黑屏(VGA有信号输出,无显卡信号输出)。如电脑有驱动需要卸载(中途卸载重新安装之后如果出现循环登录的话,是因为界面用户权限不够导致循环登录。可以尝试给用户超级权限,可以解决循环登录)

卸载驱动操作

sudo apt-get autoremove --purge nvidia-*

1、切换到tty2,(ctrl+alt+f2切换到控制台,sudo su提升到root权限)

2、然后操作下面的命令(针对18.04版的系统或后面的版本)

lsmod | grep nouveau

sudo vim /etc/modprobe.d/blacklist-nouveau.conf

//添加两行
blacklist nouveau
options nouveau modeset=0

//重启
reboot

//重启完后再执行
lsmod | grep nouveau

//Ubuntu18.04禁掉界面
sudo systemctl set-default multi-user.target

//安装单独的显卡驱动,提示是否升级X config配置文件选择no,否则没桌面
./NVIDIA-Linux-x86_64-384.90.run --no-opengl-files 

//装完后驱动执行下
nvidia-smi

//如果正常,启用桌面
sudo systemctl set-default graphical.target

//最后执行
nvidia-smi -pm 1 

//操作完然后
reboot
//然后就ok啦,咚出现了可爱的Ubuntu啦

第二种状态,就是新系统状态

lsmod | grep nouveau

sudo gedit /etc/modprobe.d/blacklist-nouveau.conf

//添加两行
blacklist nouveau
options nouveau modeset=0

//重启
reboot

//重启完后再执行
lsmod | grep nouveau

//Ubuntu18.04禁掉界面
sudo systemctl set-default multi-user.target

//安装单独的显卡驱动,提示是否升级X config配置文件选择no,否则没桌面,驱动什么版本都可以
./NVIDIA-Linux-x86_64-384.90.run --no-opengl-files 

//装完后驱动执行下
nvidia-smi

//如果正常,启用桌面
sudo systemctl set-default graphical.target

//最后执行
nvidia-smi -pm 1 

//操作完然后
reboot
//然后就ok啦,咚出现了可爱的Ubuntu啦

如有需要主板bios的问题,可以去官网下载相应的升级包。

其他系统出现这个问题,可以尝试下面教程(有的系统没有亲测)

操作如下:

1、ctrl+alt+f2切换到控制台,sudo su提升到root权限

2、nvidia-uninstall #卸载原来的驱动

3、/etc/init.d/lightdm stop #禁用桌面

4、./NVIDIA-Linux-x86_64-384.90.run --no-opengl-files #安装单独的显卡驱动,不安装opengl因为可能会影响桌面,提示是否升级X config配置文件如果是独显做输出就选yes,如果是用集显做显示输出就默认选no,其他都默认。注:显卡驱动文件一般在/home/soft/下或者是/home/lthpc/soft/下面

5、/etc/init.d/lightdm start #启动桌面进程,或者直接reboot重启一下

nvidia-smi -pm 1 #开启卡的Persistence模式

如果还有出现其他问题,请留言。

如果是电脑主板比较简单的机子可以按照简易教程按照,链接如下:

https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-ubuntu-18-04-bionic-beaver-linux

一位网友翻译版:

https://blog.csdn.net/tjuyanming/article/details/80862290

你可能感兴趣的:(Deep,Learning)