公司买了一个服务器用于机器学习 ,于是开始了漫漫安装路。
查资料发现 tensorflow gpu模式在ubuntu系统上比较好跑,就让系统部同事装了ubuntu系统64位。机器到手后,发现装的是ubuntu14.04,感觉版本略低,升级到16.04。然后安装nvidia,用命令
lspci | grep -i nvidia也查到了,安装cuda,但是一直报错
开始以为是系统的问题,又把系统升级到了17.04,然并卵,还是报一样的错。后来问了戴尔的工作人员,人家说可能是线没插好,导致供电不足。在远程指导下,同事连上了关键的一根线,果然不报错了。好了,硬件完备,开启配环境之路。
一切从头讲起。
1.安装nvidia驱动
去官网http://www.nvidia.cn/Download/index.aspx?lang=cn找适合自己的驱动。
(
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-367
sudo apt-get install mesa-common-dev
sudo apt-get install freeglut3-dev
我开始按照以上命令装的375,后来版本不对,官网的这个一切正常)
2.安装cuda
卸载cuda http://blog.csdn.net/u012436149/article/details/53163346
开始本着要用最新版的原则,安装了cuda9.0,后来装tensorlfow发现cuda版本太高了。装8.0就可以。下载见官网https://developer.nvidia.com/cuda-downloads。我开始9.0(9.0的地址是realse-download地址https://developer.nvidia.com/cuda-release-candidate-download)的时候用的是runfile安装方案,安装一切正常,但是后来发现版本不允许,之后装8.0的时候runfile总是报错,就改为deb方案了,按照官网方法安装,一切正常。
如果采用runfile方案,有个细节需要注意 ,在询问 Install NVIDIA Accelerated Graphics Driver fo Linux-xx时,选n。因为前面已经装了合适版本的nvidia,这里再装会有两个(而且这个版本较低),之后在跑cuda的samples时会有一个返回38的报错,若是因为版本问题会返回一个35的报错。
装完,进入/usr/local/cuda-8.0/samples/1_Utilities/deviceQuery 使用 make命令 ,然后运行./deviceQuery
去官网下载https://developer.nvidia.com/cudnn
我目前用的是6.0(2017.9.4)可能过几个月tensorflow就支持7.0也说不定,毕竟7月的时候还在用5.1.
我开始装的是5.1,然后装tensorflow的时候报错了,ImportError: libcudnn.so.6: cannot open shared object file: No such file or directory,需要6,我就重新装了6.执行以下语句即可。
tar -zxf cudnn-8.0-linux-x64-v6.0.tgz
sudo cp include/cudnn.h /usr/local/cuda-8.0/include
sudo cp lib64/libcudnn* /usr/local/cuda-8.0/lib64
4.tensorflow-gpu
(1)安装依赖(我用的python3)
sudo apt-get install python-pip python-dev # for Python 2.7 sudo apt-get install python3-pip python3-dev # for Python 3.n
(2)
pip install tensorflow-gpu # Python 2.7; GPU support pip3 install tensorflow-gpu # Python 3.n; GPU support
这个我花了很久,因为他总是超时,试了很多遍终于下好了。
测试
$ python3
>>> import tensorflow
>>> import tensorflow as tf
>>> hello = tf.constant('haha,tensorflow')
>>> sess = tf.session()
>>> print(sess.run(hello))
参考了以下网址:
http://www.linuxidc.com/Linux/2017-01/139319.htm
http://blog.csdn.net/dream_an/article/details/74992346
1.常见问题补充
http://blog.csdn.net/hjimce/article/details/51999566
2018.1.30后续
1.升级tensorflow-gpu-1.5,报错ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory
该版本的tensorflow需要libcublas.so.9.0,即需要装cuda9.0版本,cudnn也要装对应版本。
(开始我装了最新版,cuda9.1,等了半天装好了,结果版本不对,科科)