centos7.7升级+cuda10.1+tensorflow2.0安装

1.系统升级

更新前查看当前机器状态,同时做好备份:
1.1 查看当前centOS版本:
cat /etc/redhat-release
1.2 备份相关重要文件:
cp xxx data/backup
1.3 检查更新:
yum check-update
(如果速度太慢,建议暂停,配置yum国内源后重新进行)
1.4 更新系统:
yum update
更新后reboot重启机器,执行1.1,查看更新后的系统版本。

更新后启动时可能会遇到的问题1:
0.000000 [Firmware Bug]: TSC_DEADLINE disabled due to Errata; please update microcode to version: 0xb000020 (or later)
解决方法1:进入系统后:
Ubuntu:apt-get install intel-microcode
CentOS:yum install microcode_ctl
解决方法2:无视该错误。我检查了我的mircocode_ctl处于最新版本,该报错暂不影响使用,so no error just warning.

更新后启动时可能会遇到的问题2:
启动后,加载服务慢或者长时间黑屏,即:
When you reboot, still you may get black or purple screen.
解决方法:
Press Ctrl+Alt+F1/F2 and login with your username and password.
参考链接

2.NVIDIA 显卡驱动升级

因为cuda安装与显卡驱动版本紧密相关,尽可能保证你所要安装的cuda版本与显卡驱动版本对应。
官网上的显卡驱动与CUDA版本对应关系:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

centos7.7升级+cuda10.1+tensorflow2.0安装_第1张图片
1

2.1 查看显卡
lspci | grep VGA # 查看集成显卡
lspci | grep NVIDIA # 查看NVIDIA显卡

结果

可以看到本机的显卡数量和型号。
2.2 显卡驱动下载
nvida官网下载对应的显卡驱动。可以根据cuda版本下载对应的驱动版本,如果安装最新版cuda默认下载最新版驱动即可。
https://www.nvidia.com/Download/index.aspx
2.3 禁用nouveau
nouveau不在这里详细介绍,只需知道有nouveau运行无法安装NVIDIA显卡驱动。
查看 nouveau运行状态: lsmod | grep nouveau
禁用开源驱动nouveau: sudo vi /etc/modprobe.d/blacklist.conf
在文本中添加: blacklist nouveau
设置文本模式启动系统:
systemctl get-default
systemctl set-default multi-user.target
设定完后 reboot,重启后发现系统以文本模式启动, nouveau不再运行
2.4 安装NVIDIA驱动
找到下载的驱动, ./NVIDIA∗∗∗.run,一路ok,安装完成。
2.5 检查
查看是否驱动更新安装成功: nvidia-smi

3. cuda安装/升级

CUDA版本要注意与 linux 版本,以及GCC版本对应关系:
https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html

centos7.7升级+cuda10.1+tensorflow2.0安装_第2张图片
版本对应

3.1 版本检查
如果是更新了最新的系统,安装最新版cuda,版本应该不会有问题,旧版本的系统和cuda注意做好版本检查:
内核版本 : uname - acat /proc/version
GCC 版本: gcc --version
GLIBC版本: ldd --version
3.2 cuda下载
下载官网: https://developer.nvidia.com/cuda-downloads?target_os=Linux
我下载的是10.1最新版cuda:
wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda-repo-rhel7-10-1-local-10.1.243-418.87.00-1.0-1.x86_64.rpm
3.3 cuda安装
sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.243-418.87.00-1.0-1.x86_64.rpm
sudo yum clean all
sudo yum -y install cuda

可能遇到的问题:
xorg启动时报错:
NVIDIA: Failed to initialize the NVIDIA kernel module. Please see the system's kernel log for additional error messages.
检查内核日志:
localhost kernel: NVRM: API mismatch: the client has the version 418.87.00, but#012NVRM: this kernel module has the version 430.50. Please#012NVRM: make sure that this kernel module and all NVIDIA driver#012NVRM: components have the same version.
发现是cuda要求的显卡版本(>=418.87.00)与安装的驱动版本(430.50)不匹配。这个错误很奇怪,因为驱动(430.50)满足要求(>=418.87.00),感觉是cuda的代码问题,不影响使用,没处理该错误。

3.5 配置环境变量
在系统启动文件中写入:
vi /etc/profile

# cuda and cudnn
export PATH=/usr/local/cuda-10.1/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/extras/CUPTI/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda-10.1

3.6 cuda检查
检查安装完成的cuda版本:nvcc -V

4.tensorflow2.0安装

配置好驱动和cuda,tensorflow很好安装,我使用了conda,创建一个新环境,用pip安装:
pip install tensorflow-gpu

你可能感兴趣的:(centos7.7升级+cuda10.1+tensorflow2.0安装)