Nvidia GPU驱动与CUDA、Ubuntu内核兼容性问题的解决日志

五月两场 | NVIDIA DLI 深度学习入门课程

5月19日/5月26日一天密集式学习  快速带你入门 阅读全文 >


正文共941个字,预计阅读时间5分钟。


问题描述


最近,各个操作系统针对Intel CPU的Meltdown(熔断)和Spectre(幽灵)这两个芯片级的设计漏洞推出了安全补丁。在更新了新的Kernel之后,我们的AI服务器运行的Ubuntu 16.04系统的Linux Kernel升级到了4.13.0-31-generic。重启之后,发现GPU无法正常使用,出现无法登录系统、分辨率改变等问题,与Ubuntu 16.04安装NVIDIA驱动后循环登录问题中描述的症状一致。初步判断原因是显卡驱动(nvidia driver 387.26)和新的linux kernel(4.13.0-31-generic)不兼容导致的。去Nvidia的devtalk逛了一圈,确实很多人报告了这个问题。


  • 操作系统:ubuntu 16.04

  • 系统内核: Linux version 4.13.0-31-generic

  • GPU: GTX 1080

  • CUDA:cuda-9.1, cudnn-7.0.1,deb (local)安装方式

  • nvidia driver: nvidia driver 387.26


Nvidia已经更新了驱动,只需要安装新的驱动就可以解决linux kernel和nvidia driver不兼容的问题。不过,devtalk安装的新驱动版本为nvidia driver 390,在尝试了单独下载该驱动的run文件安装方式和deb (network)安装方式之后,发现前一种安装方式因为著名的nouveau问题而安装失败,后一种依旧安装387.26版本的驱动,最终放弃了这两种安装方式,采用了第三种PPA的途径。


解决方法


首先,在PPA GPU查看驱动的版本(Current official release: nvidia-387 (387.34)...)


1、卸载现有GPU驱动


2、PPA安装新的GPU驱动


3、重启


4、deb (network)的方式安装CUDA 9.1。如果用deb local的安装方式,还是会安装旧的驱动版本。安装好之后,不要忘记设置环境变量。


原文链接:https://www.jianshu.com/p/df677e3fd630


查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org


请关注人工智能LeadAI公众号,查看更多专业文章

大家都在看

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

你可能感兴趣的:(Nvidia GPU驱动与CUDA、Ubuntu内核兼容性问题的解决日志)