ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装

2019/3/10:本来准备升级英伟达官方驱动下载搭配合适CUDA+cuDNN+GPU-tensorflow,网上教程很多,按照教程下载了显卡匹配的最新驱动,卸载了安装ubuntu后在附加驱动里面自动下载的官方驱动390版本,准备禁止X-Window的,使用命令如下:

sudo service lightdm stop

但是遇到了问题,报错如:

Failed to stop lightdm.service: Unit lightdm.service not loaded.

看到有网友答复start在stop在restart,就尝试如下:

sudo service lightdm start

依然有问题,且类似:

Failed to start lightdm.service: Unit lightdm.service not found.

很明显,这是一类问题,但是在网上没有找到解决方案,在ubuntu终端和ctrl+alt+F3进入的tt3和终端输入sudo init 3进入的输入上述命令结果完全相同,索性直接设置安装包再安装:

sudo chmod a+x NVIDIA-Linux-x86_64-418.43.run
sudo ./NVIDIA-Linux-x86_64-418.43.run

ctrl+alt+F1每次登陆都会闪烁一下,重启后,登录无闪烁,查看电脑切换成集成显卡了,安装失败,日志如下:

nvidia-installer log file '/var/log/nvidia-installer.log'
creation time: Sun Mar 10 21:30:00 2019
installer version: 418.43

PATH: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin

nvidia-installer command line:
    ./nvidia-installer

Unable to load: nvidia-installer ncurses v6 user interface

Using: nvidia-installer ncurses user interface
-> Detected 4 CPUs online; setting concurrency level to 4.
-> Installing NVIDIA driver version 418.43.
-> Running distribution scripts
   executing: '/usr/lib/nvidia/pre-install'...
-> done.
-> The distribution-provided pre-install script failed!  Are you sure you want to continue? (Answer: Abort installation)
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' for details.  You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

搜索后发现有网友遇到此类问题,说明是X-Window的问题,回到了原问题,重试禁止X-Window依然不行,直接输入lightdm发现并没有安装,然后安装lightdm:

sudo apt-get install lightdm

安装完成后输入前面的启动命令并无报错,然后删除暂停命令,进入命令行,尝试安装英伟达驱动,成功进入,其中选择参考(),安装的时候忘记加:

–no-opengl-files 

选项有一个选得不一样,安装完成了,进入桌面弹出系统损坏,当时没有注意看,总之是有什么重要文件损坏了,然后就必须重启电脑,重启之后,再也进不去桌面了,就是有下划线在屏幕左上角闪烁,可以按ctrl+alt+F1~6进入对应的tty命令行,在里面使用nvidia-smi查看英伟达驱动确实安装成功了,但是不能进入桌面,尝试卸载驱动,然后按照那个链接中的输入和选项输入重新安装驱动,还是不能进入桌面,尝试卸载桌面重新安装:

sudo apt-get --purge remove desktop
sudo apt-get install desktop

也不能进入,在引导界面选择ubuntu高级选项,选择recovery模式,然后选择root,在这里重新安装桌面依然进不去,然后准备尝试前些天安装ubuntu遇到不能进入桌面情况(两种情况有所不同)时的方法,在引导界面选择ubuntu不按回车按E进行编辑,在倒数第二行的quiet splash $vt_handoff后面空一格加上acpi_osi=linux nomodeset依然进不去,尝试各种方法,一直都是屏幕左上方有下划线闪烁,仅仅能按ctrl+alt+F1~6进入tty,在网上也没有找到解决方案,因为自己对ubuntu接触很少,实在是找不到什么解决方法,最后只能放弃,选择卸载ubuntu重新安装,再重新尝试升级驱动。卸载的过程中也遇到了一点问题,我是进入windows后通过磁盘管理直接删除了ubuntu的分区,但是重启后按F9进入的启动选项菜单中发现有ubuntu启动引导选项,选择后进入的是grub界面,重启后下载了EasyUEFI,在里面删除ubuntu的efi,再次重启发现ubuntu选项依然存在,ubuntu的efi残留还没有删除,实际上这个残留和windows的efi在一起,尽管ubuntu是后安装的,并且不是和windows安装在同一个固态,而是完全在另一个机械硬盘上,想删除这个EFI文件是怕这个残留会对重装ubuntu有影响,最后就参考了这篇文章(https://blog.csdn.net/mtllyb/article/details/78635757),具体操作如下:

一、通过管理员身份运行cmd,并选择磁盘:

diskpart
list disk
select disk 0
list partition

这里选择disk 0是因为磁盘0是efi所在的硬盘

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第1张图片

二、选择efi分区为其分配挂载点,建立磁盘:

select partition 1
assign letter = p

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第2张图片ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第3张图片

发现多出了一个磁盘P,这里的P就是上面assign letter = p的P,名称不一定要为P,只要不和自己原有的磁盘重名即可,点击磁盘无法打开,需要权限,就没有直接操作

三、在win中搜索记事本通过管理员身份运行,点击文件选择打开然后选择磁盘P,打开磁盘P下面的EFI文件夹,发现有ubuntu文件夹,直接右键删除,注意别删除错了文件,选中ubuntu文件夹删除即可

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第4张图片

删除后如下:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第5张图片

 

四、删除成功后关闭记事本,回到cmd中,删除EFI分区的挂在磁盘:

remove letter = p

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第6张图片

重启电脑发现启动选项中ubuntu引导启动项已经消失:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第7张图片

进入系统后通过EasyUEFI查看ubuntu的EFI也消失了:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第8张图片

至此,ubuntu删除完成,使用记事本打开删除ubuntu的EFI文件是参照上面所给链接中的方法,没有尝试过其他方法,此方法也并不复杂。至于网上有很多说法要修复分区之类的,我也没有进行尝试,不知道这个到底有没有影响。

 

2019/3/11:重新安装好ubuntu,这次直接下载对应显卡的英伟达最新驱动,禁止了nouveau,使用的是集显,没有在附加驱动里面安装nvidia-390,下载好lightdm,关闭lightdm退出桌面进入黑屏左上角有下划线闪烁的状态,ctrl+alt+F3进入tty3,chmod a+x修改好安装包属性,然后安装,安装也遇到问题,先是没有gcc和cc,安装了,然后又是没有make,安装好,继续安装驱动,安装好了,然后启动lightdm:

sudo service lightdm start或者sudo service lightdm restart

直接进入关闭lightdm时的黑屏左上角下划线闪烁的状态,无论重复多少次都是如此,然后关闭lightdm尝试gdm:

sudo dpkg-reconfigure lightdm

选择gdm3,然后启动gdm3:

sudo service gdm start或者sudo service gdm3 start

到了可以输入密码的界面,输入密码之后不是登入桌面而是重复输入密码,进入循环登录状态,而切换成lightdm又进入黑屏左上角下划线闪烁状态,尝试卸载驱动重装:

sudo ./NVIDIA-Linux-x86_64-418.43.run --uninstall
sudo service lightdm stop
sudo ./NVIDIA-Linux-x86_64-418.43.run --no-opengl-files
sudo service lightdm start

这时lightdm的界面终于不闪烁,但是出现了和gdm一样的问题,就是循环登录,后来又卸载一次驱动,在卸载的时候,却报错了,之后在命令行输入nvidia-smi都不会提示有哪些推荐安装的英伟达驱动,然后重新安装英伟达驱动,再nvidia-smi查看,确实又安装回来了,不过再启动lightdm又进入黑屏闪烁状态,连循环登录都不是了,中间输入很多自己从未见过用过的命令,感觉系统没救了,重新安装。

安装完成后再次装上gcc、make、lightdm,下载好驱动安装包,禁用nouveau驱动(重启后自动使用集显)。禁止lightdm进入黑屏闪烁状态,进入tty1(ctrl+alt+F1),再次修改属性安装:

sudo chomd a+x ./NVIDIA-Linux-x86_64-418.43.run
sudo ./NVIDIA-Linux-x86_64-418.43.run --no-opengl-files

遇到这个选择时:

Would you like to run the nvidia-xconfig utility to automatically update your X Configuration file so set the NVIDIA X driver will be used when you restart X?

和以往一样选择的Yes,安装结束后在tty编辑界面输入nvidia-smi查看英伟达驱动,已经安装成功,但是输入命令sudo service lightdm start启动lightdm时,并没有进入输入密码的登录界面,而是进入黑屏闪烁状态,ctrl+alt+F7也是该状态,然后进入tty1,卸载了刚刚安装的英伟达驱动,重新安装,在遇到上述选项时选择No,安装结束后,启动lightdm,这次进入了输入密码登录界面,输入密码后,成功将进入桌面,终于成功,不过使用的仍然是集成显卡,显卡切换还需要继续,而且使用nvidia-smi查看显示使用该显卡的进程的部分显示的是No running processes found,nvidia-settings打不开英伟达的显卡设置,报错unable to load info from any available system,显然虽然驱动装上去了,但是根本无法使用。

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第9张图片ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第10张图片

这种状态一直找不到解决方法,nvidia-prime也不管用:

sudo apt-get install nvidia-prime
sudo prime-select nvdia
prime-select query

使用prime-indicator也不管用:

sudo add-apt-repository ppa:nilarimogard/webupd8
sudo apt-get update
sudo apt-get install prime-indicator

重启后屏幕右上角出现图标点击后选择 Open NVIDIA Settings没有任何反应,选择Quick switch graphics注销重新登陆确实可以切换英伟达独立显卡和英特尔的集成显卡,可以发现这个图标的变化,这里截图是英伟达的标志,而另一个是英特尔标志,而且英特尔标志是终端输入nvidia-smi会报错,没有英伟达显卡信息提示,但是切换到英伟达显卡时通过设置中详细信息查看依然是集成显卡在起作用,和上图一致。

 

2019/3/16:有吧友说是内核4.20.x以下的版本无法安装418,故而更新了内核(内核下载链接:https://kernel.ubuntu.com/~kernel-ppa/mainline/),安装好了之后nvidia-smi查看发现之前的驱动显示都没有了,卸载重装,安装过程中遇到gcc与编译内核的gcc版本不一致的问题

nvidia-installer log file '/var/log/nvidia-installer.log'
creation time: Sat Mar 16 21:45:18 2019
installer version: 418.43

PATH: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin

nvidia-installer command line:
    ./nvidia-installer
    --no-opengl-files

Unable to load: nvidia-installer ncurses v6 user interface

Using: nvidia-installer ncurses user interface
-> Detected 4 CPUs online; setting concurrency level to 4.
-> Installing NVIDIA driver version 418.43.
-> Running distribution scripts
   executing: '/usr/lib/nvidia/pre-install'...
-> done.
-> The distribution-provided pre-install script failed!  Are you sure you want to continue? (Answer: Continue installation)
-> Performing CC sanity check with CC="/usr/bin/cc".
-> Kernel source path: '/lib/modules/4.20.16-042016-generic/build'
-> Kernel output path: '/lib/modules/4.20.16-042016-generic/build'
-> The CC version check failed:

The kernel was built with gcc version 8.3.0 (Ubuntu 8.3.0-2ubuntu2), but the current compiler version is cc (Ubuntu 7.3.0-27ubuntu1~18.04) 7.3.0.

This may lead to subtle problems; if you are not certain whether the mismatched compiler will be compatible with your kernel, you may wish to abort installation, set the CC environment variable to the name of the compiler used to compile your kernel, and restart installation. (Answer: Abort installation)
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' for details.  You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

 

2019/3/17:昨天本来是打算准备升级gcc到8.3.0再安装驱动,今天没有这么做,而是直接安装,安装驱动成功了,nvidia-smi查看的时候,发现独显确实是在使用了,显示进程的地方不再是no running processes found,但是详细信息显示的是llvmpipe,nvidia-settings打开的设置中并没有PRIME Profiles选项,无法切换显卡,准备下载prime-indicator:

sudo add-apt-repository ppa:nilarimogard/webupd8

sudo apt-get update

sudo apt-get install prime-indicator

然后重启,但是无法进入桌面,黑屏下划线光标没有闪烁,看起来像卡死状态,不过可以进入tty(ctrl+alt+F1~6),卸载了驱动,启动lightdm无法进入桌面,重启后即可输入密码进入桌面,某有卸载prime-indicator,这次重装驱动,nvidia-smi查看是正常使用,nvidia-settings中依然没有PRIME Profiles,详细信息中是llvmpipe,prime-indicator显示是英伟达显卡,通过prime-indicator切换显卡后变成了英特尔集成显卡,详细信息里面也变成了英特尔集显,切换英伟达则又是llvmpipe,始终不得解决。未完待续...

 

2019/3/19:参考https://www.cnblogs.com/luofeel/p/8654964.html,换了一种方式,添加ppa源,方式如下:

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo add-apt-repository ppa:xorg-edgers/ppa
sudo apt-get update

更新后,查看软件与更新的附加驱动

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第11张图片

可以看到多了4个官方驱动,不过是开源的,感觉奇怪(因为本人是初学者,据我所知,nvidia官方驱动是闭源的,所以这里就很不明白,如果有什么错误或者补充的,希望大家能够指正),尽管如此,我还是尝试安装,选择想要安装的驱动(我一直是在安装ubuntu下最新的418版本,这里很显然有),然后点击应用更改等待即可(需要注意的是,这里中间可能会中断一次,中断后需要重新选择刚刚选择安装的驱动,再次点击应用更改),待完成后重启电脑即可,重启后发现nvidia-smi显示的显卡信息中,在进程一栏,不再是之前那种no running processes found而是使用显卡的进程,详细信息中也变成了英伟达的独显,nvidia-settings可以打开设置,而且有PRIME Profiles了,这种方法成功安装并且操作极其简单。不过值得注意的是,据说该方式附加驱动里面不一定有最新版本的驱动,而且可能遇到其它问题,不过我是一次成功,目前没有发现什么问题。

 

2019/3/22:安装cuda+cudnn,安装最新的cuda10.1,安装界面好像有所不同,第一次选择错了,安装了驱动,安装了cuda自动安装的418.39驱动,后面发现nvidia-settings中没有PRIME Profiles,虽然通过prime-indicator可以切换,但是仍然试图找到这个PRIME Profiles,最后不得已卸载了这次安装的cuda,418.39的驱动还在,然后卸载驱动,这次使用的时命令:

sudo apt-get remove --purge nvidia*

卸载重启后,发现418.43的驱动还在,安装cuda时并没有卸载这个驱动安装418.39,而是安装了418.39,不过这个驱动出现了问题,出现了前面提到过的no running processes found,但是附加驱动里面显示的还是手动安装的而不是那个通过添加ppa源后安装的418,而且不能更换选择,通过前面的418.43的run安装包不能卸载该驱动,虽然版本一致,最后不得已再次重装系统,这次没有升级内核到4.20.x,使用的就是系统默认的,可能自动升级过,不过依然时4.20以下的版本,还是通过添加ppa源再在附加驱动里面安装的驱动,这次也没有出现问题,而前面说过在遇到no running processes found问题询问时,有网友提到418需要4.20.x的驱动才能使用,当时升级内核之后确实有效(当时时通过run文件再tty中安装的),不过这次没有升级内核通过不同的方法,正常安装成功,能够使用,所以有些疑惑,如果大家懂得相关知识,希望给予说明。

 

下载的官网最新版的cuda10.1(官网卸载链接:https://developer.nvidia.com/cuda-toolkit-archive),和最开始安装nvidia显卡一样下载的.run文件,选择的最新版本cuda10.1.105,该版本自带的驱动是nvidia-418.39,上面提到过这个驱动,我是在终端直接运行安装:

sudo sh cuda_10.1.105_418.39_linux.run

这个版本的安装和以前的版本不同(后面我安装cuda10.0也可以看见),因为以前的版本是命令行选择,而这里却不是(具体如下图),选择的地方只有两次,一次是最开始的EULA选择accept,然后就是cuda installer界面选择安装的东西,一共有5项,需要注意的是,默认情况是全部都选择了,也就是前面有叉(×)代表选中安装,没有就是不安装(我第一次搞错了,以为有叉是不安装,所以选把后面4项的叉都去掉了,只留下了驱动的叉,结果安装了驱动,将我原本的418.43驱动替换成了418.39,后面还是卸载也替换不回,所以这里非常需要注意)

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第12张图片

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第13张图片

安装结果如上图,下面的警告(WARNING)中的部分好像是因为我提前安装了驱动,并不是驱动版本不够提示(我安装的是418.43),而没有在这里安装该cuda中自带的驱动(从其它博客上得知,自己并未尝试),还有就是missing recommended libraries缺少一些库,关于这部分的问题,大家如果知道,希望予以指正,感激不尽!

×××补充添加库(运行实例程序的依赖库,我最开始没有添加运行了sample中的程序,后面又添加了,再运行没有发现什么不同):

sudo apt-get install freeglut3-dev
sudo apt-get install libx11-dev
sudo apt-get install libxmu-dev
sudo apt-get install libxi-dev
sudo apt-get install libgl1-mesa-glx
sudo apt-get install libglu1-mesa
sudo apt-get install libglu1-mesa-dev

然后配置环境:

sudo gedit ~/.bashrc

打开后在最后面添加如下代码(关于这里环境添加的路径写法问题,并不止这一种,网上可以搜得多种,此处我也只是照搬其中一种写法):

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

然后更新环境:

source ~/.bashrc

这里的cuda链接cuda10.1,方法均是参考其它博客,我目前没有发现什么错误之处,再可查看cuda:

nvcc --version或者nvcc -V

然后测试cuda:

cd /usr/local/cuda-10.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第14张图片

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第15张图片

这里和其它人有点不同,就是最后免deviceQuery开头那一部分并没有显示显卡信息,这里也不清楚原因。

 

然后安装cudnn,在官网下载的cudnn,下载cudnn需要登录帐号(注册的时候时候需要做问卷调查),我下载的是最新版的cudnn7.5.0(我安装的时候7.5.0是最新版,并没有直接列出,需要勾选那个I Agree To the Terms of the cuDNN Software License Agreement才能看见cuDNN7.5),选择cuDNN Library for Linux,如图:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第16张图片

下载后先解压,可以通过命令行,也可以直接打开提取,解压的位置并没有任何影响。因为需要将里面所需要的文件复制到安装的cuda的子目录中:

sudo cp /home/hhm/下载/cuda/include/cudnn.h /usr/local/cuda/include
sudo cp /home/hhm/下载/cuda/lib64/libcudnn* /usr/local/cuda/lib64

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第17张图片

实际是复制了5个文件,1个头文件,4个lib相关文件。然后更改属性、查看cudnn:

sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第18张图片

 

安装tensorflow-gpu:先安装了anaconda3(也可以不安装anaconda3,直接安装tensorflow,因为已经安装了cuda和cudnn,安装对应版本的tensorflow即可),下载官网python3.7发行版,因为tensorflow1.13支持python3.7了

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第19张图片

选择自己对应的,我是是第一行那个,安装十分简单,输入命令:

bash Anaconda3-2018.12-Linux-x86_64.sh

一直按回车,后面有选择的都选择yes(有路径配置的,如果没有输入的no没那么后面要自己在.bashrc中添加路径配置环境),其中要安装vscode的我选择的no,安装后后可查看信息ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第20张图片

在anaconda中为tensorflow配置虚拟环境,用以安装tensorflow,我的如下:

conda create -n tensorflow_3.7 python=3.7
tensorflow_3.7是我这里创建的名称,名称随意,好记即可,后面指定对应的python版本

查看环境:ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第21张图片其中的tensorflow_3.7就是刚才锁创建的环境,后面为对应目录,激活和关闭即为:

conda activate tensorflow_3.7
conda deactivate tensorflow_3.7/conda deactivate

以前没有在anaconda虚拟环境下安装tensorflow的时候激活和关闭是这样的:

source activate tensorflow
source deactivate tensorflow/source deactivate

在安装anaconda之前,系统默认的python和python2链接指向python2.7,python链接指向python3.6,自己又安装过python3.7,不过并没有修改链接设置,安装anaconda之后,python和python3默认指向python3.7:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第22张图片

可以看到图中anaconda,表明anaconda安装成功。

然后安装tensorflow,我没有使用conda安装,而是使用的pip,我用pip查找:

pip search tensorflow

发现了tensorflow-gpu有最新版本1.13.1,就使用pip安装,安装的时候先激活tensorflow_3.7(这样是为了将tensorflow安装在此虚拟环境中),然后安装:

conda activate tensorflow_3.7
pip install tensorflow-gpu

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第23张图片安装的就是最新版本,准备使用,import tensorflow as tf却出现问题:

报错信息如下:

Traceback (most recent call last):
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in 
    from tensorflow.python.pywrap_tensorflow_internal import *
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in 
    _pywrap_tensorflow_internal = swig_import_helper()
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper
    _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 242, in load_module
    return load_dynamic(name, filename, file)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 342, in load_dynamic
    return _load(spec)
ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "", line 1, in 
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/__init__.py", line 24, in 
    from tensorflow.python import pywrap_tensorflow  # pylint: disable=unused-import
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/__init__.py", line 49, in 
    from tensorflow.python import pywrap_tensorflow
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow.py", line 74, in 
    raise ImportError(msg)
ImportError: Traceback (most recent call last):
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in 
    from tensorflow.python.pywrap_tensorflow_internal import *
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 28, in 
    _pywrap_tensorflow_internal = swig_import_helper()
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/site-packages/tensorflow/python/pywrap_tensorflow_internal.py", line 24, in swig_import_helper
    _mod = imp.load_module('_pywrap_tensorflow_internal', fp, pathname, description)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 242, in load_module
    return load_dynamic(name, filename, file)
  File "/home/hhm/anaconda3/envs/tensorflow_3.7/lib/python3.7/imp.py", line 342, in load_dynamic
    return _load(spec)
ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory


Failed to load the native TensorFlow runtime.

See https://www.tensorflow.org/install/errors

for some common reasons and solutions.  Include the entire stack trace
above this error message when asking for help.

这里提出cuda10.0的问题,我安装的是cuda10.1,而且从其它博客得知,有安装cuda10.1和tensorflow13.1成功的。

 

安装第二个cuda,cuda10.0:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第24张图片

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第25张图片

Do you accept the previously read EULA?
accept/decline/quit: accept

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48?
(y)es/(n)o/(q)uit: n 注:安装了更高版本显卡不需要安装

Install the CUDA 10.0 Toolkit?
(y)es/(n)o/(q)uit: y

Enter Toolkit Location
 [ default is /usr/local/cuda-10.0 ]: 

Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y 注:这里是创建cuda到即将安装的cuda10.0的符号链接,之前是到cuda10.1符号链接,我需要使用cuda10.0而不是10.1,所以这里直接覆盖,当然,符号链接可以重新设置

Install the CUDA 10.0 Samples?
(y)es/(n)o/(q)uit: y

Enter CUDA Samples Location
 [ default is /home/hhm ]: 

Installing the CUDA Toolkit in /usr/local/cuda-10.0 ...

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第26张图片

安装结果如图,可以看到差库,安装完成后再次运行tensorflow:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第27张图片

 

安装keras:

pip install keras

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第28张图片

查看keras:

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第29张图片

 

2019/4/1:今天软件更新提示更新,然后自动更新完成后,输入nvidia-smi查看显卡报错:

Failed to initialize NVML: driver/library version mismatch

nvidia版本匹配的问题(直接重启即可解决),使用如下命令查看:

dpkg --list | grep nvidia*

显示驱动是418.56

ubuntu重装NVIDIA显卡(经过记录)遇到问题到卸载ubuntu再到成功安装_第30张图片

然后使用如下命令查看驱动配置版本:

cat /proc/driver/nvidia/version

显示的是418.43,还未更新,直接重启即可,开机后nvidia-smi查看即能够成功显示,并且是418.56

未完待续...

你可能感兴趣的:(Linux,C/C++)