ubuntu深度学习环境配置&bug解决合集&各种软件及自定义偏好设置

目录

双系统安装记录注意

软件更新:

NVIDIA显卡驱动部分

驱动下载链接

安装英伟达驱动命令

安装英伟达显卡驱动的提示选项

再装一个toolkit(可选!!谨慎安装)

 nvidia-smi失效

分辨率太小进行调整(适用于xrandr cvt等无效下)

Ubuntu 16.04 用户登录界面死循环问题的解

WIFI不能使用屏幕无法调节等驱动问题

解决办法

内核升级编译避坑(网上很多抄來抄去假博客避坑)

无法进入桌面

软件安装部分

装谷歌浏览器

出现安装包依赖问题

ubuntu下安装各种包的问题

opencv配置

(十分方便!)另一个很好的解决方案conda

更改python默认版本

tensorflow+cuda+cudnn

配置方法

tensorflow

tensorflow1.6下载地址:

nvidia和cuda版本对应

cuda

cudnn

cudnn版本问题:

(*)对本机而言

keras安装

jupyter notebook配置

编写程序方式gedit

windows配置深度学习环境

anaconda安装

tensorflow安装

keras安装

pytorch安装

 



双系统安装记录注意

1.启动盘不要下来路不明的,只用官方的

2.系统分区没必要复杂,1G给BOOT,8G左右给交换空间(内存两倍),剩下全根目录/即可

3.装好后第一步先更新软件

 

软件更新:

不要用阿里云,utsc中科大的源更新很快,后面可以考虑阿里云,utsc,清华都很快

还有:插网线

 

NVIDIA显卡驱动部分

记下我的标配:NVIDIA -410.73+kernel-4.16.10+GTX1050

驱动下载链接

我电脑配置GTX1050用的显卡驱动是nvidia-410.73,runfile安装:

https://download.csdn.net/download/mingqi1996/10684336

 

安装英伟达驱动命令

https://blog.csdn.net/Baowhity/article/details/78499396

注意:

1.禁用自带的驱动

2.关闭桌面系统安装X服务

3.一定要禁止装opengl文件

 

安装英伟达显卡驱动的提示选项

这个链接很全:

https://blog.csdn.net/u014561933/article/details/79958017

注意:提示是否装DKMS的时候,网上众说纷纭,个人建议不通过这个装(我失败了,但是没用这个成功了)

总之最好每一步提示都查一查怎么选,磨刀不误砍柴工!

 

再装一个toolkit(可选!!谨慎安装)

sudo apt install nvidia-cuda-toolkit    

   注意:如果没出现循环登录,这个toolkit可以解决很多兼容问题,但是如果电脑安装nvidia或者cuda出现过循环登录,这个包在安装时有可能导致安装了驱动的opengl文件导致循环登录页面(原因不详)。

有时候装好了显卡nvidia-smi显示没问题,过几天就不行了,安装这个才是正解,网上一堆假教程骗你卸载重装。

还有一种,就是nvidia-settings报错,网上也是众说纷纭,这个工具包也完美解决了!

 

全部安装完毕后可以通过

nvidia-smi

查看,输出如下就OK:

ubuntu深度学习环境配置&bug解决合集&各种软件及自定义偏好设置_第1张图片

 

 nvidia-smi失效

如果nvidia-smi不能显示显卡信息,而是说未检测到之类的,本机出现过(之前还可以在GPU上调试keras,后来不知为何就检测不到N卡了)。

解决方法:没必要卸载nvidia,重装cuda和驱动等,直接用runfile文件再装一次nvidia驱动即可。

根本原因:找到了!是因为内核升级,以后内核升级关掉就行了。

 

分辨率太小进行调整(适用于xrandr cvt等无效下)

sudo vim /etc/default/grub

修改 #GRUB_GFXMODE=640x480为预期的分辨率如我的是1920*1080

sudo update-grub
sudo reboot

注意:一定要取消注释,不然改了当然没用!)

 

装完驱动怎么知道是不是出现了循环登录的bug?不用reboot重启,直接ctrl+alt+f1进入命令行,关闭桌面服务,再重启

sudo service lightdm stop
sudo service lightdm start

然后ctrl+alt+f7回到桌面系统,就是决定命运的时刻了....循环登录页面进不去则如下:

 

Ubuntu 16.04 用户登录界面死循环问题的解

结论:循环登录大都是opengl文件安装的问题,在安装英伟达显卡驱动和cuda的时候,sudo ./要指明不安装opengl否则会出现循环在登录页面进不去,一旦发生了,只能选择卸载英伟达驱动重装如下:

https://blog.csdn.net/u010159842/article/details/54344683

 

WIFI不能使用屏幕无法调节等驱动问题

解决办法

根源找到了:是内核的原因!官方通用镜像是4.4.0,很低了,我的网卡至少4.16.0才能驱动,所以建议安装ubuntu后立刻升级内核,否则后面通过源码编译坑很多!

内核升级到合适版本后,蓝牙/屏幕亮度/分辨率/WIFI等都迎刃而解。(内核版本也不可过高,否则电脑可能带不了,而且显卡驱动也得拉高,但是硬件显卡可能跟不上)

内核升级编译避坑(网上很多抄來抄去假博客避坑)

先查看网卡型号,搜一下这个型号多少的ubuntu内核可以带动。

lspci | grep Network

在内核发布网站下载对应版本的四个文件并编译:https://hitian.info/notes/2017/02/07/ubuntu-server-install-mainline-kernel/

网上抄來抄去都是错的!

但是,事情没有这么一帆风顺,往往会报错,依赖项libssl=1.1.0不满足,要单独下载(上述链接文章有),然后将下好的libssl和四个内核文件放在一个文件夹下,执行内核编译解析命令(dpkg -i *那个)

ubuntu深度学习环境配置&bug解决合集&各种软件及自定义偏好设置_第2张图片

基本不会报错(可能会说missing一些文件,差了下,不很重要)

无法进入桌面

抛出错误:The system is running in low-graphics mode,很简单,在ctrl+alt+f1模式下,执行这三条语句:

https://blog.csdn.net/angelpumpkin/article/details/77163609

然后!将xorg.conf文件清空(清空,但是不删除)!!否则重启还会再生成,又抛出错误!就可以解决了

 

软件安装部分

装谷歌浏览器

https://blog.csdn.net/qq551551/article/details/78885704(万一不成功,解决包的依赖问题,添加两个搜索源即可,百度有,未记录)

 

出现安装包依赖问题

多半是下载乱七八糟的软件时添加的源冲突了(比如我很可能是谷歌或搜狗,网上的教程都是指标不治本),解决办法是更换源,但是不能从系统直接选择,而是:

sudo gedit /etc/apt/sources.list

直接在文本中换,比如阿里云等,进行全文替换即可解决。

 

ubuntu下安装各种包的问题

先安装pip3和pip,更新到最新,再用pip3安装opencv,numpy,matplotlib(先预装tkinter才行)。

 

opencv配置

不用自己去源码安装!各种bug不带重样的!直接一步到位:

sudo pip3 install opencv-python 

(确保sudo;确保pip版本最新;python我用的3.5.2;安装的opencv挺新的3.4.3)

 

(十分方便!)另一个很好的解决方案conda

miniconda安装,在miniconda下安装环境,不会发生包的冲突,而且很灵活安全!!

指令合集:

http://limuzhi.com/2017/06/18/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%B3%BB%E5%88%971-%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%E4%B8%8E%E5%B7%A5%E5%85%B7/

注意:)关于conda:如果长期使用还是去官网下anaconda的安装包,有图形界面比较新手友好,而且装完miniconda后就不好卸载了,建议直接上手anaconda!装完后命令打开:

anaconda-navigator

如果打不开,删掉miniconda并且在bashrc文件修改环境变量,删掉miniiconda的就OK了

 

先替换镜像加速

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

 

anaconda的配置一般不需要添加环境变量,安装时会提示添加的,如果有问题自己添加也行。测试时使用默认环境:

source activate

显示进入base环境即可:

ubuntu深度学习环境配置&bug解决合集&各种软件及自定义偏好设置_第3张图片

然后创建一个名为tensorflow的环境,准备tensorflow的安装,同时配置的python为3.6.4:

conda create --name tensorflow  python=3.6.4

 

如果有关conda的所有命令都无效,应该是环境的问题:

# 将anaconda的bin目录加入PATH,根据版本不同,也可能是~/anaconda3/bin
export PATH="~/anaconda2/bin:$PATH"
# 更新bashrc以立即生效
source ~/.bashrc

 

更改python默认版本

https://blog.csdn.net/fang_chuan/article/details/60958329

 

tensorflow+cuda+cudnn

我自己安装的cuda8.0和cudnn8.0,还没来得及装完调试,在conda安装tensorflow时,发现他自动安装了cuda和cudnn6.0,自动解决依赖包的问题.....ok,新建的环境可以用tensorflow了,每次上去source activate tensorflow一下就行。

至于他编译出现的一堆警告。提醒你可以源码安装加速运行...不想源码装了好麻烦,先就这样吧==去掉这些讨厌的提醒。

网上说装cuda8.0甚至还有6.0 的,听师兄建议装9.0,没必要装旧的。

 

配置方法

tensorflow

上面的conda配置发现,指定gpu运行时,他还是跑的CPU,于是重新安装,师兄助攻:

(注意:tensorflow的下载是在anaconda创建的环境下安装的比如我自己取名tensorflow的环境,而cuda和cudnn是在外面)

在anaconda的tensorflow环境下:

pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.6.0-cp36-cp36m-linux_x86_64.whl

网速挺慢的.....或者可以下载后本地安装如下:

tensorflow1.6下载地址:

https://download.csdn.net/download/mingqi1996/10695393

安装命令:

cd ~/env (改成ubuntu下该文件所在目录)
sudo apt-get install xxx(文件的名字)

安装详情和报错解决方法:

https://www.tensorflow.org/install/install_linux#InstallingAnaconda

 

注意:

这一步如果import tensorflow出现错误:

ImportError: libcudart.so.7.5: cannot open shared object file: No such file or directory

不用慌张,继续装cuda,然后记得重启reboot,使用:

nvcc --version

能够读到匹配安装的cuda版本就行了

 

nvidia和cuda版本对应

http://blog.sina.com.cn/s/blog_80ce3a550102x6r2.html

 

cuda

下载地址:https://developer.nvidia.com/cuda-toolkit-archive

先卸载原来的cuda8.0,在/usr/local/cuda-8.0/bin下,有一个unibstall,执行后删掉剩下的文件即可;

在 官网下载cuda9.0的run文件

chmod 777 runfile_name

./runfile

注意:不要装opengl!!此外,选项提示中有一个说覆盖下载驱动的不要选,因为已经配置了显卡驱动(顺便不建议用cuda安装的,自己配置较好),网上有说cuda安装会提醒opengl文件,我是没看到,可能是互相copy的博客吧,其他的基本选yes。

安装时用:

sudo ./cuda_XXXX --no-opengl-libs

XXX为cuda版本名,等待即可。

相关页面如下:

https://www.jianshu.com/p/a201b91b3d96

注意:添加环境变量上链接有误!

终端中输入 $ sudo gedit /etc/profile
在打开的文件末尾,添加以下两行。
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
reboot后就是永久的,否则是临时的,开机就没了。

测试:

https://blog.csdn.net/QLULIBIN/article/details/78714596

 

cudnn

依旧是官网最靠谱,我选的最新cudnn-9.0-linux-x64-v7.1.tgz,只要搭配cuda就行,反正也就几个压缩包文件不用安装执行。

命令如下:

https://www.jianshu.com/p/a201b91b3d96

注意:建立软链接,方法见下面版本问题的链接

cudnn版本问题:

有时候跑程序会提醒cudnn版本不对,不同版本切换很简单:

下载对应的包解压

删掉原来文件

sudo rm -rf /usr/local/cuda/include/cudnn.h
sudo rm -rf /usr/local/cuda/lib64/libcudnn*

复制新的文件

sudo cp include/cudnn.h /usr/local/cuda/include/
sudo cp lib64/lib* /usr/local/cuda/lib64/

建立软链接

cd /usr/local/cuda/lib64/
sudo chmod +r libcudnn.so.6.0.21
sudo ln -sf libcudnn.so.6.0.21 libcudnn.so.6
sudo ln -sf libcudnn.so.6 libcudnn.so   
sudo ldconfig 

注意:上面的版本号改为自己下的cudnn的lib文件版本号

 

用之前写的一些学习时随便编的东西运行一下,代码全文直接复制:

https://blog.csdn.net/mingqi1996/article/details/82873391,导入import tensorflow,然后代码前面加上

with Session() as sess:

即可,然后一次成功。

ubuntu深度学习环境配置&bug解决合集&各种软件及自定义偏好设置_第4张图片

 

值得一提的是:

1.从结果来看,并没有出现奇怪的提示符,所以之前的安装多少还是有问题的,这才是正解的,文件已备份

2.网上说的gcc降级没有必要,我的16.04gcc版本5.0以上,但是在编译cuda完全没问题

(*)对本机而言

以上方式仍有问题,循环登录还是出现,于是只好卸载英伟达驱动,然后没卸载cuda,能登进去后,尝试着再装nvidia驱动,成功,这时发现anaconda环境有问题,重新按照上面配了下。

运行tensorflow,指定GPU跑程序也成功了......所以不失为一种退步的办法

ubuntu深度学习环境配置&bug解决合集&各种软件及自定义偏好设置_第5张图片

 

keras安装

网上看到有各种各样的bug,我按装时都没出现。老老实实按照官方文档一步到位,安装完成,跑程序测试成功。

注意:keras在tensorflow环境下安装。

链接:https://download.csdn.net/download/mingqi1996/10703454

 

jupyter notebook配置

网上一堆抄来抄去都不好用,这个是正确的:https://zhuanlan.zhihu.com/p/31382311

(直接运行那个命令,然后改里面的地址,然后将快捷图标的属性-快捷方式里面第一个路径去掉userprofile啥的那个,否则会固定路径!!!这一点很多博客没说;第二个路径改也为目标路径即可)

(注意:所有插件的安装要在要用的annaconda环境下安装和使用!)

插件:

http://resuly.me/2017/11/03/jupyter-config-for-windows/.zhihu.com/question/59392251

主题配置:(用作者的那个配置挺好的)

https://blog.csdn.net/qq_30565883/article/details/79444750(也可以将输出段和代码段改为15大小,对于我的1920*1080挺合适)

jt -t oceans16 -f fira -fs 15 -cellw 90% -ofs 15 -dfs 11 -T

添加conda新建的kernel:

https://blog.csdn.net/wyz6666/article/details/83314761

步骤大概是:

conda  install ipykernel
#查看当前虚拟环境的python路径(source activate ev下查看)
which python
#python-path为上面的python路径
#name为自己取得kernel名字
sudo python-path -m ipykernel install --name name

修改目录:

cd到指定目录下打开notebook即可。

 

编写程序方式gedit

写程序就不想装乱七八糟的pycharm之类的了,用质朴的文本编辑,gedit类似window的txt文本,使用python name 可以直接编辑,将文件名改为.c或者.py可以自动进行高亮提醒,此外,可以在gedit打开文档的——编辑——首选项配置喜欢的字体环境和显示方式,十分满足!

但是自带的功能太少,一定要扩展:

sudo apt-get install gedit-plugins

安装完插件后,回到文本的首选项,多了很多扩展功能,很强!

其他快捷快捷方式:

https://blog.csdn.net/qq_24338077/article/details/53784331

补充:

ctrl+M    注释

ctrl+shift+M    取消注释

shift+Tab    快速取消批量注释

Sublime Text 3

比gedit好用,换文件夹很方便,不用切出去了。

汉化问题(优先考虑):中文输入的汉化问题不好解决,建议不用官方的,有个大佬改动的:https://github.com/lyfeyaj/sublime-text-imfix用这个可以实现输入汉化,彻底摆脱gedit

安装相关:https://www.imooc.com/article/69513

注意:如果找不到package control,直接ctrl+shift+P进入搜索,然后搜package就会有了

汉化教程:https://blog.csdn.net/qq_38504396/article/details/79856223

修改主题:https://blog.csdn.net/qq_36667170/article/details/79808718

http://tmtheme-editor.herokuapp.com/#!/editor/theme/Monokai主题选择自适应adaptive的,配色选择oceanic next

快捷键:https://segmentfault.com/a/1190000002570753

侧边栏字体太小:https://www.jianshu.com/p/906c48f2da5c

关闭自动更新弹窗:https://blog.csdn.net/shimengran107/article/details/83827872(最好先激活左侧是默认设置,右侧是user

注册激活:

sublime --version

查看自己版本代码,然后搜索激活码即可 

注册码更新:https://blog.csdn.net/qq_29819449/article/details/80130327

    注意:不要完全照着教程做,网上博客就知道抄來抄去的!在选择主题时不要选default,因为我已经自定义过了用的adaptive的主题,所以选择这个而不是默认主题default,然后再改参数,或者加一行字体(末尾要加逗号)

 

windows环境配置以及相关框架安装

由于我的笔记本硬件兼容问题,wifi蓝牙亮度等无法调整,用起来不是很方便,为了有时候没网可以学习,在windows下搭建tensorflow(cpu)跑跑程序。keras等版本冲突很多次,最终得到一种可行方案:

anaconda安装

tensorflow安装

用anaconda 安装tensorflow1.11.0,打开anaconda-navigator(不要用conda install),在其中安装即可。

keras安装

用pip安装(不要用conda),官网的安装方法:

pip install keras -U --pre

再根据需要安装lxml,matplotlib,pyqt,numpy,pandas等即可。

 

pytorch安装

使用anaconda-navigator的pytorch即可,默认0.4版本就行

旧电脑上搜索出了0.4.1但是conda只能安装0.1.12版本,太旧了,用下面命令安装0.4.1:

conda install pytorch=0.4.1 -c soumith

如果下载慢,可以直接上官网下载whl文件会快点:

https://pytorch.org/get-started/previous-versions/ 

pytorch 1.0的话同理,我下了个1.0的包,每次直接离线pip install就行了,装完再装个几百k的torchvison就完事了

其他软件的安装

mendeley

修改图标和执行器:https://blog.csdn.net/loveaborn/article/details/24266427

vscode BUG:

  • 无法输入中文:

执行下面语句加入环境变量即可

export GTK_IM_MODULE=ibus
export XMODIFIERS=@im=ibus
export QT_IM_MODULE=ibus

 

 

 

 

 

 

你可能感兴趣的:(tools)