远程服务器Linux系统入门&包含cuda的深度学习环境配置教程

实验三&远程服务器Linux系统入门

配置服务器的cuda、cudnn、conda、tensorflow等深度学习环境

总体按照这两个教程来的

还顺手改了一下pycharm背景

由于所给机子是裸机,任何工具都没安装,故第一次就会出现下述报错:

bash: sudo: command not found错误的解决方法:
报上述错误其实是sudo没有安装的原因,我们只需要对sudo进行安装就行了。
apt-get update
apt-get install sudo

apt-get类似低级pip install 安装各种包用的命令

普通用户可以执行,sudo提示command not found的问题分析——修改sudo命令的环境变量
这里

使用sudo passwd root设置root用户密码(amiya那个

$ sudo能够限制用户只在某台主机上运行某些命令。

§ sudo提供了丰富的日志,详细地记录了每个用户干了什么。它能够将日志传到中心主机或者日志服务器。

§ sudo使用时间戳文件来执行类似的“检票”系统。当用户调用sudo并且输入它的密码时,用户获得了一张存活期为5分钟的票(这个值可以在编译的时候改变)。之后的一段时间内(默认为5分钟,可在/etc/sudoers自定义),使用sudo不需要再次输入密码。

§ sudo的配置文件是sudoers文件,它允许系统管理员集中的管理用户的使用权限和使用的主机。它所存放的位置默认是在/etc/sudoers,属性必须为0440。

Linux 在控制台下:

      复制命令:Ctrl + Insert  组合键  或  用鼠标选中即是复制。

      粘贴命令:Shift + Insert  组合键  或  单击鼠标滚轮即为粘贴。

然后就是无尽的下载cuda失败…
解决NVIDIA CUDA下载Failed to ssl_handshake: closed问题
本地下载:就这

xftp在Windows和Linux之间传文件:
新建会话
主机地址 跟端口号 用户名,密码(root密码 刚刚设置的amiya)输入就好了

然后就能安装cuda了,协议书拉到我怀疑人生,最后卡死在0%,试了无数方法最后发现是长按回车往下阅读…nvidiawcnm。

远程服务器Linux系统入门&包含cuda的深度学习环境配置教程_第1张图片

Enter Toolkit Location√
[ default is /usr/local/cuda-10.0 ]:

Enter CUDA Samples Location√
[ default is /root ]:

编辑文件时非正常关闭,再下次编辑打开文件时均为显示如下警告信息:

Swap file “test.xml.swp” already exists!

[O]pen Read-Only, (E)dit anyway, ®ecover, (Q)uit, (A)bort:

这时我们可以使用命令查看隐藏swp文件(隐藏文件都以.开头):

ls -a

或者直接ll -a查看所有文件

查看当前目录下与打开的文件同名的.swp文件,如test.xml显示为.test.xml.swp

使用rm ***.swp删除这个.swp文件,当再打开test.xml文件时,便不会弹出警告信息。

1.进入文件 vim 文件名(vim test.txt)

2.编辑完成之后,按ESC键 跳到命令模式(命令前面冒号是必要的):

:w 保存文件但不退出vi

:w file 将修改另外保存到file中,不退出vi

:w! 强制保存,不推出vi

:wq 保存文件并退出vi

:wq! 强制保存文件,并退出vi

:q 不保存文件,退出vi

:q! 不保存文件,强制退出vi

:e! 放弃所有修改,从上次保存文件开始再编辑

vim命令大全,vim真你妈麻烦…

参考这个安装cuda和环境变量

最后安装好了cuda和cudnn库,看一下版本(sample和deb之类的没配
远程服务器Linux系统入门&包含cuda的深度学习环境配置教程_第2张图片

对了自己的pip命令是pip3

然后安装anaconda(官网下的,最新)我发现下载的东西或者有些文件夹没办法在左侧看到,比如cudnn解压后的文件夹cuda

参考了这个教程

还有这个= = = =

1、使用conda创建自己的环境:

conda create -n tf14 python=3.6.0

2、激活环境:

conda activate tf14

3、安装需要的python库:

pip install tensorflow-gpu==1.14.0
pip install keras

安装pytorch(真香。。pip3会报错 直接pip就行
远程服务器Linux系统入门&包含cuda的深度学习环境配置教程_第3张图片

安装tensorflow(pip3 install tensorflow-gpu居然就可以,不知道是不是我挂了日本节点的缘故)
远程服务器Linux系统入门&包含cuda的深度学习环境配置教程_第4张图片
就好了。。。?

这里是激活conda pytorch环境错误解决

pycharm的配置

Can’t run remote python interpreter: Error connecting to remote host:刚改了密码,重连

本地修改代码和远程的链接配置

pycharm远程服务器运行Can‘t run remote python interpreter:Can‘t get remote credentials for deployment server

这里是所有可能的设置问题,挨个检查一下

检查2

path mappings的问题

测试torchvision

关于pip安装第三方库,但PyCharm中却无法识别的问题;以及PyCharm安装第三方库的方法解析

Anaconda 下安装 torchvision

实验内容方面

ipynb转py

Pytorch:模型的保存与加载

记录程序运行时间

“THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=405 error=11 : invalid argument”

官网提问和解答,英文版

原因是显卡用的RTX 2080Ti,CUDA就要装10以上,需要pip install https://download.pytorch.org/whl/cu100/torch-1.0.1.post2-cp27-cp27mu-linux_x86_64.whl,但我已经安过这个了,再仔细检查,发现是cudnn.benchmark = True 时发生的,将 torch 更新到 1.0 以上版本后解决问题。这个问题并不常见,因为和 CUDA 的版本与 torch 的版本共同相关,另外 cudnn.benchmark 默认是 Flase。所以隐藏的很深。
关于 cudnn.benchmark 的作用可以参考这个 知乎

升级torch版本命令是pip install --upgrade torch,
以及顺手
pip install wheel
pip install --upgrade setuptools

你可能感兴趣的:(远程服务器Linux系统入门&包含cuda的深度学习环境配置教程)