配置服务器的cuda、cudnn、conda、tensorflow等深度学习环境
总体按照这两个教程来的
还顺手改了一下pycharm背景
由于所给机子是裸机,任何工具都没安装,故第一次就会出现下述报错:
bash: sudo: command not found错误的解决方法:
报上述错误其实是sudo没有安装的原因,我们只需要对sudo进行安装就行了。
apt-get update
apt-get install sudo
apt-get类似低级pip install 安装各种包用的命令
普通用户可以执行,sudo提示command not found的问题分析——修改sudo命令的环境变量
这里
使用sudo passwd root设置root用户密码(amiya那个
$ sudo能够限制用户只在某台主机上运行某些命令。
§ sudo提供了丰富的日志,详细地记录了每个用户干了什么。它能够将日志传到中心主机或者日志服务器。
§ sudo使用时间戳文件来执行类似的“检票”系统。当用户调用sudo并且输入它的密码时,用户获得了一张存活期为5分钟的票(这个值可以在编译的时候改变)。之后的一段时间内(默认为5分钟,可在/etc/sudoers自定义),使用sudo不需要再次输入密码。
§ sudo的配置文件是sudoers文件,它允许系统管理员集中的管理用户的使用权限和使用的主机。它所存放的位置默认是在/etc/sudoers,属性必须为0440。
Linux 在控制台下:
复制命令:Ctrl + Insert 组合键 或 用鼠标选中即是复制。
粘贴命令:Shift + Insert 组合键 或 单击鼠标滚轮即为粘贴。
然后就是无尽的下载cuda失败…
解决NVIDIA CUDA下载Failed to ssl_handshake: closed问题
本地下载:就这
xftp在Windows和Linux之间传文件:
新建会话
主机地址 跟端口号 用户名,密码(root密码 刚刚设置的amiya)输入就好了
然后就能安装cuda了,协议书拉到我怀疑人生,最后卡死在0%,试了无数方法最后发现是长按回车往下阅读…nvidiawcnm。
Enter Toolkit Location√
[ default is /usr/local/cuda-10.0 ]:
Enter CUDA Samples Location√
[ default is /root ]:
编辑文件时非正常关闭,再下次编辑打开文件时均为显示如下警告信息:
Swap file “test.xml.swp” already exists!
[O]pen Read-Only, (E)dit anyway, ®ecover, (Q)uit, (A)bort:
这时我们可以使用命令查看隐藏swp文件(隐藏文件都以.开头):
ls -a
或者直接ll -a查看所有文件
查看当前目录下与打开的文件同名的.swp文件,如test.xml显示为.test.xml.swp
使用rm ***.swp删除这个.swp文件,当再打开test.xml文件时,便不会弹出警告信息。
1.进入文件 vim 文件名(vim test.txt)
2.编辑完成之后,按ESC键 跳到命令模式(命令前面冒号是必要的):
:w 保存文件但不退出vi
:w file 将修改另外保存到file中,不退出vi
:w! 强制保存,不推出vi
:wq 保存文件并退出vi
:wq! 强制保存文件,并退出vi
:q 不保存文件,退出vi
:q! 不保存文件,强制退出vi
:e! 放弃所有修改,从上次保存文件开始再编辑
vim命令大全,vim真你妈麻烦…
参考这个安装cuda和环境变量
最后安装好了cuda和cudnn库,看一下版本(sample和deb之类的没配
对了自己的pip命令是pip3
然后安装anaconda(官网下的,最新)我发现下载的东西或者有些文件夹没办法在左侧看到,比如cudnn解压后的文件夹cuda
参考了这个教程
还有这个= = = =
1、使用conda创建自己的环境:
conda create -n tf14 python=3.6.0
2、激活环境:
conda activate tf14
3、安装需要的python库:
pip install tensorflow-gpu==1.14.0
pip install keras
安装tensorflow(pip3 install tensorflow-gpu居然就可以,不知道是不是我挂了日本节点的缘故)
就好了。。。?
这里是激活conda pytorch环境错误解决
Can’t run remote python interpreter: Error connecting to remote host:刚改了密码,重连
本地修改代码和远程的链接配置
pycharm远程服务器运行Can‘t run remote python interpreter:Can‘t get remote credentials for deployment server
这里是所有可能的设置问题,挨个检查一下
检查2
path mappings的问题
测试torchvision
关于pip安装第三方库,但PyCharm中却无法识别的问题;以及PyCharm安装第三方库的方法解析
Anaconda 下安装 torchvision
实验内容方面‘
ipynb转py
Pytorch:模型的保存与加载
记录程序运行时间
“THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=405 error=11 : invalid argument”
官网提问和解答,英文版
原因是显卡用的RTX 2080Ti,CUDA就要装10以上,需要pip install https://download.pytorch.org/whl/cu100/torch-1.0.1.post2-cp27-cp27mu-linux_x86_64.whl,但我已经安过这个了,再仔细检查,发现是cudnn.benchmark = True 时发生的,将 torch 更新到 1.0 以上版本后解决问题。这个问题并不常见,因为和 CUDA 的版本与 torch 的版本共同相关,另外 cudnn.benchmark 默认是 Flase。所以隐藏的很深。
关于 cudnn.benchmark 的作用可以参考这个 知乎
升级torch版本命令是pip install --upgrade torch,
以及顺手
pip install wheel
pip install --upgrade setuptools