从零开始实验室GPU服务器配置:Linux mint、显卡驱动、CUDA、cuDNN、Anaconda安装、多人用户及远程

从零开始实验室GPU服务器配置

  • 操作系统——Linux mint 20
  • Nvidia显卡驱动、CUDA、cuDNN安装
  • Anaconda和Pycharm的安装
  • Pytorch-GPU和Tensorflow-GPU
  • 多账户及远程
  • 多GPU并行计算测试

操作系统——Linux mint 20

操作系统根据师兄建议使用的是 Linux Mint,Mint有三个桌面:Cinnamon,MATE,Xfce,因为考虑到是实验室的服务器所以选取了最简洁、最稳定的Xfce。关于这三个桌面版本的比较可见官方Docs。官方下载地址。下载完成之后参见官方的文档进行ISO镜像校验。检验之后是U盘启动盘制作,官网的文档介绍的很清楚,这里不再赘述。可能需要说的点在于硬盘的分区,我们实验室的服务器截止我装系统时有一块900G的固态和2T的机械硬盘,在分区时整块固态硬盘作为系统盘挂在在/下,机械硬盘作为数据盘挂在/home
从零开始实验室GPU服务器配置:Linux mint、显卡驱动、CUDA、cuDNN、Anaconda安装、多人用户及远程_第1张图片
(因为最近比较忙所以赶时间,今天也装了一天的系统累瘫了所以不好意思得先给大家治治颈椎病,抱拳了老铁!)

Nvidia显卡驱动、CUDA、cuDNN安装

Linux mint里显卡驱动的安装相对于ubuntu的显卡驱动安装友好太多太多了,mint的官方文档里也有。根据之前我配置环境的经验,没有装最新的显卡驱动,而是装了一个较低版本的,因为新的显卡驱动的话tensorflow的gpu可能不太支持。
从零开始实验室GPU服务器配置:Linux mint、显卡驱动、CUDA、cuDNN、Anaconda安装、多人用户及远程_第2张图片
(不好意思又治颈椎病了hhhh)
CUDA和cuDNN的安装是借鉴的一个博客,清晰简单明了,gcc降版本也给的很清楚,大爱这篇博客。这里分享一个比较实用的干货,用来解决tensorflow与CUDA、gcc、版本对应的问题,其实也是官网的东西。官网给列出的最新支持的CUDA只到10.1,刚好我装旧一点驱动对应的CUDA也是10.1,之前配置环境积累的经验终于发挥了作用hhhh。另外CUDA在装pytorch时候也要用到,所以版本选择要仔细一些。
从零开始实验室GPU服务器配置:Linux mint、显卡驱动、CUDA、cuDNN、Anaconda安装、多人用户及远程_第3张图片

Anaconda和Pycharm的安装

这两个安装教程的分享也特别多,随手一搜就是,也比较简单没什么好讲的,需要注意的就是一定要配置环境变量,这些在其他人的博客里肯定也会提到。再分享我踩的一个小坑,因为服务器肯定是多用户使用的,管理员权限也不会随意发放,所以在进行安装的时候一定要选择不需要权限的路径来安装这些通用的软件,包括Anaconda的环境路径也是。我一开始犯的错误是把Anaconda装在了/root目录下,即使配置了环境变量,不开sudo权限的话也没法用,比较恼火。

Pytorch-GPU和Tensorflow-GPU

在安装好anaconda、显卡驱动、CUDA和cuDNN这些之后装这两个就比较简单了,当然最友好的还是Pytorch,直接去Pytorch官网根据自己的需求进行选择,官网直接给conda的指令很方便,存在的问题就是网络不稳定在下载pytorch时候经常卡掉,可以考虑换conda的源,清华和中科大或者阿里的都可以试一下,那个快用哪个。Tensorflow-GPU也类似,截止我敲这些之前我还没撞Tensorflow-GPU,所以先不逼逼了。

多账户及远程

多用户的设置是参考的这篇博文,后来发现linux mint有自带的图形化用户管理,会更简单一些。

远程暂时只实现了命令行远程和文件传输,使用的是Xshell和Xfpt,其官网都有免费的版本,这里参考的博文。测试了一下文件传输的速度,可以稳定在10m+,速度还是比较可观。

接下来还要实现图形化桌面的远程控制,师兄说可以用VNC,我找了现有的博客感觉VNC这块的博客质量都挺一般,主要问题还是因为我没成功复现hhhh 进行连接时候报我密码错误,因为时间比较紧就先装了一个Teamviewer凑合着用,虽然有些lowB,但是能远程图形化桌面控制还是香的,毕竟8楼的空调太冷了hhhh。后来发现一个比较靠谱的VNC博客,这里先码一下,等有空了试一试。

多GPU并行计算测试

这里使用的pytorch文档里并行计算测试代码,测试的结果是可以进行两张卡的并行计算,这样就省去了交火桥的钱,舒服了,毕竟那玩意儿太贵了,一张接近一千大洋。

你可能感兴趣的:(系统配置,gpu,操作系统,系统安装,linux,云服务器)