根据注册时获得的账号和密码,使用网页版或下载客户端登录账号。
我这里尝试了2种连接服务器的方式,SSH和第三方软件(Xshell)
点击桌面SSH图标,显示当前账号可访问的云服务器,点击想要连接的服务器。
显示当前页面表明服务器连接成功。
前提:计算机本地已安装Xshell。
本人平时连接服务器习惯用XShell,主要原因是Xshell配套的Xftp方便服务器和本地文件的传输。
从应用中心安装Xshell。选择应用中心->超算云服务->Xshell申请使用
由于我这里已经安装完成,所以显示卸载。如果未安装则显示申请使用。
安装完成后桌面会显示Xshell图标。第一次进入Xshell会让选择文件路径,此时需要选择本地计算机的Xshell.exe将云服务器与本地Xshell连接起来。
绑定后,点击Xshell图标则会唤醒本地Xshell应用,并自动连接云服务器。这里可能会询问是否确认连接服务器,输入yes即可连接到服务器,其他的Xftp等服务均可正常使用。
在SSH或Xshell终端输入命令module avail
踩过的坑:如果输入module avail显示command module not found,则先输入source path/path/module.sh(一般这里路径会在连接服务器时有提示),再输入module avail。通常服务器已经预先装好anaconda,cuda等常用环境。
[your@account ~]$ module avail
------------------------------ /usr/share/Modules/modulefiles -------------------------------
dot module-git module-info modules null use.own
---------------------------------- /data/apps/modulefiles -----------------------------------
alphafold/2.0.0
alphafold/2.0.0_20210827
alphafold/2.0.1
alphafold/2.1.1
amber/AmberTools21_openmpi_nccl
anaconda/2020.11
module load anaconda/2020.11
conda create -n myname python=3.7
sources activate myname
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2 -c pytorch
#速度太慢,安装了除pytorch以外的所有包
pip install torch==1.6.0 torchvision==0.7.0
#安装成功,但通过print(torch.cuda.is_available())返回False,认为未安装对应CUDA(后来想起也可能是因为未向云服务器请求分配GPU的原因)
尝试向Anaconda添加清华镜像源,加快pytorch下载速度
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
重新用conda安装pytorch
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2
安装成功,利用torch.cuda.is_available()检查cuda是否可用,返回True则证明可用。注:此处记得先向云服务器申请GPU设备再检测。
可以指定dgl版本,从这里查看dgl版本名称
conda install -c dglteam dgl-cuda10.2==0.4.3post2
点击这里寻找与cuda版本对应的dgl包
将下载的包放在合适文件夹下,终端进入该文件夹,安装DGL包
cd ./archive
pip install dgl_cu102-0.4.3.post2-cp37-cp37m-manylinux1_x86_64.whl
conda install numpy=1.17 #(高版本numpy与mxnet冲突)
conda install scikit-learn
conda install pandas
conda install matplotlib
conda install tqdm
至此,我所需要的所有深度学习模型环境已经配齐,接下来就可以上传代码跑实验啦!