【服务器使用】Linux服务器常用代码汇总(更新中)

linux服务器常用代码汇总

重启服务器

清理进程缓存内容,释放显存

sudo reboot

检查硬盘空间使用

如果硬盘空间已满,可能无法远程登录上服务器

df -h

查看服务器信息

(例如显卡、suitable-cuda等version)

nvidia-smi

一键配置torch和cuda信息

(需要自己在官网找对应的版本安装)

官网:https://download.pytorch.org/whl/torch/

其中cuda版本是向下兼容的(如果查看信息发现cuda是12.0,那么可以安装11.8等12.0及以下的cuda版本)

pip3 install torch==2.0.0+cu118 -i https://pypi.tuna.tsinghua.edu.cn/simple --extra-index-url https://download.pytorch.org/whl/cu118

查看服务器的所有进程

(子容器没法通过nvidia-smi进行进程查看)

ps -aux |grep python

杀掉某一个进程

(如果当前进程编号为id)

其中id根据自己的内容进行更换

kill id

杀掉当前用户的所有进程

(清除显存out of memory时使用)

pkill -f python

远程连接服务器

(不采用vscode的ssh绿标)

其中host和port根据自己的内容进行更换

ssh ubuntu@host -p port

检查进程

fuser -v /dev/nvidia*

安装fuser

(如果上面fuser命令无法运行,则需要安装相应的命令包)

sudo apt-get install psmisc

你可能感兴趣的:(Daily,Tricks,服务器,linux,运维)