现象:
各位大佬又遇到过ubuntu的这个问题么?
现象是在训练过程中,ssh 上不去了,能ping通,没死机,但是ubunutu 的pc侧的显示器,鼠标啥都不好用了。只能重启。
问题原因:
OOM了95G,尼玛!!!!
pytorch爆内存了,然后journald假死了,在journald被watchdog干掉之后,系统就崩溃了。
这种规模的爆内存一般,即使被oom kill了,也要卡半天的,确实会这样,能不能配一点虚拟内存上去啊。
设置swap交换空间:
(base) justin@justin-System-Product-Name:~$ sudo dd if=/dev/zero of=/swapfile bs =1M count=327680
dd: failed to open '/swapfile': Text file busy
(base) justin@justin-System-Product-Name:~$ sudo swapoff
swapoff: bad usage
Try 'swapoff --help' for more information.
(base) justin@justin-System-Product-Name:~$ swapoff --help
Usage:
swapoff [options] [<spec>]
Disable devices and files for paging and swapping.
Options:
-a, --all disable all swaps from /proc/swaps
-v, --verbose verbose mode
-h, --help display this help
-V, --version display version
The <spec> parameter:
-L <label> LABEL of device to be used
-U <uuid> UUID of device to be used
LABEL=<label> LABEL of device to be used
UUID=<uuid> UUID of device to be used
<device> name of device to be used
<file> name of file to be used
For more details see swapoff(8).
(base) justin@justin-System-Product-Name:~$ sudo swapoff -a
(base) justin@justin-System-Product-Name:~$ sudo dd if=/dev/zero of=/swapfile bs =1M count=327680
我的swap交换空间2GB, 可以用 free -m 查看
然后 先关闭:
sudo swapoff -a
然后写入:
sudo dd if=/dev/zero of=/swapfile bs =1M count=327680
写了32G
32768+0 records in
32768+0 records out
34359738368 bytes (34 GB, 32 GiB) copied, 371.924 s, 92.4 MB/s
sudo chmod 600 /swapfile
sudo mkswap /swapfile
(base) justin@justin-System-Product-Name:~$ sudo chmod 600 /swapfile
(base) justin@justin-System-Product-Name:~$ sudo mkswap /swapfile
Setting up swapspace version 1, size = 32 GiB (34359734272 bytes)
no label, UUID=e8a65557-0a65-4820-808b-e8924548ec90
(base) justin@justin-System-Product-Name:~$
启用交换空间:
sudo swapon /swapfile
检查交换空间
sudo swapon --show
永久设置:
如果希望系统在每次启动时自动启用交换空间,可以将下面的行添加到 /etc/fstab 文件中:
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
最后,你可以使用以下命令来检查交换空间的使用情况:
free -h
这将显示系统的内存和交换空间使用情况。确保交换空间处于正常运行状态,以提供额外的内存支持。
ref:https://blog.csdn.net/qq_42244167/article/details/135755665?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-1-135755665-blog-128822763.235v43pc_blog_bottom_relevance_base2&spm=1001.2101.3001.4242.2&utm_relevant_index=4
这个真实原因已经找到了,是因为download图片的时候网络带宽不够,下载了半截的图片,造成裁切的不全,然后torch侧读取不灵光,造成泄露了。