RuntimeError: DataLoader worker (pid 9119) is killed by signal: Killed.
经过测试和网上搜索,基本确定了问题是内存不足造成的,我设置的num_workers=8
在训练阶段没有出现问题,可以确定使用八个线程对于我的内存是足够的,那么就查找到了test阶段,
在这里我发现,test数据集的dataloader设置了一个pin_memory=True,这个参数就是锁页内存
下面是关于锁页内存的解释:
主机中的内存,有两种存在方式,一是锁页,二是不锁页,锁页内存存放的内容在任何情况下都不会与主机的虚拟内存进行交换(注:虚拟内存就是硬盘),而不锁页内存在主机内存不足时,数据会存放在虚拟内存中。
而显卡中的显存全部是锁页内存!
当计算机的内存充足的时候,可以设置pin_memory=True。当系统卡住,或者交换内存使用过多的时候,设置pin_memory=False。因为pin_memory与电脑硬件性能有关,pytorch开发者不能确保每一个炼丹玩家都有高端设备,因此pin_memory默认为False。
以上解释参考来自网页
设置了pin_memory=True的话,tensor转入显存会更快,同时训练速度也会更快,但是没有充足内存的时候需要关闭这个选项。