【已解决】RuntimeError: cuda runtime erorr (77): an illegal memory access was encountered at ...

本文记录了博主遇到了下面问题的解决方案,更新于2019.04.04。

问题:

RuntimeError: cuda runtime error (77) : an illegal memory access was encountered at /pytorch/aten/src/THC/generic/THCTensorCopy.c:20

原因:
博主查了很多资料,大家的原因各不相同,最终解决博主问题的是,ground truth中有类别超了。也就是说,比如有40个类别,真值应该是从0到39,而非从1到40。这个解决了也是晚上运行正常,白天就会报错。

博主在修改了真值后,后面又遇到了这个问题。查阅资料后感觉靠谱的方案有下面两种,其中第一种目前来看解决了博主的问题,所以第二种还没有试。

第一种: 在命令前面加上CUDA_LAUNCH_BLOCKING=1(设置os.environ['CUDA_LAUNCH_BLOCKING'] = 1),也就是命令的形式是

CUDA_LAUNCH_BLOCKING=1 python3 train.py 正常的命令设置等

但是博主注意到,加了这个设置以后,训练的速度要比没加的时候慢差不多一倍。比如之前是100s左右,现在是200s。

…… 补充……发现加了这个命令也不行,不知道为什么晚上的训练就不会断,白天的就会……难道是跟随机时候的seed(time)有关系?醉了……

第二种: 有人说遇到了这种情况,就是ground truth label在经过了softmax后有可能超过原始的类别,因此导致了这个问题。所以如果是这样就跟最开始博主找到的原因相似了,都是在计算交叉熵损失的时候超出类别范围而导致这个错误。

更多内容,欢迎加入星球讨论。

你可能感兴趣的:(论文代码学习,Python基础,图像分割)