环境:python3.6 + cuda10.0 + pytorch1.1.0
在运行MSRN代码时出现老多问题了,解决的路上全是心酸泪我的妈呀!
在此记录下来,希望朋友们少走点弯路【花花
1. 问题:ImportError: cannot import name '_update_worker_pids'
原因:MSRN中的dataloader文件中会出现很多这类问题,找不到对应的函数名和属性名等等,因为Pytorch升级到1.0后,dataloader模块中的函数有修改
解决:参考并非常感谢这位博主以及这位博主
2. 问题:THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=385 error=11 : invalid argument
解决:a. 删除之前的用conda创建的pytorch相关环境
b. 用pytorch官网的pip3命令重新安装pytorch和torchvision
c. 另外重新安装所有相关的包
3. 问题:ValueError: Cannot load file containg pickled data when allow_pickle=False
解决:参考并非常感谢这位博主
4. 问题:AttributeError: 'SimpleQueue' object has no attribute cancel_join_thread()
原因:源代码中调用了multiprocessing.SimpleQueue()得到了worker_result_queue变量,之后这个变量在pytorch自带的dataloader中需要去调用cancel_join_thread()方法,但这个方法其实是multiprocessing中Queue类的方法,SimpleQueue并没有!难道是pytorch更新版本后没有的???
解决:将Train文件和Test文件夹下的dataloader.py中的multiprocessing.SimpleQueue()都改为multiprocessing.Queue()即可,至于原来的SimpleQueue有多好用我就不管了。。
5. 问题:ValueError:x and y must have same first dimension, but have shapes(2,) and (1,)
原因: 找了半天原因,突然想起训练的时候为啥显示epoch从2开始,感觉不对劲,于是
解决:将Train/trainer.py中三处 self.scheduler.last_epoch + 1 改为 self.scheduler.last_epoch
6. 问题:第lr_decay倍的epoch的lr是上一个的0.25倍,但应该是0.5倍来着
原因:在self.scheduler.step()时就已经计算了新epoch的lr,然而之后在lr = self.scheduler.get_lr()[0]时又计算了一遍。
解决:lr = self.scheduler.get_lr()[0] 修改为
lr = self.optimizer.param_groups[0]['lr']
7. 问题:其实接着6还有问题。。按照6修改之后,不是每lr_decay个epoch修改一次lr,而是1~lr_decay-1为相同的lr,lr_decay~2lr_decay-1为相同的0.5lr,依次类推,我觉得这样错一个也行,但还是有点手痒啊于是。。
解决:
self.scheduler.step()
self.loss.step()
epoch = self.scheduler.last_epoch
修改为
self.scheduler.step(self.scheduler.last_epoch)
self.loss.step()
self.scheduler.last_epoch += 1
epoch = self.scheduler.last_epoch
8. 问题:接着7改完后又发现新的问题,如果训练中断在运行self.ckp.write_log(...)这句之后,继续训练时如果正好该下降lr了,那么
以上,终于测试和训练都成功运行!!!榨干了我的精华!