模型跑不起来/不出结果的时候如何定位问题

第一步:检查路径 

常见的问题:   ./  ../ 搞错了。一个点表示是在当前目录下,两个点表示是回到上级目录。如果输入的路径地址是错的,那肯定是运行不起来的。不过这种通常会有明显的报错提示。 

第二步. 缩小你的数据集

代码运行不起来/很久不出结果/也不报错也没结果的时候,我们必须搞清楚他是正在算;还是他已经歇菜了,但是因为种种玄学原因没报错。在图像领域,我们的数据集通常都是几万几十万张图片用于训练,处理起来本来就很耗费时间。所以,如果你想知道自己的这个project到底能不能正确开始干活时,你可以尝试缩小你的数据集。比如原本有20,000张数据,那你先挑200张(注意一定要大于你的一个batch size),简单跑一下。通常情况下,再怎么复杂的模型,你数据量少了,速度必然会提升。

eg:我之前计算FID的时候遇到过这种情况:

只显示加载成功,但是死活不出最后的FID结果,我无法确定到底是他还在算还是出问题了(我内心:大哥如果出问题了为什么不报错呢?!!!!)

按照这一步的做法,缩小数据集后,发现他还是这样:

模型跑不起来/不出结果的时候如何定位问题_第1张图片

但是此时 可以排除 "数据量太大,他正在算" 这个原因了 

第三步:检查你的环境

这个第三步仅限于你之前跑步骤一二的时候没有报错,如果他报错了,那毫无疑问是去看报了什么错然后解决!!我在这里的解决方式是:回到原github项目中,查看作者列出的各种依赖项及版本模型跑不起来/不出结果的时候如何定位问题_第2张图片

查看版本是否符合要求,你的包有没有都装好。一般来说,若果还是没问题的话,可能就要从代码上找原因了

总之,找问题必须要耐心,要坐下来一点点找。如果运行不起来肯定是哪里有问题了,但找到的一瞬间会很开心。

模型跑不起来/不出结果的时候如何定位问题_第3张图片模型跑不起来/不出结果的时候如何定位问题_第4张图片

你可能感兴趣的:(深度学习,pytorch,python)