Segmentation fault (core dumped)——pytorch

Segmentation fault (core dumped)——pytorch

最近在Linux上跑一个行人重识别的baseline,然后碰上了折腾我两天的bug:Segmentation fault (core dumped)。

下面来简单说一下我调试的艰难过程……

第一阶段:盲找错误点
程序训练着训练着就嘎一下停了,然后我就进行了搜索,一些人说core dumped的原因可能是python的一些库有问题,需要更新,然后要一个一个import库……
因为我的代码太长需要import的库太多了,我觉得这个方法太费时,而且没有目的性,纯属碰运气,这个方法pass……

第二阶段:gdb调试
gdb调试是我这次debug的意外收获了,一直认为深度学习的debug太费劲,没想到还有gdb这种高深的debug方式。
下面简单说一下gdb简单的过程:
①:gdb python3
②:r /data2/……/source_train.py
(这是我运行的代码)
③:where
然后大概出现这样的图:
Segmentation fault (core dumped)——pytorch_第1张图片
但是可能我还是不太看得懂gdb这个信息,我只能确认是numpy引起的寻址错误。(这个现在我解决bug后翻回来看,确实是numpy的问题)

第三阶段:经典土办法——print调试
因为报错的地方可以知道大致是哪里,所以我每句话都用一个print(‘0’)、print(‘1’)……来手动设置断点,最终确定是下面这个函数中的dist.addmm()是致使core dumped的原因。
Segmentation fault (core dumped)——pytorch_第2张图片
一开始我以为torch.addmm_()这个函数计算量太大了,于是我想了想打算写一段函数来代替torch.addmm_()这个函数的功能。但是发现依旧core dumped,并且发现了主要原因是输出的矩阵太大,导致矩阵相乘计算量太大,最终core dumped。

然后我就想可能是tensor的运算原因,后来想到了numpy的矩阵运算,将tensor转换为numpy进行矩阵相乘,但是发现这个想法根本不对,因为numpy是在cpu下进行的。

划重点了!

就是那么的巧,这时候突然想到tensor是分cpu跟gpu的!这就是问题根源所在,原来程序生成的tensor占CPU RAM的,也就是说CPU Tensor导致在tensor相乘运算时出现core dumped。于是我就将tensor的生成源头改成gpu版本。
这里要说一下numpy不能读取CUDA tensor 需要将它转化为 CPU tensor,所以要将涉及到的X = X.numpy()改成X = X.cpu().numpy()。
然后将cpu tensor转变为gpu tensor:
Segmentation fault (core dumped)——pytorch_第3张图片
这样core dumped就解决拉!

(仅供参考)

你可能感兴趣的:(python调试,python,深度学习)