【成功 debug】Assertion idx_dim >= 0 && idx_dim < index_size && “index out of bounds“

在 gpu 上跑 torch 代码的时候遇到了如题所示的问题,原因大概率是某行代码 id 溢出,但是如何定位出 bug 的代码呢?

尝试设置:CUDA_LAUNCH_BLOCKING=1 (didn’t work)

这时应该讲代码放到 cpu 上跑,就能精准报错了。

解决步骤

  1. .cuda() 换成 .cpu()
  2. or 使用截断阀 debug(在嫌疑位置设置若干 print input 结点,定位溢出的大致位置,然后将这个模块中的 tensor 转到 cpu 中,这样先粗后细,也能精准定位问题)

我的问题最后定位在: RuntimeError: index -9223372036854775808 is out of bounds for dimension 3 with size 40624

这个 index 的值无比诡异,某大神告诉我可能是数据类型存错了:
【我感觉是binary的时候出问题了】
【检查一下数据类型,binarizer 只能 dump int,是不是存了别的类型】
check 之后果然是数据类型的问题,我给存成 float 了,应该是 int64

最后成功解决所有问题。

总结

  1. 写代码的时候注意安排一个 cpu 和 gpu 的参数开关,debug 的时候方便些
  2. 遇到问题多和同学交流,不要自己死磕,网搜答案不一定靠谱

你可能感兴趣的:(debug,python,深度学习,debug,pytorch)