【报错】CUDA error: device-side assert triggered

这种类型的报错,绝大多数情况下,都是因为tensor index的错误。比方说,一些torch的index操作,如torch.select等;或者输入的input_ids超出了模型embedding的词表范围。

以超出embedding的词表范围为例,会报出这种很抽象的trace back:
【报错】CUDA error: device-side assert triggered_第1张图片

如果遇到这种报错,推荐的一个做法是,在传给模型inputs之前,先把所有ids都限制到词表范围之内:

# there could be some ids out of vocab. e.g., -100
zeros = torch.zeros_like(input_ids)
min_ids, max_ids = 0, len(tokenizer)-1
# make sure the ids are in the range of vocab
# 小于min_ids 或者 大于max_ids 位置的那些ids,会被替换成zeros的对应元素值,否则保留原input_ids的值
input_ids = torch.where(torch.lt(input_ids,min_ids) | torch.gt(input_ids,max_ids),zeros,input_ids)

outputs = model(input_ids)

当然也可以直接clip,上述操作的一个好处就是可以把超出词表范围的那些ids替换成某个具体的ids,比方说padding tokens、ending tokens。在某些情况下会比较实用。


参考:

  • How to fix “CUDA error: device-side assert triggered” error?
  • Pytorch 替换tensor中大于某个值的所有元素

你可能感兴趣的:(各类报错,深度学习,python,pytorch)