模型每次跑的结果不同怎么办?

模型每次跑的结果不同怎么办?

        • 1、首先设置种子
        • 2、逐步检查
        • 3、可能出错的地方

我使用pytorch跑深度学习模型时发现每次跑的结果都不一样,所以在此总结了一下如何解决的方法。

1、首先设置种子

在代码中加入下面这个函数方法:

def set_random_seed(seed, deterministic=False):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    if deterministic:
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False

加入这个函数后,torch.utils.data.RandomSampler、 random.shuffle(list)、以及模型初始化数值等都会保持一致。

2、逐步检查

一般来说,加入上述代码后,就可以解决问题。但是如果你每次结果还是不一样,那可能是数据处理的代码写的有点问题。

如何检查哪个地方不对呢?

我是使用的比较笨的方法,即设置断点,两次启动程序,将模型的输入(比如 for step, batch in enumerate(dataloader): 里面的这个batch的值)都保存下来,然后查看这两次的结果是否一样。

比如,使用np.save(“xxx.npy”,xxx)保存,跑两次后,使用np.load(“xxx.npy”)加载两次的保存结果x1,x2,然后对比这两次结果是否一样。比如,类似下面代码的比对代码。

x1=list(x1)
x2=list(x2)
count=0
f_count=0
for i in range(len(x1)):
    count=count+1
    if (x1[i]!=x2[i]).all():
    #if x1[i]!=x2[i]:
        f_count=f_count+1

print(“总数量”,count)
print("不一样的数量",f_count)

然后逐渐往前进行检查,就可以发现问题数据所在。

3、可能出错的地方

  • set(list) 这个方法会使得list本身的顺序改变,慎用
  • 复现模型实验结果时,保证def __ init __ () 里面的代码也与之前的一致。不能仅仅在forward里面保证模型一致,在初始化的时候也要保证一致。初始化中不要出现在forward中没有用到的模型。
  • torch_geometric 中用graph模型,每次的结果会不一样
  • 其他的还没坑还没遇到,遇到了再填上…(欢迎写下你发现的坑)

你可能感兴趣的:(日常tips记录,深度学习,pytorch)