深度学习的代码实验结果复现问题

在进行神经网络反复训练试验后发现,每次的训练结果都有微小的波动,根据查阅相关资料,总结了神经网络模型代码复现的主要注意的几点:

首先强调,自己用的试验平台是PyTorch 1.9 GPU版本,CUDA为10.2版本,显卡为GTX1050Ti。

1,首先要固定代码里的所有的随机状态,包括torch自身的,这方面可以参考博主的帖子:

PyTorch的可重复性问题 (如何使实验结果可复现)_hyk_1996的博客-CSDN博客_pytorch复现

2,明确PyTorch的GPU版本与CPU版本的训练结果不一致,猜测可能是二者硬件架构的原因,也可能是GPU版本使用CUDA平台计算,CUDA平台设计时做了部分优化与精度取舍,纯属个人盲猜;自己用的是GPU 1050Ti,CPU为AMD的,实验结果是GPU版本的训练后的准确率比CPU的还高一点~~~

3,只要固定PyTorch与CUDA的版本保持一致,保证使用相同的随机种子控制所有随机状态,计算结果是完全一致的(到亿分之一精度上也是完全一致的),和硬件GPU型号是否相同没有关系,硬件只是起到了计算的作用,具体怎么计算,怎么取舍进度还是软件计算平台的事。

以上所有内容都是根据自己的实验结果的总结,都有自己的实验结果论证,具体对不对是不是普遍适用的正确观点,自己也不知道。

你可能感兴趣的:(深度学习,神经网络,pytorch,代码规范)