Pytorch坑——模型可复现性实现,随机种子设置

最近被pytorch的模型复现搞了一波心态,每次训练结果不一样,一开始还以为自己的网络优化有效,谁知每次训练结果是不固定的,调了很久终于让模型固定了下来,在此记录下这个坑。
针对pytorch1.7.1进行随机种子的设置,使得网络每次训练结果固定。这样就能方便查看是修改网络导致的精度提升还是随机性导致的。

def setup_seed(seed):
	#  下面两个常规设置了,用来np和random的话要设置 
    np.random.seed(seed) 
    random.seed(seed)
    
    os.environ['PYTHONHASHSEED'] = str(seed)  # 禁止hash随机化
    os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8'  # 在cuda 10.2及以上的版本中,需要设置以下环境变量来保证cuda的结果可复现
    
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed) # 多GPU训练需要设置这个
    torch.manual_seed(seed)
    
    torch.use_deterministic_algorithms(True) # 一些操作使用了原子操作,不是确定性算法,不能保证可复现,设置这个禁用原子操作,保证使用确定性算法
    torch.backends.cudnn.deterministic = True  # 确保每次返回的卷积算法是确定的
    torch.backends.cudnn.enabled = False  # 禁用cudnn使用非确定性算法
    torch.backends.cudnn.benchmark = False  # 与上面一条代码配套使用,True的话会自动寻找最适合当前配置的高效算法,来达到优化运行效率的问题。False保证实验结果可复现。

除了cuda和cudnn的随机性,若使用Dataloder的话也要注意设置,参照官网:https://pytorch.org/docs/stable/notes/randomness.html。

def worker_init_fn(worked_id):
    worker_seed = torch.initial_seed() % 2**32
    np.random.seed(worker_seed)
    random.seed(worker_seed)

Data.DataLoader(
    dataset=xxx, 
    batch_size=xxx,  
    shuffle=xxx,  
    # 关键是下面这两个,上面自己随便设置
    worker_init_fn=worker_init_fn,
    num_workers=0,
)

上述操作应该只能保证在同一设备固定,除非两台设备装的所有环境都一样,可能两台设备的结果都一样。
如果经过上述操作在同一设备仍然固定不了,这就是个值得思考的问题。看看是不是设置了nn.LSTM的dropout参数,听说这个是不能用随机种子固定的,有空到时试一下。

你可能感兴趣的:(踩坑记录,pytorch,python,随机种子)