pytorch中model.train(),model.eval()和torch.no_grad()的区别

参考文献:Pytorch:model.train()和model.eval()用法和区别,以及model.eval()和torch.no_grad()的区别 - 知乎

使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval。

1 model.train():train阶段

model.train()的作用是启用 Batch Normalization 和 Dropout。(什么是dropout?简单来说就是Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中,通过忽略一步法的特征检测器(让一部分的隐层节点值为0),可以明显地减少过拟合现象。参考深度学习中Dropout原理解析 - 知乎)

如果模型中有BN层(Batch Normalization)和Dropout,需要在训练时添加model.train()。model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout,model.train()是随机取一部分网络连接来训练更新参数。

2 model.eval():inference和test阶段

model.eval()的作用是不启用 Batch Normalization 和 Dropout,而且不会进行反向传播。

如果模型中有BN层(Batch Normalization)和Dropout,在测试时添加model.eval()。model.eval()是保证BN层能够用全部训练数据的均值和方差,即测试过程中要保证BN层的均值和方差不变。对于Dropout,model.eval()是利用到了所有网络连接,即不进行随机舍弃神经元。

训练完train样本后,生成的模型model要用来测试样本。在test之前,需要加上model.eval(),否则的话,有输入数据,即使不训练,它也会改变权值。这是model中含有BN层和Dropout所带来的的性质。

3.torch.no_grad()

torch.no_grad()是在model.eval()的基础上,再省去梯度计算,可以加速和节省空间。

你可能感兴趣的:(小小概念之你能奈我何,pytorch,深度学习,人工智能)