pytorch中model.train、model.eval以及torch.no_grad的用法

1、model.train()

model.train() 让model变成训练模式,此时 dropout和batch normalization的操作在训练起到防止网络过拟合的问题

2、model.eval()

model.eval(),pytorch会自动把BN和DropOut固定住,而用训练好的值。不然的话,一旦test的batch_size过小,很容易就会被BN层导致所生成图片颜色失真极大

训练完train样本后,生成的模型model要用来测试样本。在model(test)之前,需要加上model.eval(),否则的话,有输入数据,即使不训练,它也会改变权值。这是model中含有batch normalization层所带来的的性质。

对于在训练和测试时为什么要这样做,可以从下面两段话理解:

在训练的时候, 会计算一个batch内的mean 和var, 但是因为是小batch小batch的训练的,所以会采用加权或者动量的形式来将每个batch的 mean和var来累加起来,也就是说再算当前的batch的时候,其实当前的权重只是占了0.1, 之前所有训练过的占了0.9的权重,这样做的好处是不至于因为某一个batch太过奇葩而导致的训练不稳定。
好,现在假设训练完成了, 那么在整个训练集上面也得到了一个最终的”mean 和var”, BN层里面的参数也学习完了(如果指定学习的话),而现在需要测试了,测试的时候往往会一张图一张图的去测,这时候没有batch而言了,对单独一个数据做 mean和var是没有意义的, 那么怎么办,实际上在测试的时候BN里面用的mean和var就是训练结束后的mean_final 和 val_final. 也可说是在测试的时候BN就是一个变换。所以在用pytorch的时候要注意这一点,在训练之前要有model.train() 来告诉网络现在开启了训练模式,在eval的时候要用”model.eval()”, 用来告诉网络现在要进入测试模式了.因为这两种模式下BN的作用是不同的。

3、torch.no_grad()

这条语句的作用是:在测试时不进行梯度的计算,这样可以在测试时有效减小显存的占用,以免发生显存溢出(OOM)。

这条语句通常加在网络预测的那条代码上。

 

参考

https://www.cnblogs.com/shiwanghualuo/p/11789018.html

https://blog.csdn.net/qq_32678471/article/details/102892930

你可能感兴趣的:(pytorch中model.train、model.eval以及torch.no_grad的用法)