第一次分类器训练过程(看loss曲线想问题)

小白记录帖嘛,全程一些或对或错的碎碎念orz。。。

分类器用resnet50作为backbone,在此基础上将2048维输出先映射为512维,然后512维变为40分类的32维embedding,再变为40个1维分数,concat成Bx40x32的embedding以及Bx40的logits;用celebahq的数据集来跑:27000张作为training set,3000张作为validation set;训100个epoch。

Round 1

超参:learning_rate=0.001,batch_size=4,test_batch_size=2

* 因为不知道test_batch_size是单独出来的,所以前面几次实验都只改了batch_size(也就是train_batch_size)

q实验结果:如图,train loss非常震荡,test loss从epoch30起又抬回去了,我就在想,test loss一直没有train loss低,并且开始回升得比train loss早,这是不是过拟合了呀?

第一次分类器训练过程(看loss曲线想问题)_第1张图片

过拟合的话,难道是我在backbone之后添加的几层参数量大?我修改了网络模型,然后在logits那儿加了层BN。因为上课的时候说,Normalization是防过拟合的操作之一嘛。改完进行了第二轮实验:

Round 2

超参:learning_rate=0.001,batch_size=4,test_batch_size=2

* 没变超参

实验结果:OMG怎么train loss怎么不降啊,还不如第一次实验低了?难不成我一点小改动让它从过拟合变欠拟合了不成?

第一次分类器训练过程(看loss曲线想问题)_第2张图片

 痛定思痛,然鹅我不愿再面对网络模型的改,所以先来动一动超参看看。首先,尝试了降低学习率和batch_size:

Round 3

超参:learning_rate=0.0007,batch_size=2,test_batch_size=2

实验结果:这次我没等它跑完100个epoch就kill了程序.....怎么一次不如一次了。

第一次分类器训练过程(看loss曲线想问题)_第3张图片

我去求助了师姐,师姐让调大batch_size试试,因为她训分类器从来不用这么小的batch_size,她用的32......她让我调大batch_size直至显卡跑满,我想先用32试试,显卡占用率67%:

Round 4

超参:learning_rate=0.001,batch_size=32,test_batch_size=2

* 是的,这一次也漏掉了test_batch_size

实验结果:又回到最初的曲线,呆呆地站在电脑前......anyway,train loss随batch_size增大变平滑了。

第一次分类器训练过程(看loss曲线想问题)_第4张图片

 这时候我发现了test_batch_size一直没改,所以试了一下改动它,和batch_size保持一致:

Round 5

超参:learning_rate=0.001,batch_size=32,test_batch_size=32

实验结果:然并卵,和前次没区别。。。

第一次分类器训练过程(看loss曲线想问题)_第5张图片

 单独调学习率试试:

Round 6

超参:learning_rate=0.0005,batch_size=32,test_batch_size=32

第一次分类器训练过程(看loss曲线想问题)_第6张图片

test loss曲线抬高没那么明显了但是!俩loss曲线也不怎么下降啊?好奇怪!试一试大一点的学习率:

Round 7

超参:learning_rate=0.0015,batch_size=32,test_batch_size=32

第一次分类器训练过程(看loss曲线想问题)_第7张图片

 没跑完就kill掉了,因为这个test loss的上升趋势令我感到害怕...这样看起来,还是调小学习率吧。上次调小到了0.0005现在再小一点到0.0001试试:

Round 8

超参:learning_rate=0.0001,batch_size=32,test_batch_size=32

第一次分类器训练过程(看loss曲线想问题)_第8张图片

 曲线上比较像学习率等于0.0005的那次,但是test loss在数值上优于round 6。再去log文件里看一眼准确率,其实以上实验大多epoch中的test准确率都在89左右,并没有怎么大幅度变化,round 8第一次在epoch 100还保持了90分的准确率,那我就选round 8作为best model好了..

⬆0401初记录


⬇0407更新

汇报给了导师,导师无语住了,说我train loss抬升或者不动了的时候就应该kill掉程序,而不是继续跑完浪费电,泪目.....

导师云:在如round 4的情况中,epoch14左右就可以保存模型停下来,然后load这个模型继续用更小的学习率训练。

我就去试了,用上述方法,换了个0.0001的学习率训练:

Round 9

第一次分类器训练过程(看loss曲线想问题)_第9张图片

 这个妥妥的过拟合趋势....我懂了,这次及时kill掉,贯彻导师的环保主义理念。

是学习率太小了吗这次,换个大点的0.0004试一下子:

Round 10

第一次分类器训练过程(看loss曲线想问题)_第10张图片

 怎么也逃不出...过拟合的命运。


⬇0501更新

本以为虽然曲线不好看,但验证集准确率89-90还不错可以拿来做我的主实验了,结果不行,用分类器embedding比较距离的loss非常小,根本起不到约束的作用了嘛!

之前的模型老过拟合,怀疑是网络太深参数太多之类的?

首先尝试修改我加的那几层,把2048-512-32-1的映射过程改为2048-64-16-1,然并卵,用0.001学习率先学仍在同样位置过拟合,且换0.0001的小分辨率test loss只升不降。

于是乎改掉resnet50,改用alexnet(导师说alexnet应该就够用了),然后alexnet最后三层FC改为9216-4096-4096-512,然后继续512-32-1造出40属性分类的embedding。

Round1

左:lr=0.001,bs=32

右:lr=0.0005,bs=32

第一次分类器训练过程(看loss曲线想问题)_第11张图片第一次分类器训练过程(看loss曲线想问题)_第12张图片

 由于右边的曲线数值更低,我kill了左边,只跑lr0.0005的这个实验。

Round2

 同时,我考虑是不是lr越低越好,然后还想动一下bs,所以设了一个lr0.0003,bs16的实验。

左:lr=0.0005,bs=32

右:lr=0.0003,bs=16

第一次分类器训练过程(看loss曲线想问题)_第13张图片 第一次分类器训练过程(看loss曲线想问题)_第14张图片

 就..差不多,train loss和test loss同时在epoch50左右不降反升了?晕。。。

Round3

尝试取Round2右边训练epoch50的模型参数继续以0.0001学习率来训,bs32,曲线非常震荡,但是在下降,如左图。

同时考虑手动调整学习率太伤了,加入scheduler余弦退火试试,如右图。

 

你可能感兴趣的:(深度学习小白经验贴,深度学习)