DeiT小总结

        ViT成功的将Transformer引入了计算机视觉领域,但是很多人发现ViT复现很是困难,一个就是它需要的计算复杂度很高,8块V100需要训练85天,二就是很不稳定。DeiT就提出了一系列改进来解决这方面的问题,使得ViT真正开始起作用了。

        1.DeiT选取了更好的超参数可以保证模型能够更好的收敛

                                     DeiT小总结_第1张图片

 

        2.DeiT做了许多的数据增广可以使得模型能够在更小的数据集上面训练

DeiT小总结_第2张图片

 

        3.DeiT做了知识蒸馏能够使得ViT进一步的提升性能

DeiT小总结_第3张图片

用一个已经训练好的techer model来帮助student来进行训练,techer model本身是不参与训练的。 

4.一些小的tips:

DeiT小总结_第4张图片

 

你可能感兴趣的:(深度学习,计算机视觉,transformer)