Vision Transformer-Base流程图

流程图

Vision Transformer-Base流程图_第1张图片
注意的是,每一次Encoder执行完输出的特征图尺寸是一样的,会消耗较多的资源。训练时需要大量的额外数据才能达到和CNN近似的效果,我认为的主要原因是没有和CNN一样带有一定的先验知识(平移不变等)。

你可能感兴趣的:(深度学习,python,卷积,transformer)