MobileViT摘要

供自己复习使用,写的非常随便。。。

前言

        纯Transformer的问题:

                1、参数多,复杂度高

                2、缺少空间归纳偏置

                3、迁移到其他任务比较繁琐

                4、模型训练困难

         解决方法:将CNN与Transformer混合使用。由于CNN有空间归纳偏置,所以不再需要位置编码。并且可以加速网络收敛。

结构

MobileViT摘要_第1张图片

MobileViT摘要_第2张图片

MV2来自于MobileNet V2

        第一个淡黄色的Conv是膨胀卷积。

        全局表征(global representations) :打成patch,对每个patch中相同位置的做自注意力。因为图像数据中相邻部分存在很多的冗余数据。而且在MobileVit Block的全局表征前已经做过局部表征,所以不需要过于细致。

MobileViT摘要_第3张图片

        unfold和fold就是实现全局表征,将unfold的直接放入Transformer中。

MobileViT摘要_第4张图片

你可能感兴趣的:(计算机视觉基础,深度学习,神经网络,人工智能)