关于VIT的个人思考

关于VIT的个人思考

    • 注意力机制的体现
    • 位置编码的作用的体现

假设vit进行分类任务,并且是两分类(飞机和背景)。
其实我是比较关注,注意力体现在哪里,位置编码的作用;

我们将一个飞机图片分成4个patch
关于VIT的个人思考_第1张图片

注意力机制的体现

首先说一下注意力的定义
关于VIT的个人思考_第2张图片
人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。
那么在图像分类上是怎么体现的呢?
假设拿图片左上角的patch1作为思考,当它这个patch的q和有飞机patch2、3的k进行相乘处理后,因为有飞机的patch的编码会是一个比较大的值(我们现在这样打个抽象的比喻),那么最终patch1得到的α也会是一个较大的值;
虽然我们在考虑patch1,但是因为考虑了patch2、3的k,其实本质上我们更多是在考虑patch2、3(因为他们提供的分值更大)。
这样就广义上实现了注意力的集中,我们虽然在看天空,但是结合全局之后我们很快的就把注意力放在了飞机那里。

位置编码的作用的体现

假设现在一张飞机的图片出现在图片边缘部分,大部分则是天空,如果是这样我们当然不能辨别这个图片是飞机,但是它的分值可能又会较大,从而影响最后的得分判定,因此在这里我们需要一个位置编码,从空间的角度进行一定的判断;
同样的例子,假如飞机很小,但是出现在图片的中心位置,这时候这个地方的位置的重要性就会给飞机对于这张图片的重要性带来提升,从而可以让网络判别它是飞机图。

你可能感兴趣的:(计算机视觉,人工智能)