Multimodal Token Fusion for Vision Transformers

水平太浅,理解不到位。谨慎观看。
多模态token融合,我是语义分割,只看RGB和Depth模态。
1:作者为了解决transformer多输入的问题,对基于transformer视觉任务进行剪枝,为了有效的融合多模态,tokenfusion动态的检测那些无信息的token,并用经过投影和聚合过的跨特征(projected and aggregated inter-modal)替换掉。为了使用融合后的跨模态对齐,作者也使用了残差位置对齐。tokenfusion的设计允许transformer学习多模态的特征信息。SOAT。
2:作者的工作旨在寻找一个有效和通用的方法去结合多个单模态的transformer,同时在这些模型中插入跨模态的对齐。tokenfusion的基本想法是修剪多个单模态的transformer,并且重新使用修剪了的单元用于多模态融合。我们对每个transformer使用单独的修剪,每一个修剪了的单元由来自其他模态的投影对齐特征所替换掉。这种融合策略对于原始的单模态transformer影响不大。他也保持了重要单元的相对注意力关系。
3:方法
3.1基础融合transformer
Multimodal Token Fusion for Vision Transformers_第1张图片
将l层的输入特诊看做e,第一层,即token是由x经过线性函数得到的。这是一种常用的向量化输入token。
Multimodal Token Fusion for Vision Transformers_第2张图片
这就是transformer公示的表达形式:
Multimodal Token Fusion for Vision Transformers_第3张图片
对于多模态融合的视觉任务,不同模态的对齐关系是十分有用的,比如像素位置经常用来确定rgb-depth的关系。基于这种对其信息,我们提出了两种融合方法:
1:不可知对齐融合
并不直接使用模态间的对齐关系,他期望可以从大量的数据中学到对齐关系,一种常用的方法就是直接将多模态的输入token拼接起来。尽管这种方法简单但是很难从
已知的多模态对齐关系
中受益。
2:可知对齐融合
直接使用跨模态的对齐,可以通过选择那些具有相同像素对应的token来实现。
Multimodal Token Fusion for Vision Transformers_第4张图片
对于同质模态,比如rgb和depth,h是一个identity,对于不同质的模态,h就是mlp。当考虑到整个N token时,我们可以方便的将模态投影定义为token 投影的concat。
Multimodal Token Fusion for Vision Transformers_第5张图片
除了输入侧的融合策略,我们也可以在中间层或者多层进行融合。但是计算量很大,为了解决这个问题,作者提出多模态token融合。
3.2:
多模态特征融合首先剪切单模态的transformer,进一步使用剪切过的单元用于融合,原始单模态transformer的信息单元就会在很大程度上得到保留。同时多模态交互也会用来提升结果。在论文32中提到,transformer的裁剪可以用一种分层的方式。我们可以使用一个是scoring 函数,即mlp去预测每个token的重要性。为了能够反向传播,我们将公式改为:
在这里插入图片描述
相当于在原始的ln之后添加了一个mlp函数计算的结果。
我们使用Lm表示m个模态,特定任务的损失。去进一步裁剪没有信息的token,我们对于s增加了一个逐token的裁剪损失(l1 norm),新的损失函数可以计算为:
Multimodal Token Fusion for Vision Transformers_第6张图片
对于特征e,逐token的裁剪可以动态的在N个token中检测不重要的token,将不重要的token转变或者由其他的对于其他含信息的token影响不大的embedding替换掉。因为裁剪过程是动态的,所以融合过程也是动态的。这个过程在每个transformer层之间执行token替换。因此第l层的输入可以计算为:
在这里插入图片描述
Multimodal Token Fusion for Vision Transformers_第7张图片
指示函数用来判定条件,输出一个mask,即满足是s(e)>=输出为1,否则为0。如果有两种模态作为输入,m’就为另一种模态,而非m。即对e进行一个mlp处理,生成的结果如果大于阈值,则为1。
假设我们进过mlp后的e是大于阈值的,那么proj就会省略掉,e还是为e,如果小于阈值,那么e就为proj(e)。注意这里的m’为另一个模态。
3.3:残差位置对齐
直接替换掉token会使模型忽略另一个模型经过投射的对齐特征。我们使用残差位置对齐(RPA),对多模态对齐使用位置编码。RPA取决于将等量的位置编码嵌入一系列层中,并且位置编码的反向传播在第一层后就停止了,这意味着只有在第一层的位置编码梯度保存着,后面的几层在训练过程是冻结的。总结,如果一个token被替换,我们仍然保留它原始的位置编码。后面的替换不影响前面的位置编码。
Multimodal Token Fusion for Vision Transformers_第8张图片
3.4:同质模态
对于rgb和depth来说,相同的位置共享一个标签。因为在不同模态的MSA和MLP层共享参数,但是normal不共享。将公式中的h参数设置为identity 函数,这也意味着我们经常用同一个位置的token替换掉每一个裁剪的token。
在图中,我们
分别使用双向投影和逐像素裁剪,根据公式6,我们进行token的替换
。如果M>2,多于两个模态(我们不考虑),公式6可以修改为公式7。
在这里插入图片描述
Multimodal Token Fusion for Vision Transformers_第9张图片
4:实验
4.2语义分割
Multimodal Token Fusion for Vision Transformers_第10张图片

你可能感兴趣的:(paper总结,深度学习,transformer,计算机视觉)