多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计

以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而近期,有关动态多模态融合的研究有了新的成果,它能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。比如DynMM模型、SkipcrossNets模型。

  • DynMM模型通过在模态层面和融合层面进行渐进融合,可以将计算成本降低46.5%,准确性损失可以忽略不计。

  • 清华&北航提出的SkipcrossNets模型也达到了类似的效果,能够自适应地结合LiDAR点云和摄像机图像,而不受特定融合时期的限制。

除以上两种方法以外,还有一些值得关注的动态多模态融合相关成果7篇。我也都整理了,附上开源代码。另外为了让大家对多模态融合前沿思路有全面的了解,我还准备了2024最新19个融合创新方法,主要有联合自回归汇合框架、多任务模型融合、渐进式融合、正交序列融合等。

论文原文以及开源代码需要的同学看文末

DynMM模型

Dynamic Multimodal Fusion

方法:论文提出一种动态多模态融合(DynMM)的方法,该方法能够自适应地融合多模态数据,并在推理过程中生成数据相关的前向路径。通过引入一个门控函数来提供基于多模态特征的模态级或融合级的实时决策,并提出了一个资源感知的损失函数来鼓励计算效率。在各种多模态任务上的结果表明了该方法的高效性和广泛适用性。

创新点:

  • 动态多模态融合(DynMM)是一种新的方法,它根据输入数据自适应地融合多个模态的信息。与静态多模态架构相比,DynMM具有减少计算量、提高表示能力和鲁棒性的优势。

  • DynMM通过动态融合实现了对“简单”输入的计算节省,这些输入可以仅使用部分模态或简单的融合操作进行正确预测。对于“困难”的多模态输入,DynMM可以通过依赖所有模态和复杂的融合操作来实现与静态网络相同的表示能力。

  • DynMM的设计灵感来自于多模态数据的自然冗余性,它提供了一种不同于现有工作的视角。在模态级别和融合级别上,DynMM采用渐进融合的方式,根据每个输入选择一部分或全部模态进行预测,并提供了关于融合操作的样本级决策。这种动态架构在“简单”输入上节省了计算量,在“困难”输入上实现了更好的性能。

多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计_第1张图片

SkipcrossNets模型

SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

方法:论文提出了一种新颖的融合架构,称为skip-cross网络(SkipcrossNets),用于自动驾驶中的多模态融合。该网络通过逐层连接两个模态的特征图,实现了自适应地融合LiDAR点云和相机图像。通过这种策略,可以选择两个数据流中最相似的特征层,为稀疏点云特征提供补充效果。此外,网络还被分为多个块,以减少特征融合的复杂性和模型参数的数量。

创新点:

  • 提出了一种新颖的跳跃交叉融合策略,用于在双流网络的每一层进行融合,并自适应地选择最佳融合周期,而不仅仅发生在特定的时期。这种策略增强了特征传播和多模态特征融合,为稀疏点云特征提供了互补效果。

  • 将激光雷达投影到图像平面上生成高度差异图像,以更好地区分道路区域并减少由空间差异引起的融合问题。这种方法提高了道路检测的准确性和性能。

  • 所提出的模型体积小且速度快,适用于处理稀疏点云数据,更适合满足自动驾驶的实际需求。

多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计_第2张图片

其他创新方法

Provable Dynamic Fusion for Low-Quality Multimodal Data

方法:论文提出了一种新颖的质量感知多模态融合(QMF)框架,该框架利用基于能量的不确定性来表征每个模态的质量。作者通过理论分析和实验证明了动态融合方法的优势和条件,并提出了QMF方法作为一种具有更好泛化能力的动态多模态融合方法。

创新点:

  • 该论文提出了一种新的动态多模态融合方法,名为Quality-aware Multimodal Fusion (QMF),用于实现可靠的多模态融合。

  • 该方法利用基于能量的不确定性来表征每个模态的质量,从而提高了动态融合的泛化能力。

  • 通过理论分析和实验证明,动态融合的泛化能力与不确定性估计的性能相一致,为设计和评估新的动态融合算法提供了原则。

多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计_第3张图片

Adaptive Multi-Modalities Fusion in Sequential Recommendation Systems

方法:本文提出了一种基于图的多模态特征融合方法,名为MMSR。MMSR将每个用户的行为历史表示为一个图,其中每个物品的多模态特征表示为交叉链接的节点。图中的同质节点之间的边表示内部模态的顺序关系,异质节点之间的边表示模态之间的相互依赖关系。MMSR通过双重注意力在图传播过程中区分同质和异质邻居节点。为了自适应地分配节点的融合顺序,MMSR允许每个节点的表示通过更新门异步更新。

创新点:

  • 作者提出了一种图形构建方法,通过创建组合嵌入来表示节点,将节点表示为较小组的组合。这种方法通过将模态特征进行聚类并选择聚类中心的标识符作为模态代码来构建图形。

  • 作者提出了一种双重注意力函数的图聚合方法,用于区分同质和异质节点之间的相关性。这利用基于内容的注意力和键值注意力进行测量。此外,作者还提出了一种非侵入式传播方法,允许同质和异质邻居相互影响,但不会产生破坏性的干扰。

  • 作者提出了一种图更新方法,每个节点通过更新门自适应地选择融合顺序。这意味着每个节点可以决定是先融合异质信息,然后再融合同质信息,还是反之。

多模态融合颠覆式创新!计算成本直降46.5%,准确性损失忽略不计_第4张图片

关注下方《学姐带你玩AI》

回复“融合创新”获取论文+代码

码字不易,欢迎大家点赞评论收藏

你可能感兴趣的:(深度学习干货,人工智能干货,深度学习,机器学习,人工智能,论文)