AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.25-2024.08.01

文章目录~

  • 1.Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs
  • 2.MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment
  • 3.MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection
  • 4.MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
  • 5.SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition
  • 6.Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning
  • 7.Image Re-Identification: Where Self-supervision Meets Vision-Language Learning
  • 8.Diffusion Feedback Helps CLIP See Better
  • 9.Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning
  • 10.ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2
  • 11.Image-text matching for large-scale book collections
  • 12.Harnessing Large Vision and Language Models in Agriculture: A Review
  • 13.XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training
  • 14.GP-VLS: A general-purpose vision language model for surgery
  • 15.IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment
  • 16.BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
  • 17. X \mathbb{X} X-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs
  • 18.Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models
  • 19.Shapley Value-based Contrastive Alignment for Multimodal Information Extraction
  • 20.Unified Lexical Representation for Interpretable Visual-Language Alignment
  • 21.Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning

1.Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs

标题:更多关注图像:缓解低视力语言障碍患者幻觉的免训练方法

author:Shi Liu, Kecheng Zheng, Wei Chen

date Time:2024-07-31

paper pdf:http://arxiv.org/pdf/2407.21771v1

摘要
现有的大型视觉语言模型(LVLMs)主要是将视觉编码器的图像特征与大型语言模型(LLMs)相匹配,以利用其卓越的文本生成能力。然而,视觉编码器和语言模型之间的规模差异可能会导致 LLM 在多模态理解中占据主导地位。LVLMs 的这种不平衡可能会导致幻觉的出现。具体来说,无论是否有视觉输入,LVLM 都能生成一致的描述,这表明某些输出完全受上下文文本的影响。我们将这种现象称为 “文本惯性”。为了解决这个问题,我们引入了一种无需训练的算法,以找到图像理解和语言推理之间的平衡点。具体来说,我们会自适应地调整和放大分配给图像标记的注意力权重,从而使视觉元素更加突出。同时,我们将多模态输入的对数从纯文本输入的对数中减去,这有助于 LVLM 不偏向于 LLM。通过增强图像标记和减少 LLM 的顽固输出,我们可以让 LVLM 更多地关注图像,从而缓解文本惰性,减少 LVLM 的幻觉。我们的大量实验表明,从不同的指标来看,这种方法大大降低了各种 LVLM 中幻觉输出的频率。项目页面见 https://lalbj.github.io/projects/PAI/。

2.MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment

标题:MTA-CLIP:语言引导的语义分割与掩码-文本对齐

author:Anurag Das, Xinting Hu, Li Jiang, Bernt Schiele

publish:accepted at ECCV 2024

date Time:2024-07-31

paper pdf:http://arxiv.org/pdf/2407.21654v1

摘要
最近的研究表明,大规模视觉语言模型(如 CLIP)可以提高语义分割性能。这些方法通常以像素级视觉语言对齐为目标,但往往依赖于 CLIP 的低分辨率图像特征,从而导致边界上的类别模糊。此外,CLIP 文本嵌入中的全局场景表征与局部和详细的像素级特征并不直接相关,这使得有意义的配准变得更加困难。为了解决这些局限性,我们引入了 MTA-CLIP,这是一种采用遮罩级视觉语言配准的新型框架。具体来说,我们首先提出了掩码-文本解码器,利用丰富的文本数据和 CLIP 语言模型增强掩码表示。随后,它利用掩码到文本对比学习(Mask-to-Text Contrastive Learning)将掩码表示与文本嵌入对齐。此外,我们还引入了掩码文本提示学习(MaskText Prompt Learning),利用文本嵌入的多种特定语境提示来捕捉不同掩码的不同类别表征。总体而言,MTA-CLIP 达到了最先进的水平,在标准基准数据集 ADE20k 和 Cityscapes 上分别比之前的研究成果平均高出 2.8% 和 1.3%。

3.MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection

标题:MarvelOVD:结合物体识别和视觉语言模型,实现稳健的开放词汇物体检测

author:Kuo Wang, Lechao Cheng, Weikai Chen, Pingping Zhang, Liang Lin, Fan Zhou, Guanbin Li

publish:Codes are available at https://github.com/wkfdb/MarvelOVD

date Time:2024-07-31

paper pdf:http://arxiv.org/pdf/2407.21465v1

摘要
在最近的研究中,利用VLMs(视觉语言模型)生成的伪标签进行学习已被证明是辅助开放词汇检测(OVD)的一种有前途的解决方案。然而,由于 VLM 与视觉检测任务之间的领域差距,VLM 生成的伪标签容易产生噪声,而检测器的训练设计则进一步扩大了偏差。在这项工作中,我们研究了 VLM 在 OVD 环境下产生偏差预测的根本原因。通过观察,我们提出了一个简单而有效的范例–编码为 MarvelOVD,它能生成明显更好的训练目标,并通过将检测器的能力与视觉语言模型相结合,以在线方式优化学习过程。我们的主要见解是,检测器本身可以充当强有力的辅助指导,以解决视觉语言模型无法同时理解图像中某个建议的 "背景 "和上下文的问题。在此基础上,我们通过在线挖掘(Online Mining)极大地净化了噪声伪标签,并提出了自适应重加权(Adaptive Reweighting)技术,以有效抑制与目标对象不完全一致的有偏差的训练框。此外,我们还发现了一个被忽视的 "基础-新颖-冲突 "问题,并引入分层标签分配来防止该问题。在 COCO 和 LVIS 数据集上进行的大量实验表明,我们的方法明显优于其他先进方法。代码见 https://github.com/wkfdb/MarvelOVD

4.MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

标题:MMTrail:带有语言和音乐描述的多模态预告片视频数据集

author:Xiaowei Chi, Yatian Wang, Aosong Cheng, Pengjun Fang, Zeyue Tian, Yingqing He, Zhaoyang Liu, Xingqun Qi, Jiahao Pan, Rongyu Zhang, Mengfei Li, Ruibin Yuan, Yanbing Jiang, Wei Xue, Wenhan Luo, Qifeng Chen, Shanghang Zhang, Qifeng Liu, Yike Guo

publish:15 Pages. Dataset report

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20962v1

摘要
海量多模态数据集在促进大型视频语言模型取得成功方面发挥着重要作用。然而,目前的视频语言数据集主要提供视觉帧的文本描述,将音频视为弱相关信息。它们通常忽略了对固有视听相关性潜力的挖掘,导致每种模式下的注释单调乏味,而不是全面而精确的描述。这种无知导致了多种跨模态研究的困难。为了填补这一空白,我们推出了 MMTrail,这是一个大规模的多模态视频语言数据集,包含 2,000 多万个带视觉字幕的预告片片段和 200 万个带多模态字幕的高质量片段。预告片预览了完整的视频作品,并整合了上下文、视觉框架和背景音乐。其中,预告片有两大优势:(1) 主题多样,内容角色类型多样,如电影、新闻和游戏。(2)相应的背景音乐是定制设计的,使其与视觉背景更加协调。基于这些见解,我们提出了一个系统性字幕框架,通过超过 27.1k 小时的预告片视频实现了各种模式注释。在此,为了确保字幕保留音乐视角,同时维护视觉语境的权威性,我们利用先进的 LLM 自适应合并所有注释。通过这种方式,我们的 MMtrail 数据集有可能为精细化的大型多模态语言模型训练铺平道路。在实验中,我们提供了数据集的评估指标和基准结果,证明了我们标注的高质量及其对模型训练的有效性。

5.SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition

标题:SSPA:针对多标签图像识别的带选取对齐的拆分合成提示法

author:Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei, Stan Z. Li

publish:13 pages, 8 figures

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20920v1

摘要
多标签图像识别是计算机视觉领域的一项基本任务。最近,视觉语言模型(VLM)在这一领域取得了显著进展。然而,以前的方法无法有效利用语言模型中的丰富知识,而且往往是单向地将标签语义纳入视觉特征。为了克服这些问题,我们提出了一种 “带选取对齐的拆分合成提示”(SSPA)框架,以扩大 VLM 的潜力。具体来说,我们开发了一种上下文学习方法,将 LLMs 中的固有知识联系起来。然后,我们提出了一种新颖的拆分合成提示(SSP)策略,首先对通用知识和下游标签语义进行单独建模,然后通过四元数网络对它们进行仔细聚合。此外,我们还提出了门控双模态对齐(GDMA),在消除冗余的跨模态信息的同时,实现视觉和语言模态的双向互动,从而实现更高效的区域级对齐。我们提出了一种软聚合器来共同考虑来自所有图像区域的结果,而不是像以前的工作那样以尖锐的方式进行最终预测。借助灵活的提示和门控配准,SSPA 可适用于特定领域。在三个领域(即自然、行人属性和遥感)的九个数据集上进行的广泛实验证明了 SSPA 的一流性能。进一步的分析验证了 SSP 的有效性和 GDMA 的可解释性。代码将对外公布。

6.Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

标题:扩散增强型代理:高效探索和迁移学习框架

author:Norman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

publish:Published at 3rd Conference on Lifelong Learning Agents (CoLLAs),
2024

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20798v1

摘要
我们介绍了扩散增强型代理(DAAG),这是一种新型框架,它利用大型语言模型、视觉语言模型和扩散模型来提高样本效率,并在强化学习中为具身代理提供迁移学习。DAAG 利用扩散模型,以时间和几何上一致的方式转换视频,从而与目标指令保持一致,我们称之为 “后视经验增强”(Hindsight Experience Augmentation)技术。大型语言模型可协调这一自主过程,无需人工监督,因此非常适合终身学习场景。该框架减少了以下工作所需的奖励标记数据量:1)微调充当奖励检测器的视觉语言模型;2)在新任务中训练 RL 代理。我们在涉及操纵和导航的模拟机器人环境中演示了 DAAG 的样本效率收益。我们的结果表明,DAAG 提高了奖励检测器的学习能力、过去经验的迁移能力和新任务的获取能力–这是开发高效终身学习代理的关键能力。补充材料和可视化效果可在我们的网站 https://sites.google.com/view/diffusion-augmented-agents/ 上获取。

7.Image Re-Identification: Where Self-supervision Meets Vision-Language Learning

标题:图像再识别:自我监督与视觉语言学习的完美结合

author:Bin Wang, Yuying Liang, Lei Cai, Huakun Huang, Huanqiang Zeng

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20647v1

摘要
最近,像 CLIP 这样的大规模视觉语言预训练模型在图像再识别(ReID)方面表现出了令人印象深刻的性能。在这项工作中,我们探讨了自我监督能否帮助 CLIP 用于图像再识别任务。具体来说,我们提出了 SVLL-ReID,首次尝试通过两个训练阶段将自我监督和预训练的 CLIP 整合在一起,以促进图像再识别。我们发现1) 在第一个训练阶段加入语言自监督可以使可学习的文本提示更具区分度;2) 在第二个训练阶段加入视觉自监督可以使图像编码器学习到的图像特征更具区分度。这些观察结果意味着1)第一阶段的文本提示学习可以从语言自我监督中获益;2)第二阶段的图像特征学习可以从视觉自我监督中获益。这些优势共同促进了 SVLL-ReID 的性能提升。通过在六个没有任何具体文本标签的图像 ReID 基准数据集上进行实验,我们发现所提出的 SVLL-ReID 与同行相比取得了最佳性能。代码将在 https://github.com/BinWangGzhu/SVLL-ReID 公开。

8.Diffusion Feedback Helps CLIP See Better

标题:扩散反馈帮助 CLIP 看得更清楚

author:Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.20171v1

摘要
对比语言-图像预训练(CLIP)擅长跨领域和跨模态抽象出开放世界的表征,已成为各种视觉和多模态任务的基础。然而,最近的研究发现,CLIP 存在严重的视觉缺陷,如难以区分方位、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 建立的多模态大型语言模型(MLLM)的感知能力。主要原因可能是用于训练 CLIP 的图像-文本对本身就存在偏差,这是因为文本缺乏独特性,而图像又具有多样性。在这项工作中,我们为 CLIP 模型提出了一种简单的后训练方法,通过自监督扩散过程在很大程度上克服了其视觉缺陷。我们介绍的 DIVA 将 DIffusion 模型用作 CLIP 的视觉助手。具体来说,DIVA 利用文本到图像扩散模型的生成反馈来优化 CLIP 表示法,只使用图像(没有相应的文本)。我们证明,DIVA 能在很大程度上(例如 3-7%)提高 CLIP 在具有挑战性的 MMVP-VLM 基准(该基准评估细粒度视觉能力)上的性能,并增强 MLLM 和视觉模型在多模态理解和分割任务上的性能。在 29 个图像分类和检索基准上进行的广泛评估证实,我们的框架保留了 CLIP 强大的零镜头能力。代码可在 https://github.com/baaivision/DIVA 上获取。

9.Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

标题:Diffusion-DICE:离线强化学习的样本内扩散指导

author:Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan, Amy Zhang

publish:Preprint, under review

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.20109v1

摘要
分布修正估计(DICE)方法的一个重要特性是,其解决方案是优化政策与数据收集政策之间的最优静态分布比。在这项工作中,我们证明了基于 DICE 的方法可被视为从行为分布到最优策略分布的转换。在此基础上,我们提出了一种新颖的方法,即 Diffusion-DICE,它可以直接使用扩散模型进行这种转换。我们发现,最优政策的得分函数可分解为两个项:行为政策的得分函数和取决于最优分配比例的引导项的梯度。第一项可以通过在数据集上训练的扩散模型获得,我们提出了一个样本内学习目标来学习第二项。由于最优策略分布中包含多种模式,Diffusion-DICE 中的转换可能会对这些局部最优模式产生指导作用。因此,我们会生成一些候选行动,并从中精心挑选出接近全局最优的行动。与所有其他基于扩散的离线 RL 方法不同,Diffusion-DICE 中的 "引导-选择 "范式只使用样本中的行动进行训练,从而将价值函数中的误差利用率降到最低。我们用一个典型的玩具案例来说明以前的基于扩散的方法是如何利用这些误差而无法生成最佳行动的,以及 Diffusion-DICE 是如何成功避免这种情况的。然后,我们在基准数据集上进行了大量实验,展示了 Diffusion-DICE 的强大性能。

10.ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2

标题:ML-Mamba:利用 Mamba-2 的高效多模态大语言模型

author:Wenjun Huang, Jianguo Hu

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.19832v1

摘要
多模态大语言模型(MLLM)因其多功能性而备受关注。然而,传统的 Transformer 架构由于其二次计算的复杂性而产生了巨大的开销。为了解决这个问题,我们引入了 ML-Mamba,这是一种利用最新、高效的 Mamba-2 模型进行推理的多模态语言模型。Mamba-2 以线性扩展和快速处理长序列而著称。我们用预先训练好的 Mamba-2 模型取代了基于 Transformer 的骨干模型,并探索了将二维视觉选择性扫描机制整合到多模态学习中的方法。我们还尝试了各种视觉编码器和 Mamba-2 模型变体。我们在各种多模态基准测试中进行了大量实验,证明了 ML-Mamba 的性能极具竞争力,并凸显了状态空间模型在多模态任务中的潜力。实验结果表明(1) ML-Mamba通过线性顺序建模达到了与TinyLaVA和MobileVLM v2等最先进方法相当的性能,同时还具有更快的推理速度;(2) ML-Mamba在封闭集基准测试中的视觉幻觉和空间关系判断中表现良好;(3) ML-Mamba在参数数量减少40%的情况下达到了与LLaVA相当的性能。(4)与使用原始Mamba模型的多模态模型相比,基于Mamba-2的大规模多模态语言模型具有更强的推理性能和有效性。

11.Image-text matching for large-scale book collections

标题:大规模藏书的图像-文本匹配

author:Artemis Llabrés, Arka Ujjal Dey, Dimosthenis Karatzas, Ernest Valveny

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.19812v1

摘要
我们要解决的问题是检测图像集合中的所有图书并将其映射到给定图书目录中的条目。我们没有对检测到的每本书进行独立检索,而是将图像-文本映射问题视为多对多匹配过程,寻找两组图像之间的最佳整体匹配。我们结合最先进的分割方法(SAM)来检测书脊,并使用商业 OCR 提取图书信息。然后,我们提出了一种两阶段的文本-图像匹配方法,首先使用 CLIP 嵌入进行快速匹配,然后使用匈牙利算法或基于 BERT 训练的模型来完善匹配,以应对嘈杂的 OCR 输入和部分文本匹配。为了评估我们的方法,我们发布了一个新的书架图像注释数据集,该数据集涵盖了西班牙一家公共图书馆的全部藏书。此外,我们还提供了两个图书元数据的目标列表,一个是与已知图书馆库存相对应的由 1.5 万种图书组成的封闭集,另一个是模拟开放世界场景的由 230 万种图书组成的开放集。我们报告了两种情况下的结果,一种是纯匹配任务,即给出图书片段和 OCR,目标是根据目标列表进行多对多匹配;另一种是检测和匹配相结合的任务,即在将图书与目标列表条目进行匹配之前,必须首先对图书进行检测和识别。我们的研究表明,匈牙利匹配法和基于 BERT 的拟议模型都优于模糊字符串匹配基准,我们还强调了随着目标规模的扩大,以及当两个集合(检测到的图书或目标图书列表)中的任何一个不完整时,匹配算法的固有局限性。数据集和代码见 https://github.com/llabres/library-dataset。

12.Harnessing Large Vision and Language Models in Agriculture: A Review

标题:在农业中利用大型视觉和语言模型:综述

author:Hongyan Zhu, Shuai Qin, Min Su, Chengzhi Lin, Anjie Li, Junfeng Gao

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.19679v1

摘要
大型模型可以在许多领域发挥重要作用。农业是影响全世界人民生活的另一个关键因素。它为人类提供食物、织物和煤炭。然而,面对病虫害、土壤退化、全球变暖和粮食安全等诸多挑战,如何稳步提高农业产量仍是人类亟待解决的问题。大型模型可以通过检测病虫害、土壤质量和种子质量等一系列农业生产任务,帮助农民提高生产效率和收成。它还可以通过图像、文本等各种信息帮助农民做出明智的决策。在此,我们将深入探讨大型模型在农业领域的潜在应用,从大型语言模型(LLM)、大型视觉模型(LVM)到大型视觉语言模型(LVLM)。在深入了解多模态大型语言模型(MLLM)之后,我们可以认识到,农业图像处理、农业问题解答系统和农业机械自动化等问题都可以通过大型模型来解决。大型模型在农业领域有着巨大的潜力。我们概述了当前农业大型模型的应用,旨在强调大型模型在农业领域的重要性。最后,我们展望未来,农民们将使用 MLLM 完成农业中的许多任务,从而大大提高农业生产效率和产量。

13.XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training

标题:XLIP:用于医学语言图像预培训的跨模态注意力屏蔽模型

author:Biao Wu, Yutong Xie, Zeyu Zhang, Minh Hieu Phan, Qi Chen, Ling Chen, Qi Wu

date Time:2024-07-28

paper pdf:http://arxiv.org/pdf/2407.19546v1

摘要
医学领域的视觉语言预训练(VLP)利用图像-文本对的对比学习来实现跨任务的有效迁移。然而,目前采用遮蔽建模策略的 VLP 方法在应用于医学领域时面临两个挑战。首先,由于医疗数据的匮乏,目前的模型难以准确重建关键病理特征。其次,大多数方法只采用成对的图像-文本数据或纯图像数据,无法利用成对和非成对数据的组合。为此,本文提出了一个 XLIP(Masked modelling for medical Language-Image Pre-training)框架,通过非配对数据加强病理学习和特征学习。首先,我们介绍了注意力屏蔽图像建模(AttMIM)和实体驱动屏蔽语言建模模块(EntMLM),通过多模态特征交互学习重建病理视觉和文本标记,从而改进医疗增强特征。AttMIM 模块会屏蔽一部分对文本特征反应强烈的图像特征。这使得 XLIP 能够提高重建高度相似图像数据的医学效率。其次,我们的 XLIP 利用非配对数据,通过引入疾病种类提示来增强多模态学习。实验结果表明,XLIP 在五个数据集上实现了零镜头和微调分类性能的 SOTA。我们的代码将发布在 https://github.com/White65534/XLIP 网站上。

14.GP-VLS: A general-purpose vision language model for surgery

标题:GP-VLS:用于外科手术的通用视觉语言模型

author:Samuel Schmidgall, Joseph Cho, Cyril Zakka, William Hiesinger

date Time:2024-07-27

paper pdf:http://arxiv.org/pdf/2407.19305v1

摘要
外科手术需要全面的医学知识、视觉评估技能和程序专业知识。虽然最近的手术人工智能模型都集中在解决特定任务的问题上,但仍需要能理解手术场景并通过自然语言进行交互的通用系统。本文介绍了 GP-VLS,这是一种用于外科手术的通用视觉语言模型,它将医学和外科知识与视觉场景理解融为一体。为了全面评估通用手术模型,我们提出了 SurgiQual,它可以评估医学和手术知识基准以及手术视觉语言问题。为了训练 GP-VLS,我们开发了六个新的数据集,涵盖医学知识、外科教科书和视觉语言对,用于相位识别和工具识别等任务。我们的研究表明,在外科视觉语言任务方面,GP-VLS 的表现明显优于现有的开源和闭源模型,在 SurgiQual 基准中的准确率提高了 8-21%。与其他开源模型相比,GP-VLS 在医学和外科知识测试中也表现出了强劲的性能。总之,GP-VLS 为开发人工智能助手提供了开源基础,可在各种任务和场景中为外科医生提供支持。

15.IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment

标题:IBMEA:探索多模态实体对齐的变异信息瓶颈

author:Taoyu Su, Jiawei Sheng, Shicheng Wang, Xinghua Zhang, Hongbo Xu, Tingwen Liu

publish:Accepted by ACM MM 2024

date Time:2024-07-27

paper pdf:http://arxiv.org/pdf/2407.19302v1

摘要
多模态实体配准(MMEA)旨在识别多模态知识图谱(MMKG)之间的等效实体,其中实体可与相关图像关联。大多数现有研究在整合多模态信息时都严重依赖自动学习的融合模块,很少明确抑制 MMEA 的冗余信息。为此,我们探索了多模态实体配准(IBMEA)的变异信息瓶颈,在生成实体表征时强调配准相关信息,抑制配准无关信息。具体来说,我们设计了多模态变异编码器,以概率分布的形式生成特定模态的实体表征。然后,我们提出了四种特定模态信息瓶颈正则,在完善特定模态实体表征时限制了误导线索。最后,我们提出了一种模态混合信息对比正则器,用于整合所有精炼的特定模态表征,增强 MMKG 之间的实体相似性,从而实现 MMEA。我们在两个跨 KG 和三个双语 MMEA 数据集上进行了广泛的实验。实验结果表明,我们的模型始终优于之前的先进方法,而且在低资源和高噪声数据场景下也表现出了良好的稳健性。

16.BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation

标题:BCTR: 用于场景图生成的双向调节变压器

author:Peng Hao, Xiaobing Wang, Yingying Jiang, Hanchao Jia, Xiaoshuai Hao

publish:9 pages, 3 figures

date Time:2024-07-26

paper pdf:http://arxiv.org/pdf/2407.18715v1

摘要
由于场景图生成(SGG)的构成特性,它仍然是一项具有挑战性的任务。以往的方法通过端到端的学习方式提高预测效率。然而,这些方法的性能有限,因为它们假定实体和谓词之间存在单向调节,导致信息交互不足。为了解决这一局限性,我们提出了一种新颖的 SGG 双向条件因式分解,引入了实体和谓词之间的高效交互。具体来说,我们开发了一种端到端场景图生成模型–双向条件转换器(Bidirectional Conditioning Transformer,BCTR)来实现我们的因式分解。BCTR 由两个关键模块组成。首先,双向条件生成器(Bidirectional Conditioning Generator,BCG)可促进实体和谓词之间的多阶段交互式特征增强,从而实现两种预测之间的互惠互利。其次,随机特征对齐(RFA)通过从预先训练的模型中提炼多模态知识来规范特征空间,从而增强了 BCTR 在不依赖统计先验的情况下处理有尾类别的能力。我们在 Visual Genome 和 Open Image V6 上进行了一系列实验,证明 BCTR 在这两个基准上都达到了最先进的性能。代码将在论文被接受后提供。

17. X \mathbb{X} X-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs

标题: m a t h b b X mathbb{X} mathbbX 样本对比损失:利用样本相似性图谱改进对比学习

author:Vlad Sobal, Mark Ibrahim, Randall Balestriero, Vivien Cabannes, Diane Bouchacourt, Pietro Astolfi, Kyunghyun Cho, Yann LeCun

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.18134v1

摘要
学习良好的表征需要捕捉数据样本相关的各种方式。对比损失(Contrastive loss)是匹配相关样本的一种客观方法,是自我监督学习和多模态学习等方法的基础。然而,对比损失可以更广泛地看作是对相似性图的修改,以指出样本在嵌入空间中的关联方式。这种观点揭示了对比学习的一个缺陷:相似性图是二元的,因为只有一个样本是相关的正样本。最重要的是,样本之间的相似性被忽略了。基于这一观察结果,我们修改了标准对比损失,以明确编码样本与其他样本之间的关系。我们尝试使用这个名为 X \mathbb{X} X-Sample Contrastive 的新目标来训练基于类或文本标题描述相似性的视觉模型。我们的研究横跨三个尺度:ImageNet-1k(100 万样本)、CC3M(300 万样本)和 CC12M(1200 万样本)。在一系列任务中,通过我们的目标学习到的表征优于对比性自我监督模型和在相同数据上训练的视觉语言模型。在 CC12M 上进行训练时,我们在 ImageNet 和 ImageNet Real 上的表现比 CLIP 高出 0.6 美元。我们的目标似乎在较低数据量的情况下效果尤为显著,当使用 CC3M 进行训练时,我们在 ImageNet 上比 CLIP 高出 16.8 美元,在 ImageNet Real 上比 CLIP 高出 18.1 美元。最后,我们的目标似乎鼓励模型学习将物体从其属性和背景中分离出来的表征,在 ImageNet9 上比 CLIP 提高了 3.3 美元-5.6 美元/%。我们希望所提出的解决方案能为开发更丰富的学习目标迈出一小步,以便理解基础模型中的样本关系。

18.Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models

标题:用视觉和语言模型模拟人类概念处理中的多模态整合

author:Anna Bavaresco, Marianne de Heer Kloots, Sandro Pezzelle, Raquel Fernández

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17914v1

摘要
事实证明,深度神经网络(DNN)的表征对视觉和语言处理过程中的神经活动都有很好的预测性。尽管取得了这些成功,但迄今为止的大多数研究涉及的都是单模态 DNNs,只能对视觉或文字输入进行编码,而不能同时对两者进行编码。然而,越来越多的证据表明,人类的意义表征整合了语言和感觉运动信息。在此,我们研究了当前的视觉-语言 DNN 模型(VLMs)对多模态信息的整合是否会产生比纯语言和纯视觉 DNNs 更符合人类大脑活动的表征。我们重点研究了参与者在阅读完整句子或配图中的概念词时记录的 fMRI 反应。我们的研究结果表明,与纯语言和纯视觉 DNN 相比,VLM 表征与语言处理功能相关脑区的激活相关性更强。对不同类型的视觉-语言架构进行比较后发现,最近的生成式 VLM 与以前的架构相比,大脑对齐程度较低,在下游应用中的表现也较差。此外,通过对多个 VLM 的大脑与行为一致性进行额外的分析比较,我们发现–除了一个显著的例外–与行为判断高度一致的表征与大脑反应的相关性并不高。这表明大脑的相似性与行为的相似性并不一致,反之亦然。

19.Shapley Value-based Contrastive Alignment for Multimodal Information Extraction

标题:基于 Shapley 值的多模态信息提取对比对齐

author:Wen Luo, Yu Xia, Shen Tianshu, Sujian Li

publish:Accepted at ACM Multimedia 2024

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17854v1

摘要
随着社交媒体的兴起和多模态通信的指数级增长,有必要采用先进的多模态信息提取(MIE)技术。然而,现有的方法主要依赖于图像与文本之间的直接交互,由于图像与文本之间存在语义和模态鸿沟,这种范式往往面临着巨大的挑战。在本文中,我们引入了一种图像-上下文-文本交互的新范式,即利用大型多模态模型(LMM)生成描述性文本上下文,以弥合这些差距。根据这一范例,我们提出了一种新颖的基于 Shapley 值的对比对齐(Shap-CA)方法,该方法可对齐上下文和上下文-图像对。Shap-CA 首先应用合作博弈论中的 Shapley 值概念,评估上下文、文本和图像集合中每个元素对总语义和模态重叠的贡献。在进行定量评估后,我们采用对比学习策略来增强语境-文本-图像配对中的交互贡献,同时尽量减少这些配对之间的影响。此外,我们还设计了一个自适应融合模块,用于选择性跨模态融合。在四个 MIE 数据集上进行的广泛实验表明,我们的方法明显优于现有的最先进方法。

20.Unified Lexical Representation for Interpretable Visual-Language Alignment

标题:统一词法表示法,实现可解释的可视语言对齐

author:Yifan Li, Yikai Wang, Yanwei Fu, Dongyu Ru, Zheng Zhang, Tong He

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17827v1

摘要
自 CLIP 的开创性工作以来,视觉语言配准(VLA)获得了广泛关注。虽然 CLIP 表现出色,但典型的直接潜在特征配准在其表示和相似性得分方面缺乏清晰度。另一方面,词法表示是一个向量,其元素代表样本与词汇表中某个单词之间的相似度,是一种自然的稀疏表示,并且可以解释,提供单个单词的精确匹配。然而,由于没有地面实况监督和虚假发现问题,词法表示很难学习,因此需要复杂的设计才能有效训练。在本文中,我们介绍了 LexVLA,这是一种可解释性更强的 VLA 框架,它无需复杂的设计即可学习两种模式的统一词性表示。我们使用 DINOv2 作为我们的视觉模型,因为它具有局部倾向特征;我们还使用 Llama 2 作为生成语言模型,因为它具有上下文词汇预测能力。为了避免错误发现,我们提出了过度使用惩罚措施,以避免词性表征错误地频繁激活无意义的单词。我们证明,通过在适度的多模态数据集上进行微调,这两个预先训练好的单模态模型可以很好地保持一致,并避免复杂的训练配置。在跨模态检索基准上,在 CC-12M 多模态数据集上训练的 LexVLA 优于在更大数据集(如 YFCC15M)上微调的基准,也优于在更大数据集(如 1.1B 数据,包括 CC-12M)上从头开始训练的基准。我们进行了大量实验来分析 LexVLA。

21.Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning

标题:提高模型性能:视觉语言指令调整的另一种方法

author:Vedanshu, MM Tripathi, Bhavnesh Jaint

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17813v1

摘要
大型语言模型(LLM)与视觉语言(VL)任务的整合是人工智能领域的一个变革性发展,凸显了 LLM 作为多功能通用聊天机器人的潜力。然而,这一发展的当前趋势侧重于视觉与语言的整合,以创建可在更多样化的真实世界环境中运行的模型。我们提出了一种名为 “瓶颈适配器”(Bottleneck Adapter)的新方法,专门用于增强这些复杂模型的多模态功能,通过多模态模型调整(Multimodal Model Tuning,MMT)过程对整个多模态 LLM 框架进行联合优化。我们的方法利用轻量级适配器连接图像编码器和 LLM,无需大型复杂的神经网络。与传统的模块化训练方案不同,我们的方法采用了端到端的优化机制,与适配器相结合,可以使用更小的参数集进行联合优化。我们的方法表现出强劲的性能,准确率达到90.12%,优于人类水平(88.4%)和LaVIN-7B(89.41%)。

你可能感兴趣的:(VLM论文时报,人工智能,语言模型,自然语言处理,VLM,大语言模型,计算机视觉,视觉语言模型)