小小帅AIGC

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01

文章目录～

1.Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs
2.MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment
3.MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection
4.MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
5.SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition
6.Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning
7.Image Re-Identification: Where Self-supervision Meets Vision-Language Learning
8.Diffusion Feedback Helps CLIP See Better
9.Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning
10.ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2
11.Image-text matching for large-scale book collections
12.Harnessing Large Vision and Language Models in Agriculture: A Review
13.XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training
14.GP-VLS: A general-purpose vision language model for surgery
15.IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment
16.BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
17. $\mathbb{X}$ -Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs
18.Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models
19.Shapley Value-based Contrastive Alignment for Multimodal Information Extraction
20.Unified Lexical Representation for Interpretable Visual-Language Alignment
21.Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning

1.Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs

标题:更多关注图像：缓解低视力语言障碍患者幻觉的免训练方法

author:Shi Liu, Kecheng Zheng, Wei Chen

date Time:2024-07-31

paper pdf:http://arxiv.org/pdf/2407.21771v1

摘要：
现有的大型视觉语言模型（LVLMs）主要是将视觉编码器的图像特征与大型语言模型（LLMs）相匹配，以利用其卓越的文本生成能力。然而，视觉编码器和语言模型之间的规模差异可能会导致 LLM 在多模态理解中占据主导地位。LVLMs 的这种不平衡可能会导致幻觉的出现。具体来说，无论是否有视觉输入，LVLM 都能生成一致的描述，这表明某些输出完全受上下文文本的影响。我们将这种现象称为 “文本惯性”。为了解决这个问题，我们引入了一种无需训练的算法，以找到图像理解和语言推理之间的平衡点。具体来说，我们会自适应地调整和放大分配给图像标记的注意力权重，从而使视觉元素更加突出。同时，我们将多模态输入的对数从纯文本输入的对数中减去，这有助于 LVLM 不偏向于 LLM。通过增强图像标记和减少 LLM 的顽固输出，我们可以让 LVLM 更多地关注图像，从而缓解文本惰性，减少 LVLM 的幻觉。我们的大量实验表明，从不同的指标来看，这种方法大大降低了各种 LVLM 中幻觉输出的频率。项目页面见 https://lalbj.github.io/projects/PAI/。

2.MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment

标题:MTA-CLIP：语言引导的语义分割与掩码-文本对齐

author:Anurag Das, Xinting Hu, Li Jiang, Bernt Schiele

publish:accepted at ECCV 2024

date Time:2024-07-31

paper pdf:http://arxiv.org/pdf/2407.21654v1

摘要：
最近的研究表明，大规模视觉语言模型（如 CLIP）可以提高语义分割性能。这些方法通常以像素级视觉语言对齐为目标，但往往依赖于 CLIP 的低分辨率图像特征，从而导致边界上的类别模糊。此外，CLIP 文本嵌入中的全局场景表征与局部和详细的像素级特征并不直接相关，这使得有意义的配准变得更加困难。为了解决这些局限性，我们引入了 MTA-CLIP，这是一种采用遮罩级视觉语言配准的新型框架。具体来说，我们首先提出了掩码-文本解码器，利用丰富的文本数据和 CLIP 语言模型增强掩码表示。随后，它利用掩码到文本对比学习（Mask-to-Text Contrastive Learning）将掩码表示与文本嵌入对齐。此外，我们还引入了掩码文本提示学习（MaskText Prompt Learning），利用文本嵌入的多种特定语境提示来捕捉不同掩码的不同类别表征。总体而言，MTA-CLIP 达到了最先进的水平，在标准基准数据集 ADE20k 和 Cityscapes 上分别比之前的研究成果平均高出 2.8% 和 1.3%。

3.MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection

标题:MarvelOVD：结合物体识别和视觉语言模型，实现稳健的开放词汇物体检测

author:Kuo Wang, Lechao Cheng, Weikai Chen, Pingping Zhang, Liang Lin, Fan Zhou, Guanbin Li

publish:Codes are available at https://github.com/wkfdb/MarvelOVD

date Time:2024-07-31

paper pdf:http://arxiv.org/pdf/2407.21465v1

摘要：
在最近的研究中，利用VLMs（视觉语言模型）生成的伪标签进行学习已被证明是辅助开放词汇检测（OVD）的一种有前途的解决方案。然而，由于 VLM 与视觉检测任务之间的领域差距，VLM 生成的伪标签容易产生噪声，而检测器的训练设计则进一步扩大了偏差。在这项工作中，我们研究了 VLM 在 OVD 环境下产生偏差预测的根本原因。通过观察，我们提出了一个简单而有效的范例–编码为 MarvelOVD，它能生成明显更好的训练目标，并通过将检测器的能力与视觉语言模型相结合，以在线方式优化学习过程。我们的主要见解是，检测器本身可以充当强有力的辅助指导，以解决视觉语言模型无法同时理解图像中某个建议的 "背景 "和上下文的问题。在此基础上，我们通过在线挖掘（Online Mining）极大地净化了噪声伪标签，并提出了自适应重加权（Adaptive Reweighting）技术，以有效抑制与目标对象不完全一致的有偏差的训练框。此外，我们还发现了一个被忽视的 "基础-新颖-冲突 "问题，并引入分层标签分配来防止该问题。在 COCO 和 LVIS 数据集上进行的大量实验表明，我们的方法明显优于其他先进方法。代码见 https://github.com/wkfdb/MarvelOVD

4.MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

标题:MMTrail：带有语言和音乐描述的多模态预告片视频数据集

author:Xiaowei Chi, Yatian Wang, Aosong Cheng, Pengjun Fang, Zeyue Tian, Yingqing He, Zhaoyang Liu, Xingqun Qi, Jiahao Pan, Rongyu Zhang, Mengfei Li, Ruibin Yuan, Yanbing Jiang, Wei Xue, Wenhan Luo, Qifeng Chen, Shanghang Zhang, Qifeng Liu, Yike Guo

publish:15 Pages. Dataset report

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20962v1

摘要：
海量多模态数据集在促进大型视频语言模型取得成功方面发挥着重要作用。然而，目前的视频语言数据集主要提供视觉帧的文本描述，将音频视为弱相关信息。它们通常忽略了对固有视听相关性潜力的挖掘，导致每种模式下的注释单调乏味，而不是全面而精确的描述。这种无知导致了多种跨模态研究的困难。为了填补这一空白，我们推出了 MMTrail，这是一个大规模的多模态视频语言数据集，包含 2,000 多万个带视觉字幕的预告片片段和 200 万个带多模态字幕的高质量片段。预告片预览了完整的视频作品，并整合了上下文、视觉框架和背景音乐。其中，预告片有两大优势：(1) 主题多样，内容角色类型多样，如电影、新闻和游戏。(2）相应的背景音乐是定制设计的，使其与视觉背景更加协调。基于这些见解，我们提出了一个系统性字幕框架，通过超过 27.1k 小时的预告片视频实现了各种模式注释。在此，为了确保字幕保留音乐视角，同时维护视觉语境的权威性，我们利用先进的 LLM 自适应合并所有注释。通过这种方式，我们的 MMtrail 数据集有可能为精细化的大型多模态语言模型训练铺平道路。在实验中，我们提供了数据集的评估指标和基准结果，证明了我们标注的高质量及其对模型训练的有效性。

5.SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition

标题:SSPA：针对多标签图像识别的带选取对齐的拆分合成提示法

author:Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei, Stan Z. Li

publish:13 pages, 8 figures

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20920v1

摘要：
多标签图像识别是计算机视觉领域的一项基本任务。最近，视觉语言模型（VLM）在这一领域取得了显著进展。然而，以前的方法无法有效利用语言模型中的丰富知识，而且往往是单向地将标签语义纳入视觉特征。为了克服这些问题，我们提出了一种 “带选取对齐的拆分合成提示”（SSPA）框架，以扩大 VLM 的潜力。具体来说，我们开发了一种上下文学习方法，将 LLMs 中的固有知识联系起来。然后，我们提出了一种新颖的拆分合成提示（SSP）策略，首先对通用知识和下游标签语义进行单独建模，然后通过四元数网络对它们进行仔细聚合。此外，我们还提出了门控双模态对齐（GDMA），在消除冗余的跨模态信息的同时，实现视觉和语言模态的双向互动，从而实现更高效的区域级对齐。我们提出了一种软聚合器来共同考虑来自所有图像区域的结果，而不是像以前的工作那样以尖锐的方式进行最终预测。借助灵活的提示和门控配准，SSPA 可适用于特定领域。在三个领域（即自然、行人属性和遥感）的九个数据集上进行的广泛实验证明了 SSPA 的一流性能。进一步的分析验证了 SSP 的有效性和 GDMA 的可解释性。代码将对外公布。

6.Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

标题:扩散增强型代理：高效探索和迁移学习框架

author:Norman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

publish:Published at 3rd Conference on Lifelong Learning Agents (CoLLAs),
2024

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20798v1

摘要：
我们介绍了扩散增强型代理（DAAG），这是一种新型框架，它利用大型语言模型、视觉语言模型和扩散模型来提高样本效率，并在强化学习中为具身代理提供迁移学习。DAAG 利用扩散模型，以时间和几何上一致的方式转换视频，从而与目标指令保持一致，我们称之为 “后视经验增强”（Hindsight Experience Augmentation）技术。大型语言模型可协调这一自主过程，无需人工监督，因此非常适合终身学习场景。该框架减少了以下工作所需的奖励标记数据量：1）微调充当奖励检测器的视觉语言模型；2）在新任务中训练 RL 代理。我们在涉及操纵和导航的模拟机器人环境中演示了 DAAG 的样本效率收益。我们的结果表明，DAAG 提高了奖励检测器的学习能力、过去经验的迁移能力和新任务的获取能力–这是开发高效终身学习代理的关键能力。补充材料和可视化效果可在我们的网站 https://sites.google.com/view/diffusion-augmented-agents/ 上获取。

7.Image Re-Identification: Where Self-supervision Meets Vision-Language Learning

标题:图像再识别：自我监督与视觉语言学习的完美结合

author:Bin Wang, Yuying Liang, Lei Cai, Huakun Huang, Huanqiang Zeng

date Time:2024-07-30

paper pdf:http://arxiv.org/pdf/2407.20647v1

摘要：
最近，像 CLIP 这样的大规模视觉语言预训练模型在图像再识别（ReID）方面表现出了令人印象深刻的性能。在这项工作中，我们探讨了自我监督能否帮助 CLIP 用于图像再识别任务。具体来说，我们提出了 SVLL-ReID，首次尝试通过两个训练阶段将自我监督和预训练的 CLIP 整合在一起，以促进图像再识别。我们发现1) 在第一个训练阶段加入语言自监督可以使可学习的文本提示更具区分度；2) 在第二个训练阶段加入视觉自监督可以使图像编码器学习到的图像特征更具区分度。这些观察结果意味着1）第一阶段的文本提示学习可以从语言自我监督中获益；2）第二阶段的图像特征学习可以从视觉自我监督中获益。这些优势共同促进了 SVLL-ReID 的性能提升。通过在六个没有任何具体文本标签的图像 ReID 基准数据集上进行实验，我们发现所提出的 SVLL-ReID 与同行相比取得了最佳性能。代码将在 https://github.com/BinWangGzhu/SVLL-ReID 公开。

8.Diffusion Feedback Helps CLIP See Better

标题:扩散反馈帮助 CLIP 看得更清楚

author:Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.20171v1

摘要：
对比语言-图像预训练（CLIP）擅长跨领域和跨模态抽象出开放世界的表征，已成为各种视觉和多模态任务的基础。然而，最近的研究发现，CLIP 存在严重的视觉缺陷，如难以区分方位、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 建立的多模态大型语言模型（MLLM）的感知能力。主要原因可能是用于训练 CLIP 的图像-文本对本身就存在偏差，这是因为文本缺乏独特性，而图像又具有多样性。在这项工作中，我们为 CLIP 模型提出了一种简单的后训练方法，通过自监督扩散过程在很大程度上克服了其视觉缺陷。我们介绍的 DIVA 将 DIffusion 模型用作 CLIP 的视觉助手。具体来说，DIVA 利用文本到图像扩散模型的生成反馈来优化 CLIP 表示法，只使用图像（没有相应的文本）。我们证明，DIVA 能在很大程度上（例如 3-7%）提高 CLIP 在具有挑战性的 MMVP-VLM 基准（该基准评估细粒度视觉能力）上的性能，并增强 MLLM 和视觉模型在多模态理解和分割任务上的性能。在 29 个图像分类和检索基准上进行的广泛评估证实，我们的框架保留了 CLIP 强大的零镜头能力。代码可在 https://github.com/baaivision/DIVA 上获取。

9.Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

标题:Diffusion-DICE：离线强化学习的样本内扩散指导

author:Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan, Amy Zhang

publish:Preprint, under review

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.20109v1

摘要：
分布修正估计（DICE）方法的一个重要特性是，其解决方案是优化政策与数据收集政策之间的最优静态分布比。在这项工作中，我们证明了基于 DICE 的方法可被视为从行为分布到最优策略分布的转换。在此基础上，我们提出了一种新颖的方法，即 Diffusion-DICE，它可以直接使用扩散模型进行这种转换。我们发现，最优政策的得分函数可分解为两个项：行为政策的得分函数和取决于最优分配比例的引导项的梯度。第一项可以通过在数据集上训练的扩散模型获得，我们提出了一个样本内学习目标来学习第二项。由于最优策略分布中包含多种模式，Diffusion-DICE 中的转换可能会对这些局部最优模式产生指导作用。因此，我们会生成一些候选行动，并从中精心挑选出接近全局最优的行动。与所有其他基于扩散的离线 RL 方法不同，Diffusion-DICE 中的 "引导-选择 "范式只使用样本中的行动进行训练，从而将价值函数中的误差利用率降到最低。我们用一个典型的玩具案例来说明以前的基于扩散的方法是如何利用这些误差而无法生成最佳行动的，以及 Diffusion-DICE 是如何成功避免这种情况的。然后，我们在基准数据集上进行了大量实验，展示了 Diffusion-DICE 的强大性能。

10.ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2

标题:ML-Mamba：利用 Mamba-2 的高效多模态大语言模型

author:Wenjun Huang, Jianguo Hu

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.19832v1

摘要：
多模态大语言模型（MLLM）因其多功能性而备受关注。然而，传统的 Transformer 架构由于其二次计算的复杂性而产生了巨大的开销。为了解决这个问题，我们引入了 ML-Mamba，这是一种利用最新、高效的 Mamba-2 模型进行推理的多模态语言模型。Mamba-2 以线性扩展和快速处理长序列而著称。我们用预先训练好的 Mamba-2 模型取代了基于 Transformer 的骨干模型，并探索了将二维视觉选择性扫描机制整合到多模态学习中的方法。我们还尝试了各种视觉编码器和 Mamba-2 模型变体。我们在各种多模态基准测试中进行了大量实验，证明了 ML-Mamba 的性能极具竞争力，并凸显了状态空间模型在多模态任务中的潜力。实验结果表明(1) ML-Mamba通过线性顺序建模达到了与TinyLaVA和MobileVLM v2等最先进方法相当的性能，同时还具有更快的推理速度；(2) ML-Mamba在封闭集基准测试中的视觉幻觉和空间关系判断中表现良好；(3) ML-Mamba在参数数量减少40%的情况下达到了与LLaVA相当的性能。(4）与使用原始Mamba模型的多模态模型相比，基于Mamba-2的大规模多模态语言模型具有更强的推理性能和有效性。

11.Image-text matching for large-scale book collections

标题:大规模藏书的图像-文本匹配

author:Artemis Llabrés, Arka Ujjal Dey, Dimosthenis Karatzas, Ernest Valveny

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.19812v1

摘要：
我们要解决的问题是检测图像集合中的所有图书并将其映射到给定图书目录中的条目。我们没有对检测到的每本书进行独立检索，而是将图像-文本映射问题视为多对多匹配过程，寻找两组图像之间的最佳整体匹配。我们结合最先进的分割方法（SAM）来检测书脊，并使用商业 OCR 提取图书信息。然后，我们提出了一种两阶段的文本-图像匹配方法，首先使用 CLIP 嵌入进行快速匹配，然后使用匈牙利算法或基于 BERT 训练的模型来完善匹配，以应对嘈杂的 OCR 输入和部分文本匹配。为了评估我们的方法，我们发布了一个新的书架图像注释数据集，该数据集涵盖了西班牙一家公共图书馆的全部藏书。此外，我们还提供了两个图书元数据的目标列表，一个是与已知图书馆库存相对应的由 1.5 万种图书组成的封闭集，另一个是模拟开放世界场景的由 230 万种图书组成的开放集。我们报告了两种情况下的结果，一种是纯匹配任务，即给出图书片段和 OCR，目标是根据目标列表进行多对多匹配；另一种是检测和匹配相结合的任务，即在将图书与目标列表条目进行匹配之前，必须首先对图书进行检测和识别。我们的研究表明，匈牙利匹配法和基于 BERT 的拟议模型都优于模糊字符串匹配基准，我们还强调了随着目标规模的扩大，以及当两个集合（检测到的图书或目标图书列表）中的任何一个不完整时，匹配算法的固有局限性。数据集和代码见 https://github.com/llabres/library-dataset。

12.Harnessing Large Vision and Language Models in Agriculture: A Review

标题:在农业中利用大型视觉和语言模型：综述

author:Hongyan Zhu, Shuai Qin, Min Su, Chengzhi Lin, Anjie Li, Junfeng Gao

date Time:2024-07-29

paper pdf:http://arxiv.org/pdf/2407.19679v1

摘要：
大型模型可以在许多领域发挥重要作用。农业是影响全世界人民生活的另一个关键因素。它为人类提供食物、织物和煤炭。然而，面对病虫害、土壤退化、全球变暖和粮食安全等诸多挑战，如何稳步提高农业产量仍是人类亟待解决的问题。大型模型可以通过检测病虫害、土壤质量和种子质量等一系列农业生产任务，帮助农民提高生产效率和收成。它还可以通过图像、文本等各种信息帮助农民做出明智的决策。在此，我们将深入探讨大型模型在农业领域的潜在应用，从大型语言模型（LLM）、大型视觉模型（LVM）到大型视觉语言模型（LVLM）。在深入了解多模态大型语言模型（MLLM）之后，我们可以认识到，农业图像处理、农业问题解答系统和农业机械自动化等问题都可以通过大型模型来解决。大型模型在农业领域有着巨大的潜力。我们概述了当前农业大型模型的应用，旨在强调大型模型在农业领域的重要性。最后，我们展望未来，农民们将使用 MLLM 完成农业中的许多任务，从而大大提高农业生产效率和产量。

13.XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training

标题:XLIP：用于医学语言图像预培训的跨模态注意力屏蔽模型

author:Biao Wu, Yutong Xie, Zeyu Zhang, Minh Hieu Phan, Qi Chen, Ling Chen, Qi Wu

date Time:2024-07-28

paper pdf:http://arxiv.org/pdf/2407.19546v1

摘要：
医学领域的视觉语言预训练（VLP）利用图像-文本对的对比学习来实现跨任务的有效迁移。然而，目前采用遮蔽建模策略的 VLP 方法在应用于医学领域时面临两个挑战。首先，由于医疗数据的匮乏，目前的模型难以准确重建关键病理特征。其次，大多数方法只采用成对的图像-文本数据或纯图像数据，无法利用成对和非成对数据的组合。为此，本文提出了一个 XLIP（Masked modelling for medical Language-Image Pre-training）框架，通过非配对数据加强病理学习和特征学习。首先，我们介绍了注意力屏蔽图像建模（AttMIM）和实体驱动屏蔽语言建模模块（EntMLM），通过多模态特征交互学习重建病理视觉和文本标记，从而改进医疗增强特征。AttMIM 模块会屏蔽一部分对文本特征反应强烈的图像特征。这使得 XLIP 能够提高重建高度相似图像数据的医学效率。其次，我们的 XLIP 利用非配对数据，通过引入疾病种类提示来增强多模态学习。实验结果表明，XLIP 在五个数据集上实现了零镜头和微调分类性能的 SOTA。我们的代码将发布在 https://github.com/White65534/XLIP 网站上。

14.GP-VLS: A general-purpose vision language model for surgery

标题:GP-VLS：用于外科手术的通用视觉语言模型

author:Samuel Schmidgall, Joseph Cho, Cyril Zakka, William Hiesinger

date Time:2024-07-27

paper pdf:http://arxiv.org/pdf/2407.19305v1

摘要：
外科手术需要全面的医学知识、视觉评估技能和程序专业知识。虽然最近的手术人工智能模型都集中在解决特定任务的问题上，但仍需要能理解手术场景并通过自然语言进行交互的通用系统。本文介绍了 GP-VLS，这是一种用于外科手术的通用视觉语言模型，它将医学和外科知识与视觉场景理解融为一体。为了全面评估通用手术模型，我们提出了 SurgiQual，它可以评估医学和手术知识基准以及手术视觉语言问题。为了训练 GP-VLS，我们开发了六个新的数据集，涵盖医学知识、外科教科书和视觉语言对，用于相位识别和工具识别等任务。我们的研究表明，在外科视觉语言任务方面，GP-VLS 的表现明显优于现有的开源和闭源模型，在 SurgiQual 基准中的准确率提高了 8-21%。与其他开源模型相比，GP-VLS 在医学和外科知识测试中也表现出了强劲的性能。总之，GP-VLS 为开发人工智能助手提供了开源基础，可在各种任务和场景中为外科医生提供支持。

15.IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment

标题:IBMEA：探索多模态实体对齐的变异信息瓶颈

author:Taoyu Su, Jiawei Sheng, Shicheng Wang, Xinghua Zhang, Hongbo Xu, Tingwen Liu

publish:Accepted by ACM MM 2024

date Time:2024-07-27

paper pdf:http://arxiv.org/pdf/2407.19302v1

摘要：
多模态实体配准（MMEA）旨在识别多模态知识图谱（MMKG）之间的等效实体，其中实体可与相关图像关联。大多数现有研究在整合多模态信息时都严重依赖自动学习的融合模块，很少明确抑制 MMEA 的冗余信息。为此，我们探索了多模态实体配准（IBMEA）的变异信息瓶颈，在生成实体表征时强调配准相关信息，抑制配准无关信息。具体来说，我们设计了多模态变异编码器，以概率分布的形式生成特定模态的实体表征。然后，我们提出了四种特定模态信息瓶颈正则，在完善特定模态实体表征时限制了误导线索。最后，我们提出了一种模态混合信息对比正则器，用于整合所有精炼的特定模态表征，增强 MMKG 之间的实体相似性，从而实现 MMEA。我们在两个跨 KG 和三个双语 MMEA 数据集上进行了广泛的实验。实验结果表明，我们的模型始终优于之前的先进方法，而且在低资源和高噪声数据场景下也表现出了良好的稳健性。

16.BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation

标题:BCTR：用于场景图生成的双向调节变压器

author:Peng Hao, Xiaobing Wang, Yingying Jiang, Hanchao Jia, Xiaoshuai Hao

publish:9 pages, 3 figures

date Time:2024-07-26

paper pdf:http://arxiv.org/pdf/2407.18715v1

摘要：
由于场景图生成（SGG）的构成特性，它仍然是一项具有挑战性的任务。以往的方法通过端到端的学习方式提高预测效率。然而，这些方法的性能有限，因为它们假定实体和谓词之间存在单向调节，导致信息交互不足。为了解决这一局限性，我们提出了一种新颖的 SGG 双向条件因式分解，引入了实体和谓词之间的高效交互。具体来说，我们开发了一种端到端场景图生成模型–双向条件转换器（Bidirectional Conditioning Transformer，BCTR）来实现我们的因式分解。BCTR 由两个关键模块组成。首先，双向条件生成器（Bidirectional Conditioning Generator，BCG）可促进实体和谓词之间的多阶段交互式特征增强，从而实现两种预测之间的互惠互利。其次，随机特征对齐（RFA）通过从预先训练的模型中提炼多模态知识来规范特征空间，从而增强了 BCTR 在不依赖统计先验的情况下处理有尾类别的能力。我们在 Visual Genome 和 Open Image V6 上进行了一系列实验，证明 BCTR 在这两个基准上都达到了最先进的性能。代码将在论文被接受后提供。

17. $\mathbb{X}$ -Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs

标题: $mathbb{X}$ 样本对比损失：利用样本相似性图谱改进对比学习

author:Vlad Sobal, Mark Ibrahim, Randall Balestriero, Vivien Cabannes, Diane Bouchacourt, Pietro Astolfi, Kyunghyun Cho, Yann LeCun

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.18134v1

摘要：
学习良好的表征需要捕捉数据样本相关的各种方式。对比损失（Contrastive loss）是匹配相关样本的一种客观方法，是自我监督学习和多模态学习等方法的基础。然而，对比损失可以更广泛地看作是对相似性图的修改，以指出样本在嵌入空间中的关联方式。这种观点揭示了对比学习的一个缺陷：相似性图是二元的，因为只有一个样本是相关的正样本。最重要的是，样本之间的相似性被忽略了。基于这一观察结果，我们修改了标准对比损失，以明确编码样本与其他样本之间的关系。我们尝试使用这个名为 $\mathbb{X}$ -Sample Contrastive 的新目标来训练基于类或文本标题描述相似性的视觉模型。我们的研究横跨三个尺度：ImageNet-1k（100 万样本）、CC3M（300 万样本）和 CC12M（1200 万样本）。在一系列任务中，通过我们的目标学习到的表征优于对比性自我监督模型和在相同数据上训练的视觉语言模型。在 CC12M 上进行训练时，我们在 ImageNet 和 ImageNet Real 上的表现比 CLIP 高出 0.6 美元。我们的目标似乎在较低数据量的情况下效果尤为显著，当使用 CC3M 进行训练时，我们在 ImageNet 上比 CLIP 高出 16.8 美元，在 ImageNet Real 上比 CLIP 高出 18.1 美元。最后，我们的目标似乎鼓励模型学习将物体从其属性和背景中分离出来的表征，在 ImageNet9 上比 CLIP 提高了 3.3 美元-5.6 美元/%。我们希望所提出的解决方案能为开发更丰富的学习目标迈出一小步，以便理解基础模型中的样本关系。

18.Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models

标题:用视觉和语言模型模拟人类概念处理中的多模态整合

author:Anna Bavaresco, Marianne de Heer Kloots, Sandro Pezzelle, Raquel Fernández

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17914v1

摘要：
事实证明，深度神经网络（DNN）的表征对视觉和语言处理过程中的神经活动都有很好的预测性。尽管取得了这些成功，但迄今为止的大多数研究涉及的都是单模态 DNNs，只能对视觉或文字输入进行编码，而不能同时对两者进行编码。然而，越来越多的证据表明，人类的意义表征整合了语言和感觉运动信息。在此，我们研究了当前的视觉-语言 DNN 模型（VLMs）对多模态信息的整合是否会产生比纯语言和纯视觉 DNNs 更符合人类大脑活动的表征。我们重点研究了参与者在阅读完整句子或配图中的概念词时记录的 fMRI 反应。我们的研究结果表明，与纯语言和纯视觉 DNN 相比，VLM 表征与语言处理功能相关脑区的激活相关性更强。对不同类型的视觉-语言架构进行比较后发现，最近的生成式 VLM 与以前的架构相比，大脑对齐程度较低，在下游应用中的表现也较差。此外，通过对多个 VLM 的大脑与行为一致性进行额外的分析比较，我们发现–除了一个显著的例外–与行为判断高度一致的表征与大脑反应的相关性并不高。这表明大脑的相似性与行为的相似性并不一致，反之亦然。

19.Shapley Value-based Contrastive Alignment for Multimodal Information Extraction

标题:基于 Shapley 值的多模态信息提取对比对齐

author:Wen Luo, Yu Xia, Shen Tianshu, Sujian Li

publish:Accepted at ACM Multimedia 2024

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17854v1

摘要：
随着社交媒体的兴起和多模态通信的指数级增长，有必要采用先进的多模态信息提取（MIE）技术。然而，现有的方法主要依赖于图像与文本之间的直接交互，由于图像与文本之间存在语义和模态鸿沟，这种范式往往面临着巨大的挑战。在本文中，我们引入了一种图像-上下文-文本交互的新范式，即利用大型多模态模型（LMM）生成描述性文本上下文，以弥合这些差距。根据这一范例，我们提出了一种新颖的基于 Shapley 值的对比对齐（Shap-CA）方法，该方法可对齐上下文和上下文-图像对。Shap-CA 首先应用合作博弈论中的 Shapley 值概念，评估上下文、文本和图像集合中每个元素对总语义和模态重叠的贡献。在进行定量评估后，我们采用对比学习策略来增强语境-文本-图像配对中的交互贡献，同时尽量减少这些配对之间的影响。此外，我们还设计了一个自适应融合模块，用于选择性跨模态融合。在四个 MIE 数据集上进行的广泛实验表明，我们的方法明显优于现有的最先进方法。

20.Unified Lexical Representation for Interpretable Visual-Language Alignment

标题:统一词法表示法，实现可解释的可视语言对齐

author:Yifan Li, Yikai Wang, Yanwei Fu, Dongyu Ru, Zheng Zhang, Tong He

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17827v1

摘要：
自 CLIP 的开创性工作以来，视觉语言配准（VLA）获得了广泛关注。虽然 CLIP 表现出色，但典型的直接潜在特征配准在其表示和相似性得分方面缺乏清晰度。另一方面，词法表示是一个向量，其元素代表样本与词汇表中某个单词之间的相似度，是一种自然的稀疏表示，并且可以解释，提供单个单词的精确匹配。然而，由于没有地面实况监督和虚假发现问题，词法表示很难学习，因此需要复杂的设计才能有效训练。在本文中，我们介绍了 LexVLA，这是一种可解释性更强的 VLA 框架，它无需复杂的设计即可学习两种模式的统一词性表示。我们使用 DINOv2 作为我们的视觉模型，因为它具有局部倾向特征；我们还使用 Llama 2 作为生成语言模型，因为它具有上下文词汇预测能力。为了避免错误发现，我们提出了过度使用惩罚措施，以避免词性表征错误地频繁激活无意义的单词。我们证明，通过在适度的多模态数据集上进行微调，这两个预先训练好的单模态模型可以很好地保持一致，并避免复杂的训练配置。在跨模态检索基准上，在 CC-12M 多模态数据集上训练的 LexVLA 优于在更大数据集（如 YFCC15M）上微调的基准，也优于在更大数据集（如 1.1B 数据，包括 CC-12M）上从头开始训练的基准。我们进行了大量实验来分析 LexVLA。

21.Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning

标题:提高模型性能：视觉语言指令调整的另一种方法

author:Vedanshu, MM Tripathi, Bhavnesh Jaint

date Time:2024-07-25

paper pdf:http://arxiv.org/pdf/2407.17813v1

摘要：
大型语言模型（LLM）与视觉语言（VL）任务的整合是人工智能领域的一个变革性发展，凸显了 LLM 作为多功能通用聊天机器人的潜力。然而，这一发展的当前趋势侧重于视觉与语言的整合，以创建可在更多样化的真实世界环境中运行的模型。我们提出了一种名为 “瓶颈适配器”（Bottleneck Adapter）的新方法，专门用于增强这些复杂模型的多模态功能，通过多模态模型调整（Multimodal Model Tuning，MMT）过程对整个多模态 LLM 框架进行联合优化。我们的方法利用轻量级适配器连接图像编码器和 LLM，无需大型复杂的神经网络。与传统的模块化训练方案不同，我们的方法采用了端到端的优化机制，与适配器相结合，可以使用更小的参数集进行联合优化。我们的方法表现出强劲的性能，准确率达到90.12%，优于人类水平（88.4%）和LaVIN-7B（89.41%）。

你可能感兴趣的:(VLM论文时报,人工智能,语言模型,自然语言处理,VLM,大语言模型,计算机视觉,视觉语言模型)

Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践雷羿 LexChien LLM 人工智能 python c++LLM RAG
GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。GemmaChatbot以C++为推理核心，结合Python前端与多语言支持，实现了高性能与灵活性的完美结合。本文将深入剖析其程序架构、模块划分、数据流设计与工程实践细节。一、总体架构设计GemmaChatbot采用“前后端分离”与“
CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载昨日之日2006 ai语音人工智能音视频语音识别
近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版，新增自定义音色保存，优化长文本生成以及修复上个版本错误提示的bug。一键包更新地址：CosyVoice升级版-阿里最新开源语音克隆、文本转语音项目
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
Kotlin - Flow 冷流、热流 Android-Flutter Kotlin例子 kotlin 开发语言 android
Kotlin-Flow冷流、热流‌KotlinFlow‌是Kotlin协程的一部分，旨在简化异步编程，提供了一种声明式的方式来处理数据流。Flow允许以非阻塞的方式处理一系列的值或事件，特别适合于处理大量数据或涉及IO操作的情况。Kotlin协程中使用挂起函数可以实现非阻塞地执行任务并将结果返回，但是只能返回单个计算结果。但如果希望有多个计算结果返回，则可以使用Flow。Flow的三大核心：1、生
【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
数据结构——20.B树爱看烟花的码农数据结构数据结构
第一部分：核心理论精讲一、B树(B-Tree)1.为什么需要B树？当数据量非常大时，内存无法一次性装下，大部分数据需要存储在磁盘等外部存储器上。磁盘I/O（读/写）操作相比内存访问非常慢。为了减少磁盘I/O次数，我们需要一种特殊的树结构，它的每个节点可以存储大量信息，从而使得树的高度尽可能低。B树（一种多路平衡查找树）就是为此而设计的。2.B树的定义(m阶)一棵m阶B树是满足以下条件的m路查找树：
SIGMOD论文解读｜在自下而上优化中添加布隆过滤器 Gauss松鼠会技术交流数据库 gaussdb database
6月22日至27日，2025ACMSIGMOD/PODS国际学术会议在德国柏林举行。25日，华为多伦多分布式调度和数据引擎实验室主任工程师TimothyZeyl受邀出席，就入选的《IncludingBloomFiltersinBottom-upOptimization》论文进行了解读该论文创新性地首次提出了在自下而上的优化器的基于成本的优化过程中添加布隆过滤器（BloomFilter）的技术。该技
什么是智能体（Agent）？用什么都重名大模型相关人工智能 Agent 大模型
目录前言一、大语言模型1.什么是大语言模型？2.应用领域二、什么是Agent三、Agent核心特点1.感知能力2.规划能力3.行动能力4.记忆能力总结前言目前智能体市场正处于快速发展阶段，呈现出市场规模增长迅猛、应用领域广泛、竞争格局多元化等特点。基于此，让我们一起来学习一下何为智能体。一、大语言模型1.什么是大语言模型？大语言模型是一种采用大量数据进行训练的人工智能模型，主要用于理解和生成自然语
YOLOv11 | SAConv与C3k2融合架构技术详解，替换传统下采样Conv wei子技术杂谈 YOLO 人工智能
YOLOv11|SAConv与C3k2融合架构技术详解，替换传统下采样Conv1.核心创新与技术价值1.1突破性设计理念本文提出的SAConv（SwitchableAtrousConvolution）可切换空洞卷积结合C3k2二次创新模块，在YOLOv11中实现了三大突破：动态感受野调节：支持[1,2,3]三种空洞率的实时切换多尺度特征融合：跨层级特征的无损传递计算效率优化：相比传统空洞卷积节省3
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
算法化资本——智能投顾技术重构金融生态的深度解析田园Coder 人工智能科普人工智能科普
金融市场的数字化进程正经历着本质性跃迁。当传统交易大厅的开放式喊价被服务器集群的低频嗡鸣取代，当投资决策从人类直觉转向概率矩阵计算，一场由人工智能驱动的资本范式革命已悄然降临。智能投顾作为这场变革的核心载体，其技术架构不仅重塑财富管理的运作逻辑，更在认知层面挑战着金融市场的存在根基。理解这场变革的深度与广度，需要穿透技术表象，审视算法与资本结合引发的复杂生态嬗变。智能投顾系统的技术支柱建立于三重认
PC端基于SpringBoot架构控制无人机(三):系统架构设计 kangkang- 架构无人机 java
1.引言从大疆到自研飞控的转型，在无人机业务开发过程中，大部分工作都是基于大疆无人机的上云SDK来完成的。通过该SDK，可以轻松实现航线飞行、指点飞行、实时操控、一键起飞、云台拍照等多种功能然而，随着业务的逐步发展，公司逐渐将重点从大疆无人机转向了自研无人机系统。为了更好地满足客户需求，尤其是在PC端通过Web浏览器进行实时操作的需求，我们的软件团队面临着巨大的挑战。在此背景下，我们需要开发一个与
当争论者还在讨论AI的边界，实践者早已用这些技术解决实际问题渡难繁辰人工智能拥抱AI 人工智能 ai
——普通人参与AI革命的关键路径一、AI应用五大核心组件（通俗拆解版）1️⃣LLM：AI的「决策核心」本质：大型语言模型（如DeepSeek、通义千问），具备语言理解与生成能力能力边界：✅处理文本类任务（写作/翻译/摘要）❌无法获取实时信息（如最新股价）⚠️存在“幻觉”（虚构信息）风险案例对比：问：“鲁迅和周树人什么关系？”基础LLM：“两位都是著名作家”（错误）增强版LLM：“周树人是鲁迅本名”
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
PagedAttention和Continuous Batching 流浪大人大模型深度学习人工智能机器学习
PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率。它借鉴了操作系统中虚拟内存分页机制的思想。工作原理传统注意力机制的局限性：传统的注意力机制在处理长序列时，需要为每个位置计算注意力得分并存储中间结果，这会导致内存占用随着序列长度
多线程导出excel高并发_表格存储：使用TableStoreWriter进行高并发、高吞吐的数据写入-阿里云开发者社区... rayyangul 多线程导出excel高并发
概述表格存储(原OTS)的一大特性是能够支撑海量数据的高并发、高吞吐率的写入，特别适合日志数据或物联网场景(例如轨迹追踪或溯源)数据的写入和存储。这些场景的特性是，会在短时间内产生大量的数据需要消化并写入数据库，需要数据库能够提供高并发、高吞吐率的写入性能，需要满足每秒上万行甚至上百万行的写入吞吐率。针对这些场景，我们在存储层做了很多的优化(本篇文章不赘述)，同时在SDK接口层也做了一些优化，专门
生成式人工智能认证（GAI认证）含金量怎么样？技能咖 GAI认证生成式人工智能认证人工智能
当生成式人工智能（GenerativeAI）的浪潮以摧枯拉朽之势重塑职业版图时，一个尖锐的问题正悬在无数人的心头：在技术迭代比眨眼更快的时代，如何证明自己具备驾驭AI的核心能力？这场认知革命的背后，一张认证证书的价值早已超越了纸面——它既是个人能力的“信用背书”，也是企业筛选人才的“技术密码”。而生成式人工智能认证（GAI认证）的诞生，恰似一把打开未来之门的密钥，其含金量究竟几何？答案藏在三个维度
全球 AI HR 浪潮下的中国实践：从效率革命到战略重构 weixin_54980836 人工智能重构
一、全球AIHR的技术跃迁与价值重构在DeepSeek、ChatGPT引发的生成式AI革命中，人力资源管理领域正经历着从“工具替代”到“认知重构”的范式转变。Gartner《2025年人力资源技术趋势报告》指出，AI在HR场景的应用已从简历筛选、薪资计算等基础效率工具，升级为支持组织战略决策的“数字伙伴”。这种转变的底层逻辑，源于大模型技术带来的三大突破：多模态交互能力：AI已能同时处理文本、语音
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.25-2024.08.01

文章目录～

1.Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs

2.MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment

3.MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection

4.MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

5.SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition

6.Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning

7.Image Re-Identification: Where Self-supervision Meets Vision-Language Learning

8.Diffusion Feedback Helps CLIP See Better

9.Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

10.ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2

11.Image-text matching for large-scale book collections

12.Harnessing Large Vision and Language Models in Agriculture: A Review

13.XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training

14.GP-VLS: A general-purpose vision language model for surgery

15.IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment

16.BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation

17. X \mathbb{X} X-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs

18.Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models

19.Shapley Value-based Contrastive Alignment for Multimodal Information Extraction

20.Unified Lexical Representation for Interpretable Visual-Language Alignment

21.Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning

你可能感兴趣的:(VLM论文时报,人工智能,语言模型,自然语言处理,VLM,大语言模型,计算机视觉,视觉语言模型)

17. $\mathbb{X}$ -Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs