LVLMs

推荐频道

LVLMs

Qwen-VL论文解读

Qwen-VL：用于理解、定位、文本阅读等的通用视觉-语言模型摘要在本文中，我们介绍了Qwen-VL系列，这是一组大规模的视觉-语言模型（LVLMs），旨在感知和理解文本和图像。

dream_home8407·2025-01-29 09:10

异常GPT：使用LVLMs检测工业异常

AnomalyGPT：利用LVLMs进行工业异常检测摘要本文介绍了一种名为AnomalyGPT的新型工业异常检测方法，该方法基于大型视觉语言模型(LVLMs)。

DUT_LYH·2024-03-19 16:27

【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务（OCR等）上的效果

代码：https://github.com/Ucas-HaoranWei/Vary出处：旷视时间：2023.12一、背景当前流行的大型视觉-语言模型LargeVision-LanguageModels(LVLMs

呆呆的猫·2024-02-08 08:19

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解和交互。

deephub·2024-02-07 11:01

多模态大模型Vary：扩充视觉Vocabulary，实现更细粒度的视觉感知

前言现代大型视觉语言模型(LVLMs)具有相同的视觉词汇-CLIP，它可以涵盖大多数常见的视觉任务。

知来者逆·2024-01-04 00:33

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

ABSTRACT现代大规模视觉-语言模型（LVLMs）采用了相同的视觉词汇-CLIP，可以涵盖大多数常见的视觉任务。

Vicky__3021·2024-01-03 06:12

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

超越幻觉：通过幻觉感知直接偏好优化增强LVLM上海人工智能实验室Abstract近年来，多模态大语言模型取得了显着的进步，但它们仍然面临着一个被称为“幻觉问题”的常见问题，即模型生成的文本描述包含图像中不准确或不存在的内容。为了解决这个问题，本文引入了一种新颖的策略：幻觉感知直接偏好优化（HA-DPO）。我们的方法将幻觉问题视为一个独特的偏好选择问题，其中模型经过训练，在出现同一图像的两个响应（一

Mars_prime·2023-12-21 08:07

Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

以下是论文的主要内容概述：论文摘要和引言主题：Talk2BEV是一种结合了最新的大型语言模型（LLMs）和大型视觉-语言模型（LVLMs）的系统，用于增强自动驾驶

技术宅学长·2023-11-17 08:15

缺陷检测文献

AnomalyGPT:DetectingIndustrialAnomaliesusingLargeVision-LanguageModels中科院LargeVision-LanguageModels(LVLMs

步步咏凉天·2023-10-19 17:18

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他