VLM 系列——Qwen2 VL——论文解读——前瞻(源码解读)

一、概述

1、是什么

    是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器+LLM形式(可以认为没有任何投射层)。比较创新的是图像缩放方式+3D LLM位置编码+(预估后面的训练方式也不太一样)。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时未提)。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。

2、亮点

    *大尺寸图:读懂不同分辨率和不同长宽比的图片,在DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;
    *视频理解:理解20分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;
    *智能体:具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环

你可能感兴趣的:(AIGC算法,AIGC,人工智能,transformer,计算机视觉,图像处理)