VLM 系列——Monkey——论文解读

一、概述

1、是什么

   Monkey 全称《Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models》,是一个多模态的视觉-文本模型,当前版本(20231130)为基于Qwen-vl 的三阶段微调(增加了Lora+visual adapter 支持更高的分辨率)可以完成对一幅图片进行描述(强项,更细节)、相关事物(文本)进行问答(强项,尤其文本),但是这个版本只支持一个图片(为且必为首次输入),几乎不支持写代码(目前测试是的),图中物体或指定输出检测框仍然保留的能力,但是弱了。

2、亮点

    着重解决现在大模型分辨率较低(此时作者认为大多数为224*224,少数为448*448),主要体现在模型训练和数据构建两个难点。

    1)提出使用Lora 微调已有Qwen-vl 视觉编码器(有多个,看下文的模型结构),加visual adapter 将多个微调的视觉编码器结合,大大降低了训练成本(40 A800 天)。

    2)提出一种数据清洗方法,来提高图片的描述详细程度(分辨率高对应更多图片元素细节,否则仅仅提升分辨率作者认为简短的单句描述无法满足需求)。

你可能感兴趣的:(AIGC算法,人工智能,深度学习,python,AIGC,计算机视觉,transformer)