VisualGLM-6B:一个基于ChatGLM-6B模型的图像理解模型

介绍

VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。

VisualGLM-6B 由 SwissArmyTransformer(简称sat) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口,也提供了基于sat的接口。

结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需8.7G显存)。

截图

VisualGLM-6B:一个基于ChatGLM-6B模型的图像理解模型_第1张图片
VisualGLM-6B:一个基于ChatGLM-6B模型的图像理解模型_第2张图片
VisualGLM-6B:一个基于ChatGLM-6B模型的图像理解模型_第3张图片

地址

VisualGLM-6B

你可能感兴趣的:(语言模型)