北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破

在人工智能领域,北京大学和中山大学的最新研究成果——Chat-UniVi,正在引起广泛关注。这个模型成功地实现了一个重大突破,即用更少的视觉token数量处理图片和视频任务,同时在训练成本上取得显著降低。这项研究不仅为视觉语言模型的发展提供了新的思路,而且在推动多模态AI应用方面具有深远意义。

  • Huggingface模型下载:https://huggingface.co/Chat-UniVi/Chat-UniVi

  • AI快站模型免费加速下载: https://aifasthub.com/models/Chat-UniVi

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破_第1张图片

研究背景与创新

多模态语言模型通常集中于图片或视频输入,分别采用大量视觉token来获得更精细的空间分辨率或牺牲空间分辨率以构建时间理解能力。Chat-UniVi的创新之处在于,它通过一组动态视觉token来统一表示图片和视频,有效降低了视觉token的数量,同时保持了强大的表达能力。这种方法特别适合处理可变长度的视频,为多模态语言模型提供了新的应用前景。

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破_第2张图片

Demo

聚焦技术细节

Chat-UniVi的核心技术在于其统一的视觉表征方法。研究人员采用最近邻的密度峰聚类算法,逐步对视觉token进行分组和合并,以优化图片和视频的表示。此外,模型还引入了一个多尺度表征,上层特征表示高级语义概念,而下层特征关注视觉细节。这种多尺度表征的引入,使得Chat-UniVi能够适应各种任务,从语义理解到生成详细描述。

训练过程与成效

Chat-UniVi的训练分为两个阶段:多模态预训练和联合指令微调。在预训练阶段,模型仅训练投影矩阵,冻结LLM和视觉编码器,有效捕获视觉信息而不损害LLM性能。联合指令微调阶段则在混合数据集上对整个模型进行全参数微调,实现对大量指令的理解并产生更自然的输出。

实验成果

在图片理解实验中,Chat-UniVi以更少的视觉token实现了卓越的性能,甚至在7B参数下达到了LLaVA 13B参数的水平。在视频理解方面,它超越了专门针对视频设计的方法,如VideoChat和Video-ChatGPT。在图片问答和视频问答实验中,Chat-UniVi也展现了强大的性能,特别是在抵抗幻觉的能力上超越了最新的先进方法。

未来展望

Chat-UniVi的出现为视觉语言模型的研究和应用提供了新的思路。它在多模态AI领域的应用前景广阔,尤其是在视频编辑、智能辅助系统、以及更多的AI驱动应用中。同时,它为未来视觉语言模型的设计和优化提供了宝贵的参考。

模型下载

Huggingface模型下载

https://huggingface.co/Chat-UniVi/Chat-UniVi

AI快站模型免费加速下载

https://aifasthub.com/models/Chat-UniVi

你可能感兴趣的:(语言模型,人工智能,机器学习)