『大模型笔记』视觉语言模型解释

视觉语言模型解释

文章目录

  • 一. 视觉语言模型解析
    • 1.什么是视觉语言模型?
    • 2. 开源视觉语言模型概览
    • 3. 如何找到合适的视觉语言模型
      • MMMU
      • MMBench
    • 4. 技术细节
    • 5.使用变压器 (transformers) 运用视觉语言模型
    • 6. 使用 TRL 微调视觉语言模型
  • 二. 参考文章

一. 视觉语言模型解析

视觉语言模型是一类能够同时从图像和文本中学习,以处理从视觉问题回答到图像描述等多种任务的模型。本文将深入探讨视觉语言模型的核心组成部分,介绍其工作原理,如何选取适合的模型,以及如何利用 trl 的新版本进行便捷的微调。

1.什么是视觉语言模型?

视觉语言模型是指能够从图像和文本中学习的多模态模型。这类模型属于生成模型,能够接收图像和文本输入,并产生文本输出。大型视觉语言模型具备优秀的零样本能力,能够广泛适应多种图像类型,如文档、网页等,并且表现出良好的泛化性。应用场景包括图像聊天、图像识别指导、视觉问答、文档理解和图像描述等。部分视觉语言模型还能识别图像中的空间属性,例如,在被要求检测或分割特定对象时,能够输出边界框或分割蒙版,或定位不同实体并回答关于它们的相对或绝对位置的问题。当前大型视觉语言模型在训练数据、图像编码方式上具有多样性

你可能感兴趣的:(大模型笔记,LLM,VLM,视觉语言模型,语言模型,大模型,人工智能)