每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
GPT-4视觉无疑已经成为杰出的参与者,展示了在语言理解和视觉处理方面的惊人能力。但是,对于那些寻求性价比高的替代方案而又不降低性能的人来说,开源解决方案的世界有如宝藏般的无限可能性。
在这份入门指南中,我们将揭示四个吸引人的GPT-4视觉的开源替代方案,确保其可访问性和适应性。
我们将介绍四个开源视觉语言模型:LLaVa(大型语言和视觉助手)、CogAgent、Qwen大型视觉语言模型(Qwen-VL)以及BakLLaVA,并探索它们独特的功能和重塑语言和视觉处理格局的潜力。
1. LLaVa(大型语言和视觉助手)
LLaVA代表了一个新的端到端训练的大型多模态模型,它结合了一个视觉编码器和Vicuna进行通用的视觉和语言理解,实现了令人印象深刻的聊天功能,模仿多模态GPT-4的精神,并在科学问答上创下新的最高准确率记录。
LLaVA是一个仅用于非商业用途的研究预览版本,需要遵守LLaMA模型许可、OpenAI生成的数据使用条款以及ShareGPT的隐私实践。使用此服务的用户必须同意以下条款:该服务是一个仅用于非商业用途的研究预览版本。它只提供有限的安全措施,可能会产生令人反感的内容。它不能用于任何非法、有害、暴力、种族主义或性方面的用途。该服务可能会收集用户对话数据用于未来研究。
让我们看一些视觉指令的例子:
视觉推理
2. CogAgent
CogAgent是一个开源的视觉语言模型,在CogVLM的基础上进行改进。CogAgent-18B拥有110亿视觉参数和70亿语言参数
CogAgent-18B在9个经典的跨模态基准测试中获得了最先进的通用性能,包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。它在GUI操作数据集如AITW和Mind2Web上明显优于现有模型。
除了CogVLM中已有的所有特征(视觉多轮对话、视觉定位)之外,CogAgent还:
支持更高分辨率的视觉输入和对话问答。它支持1120x1120的超高分辨率图像输入。
拥有视觉Agent的功能,能够为任何给定的GUI截屏任务返回计划、下一步行动以及具体的操作坐标。
增强了与GUI相关的问答能力,允许它处理有关任何GUI截屏的问题,如网页、PC应用程序、移动应用程序等。
通过改进的预训练和微调增强了OCR相关任务的功能。
GUI Agent示例
3. Qwen大型视觉语言模型(Qwen-VL)
Qwen-VL(Qwen大型视觉语言模型)是由阿里云提出的大型模型系列Qwen(通一千问,Tongyi Qianwen)的多模态版本。Qwen-VL接受图像、文本和边界框作为输入,输出文本和边界框。Qwen-VL的特点包括:
强大的性能:在类似的模型规模下,它在多个英语评估基准测试(包括零样本字幕、VQA、DocVQA和定位)上明显优于现有的开源大型视觉语言模型。
支持文本识别的多语言LVLM:Qwen-VL天然支持英语、中文和多语言对话,并推动图像中中英文双语文本的端到端识别。
多图像交织对话:该功能允许输入和比较多张图像,以及指定与图像相关的问题并进行多图像讲故事。
第一个支持中文定位的通用模型:通过开放域语言表达式在中文和英文中检测边界框。
细粒度识别和理解:与目前其他开源LVLM使用的224\*224分辨率相比,448\*448分辨率推动了细粒度文本识别、文档QA和边界框注释。
4. BakLLaVA
BakLLaVA 1是一个Mistral 7B基础模型,通过LLaVA 1.5架构进行增强。在这个首个版本中,作者展示了一个Mistral 7B基础模型在几个基准测试上优于Llama 2 13B。你可以在他们的repo上运行BakLLaVA-1。他们目前正在更新它以便于你进行微调和推理。 (https://github.com/SkunkworksAI/BakLLaVA)。
BakLLaVA-1是完全开源的,但训练所使用的数据包含了LLaVA语料库,后者不允许商业使用。BakLLaVA 2正在酝酿一个规模更大(商业上可行)的数据集和一个新的架构,超越LLaVA目前的方法。BakLLaVA-2将解决BakLLaVA-1所受到的限制。