LLAVA 第2页

LLM之RAG实战（七）| 使用llama_index实现多模态RAG

最近还有一些其他的多模态模型：LLaVa和Fuyu-8B。在过去的一年里，大部分应用程序开发都是围绕文本输入/文本输出范式。最典型的例子之一是检索增强

wshzd·2023-12-23 09:27

论文阅读——llava

VisualInstructionTuningLLaVA指令智能体分为两类：端到端的，通过LangChain[1]/LLM[35]协调各种模型的系统。数据集生成用GPT辅助生成的，具体不写了。模型结构：inputimageXvLLM：Vicunavisualencoder：pre-trainedCLIPvisualencoderViT-L/14W是为了和词向量一个维度（weapplyatraina

じんじん·2023-12-23 06:39

VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

当前领先的范例，例如LLaVA，依赖于仅语言的GPT-4来生成数据，这需要预先注释的图像标题和检测边界框，这在理解图像细节方面遇到了困难。

Mars_prime·2023-12-21 08:35

北京通用人工智能研究院提出了首个三维世界中的具身多任务多模态的通才智能体 LEO

今年以来，以GPT-4(V)[1]、LLaVA[2]、PALM-E[3]等为代表的多模态大语言模型（Multi-modalLargeLanguageModel）在自然语言处理、视觉理解、机器人等任务上取得了显著的成功

xwz小王子·2023-12-15 00:41

多模态模型的语言幻觉和视觉幻觉

AnImage-ContextReasoningBenchmarkChallengingforGPT-4V(ision),LLaVA-1.5,andOtherMulti-modalityModels论文链接

huahuahuahhhh·2023-11-28 19:27

视觉CV-AIGC一周最新技术精选(2023-11)

PG-Video-LLaVA:PixelGroundingLargeVideo-LanguageModelshttps://github.com/mbzuai-oryx/Video-LLaVA将基于图像的大型多模态模型

机器学习与AI生成创作·2023-11-26 13:14

盘点2023年Q3的开源模型，这些值得推荐！

基座模型LLaMA2Baichuan2ChatGLM2-6BQwen-14BInternLM-20BTigerbot-13BTigerbot-70B多模态模型LLaVA1.5VisualGLM-6BVisCPMNexT-GPTMiniGPT

快乐小码农·2023-11-26 10:57

llava1.5模型安装、预测、训练详细教程

引言本博客介绍LLava1.5多模态大模型的安装教程、训练教程、预测教程，也会涉及到huggingface使用与wandb使用。

tangjunjun-owen·2023-11-06 22:11

别再吹 GPT-4V 了！连北京烤鸭都不认识，你敢信？？

结果GPT-4V和LLaVa-1.5都面向“广西烤鸭”的图片，回答了——是的，有北京烤鸭。为什么“O

夕小瑶·2023-11-01 12:48

LLaVA:visual instruction tuning

本文覆盖的MLLM包括：LLaVA,MiniGPT-4,mPLUG-Owl,…https://zhuanlan.zhihu.com

Kun Li·2023-10-28 09:30

【AIGC核心技术剖析】大型语言和视觉助手——LLaVA（论文+源码）

LLaVA-1.5在11个基准测试上实现了SoTA，只需对原始LLaVA进行简单的修改，利用所有公共数据，在单个1-A8节点上在~100天内完成训练，并超越使用数十亿级数据的方法。

源代码杀手·2023-10-22 03:52

llava1.5-部署

llava1.5——demo部署下载代码和权重新建weights文件夹，并下载到LLaVA/weights/中。

zhzxlcc·2023-10-21 14:21

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉，为用户提供了强大的多模式交互和理解。

汀、人工智能·2023-10-19 16:51

GPT learning

MiniGPT-4:DEMO:https://huggingface.co/spaces/Vision-CAIR/minigpt4LLaVA:DEMO:LLaVAhttps://github.com/haotian-liu

qq_478377515·2023-10-16 07:45

多模态大模型升级：LLaVA→LLaVA-1.5，MiniGPT4→MiniGPT5

OverviewLLaVA-1.5总览摘要1.引言2.背景3.LLaVA的改进4.讨论附录LLaVA-1.5总览题目:ImprovedBaselineswithVisualInstructionTuning

猴猴猪猪·2023-10-16 01:38

LLaVA：大型语言和视觉助手，图片识别和理解能力让人惊叹

这导致了90个新的语言图像指令，我们在这些指令上测试LLaVA和GPT-4，并使用

AI 研习所·2023-10-12 00:38

LLaVa大模型关键技术及在线演示

LLaVA，一种新的大型多模态模型，称为“大型语言和视觉助手”，旨在开发一种通用视觉助手，可以遵循语言和图像指令来完成各种现实世界的任务。

新缸中之脑·2023-10-11 11:56

【无标题】

随着多模态大语言和视觉助手LLaVA的突破性发展，对图像，文本甚至模因的理解变得非常容易。这种先进的人工智能技术能够无缝理解和解释各种形式的媒体，弥合语言和视觉理解之间的差距。

winfredzhang·2023-10-09 16:03

VIGC：自问自答，高质量视觉指令微调数据获取新思路

从今年四月份开始，随着MiniGPT-4,LLaVA,InstructBLIP等多模态大模型项目的开源，大模型的火从NLP领域烧到了计算机视觉及多模态领域。

OpenDataLab·2023-09-18 22:52

哪个视觉语言模型更优？InstructBLIP、MiniGPT-4？全面评估基准LVLM-eHub告诉你

如今，构建强大的多模态模型已经成为了社区的共识，BLIP2、LLaVA、MiniGPT-4、mPLUG-Owl、InstructBLIP等大量的视觉语言模型（Vision-LanguageModels

夕小瑶·2023-09-02 08:38

本地部署体验LISA模型（LISA≈图像分割基础模型SAM+多模态大语言模型LLaVA）

GitHub地址：https://github.com/dvlab-research/LISA该项目论文paperreading：https://blog.csdn.net/Transfattyacids/article/details/132254770在GitHub上下载源文件，进入下载的文件夹，打开该地址下的命令控制台，执行指令：pipinstall-rrequirements.txtpip

热水过敏·2023-09-01 09:20

多模态大模型综述: LLaVA, MiniGPT4

文章目录LLaVA一.简介1.1.摘要1.2.引言二.相关工作LLaVA一.简介题目:VisualInstructionTuning机构：微软论文:https://arxiv.org/pdf/2304.08485

猴猴猪猪·2023-06-18 10:40

图文理解能力强大！多模态对话生成模型：mPLUG-Owl，已开源！

关注公众号，发现CV技术之美miniGPT-4的热度至今未减，距离LLaVA的推出也不到半个月，而新的看图聊天模型已经问世了。

我爱计算机视觉·2023-06-11 12:48

达摩院开源多模态对话大模型mPLUG-Owl

miniGPT-4的热度至今未减，距离LLaVA的推出也不到半个月，而新的看图聊天模型已经问世了。

AI记忆·2023-06-11 12:45

2023年4月中旬值得关注的几个AI模型：Dollly2、MiniGPT-4、LLaVA、DINOv2

AI模型的发展速度令人惊讶，几乎每天都会有新的模型发布。而2023年4月中旬也有很多新的模型发布，我们挑出几个重点给大家介绍一下。Dolly-v2MiniGPT-4LLaVADINOv2Dolly-v2Dolly是EleutherAI开源的一系列大语言模型，EleutherAI认为大语言模型应该被所有人共享，并为大多数人提供服务，因此他们开启了大语言模型开源计划。Dolly系列就是他们开源的成果。

语音之家·2023-06-11 12:34

Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

▲GeneratedbyGLIGEN(https://gligen.github.io/):Acutelavallamaandglasses我们分享了LLaVA(Language-and-VisionAssistant

PaperWeekly·2023-04-20 19:52

每日学术速递4.19

可视化指令调优作者：HaotianLiu,ChunyuanLi,QingyangWu,YongJaeLee文章链接：https://arxiv.org/abs/2304.08485项目代码：https://llava-vl.github.io

AiCharm·2023-04-20 15:52

推荐频道

LLAVA