E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
vlm
VLM
系列——Qwen2 VL——论文解读——前瞻(源码解读)
一、概述1、是什么是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器+LLM形式(可以认为没有任何投射层)。比较创新的是图像缩放方式+3DLLM位置编码+(预估后面的训练方式也不太一样)。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时
TigerZ*
·
2025-01-16 18:48
AIGC算法
AIGC
人工智能
transformer
计算机视觉
图像处理
[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇
整体含义逐行解读create_optimizer函数(重构)整体含义逐行解读create_optimizer_and_scheduler函数(重构)整体含义逐行解读参考repo:WatchTower-Liu/
VLM
FlowerLoveJava
·
2024-08-24 22:40
多模态大模型源码阅读
多模态学习笔记
人工智能
计算机视觉
python
机器学习
自然语言处理
神经网络
深度学习
CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇(3)
多模态学习笔记-语言模型篇(3)参考repo:WatchTower-Liu/
VLM
-learning;url:VLLM-BASE吐槽今天接着昨天的源码继续看,黑神话:悟空正好今天发售,希望广大coder
FlowerLoveJava
·
2024-08-24 22:10
多模态学习笔记
多模态大模型源码阅读
学习
笔记
计算机视觉
神经网络
自然语言处理
图像处理
人工智能
[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇(2)
多模态学习笔记-语言模型篇(2)参考repo:WatchTower-Liu/
VLM
-learning;url:
vlm
-learning吐槽今天的源码看的欲仙欲死,NTK(neuraltangentkernel
FlowerLoveJava
·
2024-08-23 09:14
多模态学习笔记
多模态大模型源码阅读
学习
笔记
nlp
计算机视觉
人工智能
深度学习
自然语言处理
VLM
系列——Llava1.6——论文解读
一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。本文基于CLIP的视觉编码器,以及多个版本语言解码器,使用最简单的两层FC构成MLP映射视觉特
TigerZ*
·
2024-02-12 06:10
AIGC算法
人工智能
AIGC
深度学习
计算机视觉
VLM
(MLLM)系列——论文解读总结
建议以下几篇都看一下吧,因为这几篇相对出发点都有新意,并且也都在同期的思南评测中有排名。CLIP*数据:用了4亿的互联网自有图文对数据。*模型:由一个视觉编码器、一个文本编码器*训练:一阶段预训练,在32768的batchsize下做的对比学习。中文CLIP*数据:由LAION5B等构成一个2亿的图文对数据。*模型:整体和CLIP类似,由一个视觉编码器、一个文本编码器。*训练:两阶段预训练,权重来
TigerZ*
·
2024-02-12 06:40
AIGC算法
深度学习
人工智能
计算机视觉
AIGC
图像处理
算法
VLM
系列——MoE-LLaVa——论文解读
一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个
TigerZ*
·
2024-02-12 06:40
AIGC算法
深度学习
人工智能
AIGC
计算机视觉
transformer
VLM
系列——LLaVA-MoLE——论文解读
一、概述1、是什么Llava-MoLE是Llava1.5的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片
TigerZ*
·
2024-02-12 06:37
AIGC算法
深度学习
人工智能
AIGC
transformer
计算机视觉
(2024,
VLM
,操纵链)CogCoM:训练大型视觉语言模型,通过操作链深入细节
CogCoM:TrainLargeVision-LanguageModelsDivingintoDetailsthroughChainofManipulations公和众和号:EDPJ(进Q交流群:922230617或加VX:CV_EDPJ进V交流群)目录0.摘要2.方法2.1.术语2.2.数据生成2.3训练3.实验5.局限性0.摘要视觉-语言模型(Vision-LanguageModels,VL
EDPJ
·
2024-02-08 20:52
论文笔记
深度学习
人工智能
CodeFuse-
VLM
开源,支持多模态多任务预训练/微调
CodeFuse-MFT-
VLM
项目地址:https://github.com/codefuse-ai/CodeFuse-MFT-VLMCodeFuse-
VLM
-14B模型地址:CodeFuse-
VLM
CodeFuse
·
2024-02-06 22:37
AIGC
人工智能
语言模型
开源
ai编程
VLM
系列——Llava1.5——论文解读
一、概述1、是什么Llava1.5是llava的升级全称《ImprovedBaselineswithVisualInstructionTuning》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。本文基于CLIP的视
TigerZ*
·
2024-01-29 21:00
AIGC算法
人工智能
AIGC
计算机视觉
深度学习
transformer
VLM
系列——Qwen-VL 千问—— 论文解读
一、概述1、是什么Qwen-VL全称《Qwen-VL:AVersatileVision-LanguageModelforUnderstanding,Localization,TextReading,andBeyond》,是一个多模态的视觉-文本模型,当前Qwen-VL(20231707)可以完成:图像字幕、视觉问答、OCR、文档理解和视觉定位功能,同时支持多语言对话、多图像交错对话、细粒度识别。基
TigerZ*
·
2024-01-29 21:00
AIGC算法
人工智能
深度学习
机器学习
AIGC
计算机视觉
transformer
VLM
系列——Monkey——论文解读
一、概述1、是什么Monkey全称《Monkey:ImageResolutionandTextLabelAreImportantThingsforLargeMulti-modalModels》,是一个多模态的视觉-文本模型,当前版本(20231130)为基于Qwen-vl的三阶段微调(增加了Lora+visualadapter支持更高的分辨率)可以完成对一幅图片进行描述(强项,更细节)、相关事物(
TigerZ*
·
2024-01-29 21:30
AIGC算法
人工智能
深度学习
python
AIGC
计算机视觉
transformer
VLM
系列——Object Recognition as Next Token Prediction——论文解读
一、概述1、是什么结合了CLIP的视觉编码器+语言模型Llama的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的topK属性(英文),用于开放域的图片Tag场景。2、亮点*对图像-标题(从原始标题中提取名词作为参考标签)对进行训练,比图像-问题-答案三元组更容易收集和注释。对于推理,生成文本片段作为标签而不是句子。*解码器具
TigerZ*
·
2024-01-29 21:29
AIGC算法
AIGC
计算机视觉
深度学习
人工智能
transformer
VLM
系列——Instruct BLIP——论文解读
一、概述1、是什么InstructBLIP全称《InstructBLIP:TowardsGeneral-purposeVision-LanguageModelswithInstructionTuning》,是一个多模态视觉-文本大语言模型,隶属BLIP系列第三篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。(不支持图文交错输入、写代
TigerZ*
·
2024-01-29 21:29
AIGC算法
AIGC
计算机视觉
深度学习
图像处理
人工智能
VLM
系列——COGVLM—— 论文解读
一、概述1、是什么COGVLM全称《VISUALEXPERTFORLARGELANGUAGE》,是一个多模态的视觉-文本模型,当前CogVLM-17B(20231130)可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答,但是这个版本只支持一个图片(为且必为首次输入),只支持英文,几乎不支持写代码(目前测试是的)。2、亮点论文认为:在不损害NLP模型原本能力的情况下,通过“视觉
TigerZ*
·
2024-01-29 21:29
AIGC算法
AIGC
计算机视觉
深度学习
人工智能
transformer
VLM
系列——Llava——论文解读
一、概述1、是什么Llava全称《VisualInstructionTuning》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。本文基于CLIP的视觉编码器,以及LLaMa语言解码器,构建了一个大规模的多模态模型(
TigerZ*
·
2024-01-29 21:57
AIGC算法
AIGC
深度学习
transformer
计算机视觉
人工智能
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉语言导航
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉语言导航VLN具身智能,机器人强化学习开放词汇,检测分割[晓理紫]每日论文分享(有中文摘要,源码或项目地址)==LLM==标题:SpeechTokenizer
晓理紫
·
2024-01-28 05:10
每日论文
机器人
深度学习
人工智能
机器学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--强化学习、模仿学习、机器人、开放词汇
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉语言导航VLN强化学习RL模仿学习IL机器人开放词汇,检测分割==RL==标题:BeyondTaskPerformance:EvaluatingandReducingtheFlawsofLargeM
晓理紫
·
2024-01-28 05:38
每日论文
学习
机器人
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉导航
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓理紫]每日论文分享(有中文摘要,源码或项目地址)==LLM==标题:VisualWebArena:EvaluatingMultimodalAgentso
晓理紫
·
2024-01-27 19:07
每日论文
数据库
人工智能
语言模型
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人、强化学习
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓理紫]每日论文分享(有中文摘要,源码或项目地址)==humanrobotinteraction==标题:
晓理紫
·
2024-01-27 19:07
每日论文
机器人
机器学习
人工智能
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉导航
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割==LLM==标题:SpeechGPT-Gen:ScalingChain-of-InformationSpeechGeneration
晓理紫
·
2024-01-27 19:07
每日论文
机器人
人工智能
深度学习
机器学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人、强化学习
专属领域论文订阅VX扫吗关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持如果你感觉对你有帮助可以扫吗关注,每日准时为你推送最新论文分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能
晓理紫
·
2024-01-27 19:37
每日论文
机器人
机器学习
深度学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人相关、强化学习
专属领域论文订阅VX扫吗关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓理紫
晓理紫
·
2024-01-27 19:36
每日论文
机器人
人工智能
机器学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人、强化学习、开放词汇
专属领域论文订阅VX扫吗关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持.非常感谢提供建议分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇
晓理紫
·
2024-01-27 19:36
每日论文
机器人
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人、强化学习、开放词汇
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割==roboticagent==标题:TheConversationistheCommand:InteractingwithReal-WorldAuto
晓理紫
·
2024-01-25 13:01
每日论文
机器人
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉导航
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割==chatgpt@largelanguagemodel@LLM==标题:HAZARDChallenge:EmbodiedDecisionMakingi
晓理紫
·
2024-01-25 13:01
每日论文
人工智能
深度学习
机器学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)-大模型、扩散模型、视觉导航
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割==LLM==标题:MindYourFormat:TowardsConsistentEvaluationofIn-ContextLearningImpr
晓理紫
·
2024-01-25 12:31
每日论文
机器人
人工智能
机器学习
深度学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--机器人、强化学习
分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割==roboticagent==标题:WorkspaceOptimizationTechniquestoImprovePredictionofHuman
晓理紫
·
2024-01-25 12:26
每日论文
机器人
深度学习
人工智能
机器学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)
专属领域论文订阅关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓理紫]每日论文分享
晓理紫
·
2024-01-20 17:05
每日论文
深度学习
人工智能
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉导航
专属领域论文订阅关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持VX关注,并留下邮箱可获得每日定时推送分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇
晓理紫
·
2024-01-20 17:34
每日论文
人工智能
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉导航
专属领域论文订阅关注{晓理紫},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持关注留下邮箱可每日定时收到论文更新服务分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇
晓理紫
·
2024-01-20 02:51
每日论文
机器人
人工智能
深度学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--具身智能、强化学习
专属领域论文订阅VX关注晓理紫,每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓理紫]每日论文分享
晓理紫
·
2024-01-20 02:51
每日论文
人工智能
深度学习
机器学习
[晓理紫]每日论文分享(有中文摘要,源码或项目地址)--大模型、扩散模型、视觉导航
专属领域论文订阅VX关注晓理紫,每日定时更新论文,如感兴趣,请转发给有需要的同学,谢谢支持分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓理紫]每日论文分享
晓理紫
·
2024-01-20 02:21
每日论文
每日论文
机器人
人工智能
[晓丽紫]每日论文分享(有中文摘要,源码或项目地址)--大模型,扩散模型...
专属领域论文订阅关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓丽紫]每日论文分享
晓理紫
·
2024-01-17 20:28
每日论文
每日论文
[晓丽紫]每日论文分享(有中文摘要,源码或项目地址)--机器人相关
专属领域论文订阅VX关注{晓理紫|小李子},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割[晓丽紫]
晓理紫
·
2024-01-17 20:27
每日论文
机器人
[晓理紫]每日论文推送(有中文摘要,源码或项目地址)--大模型相关、扩散模型、视觉导航
VX关注晓理紫,并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能,机器人强化学习开放词汇,检测分割==LLM==标题:ACloserLookatAUROCandAUPRCunderClassImbalance
晓理紫
·
2024-01-17 20:27
每日论文
机器人
[晓理紫]每日论文推送(有中文摘要,源码或项目地址)--机器人、视觉相关
专属领域论文订阅VX关注{晓理紫},每日更新论文,如感兴趣,请转发给有需要的同学,谢谢支持VX关注晓理紫,并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型
VLM
扩散模型视觉导航具身智能
晓理紫
·
2024-01-17 20:57
每日论文
机器人
CTF CRYPTO 密码学-4
密文:
VlM
5WnlXc0ZibEhmMmE1ZHYxMDlhVkdmMlk5WmtRPT0=分析应该是根据题目提示解出压缩包的密码,查看flag。
Brucye
·
2024-01-17 13:42
密码学
密码学
AIGC(MLLM、
VLM
、LLM、SD)系列——论文解读目录
涉及面广:多模态生成模型——MLLM(目前集中在视觉语言模型——
VLM
)、大语言模型——LLM、生成模型(SD系列)、对比学习的经典模型(CLIP系列)。
TigerZ*
·
2024-01-09 12:45
AIGC算法
深度学习算法
AIGC
人工智能
深度学习
计算机视觉
基于亚马逊云科技Amazon SageMaker的多模态模型训练、推理及批量表征提取
背景随着大语言模型(LLM)的发展,视觉语言模型(
VLM
)的应用及落地也在越来越多的场景中被关注及提出。
ZAKER科技动态
·
2023-12-22 13:45
科技
人工智能
CogVLM与CogAgent:开源视觉语言模型的新里程碑
引言随着机器学习的快速发展,视觉语言模型(
VLM
)的研究取得了显著的进步。今天,我们很高兴介绍两款强大的开源视觉语言模型:CogVLM和CogAgent。
超级人工智能
·
2023-12-20 16:08
AI大模型
语言模型
人工智能
自然语言处理
AI作画
nlp
深度学习
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务...
利用这种框架,可以大大减少
VLM
(视觉语言大模型)在训练和推理过程中的开销。具体而言,团队按照提出的新框架,训练了一个新的
VLM
:Chat-UniVi。
QbitAl
·
2023-12-02 10:59
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
视觉语言模型(
VLM
)的出现代表了实现完全自动驾驶的新领域。本报告对最新的
VLM
——\modelnamefull进行了详尽的评估,并探讨了其在自动驾驶场景中理解、推理和
xwz小王子
·
2023-11-29 05:47
强化学习及自动驾驶
语言模型
人工智能
自然语言处理
具身智能创新方向研究
VLM
:效率问题、精确问题Robots:效率问题、精确问题Simulation_Env:通用性(Unity)、方便易用性现实问题:成本、等等
思考实践
·
2023-11-15 07:19
LLM
LLM
EI
Robots
杂乱知识点记录
杂乱知识点记录1目标检测评估指标2visualgrounding3分割4
VLM
经典框架5RCNN系列RCNNFastRCNNFasterRCNNMaskRCNN6GIOU7DETR系列DETRDeformableDETRDAB-DETRDN-DETRDINO8COCO20149COCO
电子系的小欣
·
2023-11-14 12:09
计算机视觉
深度学习
算法
目标检测
本地部署 CogVLM
本地部署CogVLMCogVLM是什么CogVLMGithub地址部署CogVLM启动CogVLMCogVLM是什么CogVLM是一个强大的开源视觉语言模型(
VLM
)。
engchina
·
2023-11-07 10:31
LINUX
cogvlm
开源asn1c使用
下载master版本:https://github.com/
vlm
/asn1c,aper版本:https://github.com/mouse07410/asn1c/编译安装参照文件INSTALL.md
唐装鼠
·
2023-11-03 22:17
opensource
ASN1
X-
VLM
: Multi-Grained Vision Language Pre-Training
ContentsIntroductionMethodExperimentReferencesIntroduction大部分
VLM
(Visual-LanguageModel)依赖于目标检测模型抽取视觉特征
连理o
·
2023-11-02 22:03
#
多模态
计算机视觉
深度学习
人工智能
NeurIPS 23 Spotlight丨3D-LLM:将3D世界注入大语言模型
学姐论文链接:https://arxiv.org/pdf/2307.12981.pdf开源代码:https://vis-www.cs.umass.edu/3dllm/摘要:大型语言模型(LLM)和视觉语言模型(
VLM
深度之眼
·
2023-10-21 23:33
粉丝的投稿
人工智能干货
深度学习干货
NeurIPS
大模型
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他