多模态第5页

每日一看大模型新闻（2023.12.21）用友大易：发布国内首个AI面试解决方案；智源开源新一代多模态基础模型Emu2；一位中国教授使用AI创作科幻小说，荣获全国大奖；微调？开源+共训

1.产品发布1.1奇域AI:符合中国宝宝审美的AI绘画平台发布日期：2023.12.21奇域AI:符合中国宝宝审美的AI绘画平台(chinaz.com)主要内容：奇域AI以中国文化元素为基础，呈现极具中式审美的绘画风格，为创作者提供独特创作空间。社区提供新手引导，汇聚顶尖AI绘画创作者，促进创作者学习和启发。创作者可通过分享邀请链接和作品赚取额度，同时提供商业用途的生成图片，助力个人IP知名度提升

超爱玩大模型·2024-02-09 22:17

ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

ChatGPT升级指南：迎接GPT-4V(ision)的全新多模态时代ChatGPT最新升级引入了GPT-4V(ision)，这是一个突破性的多模态版本，支持语音和图像输入。

Draven21·2024-02-09 06:41

苹果推出新型开源AI图像编辑模型“MGIE”；可汗学院辅助学习的GPT,Prompt 质量非常高

MGIE，全称MLLM-GuidedImageEditing，依赖于多模态大型语言模型（MLLM）来解释用户指令，并执行精细的像素级编辑操作。

go2coding·2024-02-08 22:07

明天开课 | 第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-08 20:12

【多模态大模型】GLIP：零样本学习 + 目标检测 + 视觉语言大模型

GLIP核心思想GLIP对比BLIP、BLIP-2、CLIP主要问题:如何构建一个能够在不同任务和领域中以零样本或少样本方式无缝迁移的预训练模型？统一的短语定位损失语言意识的深度融合预训练数据类型的结合语义丰富数据的扩展零样本和少样本迁移学习效果论文：https://arxiv.org/pdf/2112.03857.pdf代码：https://github.com/microsoft/GLIP核心

Debroon·2024-02-08 11:34

【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务（OCR等）上的效果

论文：Vary:ScalinguptheVisionVocabularyforLargeVision-LanguageModels代码：https://github.com/Ucas-HaoranWei/Vary出处：旷视时间：2023.12一、背景当前流行的大型视觉-语言模型LargeVision-LanguageModels(LVLMs)一般都使用共享的visionvocabulary，这个词

呆呆的猫·2024-02-08 08:19

为什么大模型需要向量数据库？

比如：爆火的Google大模型Gemini1.0原生支持的多模态，在预训练的时候就是把文本、图片、音频、视频等多模态先进行token化，然后构建一维的“语言”序列，再进行向量化，实现了原生多模态的支持。

Python算法实战·2024-02-08 01:30

攒波人品！我把整个秋招 NLP 算法岗的面经都在这里分享了！

首先感谢组织AI算法岗的交流会，我从中收获很多，也有机会分享我的秋招面试的经历，我投的岗位比较杂，主要是NLP，也包括一些多模态、大模型、推荐相关的岗位，最终拿到了腾讯、顺丰、平安金服和迪

Python算法实战·2024-02-08 01:29

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。

Kavaj·2024-02-07 21:02

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-07 13:25

51-11 多模态论文串讲—VLMo 论文精读

VLMo:UnifiedVision-LanguagePre-TrainingwithMixture-of-Modality-Experts(NeurIPS2022)VLMo是一种多模态Transformer

深圳季连AIgraphX·2024-02-07 13:59

51-10 多模态论文串讲—ALBEF 论文精读

今天我们就来过一下多模态的串讲，其实之前，我们也讲了很多工作了，比如说CLIP，还有ViLT，以及CLIP的那么多后续工作。

深圳季连AIgraphX·2024-02-07 13:29

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解和交互。

deephub·2024-02-07 11:01

眸思MouSi：“听见世界” — 用多模态大模型点亮盲人生活

文章目录1.Introduction1.1APP细节展示2.Demo2.1论文链接2.2联系方式3.Experiment3.1多专家的结合是否有效？3.2如何更好的将多专家整合在一起？Reference让盲人听见世界，复旦眸思大模型打破视觉界限，用科技点亮新生活1.Introduction在这个世界上，视力是探索万物之美、与有灵万物互动的重要感官。而在中国，约有1700多万视力障碍者，相当于每10

猛码Memmat·2024-02-06 23:33

CodeFuse-VLM 开源，支持多模态多任务预训练/微调

CodeFuse-MFT-VLM项目地址：https://github.com/codefuse-ai/CodeFuse-MFT-VLMCodeFuse-VLM-14B模型地址：CodeFuse-VLM-14BCodeFuse-VLM框架简介随着huggingface开源社区的不断更新，会有更多的visionencoder和LLM底座发布，这些visionencoder和LLM底座都有各自的强项，

CodeFuse·2024-02-06 22:37

【多模态MLLMs+图像编辑】MGIE：苹果开源基于指令和大语言模型的图片编辑神器（24.02.03开源）

项目主页：https://mllm-ie.github.io/论文:基于指令和多模态大语言模型图片编辑2309.GuidingInstruction-basedImageEditingviaMultimodalLargeLanguageModels

曾小蛙·2024-02-06 20:52

大模型 AI Agent 详细介绍

这些AI代理利用了大规模的语言模型（如GPT-3、BERT、T5等）或其他类型的模型（如图像识别模型、多模态模型等）来模拟人类行为和决策过程。

人生万事须自为，跬步江山即寥廓。·2024-02-06 13:19

多模态对比语言图像预训练CLIP：打破语言与视觉的界限，具备零样本能力

多模态对比语言图像预训练CLIP：打破语言与视觉的界限，具备零样本能力。一种基于多模态（图像、文本）对比训练的神经网络。

代码讲故事·2024-02-06 10:30

万年枝·2024-02-06 06:29

CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce

Multi-ModalPretrainingObjectives4.TransfertoDowntasks转换到下游任务实验预训练数据集实验细节在下游任务上的Evaluationconclusion摘要本文旨在建立一个通用的多模态基础模型

万年枝·2024-02-06 06:59

文心一言4.0API接入指南

概述文心一言是百度打造出来的人工智能大语言模型，具备跨模态、跨语言的深度语义理解与生成能力，文心一言有五大能力，文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成，其在搜索问答、内容创作生成、智能办公等众多领域都有更广阔的想象空间

小小晓晓阳·2024-02-05 20:37

每周AI新闻（2024年第5周）ChatGPT等多应用登陆 Vision Pro | 字节Coze国内版上线等

FireflyAI登陆VisionProOpenAI发布了新的ChatGPTApp，允许AppleVisionPro用户与GPT-4Turbo模型进行自然语言交互，利用VisionOS操作系统的先进功能，支持多模态

陌北有棵树·2024-02-05 20:30

CVPR 2023: Leapfrog Diffusion Model for Stochastic Trajectory Prediction

我们使用以下6个分类标准对本文的研究选题进行分析：1.扩散模型类型:标准扩散模型蛙跳扩散模型(LED)其他扩散模型变体2.预测类型:确定性vs.随机性个体vs.群体3.数据模态:单变量(仅位置数据)多模态

结构化文摘·2024-02-05 15:47

6个国内可用的chat大模型

同时，它的多模态能力可以生成各种图片和图表等视觉内容，丰富了用户的内容表达方式。情感陪伴：该应用

go2coding·2024-02-05 15:44

Google聊天机器人Bard计划更名为Gemini并推出新功能；12 个 RAG 痛点和建议

GeminiAdvanced还将引入新功能和独家特性，如增强的多模态

go2coding·2024-02-05 15:42

眼动和脑电多模态数据融合分析

眼动和脑电多模态数据融合分析本文参考网址：http://www2.hu-berlin.de/eyetracking-eeg/tutorial.html本文首发在个人博客（7988888.xyz）今天为大家介绍多模态数据分析

陈锐CR·2024-02-05 07:00

大模型日报-20240202

文章目录企业如何使用开源LLM：16个案例多模态LLM多到看不过来？先看这26个SOTA模型吧伯克利开源高质量大型机器人操控基准，面对复杂自主操控任务不再犯难市值登顶全球！

程序无涯海·2024-02-05 03:33

大模型日报-20240204

还学会了跨应用操作代谢数据集上四项指标达94%~98%，西南交大团队开发多尺度图神经网络框架，助力药物研发A16Z最新AI洞察｜2023年是AI视频元年，2024年还有这些难题需要解决比肩GPT-4，商汤日日新大幅升级4.0，多模态能力领先一步年龄两岁

程序无涯海·2024-02-05 03:30

Q-Bench：一种用于低级别视觉通用基础模型的基准测试

1.引言多模态大语言模型（Multi-modalityLargeLanguageModels，后续简称多模态大模型）能够提供强大的通用级别视觉感知/理解能力，甚至可以通过自然语言与人类进行无缝对话和互动

AI算法-图哥·2024-02-05 01:56

深度学习实验-3d医学图像分割

本实验数据集为多模态腹部分割数据集（AMOS），一个大规模，多样性的，收集自真实临床场景下的腹部多器官分割基准数据。本实验在百度飞桨平台上采用nnU-N

桶的奇妙冒险·2024-02-04 17:30

今日arXiv最热NLP大模型论文：像人一样浏览网页执行任务，腾讯AI lab发布多模态端到端Agent

Agent的发展成为了LLM发展的一个热点。只需通过简单指令，Agent帮你完成从输入内容、浏览网页、选择事项、点击、返回等一系列需要执行多步，才能完成的与网页交互的复杂任务。比如给定任务：“搜索Apple商店，了解iPad智能保护壳SmartFolio的配件，并查看最近的自提点位置（邮政编码90038）。”下图演示Agent如何按照在线方式逐步与Apple网站进行交互，完成任务。在最后的屏幕截图

夕小瑶·2024-02-04 16:35

今日arXiv最热NLP大模型论文：像人一样浏览网页执行任务，腾讯AI lab发布多模态端到端Agent

‍Agent的发展成为了LLM发展的一个热点。只需通过简单指令，Agent帮你完成从输入内容、浏览网页、选择事项、点击、返回等一系列需要执行多步，才能完成的与网页交互的复杂任务。比如给定任务：“搜索Apple商店，了解iPad智能保护壳SmartFolio的配件，并查看最近的自提点位置（邮政编码90038）。”下图演示Agent如何按照在线方式逐步与Apple网站进行交互，完成任务。在最后的屏幕截

夕小瑶·2024-02-04 16:04

INDEMIND双目惯性模组运行实时ORB-SLAM3教程

现在实验室视觉SLAM已经不够满足，所以需要多模态融合，正巧购入高翔博士推荐的INDEMIND双目惯性模组，根据官方例程在中使用ROS接入ORB-SLAM3，这回有SDK及ORB-SLAM3安装过程中的各种常见性问题解决方法及安装细节

极客范儿·2024-02-04 10:01

第六届多模态脑网络数据处理班（直播：2023.6.15~6.25）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-04 08:00

AI新工具(20240202) OmniLMM-面向图文理解的开源多模态大模型；MusicFX是谷歌推出创造音乐的平台

OmniLMM-面向图文理解的开源多模态大模型OmniLMM是一系列面向图文理解的开源多模态大模型，接受图像和文本输入，并提供高质量的文本输出。

go2coding·2024-02-04 07:19

【2023地理设计组一等奖】多模态地理空间数据支持下的城市洪涝灾害韧性评价

作品介绍1作品背景近几年，城市化进程的加快和全球气候变暖导致气候系统不稳定，极端天气事件的发生频率逐渐上升[1]。据统计，洪涝灾害是最常见、最广泛和最具破坏性的自然灾害之一[2]。2021年7月，河南地区发生历史罕见特大暴雨，造成严重的洪涝灾害，而在2023年7月，强降雨导致河北地区遭受洪涝灾害。在洪涝灾害日益严峻的情况下，对洪涝灾害的研究是提升城市韧性的基础[3,4]。城市洪涝灾害韧性是指城市系

sky J·2024-02-03 21:27

媒体AI解决方案

贴合媒体业务流程提供智能生产、多模态内容结构化、智能编解码、审核等丰富智能应用，贴合行业“采编存管播发”场景。

公有云服务商·2024-02-03 17:52

周红伟：人类进入大模型时代，All in AI，未来大模型 10 大趋势

7、2024年多模态会成为大模型标准。8、2024AIGC将会替代70%的主播。9、大模型人形机器人将成为主流。10、大模型重新发明电力。

AI周红伟·2024-02-03 09:48

周红伟：人类进入大模型时代，All in AI，未来大模型 10 大趋势

7、2024年多模态会成为大模型标准。8、2024AIGC将会替代70%的主播。9、大模型人形机器人将成为主流。10、大模型重新发明电力。

AI周红伟·2024-02-03 09:48

联合语言和视觉的力量，复旦团队发布全新多专家融合视觉-语言大模型

基于新架构的眸思将擅长图文匹配、光学字符识别（OCR）和图像分割等多种经典视觉任务的专家巧妙地融为一体，显著地提高了多模态大模型在多模态对话中传统视觉任务上的表现效果。

PaperWeekly·2024-02-03 09:46

大模型应用开发-实用开源项目汇总

写代码的中青年·2024-02-03 09:32

2023-04-10

单细胞和空间多组学的方法和应用原创夏天图灵基因2023-04-1011:52发表于江苏收录于合集#前沿生物大数据分析撰文：夏天IF=59.581推荐度：⭐⭐⭐⭐⭐亮点：1、文章主要介绍了单细胞和空间多组学技术（也称为多模态组学方法

图灵基因·2024-02-03 02:37

开放式人工智能：聚焦OpenAI的发展历程

的里程碑事件研究成果及突破组织结构与模式的转变与微软的合作OpenAI的主要产品与技术GPT系列GPT-1GPT-2GPT-3GPT-3.5GPT-4GPT-4的创新及其对人工智能应用的潜在影响更高效的自然语言处理多模态学习平台智能数据分析个性化医疗和

kadog·2024-02-02 21:11

图像复原的天花板在哪里？SUPIR：开创性结合文本引导先验和模型规模扩大

通过利用多模态技术和先进的生成先验，SUPIR在智能和逼真的图像复原方面取得了重大进展。作为SUPIR中的关键催化剂，模型的扩大规模显著增强了其能力，并展示了图像复原的新潜力。

AI生成未来·2024-02-02 09:03

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-02 08:52

多模态融合新方向！21篇2024年最新顶会论文汇总！（附PDF）

在人工智能领域，多模态融合正迅速成为研究的热点，它涉及到将不同类型的数据，如文本、图像、音频等，整合到一个统一的模型中，以实现更丰富和深入的理解。

AI热心分享家·2024-02-02 02:38

腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法

在大规模语言模型（LLMs）通往通用人工智能（AGI）的道路中，从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多模态”必然是大模型进化的必经之路。

夕小瑶·2024-02-01 22:28

初识大模型

1大模型定义：“大模型”全称为大型语言模型（LLM）,，狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型等

一刀道人·2024-02-01 18:14

ECCV 2022 | 基于数据转移的细粒度场景图生成

PaperWeekly·2024-02-01 15:12

推荐频道

多模态

每日一看大模型新闻（2023.12.21）用友大易：发布国内首个AI面试解决方案；智源开源新一代多模态基础模型Emu2；一位中国教授使用AI创作科幻小说，荣获全国大奖；微调？开源+共训

ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

苹果推出新型开源AI图像编辑模型“MGIE”；可汗学院辅助学习的GPT,Prompt 质量非常高

明天开课 | 第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

【多模态大模型】GLIP：零样本学习 + 目标检测 + 视觉语言大模型

【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务（OCR等）上的效果

为什么大模型需要向量数据库？

攒波人品！我把整个秋招 NLP 算法岗的面经都在这里分享了！

MGIE官网体验入口 苹果多模态大语言模型AI图像编辑工具在线使用地址

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

51-11 多模态论文串讲—VLMo 论文精读

51-10 多模态论文串讲—ALBEF 论文精读

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

眸思MouSi：“听见世界” — 用多模态大模型点亮盲人生活

CodeFuse-VLM 开源，支持多模态多任务预训练/微调

【多模态MLLMs+图像编辑】MGIE：苹果开源基于指令和大语言模型的图片编辑神器（24.02.03开源）

大模型 AI Agent 详细介绍

多模态对比语言图像预训练CLIP：打破语言与视觉的界限，具备零样本能力

音乐数据集+大模型相关（一）

CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce

文心一言4.0API接入指南

每周AI新闻（2024年第5周）ChatGPT等多应用登陆 Vision Pro | 字节Coze国内版上线等

CVPR 2023: Leapfrog Diffusion Model for Stochastic Trajectory Prediction

6个国内可用的chat大模型

Google聊天机器人Bard计划更名为Gemini并推出新功能；12 个 RAG 痛点和建议

眼动和脑电多模态数据融合分析

大模型日报-20240202

大模型日报-20240204

Q-Bench：一种用于低级别视觉通用基础模型的基准测试

深度学习实验-3d医学图像分割

今日arXiv最热NLP大模型论文：像人一样浏览网页执行任务，腾讯AI lab发布多模态端到端Agent

今日arXiv最热NLP大模型论文：像人一样浏览网页执行任务，腾讯AI lab发布多模态端到端Agent

INDEMIND双目惯性模组运行实时ORB-SLAM3教程

第六届多模态脑网络数据处理班（直播：2023.6.15~6.25）

AI新工具(20240202) OmniLMM-面向图文理解的开源多模态大模型；MusicFX是谷歌推出创造音乐的平台

【2023地理设计组一等奖】多模态地理空间数据支持下的城市洪涝灾害韧性评价

媒体AI解决方案

最新AI系统ChatGPT网站H5系统源码，支持Midjourney绘画局部编辑重绘，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图

周红伟：人类进入大模型时代，All in AI，未来大模型 10 大趋势

周红伟：人类进入大模型时代，All in AI，未来大模型 10 大趋势

联合语言和视觉的力量，复旦团队发布全新多专家融合视觉-语言大模型

大模型应用开发-实用开源项目汇总

2023-04-10

开放式人工智能：聚焦OpenAI的发展历程

图像复原的天花板在哪里？SUPIR：开创性结合文本引导先验和模型规模扩大

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

多模态融合新方向！21篇2024年最新顶会论文汇总！（附PDF）

腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法

初识大模型

ECCV 2022 | 基于数据转移的细粒度场景图生成

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址