多模态第2页

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

[CLIP-VIT-L+Qwen]多模态大模型源码阅读-trainer篇前情提要源码阅读导包逐行解读compute_loss方法（重构）整体含义逐行解读save_model函数（重构）整体含义逐行解读create_optimizer

FlowerLoveJava·2024-08-24 22:40

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

多模态学习笔记-语言模型篇（3）参考repo:WatchTower-Liu/VLM-learning;url:VLLM-BASE吐槽今天接着昨天的源码继续看，黑神话：悟空正好今天发售，希望广大coder

FlowerLoveJava·2024-08-24 22:10

《通义千问AI落地—上》：后端接口

为多模态大模型(MultimodalModels)。通义意为“通情，达义”，具备全副AI能力，致力于成为人们的工作、学习、生活助手。功能包括多轮对话、文案创作、逻辑推理、

写完bug就找女朋友·2024-08-24 22:37

【AIGC半月报】AIGC大模型启元：2024.08（下）

【AIGC半月报】AIGC大模型启元：2024.08（下））(1)Nemotron-4-Minitron（NvidiaLLM）(2)VITA（腾讯优图多模态大模型）(3)mPLUG-Owl3（阿里巴巴多模态大模型

LeeZhao@·2024-08-23 10:19

AIGC：clip-interrogator

文字生成图片是近年来多模态和大模型研究的热门方向，openai提出的CLIP提供了一个方法建立起了图片和文字的联系，但是只能做到给定一张图片选择给定文本语义最相近的那一个，实际项目开发中我们总是需要从一张图片获取描述

微风❤水墨·2024-08-23 10:17

破晓未来视界：neuralsim——3D重构与模拟的神经渲染革命

今天，我们为您揭开一个名为“neuralsim”的开源项目面纱，它基于3D神经渲染技术，旨在通过高效且详尽的方式，重新定义表面重建和多模态传感器仿真。

秋玥多·2024-08-23 09:46

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（2）

多模态学习笔记-语言模型篇（2）参考repo:WatchTower-Liu/VLM-learning;url:vlm-learning吐槽今天的源码看的欲仙欲死，NTK(neuraltangentkernel

FlowerLoveJava·2024-08-23 09:14

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（1）

多模态大模型源码阅读-语言模型篇（1）吐槽今日心得MQwen.py吐槽想要做一个以Qwen-7B-Insturct为languagedecoder,以CLIP-VIT-14为visionencoder的

FlowerLoveJava·2024-08-23 09:14

第六届多模态脑网络数据处理班（直播：2023.6.24~6.28）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-08-23 06:33

多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）

写代码的中青年·2024-08-22 15:59

AI实现自闭症早筛：卡罗林斯卡学院研究团队开发的多模态数据分析AI模型，能在儿童12个月左右时发现自闭症的早期迹象，准确率超过80%？

卡罗林斯卡学院的研究团队确实开发了一种多模态数据分析AI模型，该模型能够在儿童大约12个月大时发现自闭症的早期迹象，并且准确率超过80%.具体来说，这种AI模型利用了多种数据源和分析方法，包括基础医疗筛查和背景历史信息

百态老人·2024-08-22 13:48

多模态大模型：技术原理与实战 OpenAI一鸣惊人带来的启示

多模态大模型：技术原理与实战OpenAI一鸣惊人带来的启示1.背景介绍1.1人工智能的发展历程人工智能(ArtificialIntelligence,AI)是当代科技发展的核心领域之一。

AI大模型应用之禅·2024-08-22 12:40

多模态大模型：技术原理与实战智能客服

多模态大模型：技术原理与实战智能客服1.背景介绍在人工智能领域，多模态大模型（MultimodalLargeModels,MLMs）正逐渐成为研究和应用的热点。

AI大模型应用之禅·2024-08-22 12:39

探索AI智能体Agent的核心架构：记忆、工具与行动

这篇文章将详细解析智能体Agent的记忆与决策框架，探讨其多模态感知、记忆、规划决策等各个环节的实现与应用。

程序员笑武·2024-08-22 08:46

靖待·2024-02-24 10:27

openai chat GPT-4 Technical Report 技术报告论文

摘要我们报告了GPT-4的开发，这是一个大规模、多模态的模型，可以接受图像和文本输入，并生成文本输出。

·2024-02-20 19:06

“幕僚智算”重磅上线，打造AI算力新平台

一、AIGC时代算力的强烈需求随着人工智能技术的飞速发展，特别是ChatGPT和多模态的出现，我们正步入一个全新的AIGC时代。

·2024-02-20 19:05

openai chat GPT-4 Technical Report 技术报告论文

摘要我们报告了GPT-4的开发，这是一个大规模、多模态的模型，可以接受图像和文本输入，并生成文本输出。

·2024-02-20 18:30

多模态，1000K上下文！附Waitlist链接！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024谷歌一起变强。一些结论谷歌今天发布了Gemini1.5ProGemini1.5Pro的核心功

木易AI信息差·2024-02-20 13:02

谷歌Gemini1.5火速上线：MoE架构，100万上下文

它是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型1.0Ultra类

人工智能与算法学习·2024-02-20 13:02

Gemini技术报告解读：从Google多模态大模型看后续大模型应该具备哪些能力

NLP论文投稿、LLM交流、论文直播群前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

zenRRan·2024-02-20 13:00

Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

1、概述在本报告中，我们展示了Gemini系列的最新模型Gemini1.5Pro，这是一个计算效率极高的多模态专家混合模型，能够从数百万个上下文标记中回忆和推理细粒度信息，包括多个长文档和数小时的视频和音频

缘起性空、·2024-02-20 12:26

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验

（点击获取行业首款《社交泛娱乐出海作战地图》）如果将短剧的爆火简单粗暴地归因为剧情上头、狗血反转和精妙卡点，那GenAI世界这一年来可以说是一部短剧LiveShow。关注【融云全球互联网通信云】了解更多这厢OpenAI宫斗内幕还没起底完，那头Google就因为Gemini的Demo视频造假喜提热搜。不过我们还是能从混杂的剧情中摘取出主线，那就是后发力量所展示出的大模型演进方向——从一开始便进行多模

·2024-02-20 11:25

青少年和成人错误监测神经源的多模态研究

本研究使用多模态方法探究了与行为监测相关神经反应的年龄差异。该方法将fMRI和ERPs的源定位相结合，对12岁、15岁和成人参与者进行了研究。

茗创科技·2024-02-20 07:05

万字盘点 Android 领域在 2023 年的重要技术：AI, 14, Compose, 鸿蒙...

作为在AI领域耕耘多年的巨头，Google自然不会坐视不管，于2023年底之际发布了超越GPT-4的Gemini系列模型，其在多模态领域的表现令无数人震撼。

TechMerger·2024-02-20 05:28

《深入浅出OCR》第八章：文档处理多模态预训练

✨专栏介绍：经过几个月的精心筹备，本作者推出全新系列《深入浅出OCR》专栏，对标最全OCR教程，具体章节如导图所示，将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。‍面向对象：本篇前言知识主要介绍深度学习知识，全面总结知知识点，方便小白或AI爱好者学习基础知识。友情提醒：本文内容可能未能含概深度学习所有知识点，其他内容可以访问本人主页其他文章或个人博客，同时因本人水平

GoAI·2024-02-20 05:53

《深入浅出多模态》：智能文档处理多模态大模型总结

✨专栏介绍：本作者推出全新系列《深入浅出多模态》专栏，具体章节如导图所示（导图后续更新），将分别从各个多模态模型的概念、经典模型、创新点、论文综述、发展方向、数据集等各种角度展开详细介绍，欢迎大家关注。

GoAI·2024-02-20 05:22

OpenAI突然发布首款文生视频模型——Sora；谷歌发布Gemini 1.5，迈向多模态大模型新时代

AI新闻OpenAI突然发布首款文生视频模型——Sora摘要：OpenAI发布了首个AI视频模型Sora，可以根据文字指令生成神级效果的长视频，引发了广泛关注和震惊。Sora模型通过深入理解语言和图像，能够创造出逼真且充满想象力的视频场景，展现了革命性的意义。Sora模型具备多镜头一致性，理解世界物理规律，以及对电影拍摄语法的自发理解，为实现通用人工智能（AGI）奠定了基础，可能重塑视频行业。谷歌

go2coding·2024-02-20 01:53

凤凰AI·2024-02-20 00:27

（2024，CtrlColor，多模态提示，局部颜色操作）控制颜色：基于多模态扩散的交互式图像着色

ControlColor:MultimodalDiffusion-basedInteractiveImageColorization公和众和号：EDPJ（进Q交流群：922230617或加VX：CV_EDPJ进V交流群）目录0.摘要3.方法3.1.预备工作：LDM和ControlNet3.2.ControlColor框架3.2.1无条件上色3.2.2有条件上色3.2.3处理颜色溢出和不正确颜色4.

EDPJ·2024-02-19 22:37

每月AI科研动向（2024年1月）

目前的分类包括：LLM研究、Agent、多模态（图像、音视频、其他）、特定领域应用、具身智能。内容较多所以每个相对简略，后续会对必要的专题做更进一步的研究。

陌北有棵树·2024-02-19 16:17

Blackhat Europe 2023 | 百度安全揭秘多平台NPU背后的安全风险

近年来，随着大模型、多模态等技术的发展，人工智能技术在各个领域的重要性与日俱增，其攻击面和安全影响也在不断扩大，负责处理大量数据和复杂计算的NPU（嵌入式神经网络处理器）成为智能设备中不可或缺的一部分，

·2024-02-19 15:51

多模态基础---BERT

1.BERT简介BERT用于将一个输入的句子转换为word_embedding，本质上是多个Transformer的Encoder堆叠在一起。其中单个TransformerEncoder结构如下：BERT-Base采用了12个TransformerEncoder。BERT-large采用了24个TransformerEncoder。2.BERT的输入原始的句子中包含[CLS]和[SEP]两个字符，

aolaf·2024-02-19 12:02

基于UI交互意图理解的异常检测方法

美团到店平台技术部/质量工程部与复旦大学周扬帆教授团队开展了科研合作，基于业务实际场景，自主研发了多模态UI交互意图识别模型以及配套的UI交互框架。

·2024-02-19 10:59

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-15 08:43

多模态融合颠覆式创新！计算成本直降46.5%，准确性损失忽略不计

以往的融合方法从本质上讲是静态的，也就是以相同的计算处理和融合多模态输入，没有考虑不同多模态数据的不同计算需求。

深度之眼·2024-02-14 06:47

知识图谱 & 多模态学习 2024 最新综述

知识图谱遇见多模态学习：综述论文题目：KnowledgeGraphsMeetMulti-ModalLearning:AComprehensiveSurvey论文链接：http://arxiv.org/abs

奈何辰星无可奈·2024-02-13 19:53

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-13 16:12

【多模态大模型】Latent Diffusion：在潜在空间而非像素空间进行操作，从而减少了计算复杂度

LatentDiffusionStableDiffusion和LatentDiffusion扩散模型的成本问题子问题1:高计算成本和训练复杂度子问题2:保持生成图像的视觉保真度子问题3:实现多模态和高分辨率图像合成子问题

Debroon·2024-02-12 20:24

热点综述 | 空间组学技术如何全面解码肿瘤微环境

今年1月，复旦大学附属中山医院的科研团队在《ClinTranslMed》发表综述文章，回顾了空间组学的技术进步，以及先进的计算方法如何促进多模态空间数据分析；讨论了空间组学研究在精确肿瘤学中的潜在临床转化

尐尐呅·2024-02-12 19:01

大模型推理优化实践：KV cache 复用与投机采样

RTP-LLM还支持包括多模态、LoRA、P-Tuning、以及WeightOnly动态量化等

阿里技术·2024-02-12 15:01

阿里集团基于 Fluid+JindoCache 加速大模型训练的实践

作者：王涛(扬礼)陈裘凯(求索)徐之浩(东伝)一、背景时间步入了2024年，新的技术趋势，如大模型/AIGC/多模态等技术，已经开始与实际业务相结合，并开始生产落地。

阿里技术·2024-02-12 15:00

书生谱语-全链条开发工具

谱语全链条开发体系包含：数据、模型预训练、模型微调、模型量化部署、模型测评、模型场景应用全链路开发体系github链接通用大模型国内外大语言模型快速发展，涌现了大量的大语言模型以及一批创业公司深度学习模型的发展大模型利用多模态优势

SatVision炼金士·2024-02-12 11:21

VLM 系列——Llava1.6——论文解读

一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位

TigerZ*·2024-02-12 06:10

VLM 系列——MoE-LLaVa——论文解读

一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型

TigerZ*·2024-02-12 06:40

VLM 系列——LLaVA-MoLE——论文解读

的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs》，是一个多模态视觉

TigerZ*·2024-02-12 06:37

InternLM大模型实战-2.浦语大模型趣味demo

文章目录前言笔记正文3个Demo的简要介绍InternLM模型简介Lagent介绍书生`灵笔多模态大模型Demo动手实践模型的下载更多前言本文是对于InternLM全链路开源体系系列课程的学习笔记。

早上真好·2024-02-12 05:48

论文笔记：相似感知的多模态假新闻检测

整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图

图学习的小张·2024-02-11 19:11

书生·浦语大模型全链路开源体系

spm_id_from=333.788&vd_source=3bbd0d74033e31cbca9ee35e111ed3d1背景：人工智能的发展从针对特定任务，用一个模型解决一个问题过渡到一个模型来应对多模态

Kerin637·2024-02-11 18:24

【论文精读】ViT-Adapter

但普通的ViT可以使用包括图像，视频和文本的大量多模态数据进行预训练，这鼓励模型学习丰富的语义表示，但与特定于视觉的transformer变体相比，普通ViT在密集预测方面有决定性的缺

None-D·2024-02-11 15:12

推荐频道

多模态

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

《通义千问AI落地—上》：后端接口

【AIGC半月报】AIGC大模型启元：2024.08（下）

AIGC：clip-interrogator

破晓未来视界：neuralsim——3D重构与模拟的神经渲染革命

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（2）

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（1）

第六届多模态脑网络数据处理班（直播：2023.6.24~6.28）

多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）

AI实现自闭症早筛：卡罗林斯卡学院研究团队开发的多模态数据分析AI模型，能在儿童12个月左右时发现自闭症的早期迹象，准确率超过80%？

多模态大模型：技术原理与实战 OpenAI一鸣惊人带来的启示

多模态大模型：技术原理与实战 智能客服

探索AI智能体Agent的核心架构：记忆、工具与行动

多模态相关论文笔记

openai chat GPT-4 Technical Report 技术报告论文

“幕僚智算”重磅上线，打造AI算力新平台

openai chat GPT-4 Technical Report 技术报告论文

多模态，1000K上下文！附Waitlist链接！

谷歌Gemini1.5火速上线：MoE架构，100万上下文

Gemini技术报告解读：从Google多模态大模型看后续大模型应该具备哪些能力

Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验

青少年和成人错误监测神经源的多模态研究

万字盘点 Android 领域在 2023 年的重要技术：AI, 14, Compose, 鸿蒙...

《深入浅出OCR》第八章：文档处理多模态预训练

《深入浅出多模态》：智能文档处理多模态大模型总结

OpenAI突然发布首款文生视频模型——Sora；谷歌发布Gemini 1.5，迈向多模态大模型新时代

多模态推荐系统综述

（2024，CtrlColor，多模态提示，局部颜色操作）控制颜色：基于多模态扩散的交互式图像着色

每月AI科研动向（2024年1月）

Blackhat Europe 2023 | 百度安全揭秘多平台NPU背后的安全风险

多模态基础---BERT

基于UI交互意图理解的异常检测方法

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

多模态融合颠覆式创新！计算成本直降46.5%，准确性损失忽略不计

知识图谱 & 多模态学习 2024 最新综述

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

【多模态大模型】Latent Diffusion：在潜在空间而非像素空间进行操作，从而减少了计算复杂度

热点综述 | 空间组学技术如何全面解码肿瘤微环境

大模型推理优化实践：KV cache 复用与投机采样

阿里集团基于 Fluid+JindoCache 加速大模型训练的实践

书生谱语-全链条开发工具

VLM 系列——Llava1.6——论文解读

VLM 系列——MoE-LLaVa——论文解读

VLM 系列——LLaVA-MoLE——论文解读

InternLM大模型实战-2.浦语大模型趣味demo

论文笔记：相似感知的多模态假新闻检测

书生·浦语大模型全链路开源体系

【论文精读】ViT-Adapter

多模态大模型：技术原理与实战智能客服