多模态增强学习第6页

Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

1、概述在本报告中，我们展示了Gemini系列的最新模型Gemini1.5Pro，这是一个计算效率极高的多模态专家混合模型，能够从数百万个上下文标记中回忆和推理细粒度信息，包括多个长文档和数小时的视频和音频

缘起性空、·2024-02-20 12:26

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验

（点击获取行业首款《社交泛娱乐出海作战地图》）如果将短剧的爆火简单粗暴地归因为剧情上头、狗血反转和精妙卡点，那GenAI世界这一年来可以说是一部短剧LiveShow。关注【融云全球互联网通信云】了解更多这厢OpenAI宫斗内幕还没起底完，那头Google就因为Gemini的Demo视频造假喜提热搜。不过我们还是能从混杂的剧情中摘取出主线，那就是后发力量所展示出的大模型演进方向——从一开始便进行多模

·2024-02-20 11:25

青少年和成人错误监测神经源的多模态研究

本研究使用多模态方法探究了与行为监测相关神经反应的年龄差异。该方法将fMRI和ERPs的源定位相结合，对12岁、15岁和成人参与者进行了研究。

茗创科技·2024-02-20 07:05

万字盘点 Android 领域在 2023 年的重要技术：AI, 14, Compose, 鸿蒙...

作为在AI领域耕耘多年的巨头，Google自然不会坐视不管，于2023年底之际发布了超越GPT-4的Gemini系列模型，其在多模态领域的表现令无数人震撼。

TechMerger·2024-02-20 05:28

《深入浅出OCR》第八章：文档处理多模态预训练

✨专栏介绍：经过几个月的精心筹备，本作者推出全新系列《深入浅出OCR》专栏，对标最全OCR教程，具体章节如导图所示，将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。‍面向对象：本篇前言知识主要介绍深度学习知识，全面总结知知识点，方便小白或AI爱好者学习基础知识。友情提醒：本文内容可能未能含概深度学习所有知识点，其他内容可以访问本人主页其他文章或个人博客，同时因本人水平

GoAI·2024-02-20 05:53

《深入浅出多模态》：智能文档处理多模态大模型总结

✨专栏介绍：本作者推出全新系列《深入浅出多模态》专栏，具体章节如导图所示（导图后续更新），将分别从各个多模态模型的概念、经典模型、创新点、论文综述、发展方向、数据集等各种角度展开详细介绍，欢迎大家关注。

GoAI·2024-02-20 05:22

OpenAI突然发布首款文生视频模型——Sora；谷歌发布Gemini 1.5，迈向多模态大模型新时代

AI新闻OpenAI突然发布首款文生视频模型——Sora摘要：OpenAI发布了首个AI视频模型Sora，可以根据文字指令生成神级效果的长视频，引发了广泛关注和震惊。Sora模型通过深入理解语言和图像，能够创造出逼真且充满想象力的视频场景，展现了革命性的意义。Sora模型具备多镜头一致性，理解世界物理规律，以及对电影拍摄语法的自发理解，为实现通用人工智能（AGI）奠定了基础，可能重塑视频行业。谷歌

go2coding·2024-02-20 01:53

凤凰AI·2024-02-20 00:27

（2024，CtrlColor，多模态提示，局部颜色操作）控制颜色：基于多模态扩散的交互式图像着色

ControlColor:MultimodalDiffusion-basedInteractiveImageColorization公和众和号：EDPJ（进Q交流群：922230617或加VX：CV_EDPJ进V交流群）目录0.摘要3.方法3.1.预备工作：LDM和ControlNet3.2.ControlColor框架3.2.1无条件上色3.2.2有条件上色3.2.3处理颜色溢出和不正确颜色4.

EDPJ·2024-02-19 22:37

每月AI科研动向（2024年1月）

目前的分类包括：LLM研究、Agent、多模态（图像、音视频、其他）、特定领域应用、具身智能。内容较多所以每个相对简略，后续会对必要的专题做更进一步的研究。

陌北有棵树·2024-02-19 16:17

Blackhat Europe 2023 | 百度安全揭秘多平台NPU背后的安全风险

近年来，随着大模型、多模态等技术的发展，人工智能技术在各个领域的重要性与日俱增，其攻击面和安全影响也在不断扩大，负责处理大量数据和复杂计算的NPU（嵌入式神经网络处理器）成为智能设备中不可或缺的一部分，

·2024-02-19 15:51

多模态基础---BERT

1.BERT简介BERT用于将一个输入的句子转换为word_embedding，本质上是多个Transformer的Encoder堆叠在一起。其中单个TransformerEncoder结构如下：BERT-Base采用了12个TransformerEncoder。BERT-large采用了24个TransformerEncoder。2.BERT的输入原始的句子中包含[CLS]和[SEP]两个字符，

aolaf·2024-02-19 12:02

基于UI交互意图理解的异常检测方法

美团到店平台技术部/质量工程部与复旦大学周扬帆教授团队开展了科研合作，基于业务实际场景，自主研发了多模态UI交互意图识别模型以及配套的UI交互框架。

·2024-02-19 10:59

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-15 08:43

「绿色地球志愿者联盟」开启志愿者招募啦

绿色地球志愿者联盟希望能帮助大学生塑造良好的环保意识，增强学习的自律性和积极性。以微小之力让世界变得更健康、持续、美好。现在，我们期待更多的小可爱们加入到我们中来，那就先让我来介绍一下我们的联盟吧！

阅邻循环·2024-02-14 15:19

多模态融合颠覆式创新！计算成本直降46.5%，准确性损失忽略不计

以往的融合方法从本质上讲是静态的，也就是以相同的计算处理和融合多模态输入，没有考虑不同多模态数据的不同计算需求。

深度之眼·2024-02-14 06:47

知识图谱 & 多模态学习 2024 最新综述

知识图谱遇见多模态学习：综述论文题目：KnowledgeGraphsMeetMulti-ModalLearning:AComprehensiveSurvey论文链接：http://arxiv.org/abs

奈何辰星无可奈·2024-02-13 19:53

高一学姐给准初三的几点建议，超有用

超有用一年的时间足够改变很多东西只要你努力时间足够你考上任何一所你想去的高中如果你觉得这些建议能够帮到你请记得转走存好1.走在老师前面进入初三，不论是学习新知识还是日后的复习.都应该掌握属于自己的节奏，走在老师之前会对学习或复习的内容更有把握,增强学习动力和自信心

春风十里书香远·2024-02-13 17:31

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-13 16:12

【多模态大模型】Latent Diffusion：在潜在空间而非像素空间进行操作，从而减少了计算复杂度

LatentDiffusionStableDiffusion和LatentDiffusion扩散模型的成本问题子问题1:高计算成本和训练复杂度子问题2:保持生成图像的视觉保真度子问题3:实现多模态和高分辨率图像合成子问题

Debroon·2024-02-12 20:24

热点综述 | 空间组学技术如何全面解码肿瘤微环境

今年1月，复旦大学附属中山医院的科研团队在《ClinTranslMed》发表综述文章，回顾了空间组学的技术进步，以及先进的计算方法如何促进多模态空间数据分析；讨论了空间组学研究在精确肿瘤学中的潜在临床转化

尐尐呅·2024-02-12 19:01

大模型推理优化实践：KV cache 复用与投机采样

RTP-LLM还支持包括多模态、LoRA、P-Tuning、以及WeightOnly动态量化等

阿里技术·2024-02-12 15:01

阿里集团基于 Fluid+JindoCache 加速大模型训练的实践

作者：王涛(扬礼)陈裘凯(求索)徐之浩(东伝)一、背景时间步入了2024年，新的技术趋势，如大模型/AIGC/多模态等技术，已经开始与实际业务相结合，并开始生产落地。

阿里技术·2024-02-12 15:00

书生谱语-全链条开发工具

谱语全链条开发体系包含：数据、模型预训练、模型微调、模型量化部署、模型测评、模型场景应用全链路开发体系github链接通用大模型国内外大语言模型快速发展，涌现了大量的大语言模型以及一批创业公司深度学习模型的发展大模型利用多模态优势

SatVision炼金士·2024-02-12 11:21

VLM 系列——Llava1.6——论文解读

一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位

TigerZ*·2024-02-12 06:10

VLM 系列——MoE-LLaVa——论文解读

一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型

TigerZ*·2024-02-12 06:40

VLM 系列——LLaVA-MoLE——论文解读

的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs》，是一个多模态视觉

TigerZ*·2024-02-12 06:37

InternLM大模型实战-2.浦语大模型趣味demo

文章目录前言笔记正文3个Demo的简要介绍InternLM模型简介Lagent介绍书生`灵笔多模态大模型Demo动手实践模型的下载更多前言本文是对于InternLM全链路开源体系系列课程的学习笔记。

早上真好·2024-02-12 05:48

论文笔记：相似感知的多模态假新闻检测

整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图

图学习的小张·2024-02-11 19:11

书生·浦语大模型全链路开源体系

spm_id_from=333.788&vd_source=3bbd0d74033e31cbca9ee35e111ed3d1背景：人工智能的发展从针对特定任务，用一个模型解决一个问题过渡到一个模型来应对多模态

Kerin637·2024-02-11 18:24

1.10 强化学习

·2024-02-11 17:09

【论文精读】ViT-Adapter

但普通的ViT可以使用包括图像，视频和文本的大量多模态数据进行预训练，这鼓励模型学习丰富的语义表示，但与特定于视觉的transformer变体相比，普通ViT在密集预测方面有决定性的缺

None-D·2024-02-11 15:12

多模态知识图谱：感知与认知的交汇

目录前言1多模态知识图谱的概念1.1感知系统与认知系统的连接1.2信息形式的整合与融合1.3全面、多维度的认知基础2多模态的作用2.1模态的知识互补2.2模态实体消歧2.3模态语义搜索2.4知识图谱补全

cooldream2009·2024-02-10 21:34

惊艳！2.77亿参数锻造出Agent+GPT-4V模型组合，AI领航机器人、游戏、医疗革新，通用智能时代你准备好了吗？

注意：LangChainAgent主要增强基于语言的互动能力，而交互式代理基础模型寻求统一多模态输入，以实现更广泛的通用

Dlimeng聊AI·2024-02-10 18:21

第六届多模态脑网络数据处理班（直播：2023.7.8~7.12）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-10 16:05

GPT-4登场：多模态能力革新，提升ChatGPT与必应体验，开放API助力游戏革新

GPT-4登场：多模态能力革新，提升ChatGPT与必应体验，开放API助力游戏革新引言在人工智能领域，GPT-4的发布标志着一个新时代的到来。

Draven21·2024-02-10 09:00

GPT-4狂飙发布，AI时代运维将发生哪些变革？

OpenAI于3月14日发布了GPT-4，这是一个支持图像和文本输入、提供文本输出的大型多模态模型。相比之前的版本，GPT-4的文字输入限制提升至2.5万，并且回答准确性明显提高。

LinkSLA·2024-02-10 08:01

2024最新ChatGPT干货总结 & 升级GPT Plus教程

众所周知的原因，目前Openai已经把资源更多投入到GPT4以及训练未来GPT5了，GPT3.5已经被一定程度上降智，同时GPT4支持多模态、GPTS等能力，GPTPlus它不仅具备了前任GPT基础版本

我是如此相信ᯤ⁶⁶ᴳ·2024-02-10 03:22

解锁ChatGPT4与近红外光谱的强大组合：从数据解析到深度学习建模的新境界

2023年4月，更强版本的ChatGPT4.0上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。

zmjia111·2024-02-10 03:22

每日一看大模型新闻（2023.12.21）用友大易：发布国内首个AI面试解决方案；智源开源新一代多模态基础模型Emu2；一位中国教授使用AI创作科幻小说，荣获全国大奖；微调？开源+共训

1.产品发布1.1奇域AI:符合中国宝宝审美的AI绘画平台发布日期：2023.12.21奇域AI:符合中国宝宝审美的AI绘画平台(chinaz.com)主要内容：奇域AI以中国文化元素为基础，呈现极具中式审美的绘画风格，为创作者提供独特创作空间。社区提供新手引导，汇聚顶尖AI绘画创作者，促进创作者学习和启发。创作者可通过分享邀请链接和作品赚取额度，同时提供商业用途的生成图片，助力个人IP知名度提升

超爱玩大模型·2024-02-09 22:17

ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

ChatGPT升级指南：迎接GPT-4V(ision)的全新多模态时代ChatGPT最新升级引入了GPT-4V(ision)，这是一个突破性的多模态版本，支持语音和图像输入。

Draven21·2024-02-09 06:41

苹果推出新型开源AI图像编辑模型“MGIE”；可汗学院辅助学习的GPT,Prompt 质量非常高

MGIE，全称MLLM-GuidedImageEditing，依赖于多模态大型语言模型（MLLM）来解释用户指令，并执行精细的像素级编辑操作。

go2coding·2024-02-08 22:07

明天开课 | 第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-08 20:12

【多模态大模型】GLIP：零样本学习 + 目标检测 + 视觉语言大模型

GLIP核心思想GLIP对比BLIP、BLIP-2、CLIP主要问题:如何构建一个能够在不同任务和领域中以零样本或少样本方式无缝迁移的预训练模型？统一的短语定位损失语言意识的深度融合预训练数据类型的结合语义丰富数据的扩展零样本和少样本迁移学习效果论文：https://arxiv.org/pdf/2112.03857.pdf代码：https://github.com/microsoft/GLIP核心

Debroon·2024-02-08 11:34

【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务（OCR等）上的效果

论文：Vary:ScalinguptheVisionVocabularyforLargeVision-LanguageModels代码：https://github.com/Ucas-HaoranWei/Vary出处：旷视时间：2023.12一、背景当前流行的大型视觉-语言模型LargeVision-LanguageModels(LVLMs)一般都使用共享的visionvocabulary，这个词

呆呆的猫·2024-02-08 08:19

为什么大模型需要向量数据库？

比如：爆火的Google大模型Gemini1.0原生支持的多模态，在预训练的时候就是把文本、图片、音频、视频等多模态先进行token化，然后构建一维的“语言”序列，再进行向量化，实现了原生多模态的支持。

Python算法实战·2024-02-08 01:30

攒波人品！我把整个秋招 NLP 算法岗的面经都在这里分享了！

首先感谢组织AI算法岗的交流会，我从中收获很多，也有机会分享我的秋招面试的经历，我投的岗位比较杂，主要是NLP，也包括一些多模态、大模型、推荐相关的岗位，最终拿到了腾讯、顺丰、平安金服和迪

Python算法实战·2024-02-08 01:29

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。

Kavaj·2024-02-07 21:02

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。

茗创科技·2024-02-07 13:25

推荐频道

多模态增强学习

Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验

青少年和成人错误监测神经源的多模态研究

万字盘点 Android 领域在 2023 年的重要技术：AI, 14, Compose, 鸿蒙...

《深入浅出OCR》第八章：文档处理多模态预训练

《深入浅出多模态》：智能文档处理多模态大模型总结

OpenAI突然发布首款文生视频模型——Sora；谷歌发布Gemini 1.5，迈向多模态大模型新时代

多模态推荐系统综述

（2024，CtrlColor，多模态提示，局部颜色操作）控制颜色：基于多模态扩散的交互式图像着色

每月AI科研动向（2024年1月）

Blackhat Europe 2023 | 百度安全揭秘多平台NPU背后的安全风险

多模态基础---BERT

基于UI交互意图理解的异常检测方法

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

「绿色地球志愿者联盟」开启志愿者招募啦

多模态融合颠覆式创新！计算成本直降46.5%，准确性损失忽略不计

知识图谱 & 多模态学习 2024 最新综述

高一学姐给准初三的几点建议，超有用

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

【多模态大模型】Latent Diffusion：在潜在空间而非像素空间进行操作，从而减少了计算复杂度

热点综述 | 空间组学技术如何全面解码肿瘤微环境

大模型推理优化实践：KV cache 复用与投机采样

阿里集团基于 Fluid+JindoCache 加速大模型训练的实践

书生谱语-全链条开发工具

VLM 系列——Llava1.6——论文解读

VLM 系列——MoE-LLaVa——论文解读

VLM 系列——LLaVA-MoLE——论文解读

InternLM大模型实战-2.浦语大模型趣味demo

论文笔记：相似感知的多模态假新闻检测

书生·浦语大模型全链路开源体系

1.10 强化学习

【论文精读】ViT-Adapter

多模态知识图谱：感知与认知的交汇

惊艳！2.77亿参数锻造出Agent+GPT-4V模型组合，AI领航机器人、游戏、医疗革新，通用智能时代你准备好了吗？

第六届多模态脑网络数据处理班（直播：2023.7.8~7.12）

最新多模态生成模型 MM-Interleaved 开源

GPT-4登场：多模态能力革新，提升ChatGPT与必应体验，开放API助力游戏革新

GPT-4狂飙发布，AI时代运维将发生哪些变革？

2024最新ChatGPT干货总结 & 升级GPT Plus教程

解锁ChatGPT4与近红外光谱的强大组合：从数据解析到深度学习建模的新境界

每日一看大模型新闻（2023.12.21）用友大易：发布国内首个AI面试解决方案；智源开源新一代多模态基础模型Emu2；一位中国教授使用AI创作科幻小说，荣获全国大奖；微调？开源+共训

ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

苹果推出新型开源AI图像编辑模型“MGIE”；可汗学院辅助学习的GPT,Prompt 质量非常高

明天开课 | 第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

【多模态大模型】GLIP：零样本学习 + 目标检测 + 视觉语言大模型

【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务（OCR等）上的效果

为什么大模型需要向量数据库？

攒波人品！我把整个秋招 NLP 算法岗的面经都在这里分享了！

MGIE官网体验入口 苹果多模态大语言模型AI图像编辑工具在线使用地址

第七届多模态脑网络数据处理班（训练营：2023.10.5~10.21）

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址