zenRRan

【哈工大SCIR】多模态情感分析简述

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要19分钟

跟随小博主，每天进步一丢丢

来自：哈工大SCIR

作者：吴洋，胡晓毓，林子杰

介绍

随着社交网络的快速发展，人们在平台上的表达方式变得越来越丰富，如通过图文和视频表达自己的情绪和观点。如何分析多模态数据（本文指声音，图像和文字，不涉及传感器数据）中的情感，是当前情感分析领域面临的机遇和挑战。

一方面，以往情感分析聚焦于单个模态。如文本情感分析着眼于分析，挖掘和推理文本中蕴含的情感。现在需要对多个模态的数据进行处理和分析，这给研究人员带来了更大的挑战。另一方面，多模态数据与单模态数据相比，包含了更多的信息，多个模态之间可以互相补充。例如，在识别这条推文是否为反讽，“今天天气真好！”。如果只从文本来看，不是反讽。而如果其附加一张阴天的图片，可能就是反讽。不同模态信息相互补充，可以帮助机器更好地理解情感。从人机交互角度出发，多模态情感分析可以使得机器在更加自然的情况下与人进行交互。机器可以基于图像中人的表情和手势，声音中的音调，和识别出的自然语言来理解用户情感，进而进行反馈。

综上来讲，多模态情感分析技术的发展源于实际生活的需求，人们以更加自然的方式表达情感，技术就应有能力进行智能的理解和分析。虽然多模态数据包含了更多的信息，但如何进行多模态数据的融合，使得利用多模态数据能够提升效果，而不是起了反作用。如何利用不同模态数据之间的对齐信息，建模不同模态数据之间关联，如人们听见“喵”就会想起猫。这些都是当前多模态情感分析领域感兴趣的问题。为了能够更好的介绍多模态情感分析领域的相关研究，本文梳理了目前多模态情感分析领域相关任务并总结了常用的数据集及对应的方法。

数据集和方法

本文总结了13个公开数据集，其中包括8个视频数据集和5个图文数据集。本文还总结了与面向图文的情感分类任务，面向图文的方面级情感分类任务，面向图文的反讽识别任务，面向评论视频的情感分类任务和面向对话视频的情感分类任务五个任务对应的相关研究方法。

面向图文的情感分类任务

数据集

Yelp数据集来自Yelp.com评论网站，收集的是波士顿，芝加哥，洛杉矶，纽约，旧金山五个城市关于餐厅和食品的Yelp上的评论。一共有44305条评论，244569张图片（每条评论的图片有多张），平均每条评论有13个句子，230个单词。数据集的情感标注是对每条评论的情感倾向打1,2,3,4,5五个分值。

Tumblr数据集是从Tumblr收集来的多模态情绪数据集。Tumblr是一种微博客服务，用户在上面发布的多媒体内容通常包含：图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文，并且只选择其中既有文本又有图片的部分，然后进行了数据处理，删除了那些文本中原本就包含对应情绪词的内容，以及那些主要不是英文为主的推文。整个数据集共有256897个多模态推文，其中情绪标注为包含高兴，悲伤，厌恶在内的十五种情绪。

方法

结合Yelp数据集的特点，[1]提出“图片并不独立于文字表达情感，而是作为辅助部分提示文本中的显著性内容”。VistaNet用图片指导文本进行attention，用来决定文档中不同句子对于文档情感分类的重要性程度。

如图1所示，VistaNet具有三层结构，分别是词编码层、句子编码层和分类层。词编码层对一个句子中的词语进行编码，再经过soft-attention得到句子的表示。句子编码层对上一层得到的句子表示进行编码，再通过视觉注意力机制（visual aspectattentino）得到文档表示。文档表示作为分类层的输入，输出分类结果。从结构上来看，VistaNet和Hierarchical Attention Network基本相似，都是用于文档级情感分类，都有三层结构，且前两层都是GRUEncoder+Attention的结构，二者的不同点在于VistaNet使用了视觉注意力机制。

图1 VistaNet模型架构

面向图文的方面级情感分类任务

数据集

Multi-ZOL数据集收集整理了IT信息和商业门户网站ZOL.com上的关于手机的评论。原始数据有12587条评论(7359条单模态评论，5288条多模态评论)，覆盖114个品牌和1318种手机。其中的5288多模态评论，构成了Multi-ZOL数据集。在这个数据集中，每条多模态数据包含一个文本内容、一个图像集，以及至少一个但不超过六个评价方面。这六个方面分别是性价比、性能配置、电池寿命、外观与感觉、拍摄效果、屏幕。总共得到28469个方面。对于每个方面，都有一个从1到10的情感得分。

Twitter-15和Twitter-17是包含文本和文本对应图片的多模态数据集，数据集标注了目标实体及对其图文中表达的情感倾向。整个的数据规模是Twitter-15(3179/1122/1037)条带图片推文，Twitter-17（3562/1176/1234）条带图片推文，情感标注为三分类。

方法

方面级情感分类任务是对给定一个方面（Aspect），研究多模态文档在该方面的情感极性。一个方面可能由多个词语组成，例如“Eatingenvironment”，方面本身包含的信息对于文本和图像信息的提取有重要的指导意义。对于Multi-ZOL数据集，[2]提出了Multi-Interactive MemoryNetwork（MIMN），如图2所示。模型使用Aspect-guided attention机制来指导模型生成文本和图像的Attention向量。为了捕获多模态间和单模态内的交互信息，模型使用了Multi-interactive attention机制。

图2 MIMN模型架构

面向图文的反讽识别任务

反讽识别任务的目的是判断一段文档是否含有反讽表达。[3]提出了多层融合模型（HierarchicalFusion Model）对图文信息进行建模，用于反讽识别。

数据集

Twitters反讽数据集构建自Twitter平台，其从Twitter上收集包含图片和一些特定话题标签(例如#sarcasm，等等)的英语推文，将其作为正例，并收集带有图片但没有此类标签的英语推文，作为反例。数据集还进行了进一步整理数据，将含有讽刺、讽刺、反讽、反讽等常规词汇的推文删除。也会删除含有URL的推文，以避免引入额外的信息。此外，还删除了那些经常与讽刺性的推文同时出现的词语，例如Jokes，Humor。数据集分为训练集、开发集和测试集，分别是19816,2410,2409条带图片推文。该数据集的标注为是讽刺/不是讽刺二分类。

方法

HFM(HierarchicalFusion Model)在文本和图像双模态的基础上，增加了图像的属性模态（Image attribute），由描述图像组成成分的若干词组成。如图3所示，图片包含了“Fork”、“Knife”、“Meat”等属性。作者认为图像属性能够将图像和文本的内容联系起来，具有“桥梁”的作用。

根据功能将HFM划分为三个层次，编码层、融合层和分类层，其中融合层又可分为表示融合层和模态融合层。HFM在编码层首先对三种模态的信息进行编码，得到每种模态的原始特征向量(Raw vectors)，即每个模态的所有元素的向量表示集合。对原始特征向量进行平均或加权求和后得到每个模态的单一向量表示(Guidancevector)。原始特征向量和单一向量表示经过表示融合层后,得到融合了其他模态信息的每个模态的重组特征向量表示（Reconstructedfeature vector）。最后将三个模态的重组特征向量经过模态融合层处理，得到最后的融合向量（Fusedvector），作为分类层的输入。

图3 HFN模型架构

面向评论视频的情感分类任务

数据集

YouTube数据集收集整理了YouTube上的47个视频，收集的视频不是一个主题，而是牙膏，相机评论，婴儿用品等一系列多样化主题的视频。视频的形式是单个演讲者面对镜头讲述观点，总共包含20名女性，27名男性讲述者，年龄大约在14-60岁之间，来自不同的种族背景。视频的长度从2-5分钟不等，所有的视频序列都被规范化为30秒的长度。数据集的标注是由三位标注者以随机顺序观看视频进行标注，标注为积极，消极，中性三分类，需要注意的是标注的不是观看者对于视频的情感倾向，而是标注视频中讲述者的情感倾向，最后，47个视频中，有13个标注为积极，22个标注为中性，12个标注为消极。

ICT-MMMO数据集，收集的是社交媒体网站上关于电影评论的视频。数据集包含370个多模态评论视频，视频形式是一个人直接对着摄像机说话，表达他们的对于电影的评论或陈述与特定电影相关的事实。数据集来自于社交媒体网站YouTube和ExpoTV。所有的讲述者都用英语表达自己的观点，视频的长度从1-3分钟不等。总共有370个电影评论视频，其中有308个评论视频来自YouTube还有62个全是负面的评论视频来自ExpoTV，总体上包括228个正面评论、23个中立评论和119个负面评论。需要注意的是这个数据集标注的不是观看者对视频的感受，而是标注视频中讲述者的情感倾向。

MOSI数据集收集了YouTube上关于电影评论视频为主的视频博客(vlog)。视频的长度从2-5分钟不等，总共随机收集了93个视频，这些视频来自89位不同的讲述者，其中有41位女性和48位男性，大多数演讲者的年龄大约在20到30岁之间，来自不同的种族背景。这些视频的标注由来自亚马逊众包平台的五个标注者进行标注并取平均值，标注为从-3到+3的七类情感倾向。该数据集的情感标注不是观看者的感受，而是标注视频中的评论者的情感倾向。

CMU-MOSEI收集的数据来自YouTube的独白视频，并且去掉了那些包含过多人物的视频。最终的数据集包含3228个视频，23453个句子，1000个讲述者，250个话题，总时长达到65小时。数据集既有情感标注又有情绪标注。情感标注是对每句话的7分类的情感标注，作者还提供了了2/5/7分类的标注。情绪标注是包含高兴，悲伤，生气，恐惧，厌恶，惊讶六个方面的情绪标注。

方法

评论视频文件包含文字（字幕）、图像、语音三种信息，因此面向评论视频的情感分类任务所需要处理的对象是三种模态。视频可以看作图像在时间序列上的排列，相比起单张的图片多了时间这一属性，因此可以使用RNN及其变体对其进行编码。接下来将介绍三篇关于面向评论视频的多模态情感分类模型的工作，分别是EMNLP2017上的Tensor Fusion Network[4]和AAAI2018上的 Multi-attention Recurrent Network[5]、Memory Fusion Network[6]。

TFN(Tensor FusionNetwork)

Zadeh和他的团队[4]提出了一种基于张量外积（Outer product）的多模态融合方法，这也是TFN名字的来源。在编码阶段，TFN使用一个LSTM+2层全连接层的网络对文本模态的输入进行编码，分别使用一个3层的DNN网络对语音和视频模态的输入进行编码。在模态融合阶段，对三个模态编码后的输出向量作外积，得到包含单模态信息、双模态和三模态的融合信息的多模态表示向量，用于下一步的决策操作。

图4 TFN模型架构

MARN(Multi-attention RecurrentNetwork)

MARN基于一个假设：“模态间存在多种不同的信息交互”，这一假设在认知科学上得到了证实。MARN基于此提出使用多级注意力机制提取不同的模态交互信息。模型架构如图5所示。在编码阶段，作者在LSTM的基础上提出了“Long-shortTerm Hybrid Memory”，加入了对多模态表示的处理，同时将模态融合和编码进行了结合。由于在每个时刻都需要进行模态融合，要求三种模态的序列长度相等，因此需要在编码前进行模态对齐。

图5 MARN模型架构

MFN(Memory Fusion Network)

MARN考虑了注意力权重的多种可能分布，MFN则考虑了注意力处理的范围。MFN和MARN一样将模态融合与编码相结合，不同的是，在编码的过程中模态间是相互独立的，由于使用的是LSTM，并没有一个共享的混合向量加入计算，取而代之的，MFN使用“Delta-memoryattention”和“Multi-View Gated Memory”来同时捕捉时序上和模态间的交互。保存上一时刻的多模态交互信息。图6展示了MFN在t时刻的处理过程。

图6.MFN模型架构

面向对话视频的情感分类任务

数据集

MELD数据集源于EmotionLines数据集，后者是一个纯文本的对话数据集，来自于经典的电视剧老友记。MELD数据集是在此基础上的包含视频，文本，音频的多模态数据集，最终的数据集包含13709个片段，对个片段不仅有包含恐惧等七种在内的情绪标注，也有积极，消极，中性三分类的情感标注。

IEMOCAP数据集是比较特殊的，它既不是收集自现有的YouTube等影视平台的用户上传视频，也不是收集自老友记等知名电视节目的，它是由10个演员围绕具体的主题进行表演并记录得到的多模态数据集。数据集收集的是由5个专业男演员和5个专业女演员，围绕主题进行会话表演得到的视频，总共包括4787条即兴会话和5255条脚本化会话，每个会话平均持续时间4.5秒，总时长11小时。最终的数据标注是情绪标注，共有包含恐惧，悲伤在内的十个类别。

方法

对话情感分类的目的是判断每一个对话片段的情感极性，需要考虑说话人信息和对话的场景信息，且受前段对话内容的影响较大。DialogueRNN[7]使用3个GRU对说话人信息、前段对话的语境信息和情感信息进行建模。该模型定义了全局的语境状态（Globalstate）和对话参与者的状态（Party state）。结构上分为GlobalGRU、Party GRU和Emotion GRU三个部分，Global GRU用于计算并更新每一时刻的Globalstate。Party GRU用于计算并更新当前时刻（轮）的说话者的Partystate。Emotion GRU则用于计算当前对话内容的情感表示。

图7 DialogueRNN模型架构

面向新闻视频的情感分类任务

数据集

News Rover Sentiment数据集是新闻领域的数据集。该数据集使用的视频是在2013年8月13日至2013年12月25日之间录制的美国各种新闻节目和频道的视频。数据集按人员、职业进行了分类，视频长度限制在4到15秒之间。因为作者认为，很难在很短的视频中解读出人们的情绪，而15秒以上的视频可能会有多个带有不同情绪的语句。最终整个数据集有929个片段，对每一个片段都进行了三分类的情感标注。

面向对话视频的反讽识别任务

数据集

MUStARD是一个关于多模态讽刺检测的数据集，它的来源很广泛，包含知名的电视剧，生活大爆炸，老友记，黄金女郎等，作者从这些包含讽刺的电视剧中收集了讽刺相关的视频，又从MELD数据集中获得非讽刺的视频，最终的的数据集包含690个视频片段，其中345个是具有讽刺的视频片段，另外345个是不具有讽刺的视频片段，数据集的标注就是是否具有讽刺。

上述数据集信息可以总结为表2。

表2 多模态情感分析相关数据集信息表

总结

本文简单梳理了多模态情感分析领域的相关任务，总结了与任务对应的数据集及一些典型的方法。虽然多模态数据提供了更多的信息，但是如何处理和分析多模态信息、如何融合不同模态的信息还是多模态情感分析领域需要解决的主要问题。

参考文献

[1] Truong T Q, Lauw H W. VistaNet:Visual Aspect Attention Network for Multimodal Sentiment Analysis[C]. nationalconference on artificial intelligence, 2019: 305-312.

[2] Xu N, Mao W, Chen G, et al.Multi-Interactive Memory Network for Aspect Based Multimodal SentimentAnalysis[C]. national conference on artificial intelligence, 2019: 371-378.

[3] Cai Y, Cai H, Wan X, et al.Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model[C].meeting of the association for computational linguistics, 2019: 2506-2515.

[4] Zadeh A, Chen M, Poria S, et al.Tensor Fusion Network for Multimodal Sentiment Analysis[C]. empirical methodsin natural language processing, 2017: 1103-1114.

[5] Zadeh A, Liang P P, Poria S, etal. Multi-attention Recurrent Network for Human Communication Comprehension[J].arXiv: Artificial Intelligence, 2018.

[6] Zadeh A, Liang P P, Mazumder N,et al. Memory Fusion Network for Multi-view Sequential Learning[J]. arXiv:Learning, 2018.

[7] Majumder N, Poria S, Hazarika D,et al. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations[C].national conference on artificial intelligence, 2019: 6818-6825.

[8] Yu J, Jiang J. Adapting BERT forTarget-Oriented Multimodal Sentiment Classification[C]. international jointconference on artificial intelligence, 2019: 5408-5414.

[9] Morency L, Mihalcea R, Doshi P,et al. Towards multimodal sentiment analysis: harvesting opinions from theweb[C]. international conference on multimodal interfaces, 2011: 169-176.

[10] Wollmer M, Weninger F, Knaup T,et al. YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context[J].IEEE Intelligent Systems, 2013, 28(3): 46-53.

[11] Zadeh A. Micro-opinionSentiment Intensity Analysis and Summarization in Online Videos[C].international conference on multimodal interfaces, 2015: 587-591.

[12] Zadeh A B, Liang P P, Poria S,et al. Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset andInterpretable Dynamic Fusion Graph[C]. meeting of the association forcomputational linguistics, 2018: 2236-2246.

[13] Poria S, Hazarika D, MajumderN, et al. MELD: A Multimodal Multi-Party Dataset for Emotion Recognition inConversations[J]. arXiv: Computation and Language, 2018.

[14] Busso C, Bulut M, Lee C, et al.IEMOCAP: interactive emotional dyadic motion capture database[J]. languageresources and evaluation, 2008, 42(4): 335-359.

[15] Ellis J G, Jou B, ChangS, et al. Why We Watch the News: A Dataset for Exploring Sentiment in BroadcastVideo News[C]. international conference on multimodal interfaces, 2014:104-111.

[16] Castro S, Hazarika D,Perezrosas V, et al. Towards Multimodal Sarcasm Detection (An _Obviously_Perfect Paper).[J]. arXiv: Computation and Language, 2019.

本期责任编辑：丁　效

本期编辑：顾宇轩

方便交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读：

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的？

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
保研日记--哈工大威海计算机学院 faaarii 保研
传送门保研日记--中国海洋大学计算机系保研日记--中国人民大学信息学院（人大信院）保研日记--北京交通大学计算机学院保研材料模板（自我介绍，个人简历，个人陈述，推荐信）哈工大威海计算机学院这次夏令营给我的感觉非常的朴素，哈哈哈哈营员就有四个群，985/211、双一流、双非、四非？？没有宣讲会、见面会，在面试开始之前放了一个简短的宣传片。（傲娇，绝对不整那些花里胡哨的哈哈哈）面试有三组老师，分别问你
如何给QQ邮箱自动发邮件？无惧「小爱」下线！代码全公开，两步搞定 AI码上来 AI实战微信人工智能 python
前两天，搞了个微信AI小助理-小爱(AI)，爸妈玩的不亦乐乎。零风险！零费用！我把AI接入微信群，爸妈玩嗨了，附教程（下）最近一直在迭代中，挖掘小爱的无限潜力:链接丢给它，精华吐出来！微信AI小助理太强了，附完整提示词拥有一个能倾听你心声的「微信AI小助理」，是一种什么体验？小爱打工，你躺平！让「微信AI小助理」接管你的文件处理，一个字：爽！我把多模态大模型接入了「小爱」，痛快来一场「表情包斗图」
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
Vector与Stack简述 Sun_Jingjing Java 集合
Vector：线程安全，默认容量为10，容量增长量默认为0，每次进行扩容是旧的容量乘以2。支持null的添加。基于数组实现。Stack：Stack继承Vector的栈结构。
CTF常见编码及加解密（超全）第二篇不会代码的小徐编码密码网络安全密码学预编码
HTML实体编码简述：字符实体是用一个编号写入HTML代码中来代替一个字符，在使用浏览器访问网页时会将这个编号解析还原为字符以供阅读。举例：highlighter-HTML明文：hello，world.十进制：hello，world.十六进制：hel
discuz discuz_admincp.php 讲解,Discuz! 1.5-2.5 命令执行漏洞分析(CVE-2018-14729) weixin_39740419 discuz 讲解
0x00漏洞简述漏洞信息8月27号有人在GitHub上公布了有关Discuz1.5-2.5版本中后台数据库备份功能存在的命令执行漏洞的细节。漏洞影响版本Discuz!1.5-2.50x01漏洞复现官方论坛下载相应版本就好。0x02漏洞分析需要注意的是这个漏洞其实是需要登录后台的，并且能有数据库备份权限，所以比较鸡肋。我这边是用Discuz!2.5完成漏洞复现的，并用此进行漏洞分析的。漏洞点在：so
WPF中的控件转换（Transform） A_nanda WPF赏析 wpf
不可不知的WPF转换（Transform）在WPF开发中，经常会需要用到UI控件的2D转换（如：旋转，缩放，移动，倾斜等功能），本文以一些简单的小例子，简述如何通过Transform类实现FrameworkElement对象的2D转换，仅供学习分享使用，如有不足之处，还请指正。什么是Transform?转换（Transform）定义如何将控件从一个坐标空间映射或转换到另一个坐标空间。2D转换可以通
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
【Kubernetes】常见面试题汇总（十三） summer.335 Kubernetes kubernetes 容器云原生
目录39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？40.简述Kuberneteskubelet的作用？41.简述Kuberneteskubelet监控Worker节点资源是使用什么组件来实现的？39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？KubernetesScheduler根据如下两种调度算法将Po
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
【人工智能】多模态AI：如何通过融合文本、图像与音频重塑智能系统未来 2的n次方_ 小水文人工智能图像处理
我的主页：2的n次方_随着人工智能技术的飞速发展，多模态AI逐渐成为构建智能系统的重要方向。传统的AI系统通常依赖于单一模态的数据，如文本、图像或音频。而多模态AI通过结合多种数据类型，能够在更复杂的场景下提供更智能的解决方案。本文将深入探讨多模态AI的原理、应用场景及其未来发展，并通过代码示例展示如何构建一个多模态AI系统。1.多模态AI的基本原理多模态AI的核心在于融合来自不同模态（如文本、图
三相电表智能抄表是什么？ BZWL_BZWL 自动化运维人工智能数据分析大数据
一、三相电表智能抄表简述三相电表智能抄表操作系统是电力领域科学化管理不可或缺的一部分，它利用先进的物联网，完成了对三相电表数据库的自动采集、传送、解决与分析，大大提升了电力经营效率和服务水平。二、原理与优势1.原理：智能电表内嵌感应器，可精准测量三相电电压、电流和功率等数据。这些信息根据无线通讯模块(如GPRS、NB-IoT等)传送到云服务器，完成智能抄表。与此同时，电度表还能实时检测电网情况，防
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
Qt控件编辑功能(二) 雨田哥工作号
简述根据QtDesigner的控件选中，拉伸效果，用过Qt的盆友都很熟悉Qt的Designer，这个我就不多说了，我们先看看QtDesigner中的效果QtDesigner效果图图这里写图片描述模仿功能介绍1.支持选中效果；2.支持自由拉伸效果；3.支持双击鼠标左键编辑功能；4.支持键盘↑↓←→按键移动；5.支持按住ctrl+鼠标左键多选控件功能；6.支持键盘delete键，删除选中控件功能；模仿
[AI资讯·0605] GLM-4系列开源模型，OpenAI安全疑云，ARM推出终端计算子系统，猿辅导大模型备案…… 老牛同学 AI 人工智能 ai 大模型 AI资讯
AI资讯1毛钱1百万token，写2遍红楼梦！国产大模型下一步还想卷什么？AI「末日」突然来临，公司同事集体变蠢！只因四大聊天机器人同时宕机OpenAI员工们开始反抗了！AI手机PC大爆发，Arm从软硬件到生态发力，打造行业AI百宝箱GLM-4开源版本：超越Llama3，多模态比肩GPT4V，MaaS平台也大升级猿辅导竟然是一家AI公司？大模型全家桶曝光｜甲子光年FineChatBI，帆软在AI方
前端技能树，面试复习第 29 天—— 简述 Babel 的原理 | Webpack 构建流程 | Webpack 热更新原理 | Git 常用命令编程轨迹_ 前端面试复习笔记前端面试面经前端工程化 Webpack Babel 前端面试大厂面试题
31b3479814f74acbb70b9f63f2e80012.gif"width=“100%”>⭐️本文首发自前端修罗场(点击加入社区，参与学习打卡，获取奖励)，是一个由资深开发者独立运行的专业技术社区，我专注Web技术、答疑解惑、面试辅导以及职业发展。。1.Babel的原理是什么?babel的转译过程也分为三个阶段，这三步具体是：解析、转换、生成解析Parse:将代码解析⽣成抽象语法树（AS
文本生成图像工作简述1--概念介绍和技术梳理尹凯
姓名：尹凯学号：22011210590学院：通信工程学院原文链接：https://blog.csdn.net/air__Heaven/article/details/127302735【嵌牛导读】文本生成图像的概念介绍与技术梳理【嵌牛鼻子】文本生成图像基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功，而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的
多模态大语言模型(MLLMs)-一般架构（非常详细）零基础入门到精通，收藏这一篇就够了程序员_大白语言模型人工智能自然语言处理
多模态大语言模型(MultimodalLargeLanguageModel,MLLM），在LLM原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。相比于以往的多模态方法，例如以CLIP为代表的判别式，或以OFA为代表的生成式，新兴的MLLM展现出一些典型的特质，在下面这两种特质的加持下，MLLM涌现出一些以往多模态模型所不具备的能力！模型大。MLLM通常具有数十亿的参数量，更多的参数
大规模语言模型从理论到实践 vLLM推理框架实践 AGI通用人工智能之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：vLLM推理框架实践1.背景介绍1.1问题的由来随着大规模语言模型（LargeLanguageModels,vLLMs）的发展，从简单的语言生成到复杂的多模态任务，这些模型的能力得到了显著提升。然而，如何高效地利用这些模型进行推理成为了新的挑战。传统的方法往往受限于模型的输入长度、计算资源的限制以及缺乏有效的任务分解策略。为了解决这些问题，vLLM推理框架应运而生，旨在
.NET常见面试题汇总 .Net Core 爱好者 .net c#
首先，汇总一共分为三部分：一是关于.NET技术的面试问题，二是关于.NET项目中的实际问题，三是历年出现过一些面试题汇总一、.NET技术面试问题请简述.NET中的装箱和拆箱。什么是泛型，以及它在.NET中的用途？请解释一下C#中的委托是什么，以及它们如何工作？什么是事件，如何使用它们？请解释一下C#中的特性(Attributes)及其应用场景。.NET中的异步编程模式有哪些？什么是LINQ，它在.
C语言几种判断语句简述一杯烟火 C语言学习 c语言开发语言
C判断判断结构要求程序员指定一个或多个要评估或测试的条件，以及条件为真时要执行的语句（必需的）和条件为假时要执行的语句（可选的）。C语言把任何非零和非空的值假定为true，把零或null假定为false。下面是大多数编程语言中典型的判断结构的一般形式：C中的判断语句判断语句C语言提供了以下类型的判断语句。点击链接查看每个语句的细节。语句描述if语句一个if语句由一个布尔表达式后跟一个或多个语句组成
大模型中的多模态概念指的是什么张3蜂计算机视觉人工智能深度学习
大模型中的多模态（Multimodal）概念是指模型能够同时处理和理解来自多种类型的数据或信息模式（modalities），如文本、图像、音频、视频等。这种模型不仅可以从单一模态（如仅文本或仅图像）中学习，还能够结合多种模态的数据，从而增强模型的理解能力和表现。以下是一些与多模态相关的核心概念：模态（Modalities）：指的是数据的不同形式或类型。常见的模态包括：文本（Text）：自然语言文本
【Starrocks】建表篇Fe源码解析数算七弦 Starrocks 大数据
Starrocks系统架构简述现在市面上主流的OLAP存算一体架构主要有两类进程：Frontend（FE）和Backend（BE）Frontend一般是用Java写的。主要职责有：接收用户连接请求（MySQL协议层）元数据存储与管理查询语句的解析与查询计划的生成集群管控Backend一般是用C++写的，主要职责有：数据存储与管理查询计划的执行建表语句的执行过程与Mysql协议层交互词法解析语法解析
百行代码复现扩散模型-基于线性回归李新然数据统计分析深度学习线性回归算法回归 python 数据分析
文章目录引言简化模型原本模型模型改造实现过程数据集文本编码图像编码解码扩散过程训练过程生成过程完整实现结论引言多模态的深度学习模型，通常需要大量的算力去训练和验证。这导致缺乏算力的普通读者，阅读“大模型”论文，只能按论文作者所写来构造自己的认知。可能对很多类似笔者的人来说：纸上得来终觉浅。或许我们可以退而求其次，只选择Follow论文的思路。本文以DiffusionModel为例，说明从核心思想来
Flask中的请求钩子和上下文钩子 ac-er8888 flask python 后端
在Flask框架中，请求钩子和上下文是两个重要的概念，它们各自承担着不同的职责和作用，但又有一定的联系。下面将分别简述Flask中的请求钩子和上下文，并探讨它们之间的区别。Flask中的请求钩子请求钩子（RequestHooks）是Flask提供的一种机制，允许开发者在请求处理的不同阶段插入自定义的函数。这些钩子函数可以在请求到达视图函数之前或之后执行，用于执行一些通用的处理逻辑，如权限验证、日志
保研日记--中国人民大学信息学院（人大信院） faaarii 保研
传送门：保研日记--中国海洋大学计算机系保研日记--北京交通大学计算机学院保研日记--哈工大威海计算机学院保研材料模板（自我介绍，个人简历，个人陈述，推荐信）转眼就到九月份了本来想实时记录，忙起来就给忘了，眼看保研就要进入收尾阶段，回忆一下暑假的夏令营经历人大的面试内容没实时更新还有一个原因是，在面试开始做了口头的保密协议的，最后没有优营，不能成为人大人了（人大只有夏令营一次机会）所以还是打算记录
免费AI工具大全：自动&手动更新教程 ai_xiaogui 人工智能
随着人工智能技术的不断发展，越来越多的免费AI工具涌现出来，为用户提供了丰富的选择。然而，如何确保这些工具始终保持最新状态，以便能够享受到最新的功能和修复已知的问题，却是一个值得关注的问题。本文将详细介绍如何对这些免费AI工具进行自动和手动更新，帮助你保持软件的最佳性能。一、引言简述免费AI工具的普及及其重要性。引出文章主题——自动和手动更新方法。二、自动更新方法工具自带更新功能解释：许多AI工具
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方