multimodal 第4页

Multimodal Graph-based Transformer Framework for BiomedicalRelation Extraction

Abstracttask：Protein-ProteinInteractiontaskintroducedanovelframeworkthatenablesthemodeltolearnmulti-omnicsbiologicalinformationaboutentities(proteins)withthehelpofadditionalmulti-modalcueslikemolecula

辉辉小学生·2022-12-31 08:52

MTGAT:Multimodal Temporal Graph Attention；图卷积网络用于多模态情感分析

摘要多模态数据呈现复杂的多关系以及时序交互的特点，从这样的数据中学习具有挑战性本文提出了MTGAT。它是基于图以及具有可解释性的神经网络模型，可以利用这个框架解决多模态序列数据主要包括两个部分：构建以及处理。首先将非对齐的多模态序列转换成具有异构型(heterogeneous)节点以及边的图，这个过程可以随着时间的推移捕获到不同模态之间的交互。其次，使用多模态时序注意力以及动态pruning和re

Bourne___1·2022-12-31 08:50

2019 ICLR | Learning Multimodal Graph-to-Graph Translation for Molecular Optimization

Paper:https://arxiv.org/pdf/1812.01070Code:https://github.com/wengong-jin/iclr19-graph2graph2019ICLR|LearningMultimodalGraph-to-GraphTranslationforMolecularOptimization作者把分子优化看作是一个图到图的平移问题。目标是学习从一个分子图

发呆的比目鱼·2022-12-31 08:19

多模态特征融合机制(含代码)：TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)

文章目录写在前面简单的concatTFN融合策略LWF融合策略论文全称：《TensorFusionNetworkforMultimodalSentimentAnalysis》《EfficientLow-rankMultimodalFusionwithModality-SpecificFactors》写在前面最近在做一个分类的比赛，想要用上数据中的多模态信息（主要是文本和图像特征），因此探索了一些多

我是大黄同学呀·2022-12-28 12:30

【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

文章目录LayoutXLM:MultimodalPre-trainingforMultilingualVisually-richDocumentUnderstanding基本信息摘要模型结构ModelArchitecturePre-trainingMultilingualMaskedVisual-LanguageModelingText-ImageAlignmentText-ImageMatchi

每天想peach·2022-12-27 16:25

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervisionTags:Transformer,VLP,multimodal

BL.S.·2022-12-25 22:14

＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

工作难度不大，但工作量极大，工程价值极高。目录后门攻击摘要一、Introduction二：RelatedWork三、Methods3.1、ThreatModel3.2、BackdoorDesign3.3、OptimizedPatches3.4、DetectorsandModels3.5、BackdoorTraining3.6、Metrics四、DesignExperiments4.1、Visual

金克丝、·2022-12-22 16:59

＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA

金克丝、·2022-12-22 16:59

AutoGluon处理多模态数据方法及案例——Multimodal Data Tables: Tabular, Text, and Image

多模式数据表：表格、文本和图像注意：本教程需要GPU才能训练图像和文本模型。此外，具有适当CUDA版本的MXNet和Torch需要安装GPU。PetFinder数据集我们将使用PetFinder数据集。PetFinder数据集提供有关收容所动物的信息，这些信息出现在其收养档案中，目的是预测动物的收养率。最终目标是让救援避难所使用预测的收养率来识别可以改善其档案的动物，以便他们找到一个家。每只动物的

余余余2020·2022-12-21 09:18

MICCAI 2022 | mmFormer:Multimodal Medical Transformer for Incomplete Multimodal Learning of BTS

MultimodalMedicalTransformerforIncompleteMultimodalLearningofBrainTumorSegmentation摘要从磁共振成像（MRI）中准确地分割脑肿瘤是多模态图像的联合学习所需要的。然而，在临床实践中，并不总是能够获得一套完整的MRI，缺失模态的问题导致现有多模态分割方法的性能严重下降。在这项工作中，我们首次尝试利用Transformer

Jorko的浪漫宇宙·2022-12-18 07:45

【脑肿瘤分割论文】：TransBTS: Multimodal Brain Tumor Segmentation Using Transformer

标题：TransBTS:MultimodalBrainTumorSegmentationUsingTransformer（TransBTS:使用多模态的脑肿瘤分割）publishedin：MICCAI2021:MedicalImageComputingandComputerAssistedIntervention–MICCAI2021论文地址：https://linkspringer.53yu.c

北辰浅巷墨漓·2022-12-18 07:13

Multimodal Motion Prediction with Stacked Transformers翻译

摘要预测附近车辆的多个可能的未来轨迹对于自动驾驶的安全至关重要。最近的运动预测方法试图通过隐式正则化特征或显式生成多个候选方案来实现这种多模态运动预测。然而，它仍然具有挑战性，因为潜在特征可能集中在最频繁的数据模式上，而基于提议的方法在很大程度上依赖于先验知识来生成和选择提议。在这项工作中，我们提出了一种新的多模态运动预测变压器框架，称为mmTransformer。设计了一种基于堆叠变压器的新型网

zzzzz忠杰·2022-12-15 01:23

[论文笔记]Multixnet Multiclass multistage multimodal motion prediction

MultiXNet:MulticlassMultistageMultimodalMotionPredictionMultiXNet一种端到端的检测与运动预测模型。如下图模型根据激光雷达和地图的输入数据，输出则是场景中其他参与者未来状态的多模态分布。本文的工作建立在IntentNet的基础上，对多种类型的交通参与者例如车辆、行人、自行车的联合检测和运动轨迹预测。bird’s-eyeview(BEV)

WensongChen·2022-12-15 01:52

【多V目标轨迹预测】mmTransformer:Multimodal Motion Prediction with Stacked Transformers (CVPR2021)

摘要最近的运动预测方法试图通过隐式地规范化特征或明确地生成多个候选目标，来实现这种多模态运动预测。然而，这仍然具有挑战性，因为潜在特征可能集中在数据的最频繁模式上，而基于目标的方法主要依赖先验知识来生成和选择目标。mmTransformer设计了一种基于堆叠transformers的新型网络体系结构，利用一组固定的独立方案在特征水平上进行多模态建模。然后开发了一种基于区域的训练策略，以诱导生成的建

光光同学·2022-12-15 01:16

论文研究10：Audio-Visual Speech Separation and Dereverberation With a Two-Stage Multimodal Network

论文研究10：Audio-VisualSpeechSeparationandDereverberationWithaTwo-StageMultimodalNetworkabstract背景噪音，干扰语音和房间混响经常会在实际收听环境中使目标语音失真。在这项研究中，我们着眼于联合语音分离和混响，其目的是将目标语音与背景噪声，干扰语音和房间混响分离开。为了解决这个根本上困难的问题，我们提出了一种利用音

浪浪亮·2022-12-14 07:03

万物皆Contrastive Learning，从ICLR和NIPS上解读对比学习最新研究进展

作者|对白出品|公众号：对白的算法屋我为大家整理了对比学习在最新各大顶会上的论文合集及相应代码，所列举的论文涉及领域包括但不限于CV,NLP,Audio,Video,Multimodal,Graph,Languagemodel

程序员对白·2022-12-14 00:54

论文笔记：Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Mo

视觉-语言模型零镜头跨语言迁移的多语种多模态预训练摘要介绍方法3.1MultilingualMultimodalTransformers3.2MultilingualText-VideoAlignment3.3WhenVisually-PivotedMultilingualAnnotationsAreAvailable4TheMultilingualHowTo100MDataset5Experim

帅帅梁·2022-12-13 06:22

VQA2-2017-Dual Attention Networks for Multimodal Reasoning and Matching

原文网址：文章目录Abstrace1.Introduction2.RelatedWork2.1.AttentionMechanisms2.2.VisualQuestionAnswering(VQA)2.3.Image-TextMatching3.DualAttentionNetworks(DANs)3.1.InputRepresentation3.2.AttentionMechanisms3.3.

edwinhaha·2022-12-11 19:41

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA 论文阅读 From CVPR 2022

MuKEA：基于视觉问答（VQA）的多模态知识抽取与积累论文下载：https://arxiv.org/abs/2203.09138github代码：https://github.com/AndersonStra/MuKEA一、研究背景结合外部知识的VQA任务(KnowledgebasedVQA)需要AI能够利用到超出输入图像、问题之外的额外知识。近年来，尽管一些KB-VQA的方法取得了一定成果，但

八个牙履·2022-12-10 01:56

Multimodal Token Fusion for Vision Transformers

水平太浅，理解不到位。谨慎观看。多模态token融合，我是语义分割，只看RGB和Depth模态。1：作者为了解决transformer多输入的问题，对基于transformer视觉任务进行剪枝，为了有效的融合多模态，tokenfusion动态的检测那些无信息的token，并用经过投影和聚合过的跨特征（projectedandaggregatedinter-modal）替换掉。为了使用融合后的跨模态

翰墨大人·2022-12-07 11:27

《User Diverse Preference Modeling by Multimodal Attentive Metric Learning》论文阅读

前言在该论文中，作者提出了MAML模型，是一种基于多模态信息的度量学习方法，通过该方法学习用户对于不同物品所具有的不同的偏好特征。一、RelatedWork首先，论文介绍了相关的工作，主要分为三个部分：1.用户偏好建模；2.度量学习；3.多模态。1.Diversepreferencemodeling在第一部分中，作者将前人的相关工作划分为两组：第一组是利用评论信息来分析每个用户对于目标物品的不同方

桜空星愿·2022-12-05 11:20

MAML:User Diverse Preference Modeling by Multimodal AttentiveMetric Learning

只想做个咸鱼·2022-12-05 11:19

Deep Multimodal Representation Learning（深度多模态表示学习）

多模态表示学习旨在缩小不同模态之间的异质性差距，在利用普遍存在的多模态数据中发挥着不可或缺的作用。基于深度学习的多模态表示学习由于具有强大的多层次抽象表示能力，近年来引起了人们的广泛关注。多模态融合的核心问题是异质性间隙，而为了便于讨论如何缩小异质性差距，根据不同模态集成的底层结构，我们将深度多模态表示学习方法分为三个框架：联合表示、协调表示和编解码器（如上图Fig1）.那么又为什么称为表征学习呢

霓虹甜心z·2022-12-04 13:44

【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】

《MultimodalTransformerforUnalignedMultimodalLanguageSequences》论文翻译《用于非对齐多模态语言序列的多模态Transformer》论文地址：[1906.00295]MultimodalTransformerforUnalignedMultimodalLanguageSequences(arxiv.org)代码地址：GitHub-yaohu

潮人生活985·2022-12-02 18:17

《Adaptive Fusion Techniques for Multimodal Data》论文学习

Abstract在本文当中，我们提出了一种自适应的融合技术，旨在从不同的模式有效地建模上下文，本文没有为网络定义一个确定性的融合操作，例如连接，而是让网络决定“如何”更有效地组合一组给定的多模态特征。我们提出了两种网络:1)自动融合，它学习压缩来自不同模式的信息，同时保留上下文;2)GAN融合，它从互补的模式中规则化给定上下文的学习潜在空间。对多模态机器翻译和情感识别任务的定量评估表明，与现有方法

waiall·2022-12-02 18:45

[论文记录] 2019 - Multimodal Transformer for Unaligned Multimodal Language Sequences

[论文记录]2019-MultimodalTransformerforUnalignedMultimodalLanguageSequences（更新中）论文简介论文内容摘要1介绍论文简介原论文：MultimodalTransformerforUnalignedMultimodalLanguageSequences1针对非对齐多模态语言序列的多模态Transformer论文地址：https://ar

EmoryDodin·2022-12-02 18:45

2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences

MultimodalTransformerforUnalignedMultimodalLanguageSequences论文地址：https://arxiv.org/abs/1906.00295对多模态人类语言序列数据进行建模的主要挑战：1.每种模态的序列的采样方法不同，因此不同数据是未对齐的（就是一段文字，采样后与之相匹配的视频片段或音频片段与之并未对其）2.跨模态的元素之间的长期依赖关系（哭泣

CityD·2022-12-02 18:13

论文笔记 EMNLP 2021|Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for

文章目录1简介1.1动机1.2创新2方法2.1模态编码2.2模态中互信息最大化2.3融合中互信息最大化3实验1简介论文题目：ImprovingMultimodalFusionwithHierarchicalMutualInformationMaximizationforMultimodalSentimentAnalysis论文来源：EMNLP2021组织机构：新加坡科技设计大学论文链接：https

hlee-top·2022-12-02 18:41

【多模态】《Attention Bottlenecks for Multimodal Fusion》论文阅读笔记

一、概述这篇文章做的是视频分类，即通过视频帧的特征和声音特征这两种模态进行多模态融合并分类。这篇文章的思路非常巧妙，采用了Transformer的结构对多种模态的特征进行了编码，因为Transformer本身就是一个编码器，这篇文章的巧妙之处就在于使用的是一个Transformer对两种模态进行编码。同时，在本文的模型框架中，在早期的时候，在模态内部做selfattention；在中后期的时候，在

CC‘s World·2022-12-02 18:41

论文阅读：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

1、abstractWepresentMMFT-BERT(MultiModalFusionTransformerwithBERTencodings),tosolveVisualQuestionAnswering(VQA)ensuringindividualandcombinedprocessingofmultipleinputmodalities.Ourapproachbenefitsfrompr

cheetah023·2022-12-02 18:40

论文浅尝 | Hybrid Transformer Fusion for Multimodal KG Completion

笔记整理：陈子强，天津大学硕士，研究方向为自然语言处理论文链接：https://arxiv.org/pdf/2205.02357.pdf动机尽管多模态知识图谱补全较单模态知识图谱补全已经有了很大的改进，但仍然存在两个限制。（1）架构的通用性。不同的多模态知识图谱补全需要在不同的编码器架构之上建立特定的、单独参数化的融合模块。因此需要一个统一的模型用于各个多模态知识图谱补全任务。（2）模态噪声。当前

开放知识图谱·2022-12-02 18:07

【CVPR 2022 多模态融合（有3D检测）】Multimodal Token Fusion for Vision Transformers

MultimodalTokenFusionforVisionTransformers论文简介：具体实现：Alignment-agnosticfusionAlignment-awarefusionMultimodalTokenFusionResidualPositionalAlignment实验结果：论文简介：许多方法已经应用到了Transformer以解决单模态视觉任务，其中自注意模块被堆叠来处理

BIT可达鸭·2022-11-30 19:22

2022：Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval

摘要近些年跨模态图像-配方检索得到了广泛的关注。我们提出一种新的检索框架，T-Food（用于跨模态食物检索的多模态正则化的Transformer解码器），使用一种新的正则化方案利用模态间的交互作用，在测试时只使用单模态编码器用于高效检索。我们还利用专门的配方编码器捕获配方实体间的内部依赖，并提出一种具有动态边缘的三重损失的变体，以适应任务的难度。最后，我们利用最近的VLP模型的力量用于图像编码器，

weixin_42653320·2022-11-30 19:50

CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer

动机transformer在包括但不限于自然语言、图像、视频和音频在内的广泛领域都显示出巨大的成功。前人的研究表明，在大型语料库中训练的transformer在一系列的下游语言任务中学习了强大的表征。在视觉领域中，基于transformer的模型在图像分类、目标检测和全景分割方面取得了非常不错的结果。除了对单个模态建模外，transformer模型在视觉问答等联合视觉和语言推理任务中也表现出很强的

smile909·2022-11-30 19:18

【论文】Multimodal Transformer

【论文】Yu,Jun,JingLi,ZhouYu,andQingmingHuang.Multimodaltransformerwithmulti-viewvisualrepresentationforimagecaptioning.（pdf）WhyisMTmodel以往流行的方式都是使用encoder-decoder结构，在encoder使用CNN提取局部视觉特征，decoder使用RNN根据视觉

大白羊_Aries·2022-11-30 19:46

阅读笔记多模态情感分析 Low Rank Fusion based Transformers for Multimodal Sequences

这一篇是讲多模态情感分类的。模型结构LowRankFusion借用了ACL2018EfficientLow-rankMultimodalFusionwithModality-SpecificFactors论文中的LowRankFusionACL2018的模型如下作者在此基础上，使用LSTM对序列数据进行压缩（为什么是时间序列，是如何用LSTM进行压缩的，这个论文没有讲清楚）Fusion-based

B站：阿里武·2022-11-30 19:15

＜＜视觉问答NeurIPS＞＞2021：Multimodal Few-Shot Learning with Frozen Language Models

金克丝、·2022-11-30 19:44

【论文笔记】VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

【论文笔记】VATT:TransformersforMultimodalSelf-SupervisedLearningfromRawVideo,AudioandText论文信息题目：VATT:TransformersforMultimodalSelf-SupervisedLearningfromRawVideo,AudioandText作者：HassanAkbariandLiangzheYuana

Manjusaka\·2022-11-30 19:11

视觉Transformer (三) VATT: Transformers for Multimodal Self-Supervised Learning from Video, Audio,Text

文章来源paper:https://arxiv.org/pdf/2104.11178Motivation作者提出了一个使用无卷积transformer架构从无标签数据中学习多模态表示的框架。具体来说，Video-AudioTextTransformer(VATT)将原始信号作为输入，并提取足够丰富的多模态表征，从而有利于各种下游任务(例如检测、分类、跟踪)。作者使用多模态对比损失从头到尾训练VAT

fling_forever·2022-11-30 19:41

transformer 多模态综述学习笔记《Multimodal Learning with Transformers: A Survey》

我的目标：调研目前transformer在多模态领域的应用，内容也以此为重点（不全文解析）。论文标题：MultimodalLearningwithTransformers:ASurvey论文地址：https://arxiv.org/abs/2206.06488作者：PengXu,XiatianZhu,andDavidA.Clifton摘要：本文主要工作包括：多模态学习、Transformer生态系

我说你别说·2022-11-30 19:10

2021最新对比学习（Contrastive Learning）在各大顶会上的经典必读论文解读

，选择星标或置顶，每天给你送上干货作者|对白出品|公众号：对白的算法屋我为大家整理了对比学习在最新各大顶会上的论文合集及相应代码，所列举的论文涉及领域包括但不限于CV,NLP,Audio,Video,Multimodal

机智的叉烧·2022-11-29 09:46

MIND & MIND-SSC: Contrast- and Modality-invariant Image Similarity for Multimodal Image Registration

OBELISK方法通过可变形卷积实现深度学习，从而减少层数来解决3D多器官分割问题1Contrast-andmodality-invariantimagesimilarity模态独立邻域描述符（MIND）是一种多维局部图像描述符，可实现多模态配准。在配准单模态的扫描时，它还被证明可以提高准确性和鲁棒性。每个MIND描述符只计算在一个patch内的距离（一个扫描的局部邻域内）。MIND的比较是以采样

Skr.B·2022-11-27 19:30

论文笔记｜Phraseformer: Multimodal Key-phrase Extraction using Transformer and Graph Embedding

导读这是一篇由伊朗IslamicAzadUniversity和土耳其AyvansarayUniversity的作者共同发表的关键词抽取论文。本文聚焦的是抽取式的关键词预测任务，使用文本的语义表示和图表示进行拼接，从而完成关键词预测的任务。本文在多个公开数据集上做了模型测试，验证了所提出模型的有效性。论文链接一、研究背景关键词抽取任务是自然语言处理中的关键人物，旨在从一段文本中抽取出若干能够概括文本

yanyc428·2022-11-27 10:18

论文阅读（Multimodal Dialog Systems via Capturing Context-aware Dependencies of Semantic Elements）

cx_0401·2022-11-26 10:13

【论文&模型讲解】多模态对话 Multimodal Dialogue Response Generation

文章目录前言0摘要1Introduction2相关工作2.1文本对话回复生成2.2Text-to-Image生成3ProblemFormailzation4Approach4.1多模态Tokenization4.1.1文本Tokenization4.1.2图像Tokenization4.2低资源学习模型4.2.1文本对话回复生成器(TextualDialogueResponseGenerator)

friedrichor·2022-11-26 10:42

MMML-CMU 学习笔记_No.1 Multimodal Introduction

WhatisMultimodal？什么是多模态？多模态可以在数学上被视为多峰分布，峰指的是概率密度函数中的不同“峰值”（局部最大值）但在我们实际生活中，更多的是指多种不同的感知方式，比如气味，触觉，听觉，视觉等等。本门课主要研究交流行为中的多模态问题：语言，声音，视觉多模态与多媒体的区分：模态是某事发生或经历的方式。模态是指某种类型的信息或存储信息的表示格式。多媒体指的是存储或通信的手段或工具。比

CV小Rookie·2022-11-24 21:54

MMML-CMU 学习笔记_No.1.2 Multimodal applications and datasets

从上世纪80年代开始，对多模态的认知与发展已经慢慢从心理学上的“behavioral”阶段进入到“computational”阶段，最先提出Audio-visualspeechrecognition（音视频语音识别）。紧接着由于YouTube等网站视频量的井喷式增长，希望开发基于关键字或者视频内容的搜索（工业推动学术），Content-basedvideoretrieval（基于视频内容检索），V

CV小Rookie·2022-11-24 21:24

MultiModal Machine Learning 笔记_No.0 课程介绍

课程简介：Multimodalmachinelearning(MMML)isavibrantmulti-disciplinaryresearchfieldwhichaddressessomeoftheoriginalgoalsofartificialintelligencebyintegratingandmodelingmultiplecommunicativemodalities,includi

CV小Rookie·2022-11-24 21:53

多模态学习（Multimodal Deep Learning）研究进展综述（转载）

转载：AI综述专栏——多模态学习研究进展综述https://zhuanlan.zhihu.com/p/39878607文章目录一、引言二、主要研究方向及研究进展(一)多模态表示学习(二)模态间映射(三)对齐(四)融合(五)协同学习三、未来研究展望(一)表示学习(二)模态间映射(三)对齐(四)融合(五)协同学习四、结束语参考文献一、引言模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递

landerous·2022-11-23 15:53

Multimodal Federated Learning

作者：YuchenZhao,PayamBarnaghi,HamedHaddadi机构：ImperialCollegeLondon1.Whatdoesliteraturestudy?在本文中，我们提出了一个多模态半监督联邦学习框架，该框架训练自动编码器从客户端不同的本地数据模式中提取共享或相关表示。此外，我们还提出了一种多模态FedAvg算法来聚合在不同数据模式下训练的本地自动编码器。2.What’

缄默的天空之城·2022-11-22 03:56

推荐频道

multimodal