模态框（Modal）第35页

【论文泛读】Multimodal Neural Graph Memory Networks for Visual Question Answering

生成词向量的一种方法理解GloVe模型（Globalvectorsforwordrepresentation）GRU是LSTM的一种变形，LSTM和CRU都是通过各种门函数来将重要特征保留下来，这样就保证了在long-term传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数，因此在参数的数量上也是要少于LSTM的，所以整体上GRU的训练速度要快于LSTM的。两个网络的好坏还是得看具体的

浪里摸鱼·2022-12-31 09:56

Multimodal Graph-based Transformer Framework for BiomedicalRelation Extraction

Protein-ProteinInteractiontaskintroducedanovelframeworkthatenablesthemodeltolearnmulti-omnicsbiologicalinformationaboutentities(proteins)withthehelpofadditionalmulti-modalcueslikemolecula

辉辉小学生·2022-12-31 08:52

MTGAT:Multimodal Temporal Graph Attention；图卷积网络用于多模态情感分析

摘要多模态数据呈现复杂的多关系以及时序交互的特点，从这样的数据中学习具有挑战性本文提出了MTGAT。它是基于图以及具有可解释性的神经网络模型，可以利用这个框架解决多模态序列数据主要包括两个部分：构建以及处理。首先将非对齐的多模态序列转换成具有异构型(heterogeneous)节点以及边的图，这个过程可以随着时间的推移捕获到不同模态之间的交互。其次，使用多模态时序注意力以及动态pruning和re

Bourne___1·2022-12-31 08:50

2019 ICLR | Learning Multimodal Graph-to-Graph Translation for Molecular Optimization

arxiv.org/pdf/1812.01070Code:https://github.com/wengong-jin/iclr19-graph2graph2019ICLR|LearningMultimodalGraph-to-GraphTranslationforMolecularOptimization

发呆的比目鱼·2022-12-31 08:19

MULTI-MODAL ROBUSTNESS ANALYSIS AGAINST LANGUAGE AND VISUAL PERTURBATIONS

ABSTRACT最近，与单模态学习相比，基于大规模数据集的联合视觉和语言建模在多模态任务中取得了良好的进展。然而，这些方法对现实世界扰动的鲁棒性尚未研究。在这项工作中，我们对这些模型进行了第一次广泛的鲁棒性研究，研究对象是视频和语言。我们专注于文本到视频检索，并提出了两个大型基准数据集，MSRVTT-P和YouCook2-P，它们利用了90种不同的视觉和35种不同的文本扰动。研究揭示了一些有趣的发

Tsukinousag1·2022-12-30 07:35

Autogluon代码

教程来源：MultimodalPrediction—AutoGluonDocumentation0.5.2documentation此外还有：图像分类、多语言文本、多模态、CLIP等目录入门：表格预测文本分类文本相似

Blossom Flight·2022-12-29 17:01

CVPR2021-RSTNet：自适应Attention的“看图说话”模型

0写在前面由于强大的建模能力，Transformer结构被用在一系列CV、NLP、Cross-modal的任务中。

我爱计算机视觉·2022-12-29 11:43

【文献阅读】XVQA——一篇关于VQA的解释性研究（K. Alipour等人，ArXiv，2020）

一、背景文章题目：《AStudyonMultimodalandInteractiveExplanationsforVisualQuestionAnswering》文章下载链接：https://arxiv.org

全部梭哈迟早暴富·2022-12-28 16:05

多模态特征融合机制(含代码)：TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)

文章目录写在前面简单的concatTFN融合策略LWF融合策略论文全称：《TensorFusionNetworkforMultimodalSentimentAnalysis》《EfficientLow-rankMultimodalFusionwithModality-SpecificFactors

我是大黄同学呀·2022-12-28 12:30

Composing Text and Image for Image Retrieval - An Empirical OdysseyNam

论文杂记上一篇主目录下一篇文章结构1预备知识1.1Cross-modalimageretrieval1.2特征融合方法1.2.1LSTM1.2.2AttributeasOperator2本文方法2.1整体框架

ShaneHolmes·2022-12-28 12:00

【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension

motivation：之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法，分为两个阶段，第一步，模型根据实体词和属性词来感知表达式中描述的所有实体，第二步，模型进一步推理实体之间的关系，以突出所指对象并抑制其他不匹配的实体。idea：提出了一个跨模态渐进理解(CMPC)模块，该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块，第一步将从

lynn_Dai·2022-12-28 09:56

Referring Image Segmentation 综述

希望对您有用(●'◡'●)参考github顶会合集Cross-ModalSelf-AttentionNetworkforReferringImageSegmentation用了self-attention

一只想飞的咸鱼君·2022-12-28 09:56

论文：Linguistic Structure Guided Context Modeling for Referring Image Segmentation

AbstractReferringimagesegmentationaimstopredicttheforegroundmaskoftheobjectreferredbyanaturallanguagesentence.Multimodalcontextofthesentenceiscrucialtodistinguishthereferentfromthebackground.Existin

小仙女呀灬·2022-12-28 09:56

[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

文章地址：http://arxiv.org/pdf/2203.16778个人阅读见解，欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索，而有时图像中出现的场景文本(Scenetext)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用，并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一，跨模

TycoonL·2022-12-28 09:54

[论文翻译]数据集的domian问题:Intramodality Domain Adaptation Using Self Ensembling and Adversarial Training

论文pdf下载:链接IntramodalityDomainAdaptationUsingSelfEnsemblingandAdversarialTraining使用自集成和对抗性训练的模式域内适应Abstract.Advancesindeeplearningtechniqueshaveledtocompellingachievementsinmedicalimageanalysis.However

玖零猴·2022-12-27 21:28

Visually-Rich Document understanding—— 阅读笔记

：1、2021《LayoutLM:Pre-trainingofTextandLayoutforDocumentImageUnderstanding》微软2、2021《LayoutLMv2:Multi-modalPre-trainingforVisually-richDocumentUnderstanding

lynn_Dai·2022-12-27 16:57

【论文笔记】LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding(LayoutLMv2)

文章目录LayoutLMv2:Multi-modalPre-trainingforVisually-richDocumentUnderstanding基本信息摘要模型结构TextEmbeddingVisualEmbeddingLayoutEmbeddingSpatial-AwareSelf-AttentionMechanismPre-trainingTasksMaskedvisual-Langua

每天想peach·2022-12-27 16:25

【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

文章目录LayoutXLM:MultimodalPre-trainingforMultilingualVisually-richDocumentUnderstanding基本信息摘要模型结构ModelArchitecturePre-trainingMultilingualMaskedVisual-LanguageModelingText-ImageAlignmentText-ImageMatchi

每天想peach·2022-12-27 16:25

生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架

本篇推文引自：Amultimodaldeeplearningframeworkforpredictingdrug–druginteractionevents1.摘要动机:药物-药物相互作用(DDIs

ShenggengLin·2022-12-27 11:47

2018ECCV：Attention-Aware Deep Adversarial Hashing for Cross-Modal Retrieval 论文笔记

0.摘要由于多模态数据的快速增长，跨模态检索的哈希方法受到了广泛的关注。然而，由于存在异质性差异，在不同数据模式之间寻找内容相似性仍然具有挑战性。为了进一步解决这个问题，我们提出了一个带有注意机制的对抗性哈希网络，通过选择性地关注多模态数据的信息部分，来增强内容相似性的测量。提出的新的深层对抗网络包括三个构建模块:(1)特征学习模块获取特征表征;(2)用于生成注意掩码的注意模块，该注意掩码用于将特

彦祖琦·2022-12-26 14:48

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章来源：SIGIR’20摘要文章基于BERT提出了一个跨模态检索模型，该模型并不是一个通用的检索模型，主要用于电商领域时尚用品（Fashon）检索，作者是阿里巴巴。框架图文章框架和之前基于transformer的文章网络架构大致相同，输入输入文本和图片，对文本取token对图片取patch输出[CLS]用来判断文本和图片是否对齐训练任务遮挡图片（文本）预测图片（文本），预测文本和图片是否匹配Wh

hatake.18·2022-12-26 14:48

（跨模态检索综述）A Comprehensive Survey on Cross-modal Retrieval

AComprehensiveSurveyonCross-modalRetrievalKaiyeWangy,QiyueYiny,WeiWang,ShuWu,LiangWang∗,SeniorMember,

HYY233·2022-12-26 14:47

跨模态/多模态 cross-modal

模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的常见的多模态问题有视觉问答：针对图片提问题让计算机回答多模态建索，用自然语言问句来搜图多模态任务还有的比如模型在RGB数据集上训练，然后让在深度图或光流图上预测

hxxjxw·2022-12-26 14:47

多模态小样本

Large-ScaleFew-ShotLearningviaMulti-ModalKnowledgeDiscovery（解决大类别下的小样本学习）关键点：视觉特征分块；语义弱监督的引入在视觉空间中，将图片分为三种

DeepWWJ·2022-12-26 00:45

LXMERT:Learning Cross-Modality Encoder Representations from Transformers

LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers视觉-语言推理需要理解视觉概念、语言语义，最重要的是，理解两种模态之间的一致性和关系

但愿此生，从未邂逅·2022-12-25 22:16

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervisionTags:Transformer,VLP,multimodal

BL.S.·2022-12-25 22:14

【论文笔记】ASNet：基于生成对抗网络（GAN）的无监督单模和多模配准网络（范敬凡老师）

本文是论文《Adversariallearningformono-ormulti-modalregistration》的阅读笔记，是范敬凡老师的工作，是文章《AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration

棉花糖灬·2022-12-25 19:11

基于GAN的图像配准汇总

落花逐流水·2022-12-25 19:38

计算机视觉与图形学-神经渲染专题-NeRF汇总大礼包-I

001NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesisNeRF综述类002NEURALVOLUMERENDERINGNERFANDBEYOND025MultimodalImageSynthesisandE

元宇宙MetaAI·2022-12-25 14:06

图文结合-LXMERT

本文介绍一篇图文结合的经典论文，论文发布于2019年，算是最早出来的一批模型论文信息论文题目：LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers

poorlytechnology·2022-12-25 00:49

TomBert:一种基于Bert改进的多模态的情感识别方法

TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为AdaptingBERTforTarget-OrientedMultimodalSentimentClassification基于目标的情感分类是细粒度情感分类的重要任务

Neways谭·2022-12-24 16:47

小红书都在研究的多模态学习 , 到底有多强?

多模态机器学习，英文全称MultiModalMachineLearning(MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。

我爱计算机视觉·2022-12-23 12:22

＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

工作难度不大，但工作量极大，工程价值极高。目录后门攻击摘要一、Introduction二：RelatedWork三、Methods3.1、ThreatModel3.2、BackdoorDesign3.3、OptimizedPatches3.4、DetectorsandModels3.5、BackdoorTraining3.6、Metrics四、DesignExperiments4.1、Visual

金克丝、·2022-12-22 16:59

＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA

金克丝、·2022-12-22 16:59

文献阅读3

05Date:2022.12.17--05Title:Multi‑ModalFeatureFusion‑BasedMulti‑BranchClassificationNetworkforPulmonaryNoduleMalignancySuspiciousnessDiagnosisLink

Erwachen·2022-12-22 13:39

Towards Cross-Modality Medical Image Segmentation with Online Mutual Knowledge Distillation论文的研读

TowardsCross-ModalityMedicalImageSegmentationwithOnlineMutualKnowledgeDistillation论文的研读原文出处：英文原文本文主要翻译了摘要引言以及结论部分

我就是我2333·2022-12-22 10:16

2020-TMI-Unsupervised Bidirectional Cross-Modality Adaptation via Deeply Synergistic

作者在论文中提到在生成图像空间的特征对齐。这块理解有点不清楚？对于目标域到源域生成器（由E&U组成）生成的类源图像，作者添加一个附加任务至源判别器来区分所生成的图像/输入图像是从重建得到，还是从真实目标图像变化而来。如果判别器能成功地区分出生成图像的域，意味着所提取到的特征仍然包含域特征。为了确保特征域不变性，以下对抗损失被运用来监督特征提取的过程。值得注意的是编码器E被鼓励提取域不变特征，通过从

开心就哈哈·2022-12-22 09:43

医学图像多模分割论文列表2

TMI2021AdaptEverywhere:UnsupervisedAdaptationofPoint-CloudsandEntropyMinimizationforMulti-ModalCardiacImageSegmentation

胖头猫·2022-12-22 09:10

CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and Dual Norm

CVPR2022:GeneralizableCross-modalityMedicalImageSegmentationviaStyleAugmentationandDualNormalization基于样式增强和双重归一化的通用跨模态医学图像分割

HheeFish·2022-12-22 09:37

Hierarchical Fusion Model （2019 ACL）三种模态的层次融合

论文题目（Title）：Multi-ModalSarcasmDetectioninTwitterwithHierarchicalFusionModel研究问题（Question）：主要研究了推特中由文本和图像组成的推文的多模态讽刺检测研究动机

肉嘟嘟的zhu·2022-12-22 06:32

SWRM(2022)

论文题目（Title）：SentimentWordAwareMultimodalRefinementforMultimodalSentimentAnalysiswithASRErrors研究问题（Question

肉嘟嘟的zhu·2022-12-22 06:32

AutoGluon处理多模态数据方法及案例——Multimodal Data Tables: Tabular, Text, and Image

多模式数据表：表格、文本和图像注意：本教程需要GPU才能训练图像和文本模型。此外，具有适当CUDA版本的MXNet和Torch需要安装GPU。PetFinder数据集我们将使用PetFinder数据集。PetFinder数据集提供有关收容所动物的信息，这些信息出现在其收养档案中，目的是预测动物的收养率。最终目标是让救援避难所使用预测的收养率来识别可以改善其档案的动物，以便他们找到一个家。每只动物的

余余余2020·2022-12-21 09:18

mscoco数据集_多模态情感分析数据集整理

《Multi-ModalSarcasmDetectioninTwitterwithHierarchicalFusionModel》--【多模

weixin_39635084·2022-12-21 09:45

MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection

MAF-YOLO:基于多模态注意力融合的行人检测YOLOABSTRACT实现自然环境中行人的快速准确检测是人工智能系统的重要应用。然而，由于红外图像的低光密度和低分辨率，夜间行人的准确检测具有一定的挑战性，且对检测速度要求较高。提出一种基于多模态注意力融合YOLO(mafo-YOLO)的实时行人检测方法。首先，基于压缩的Darknet53框架构建多模态特征提取模块，以适应夜间行人检测，保证检测效率

yBooooo·2022-12-20 21:19

浅读LXMERT: Learning Cross-Modality Encoder Representations from Transformers

这篇文章提出的模型在视觉问答（VQA，GQA）上得到了最好的结果，甚至今年后续以此为基础或对照的的文章都没有超越这个结果。论文中很多地方提到这一方法是用到了BERT模型的方法（BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding）参考博客：博客整个模型，作者意图是将其称为预训练，输出的视觉，语言和跨模态结果

是尘埃呀！·2022-12-20 18:32

2019LXMERT：Learning Cross-Modality Encoder Representations from Transformers

摘要视觉-语言推理不仅需要视觉概念、语言语义的理解，更需要这两个模态的对齐和关系。因此，我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中，我们构建了一个大规模的Transformer模型包含三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来，为了赋予我们模型连接视觉和语言语义的能力，我们通过五种不同的预训练任

weixin_42653320·2022-12-20 18:02

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

目录ModelArchitecturePre-TrainingStrategiesExperimentalSetupandResultsReferencesLXMERT:LearningCross-ModalityEncoderRepresen-tationsfromTransformersModelArchitectureInputEmbeddings

连理o·2022-12-20 18:01

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记

文章目录1.文章概要2.模型体系结构2.1InputEmbeddings2.2编码器2.3输出表示3.预训练任务3.1LanguageTask:MaskedCross-ModalityLM3.2VisionTask

小有名气的可爱鬼·2022-12-20 17:31

EMNLP 2019 LXMERT: Learning Cross-Modality Encoder Representations from Transformers

动机视觉语言推理要求对视觉内容、语言语义以及跨模态的对齐和关系进行理解。过去已有大量的工作，分别开发具有更好的表示方法的骨干模型，用于语言和语音的单一模态。对于现有的视觉内容，人们已经开发了几个骨干模型，并在大型视觉数据集上显示了它们的有效性。开拓性工作还通过在不同任务上微调这些预训练的（特别是在ImageNet上）骨干模型来显示它们的泛化性。在语言理解方面，去年，本论文在构建具有大规模语境化语言

smile909·2022-12-20 17:00

lxmert:learning cross-modality encoder representations from transformers

LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉-语言推理需要对视觉概念

Kun Li·2022-12-20 17:00

推荐频道

模态框（Modal）