modal 第32页

CVPR2021-RSTNet：自适应Attention的“看图说话”模型

0写在前面由于强大的建模能力，Transformer结构被用在一系列CV、NLP、Cross-modal的任务中。

我爱计算机视觉·2022-12-29 11:43

【文献阅读】XVQA——一篇关于VQA的解释性研究（K. Alipour等人，ArXiv，2020）

一、背景文章题目：《AStudyonMultimodalandInteractiveExplanationsforVisualQuestionAnswering》文章下载链接：https://arxiv.org

全部梭哈迟早暴富·2022-12-28 16:05

多模态特征融合机制(含代码)：TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)

文章目录写在前面简单的concatTFN融合策略LWF融合策略论文全称：《TensorFusionNetworkforMultimodalSentimentAnalysis》《EfficientLow-rankMultimodalFusionwithModality-SpecificFactors

我是大黄同学呀·2022-12-28 12:30

Composing Text and Image for Image Retrieval - An Empirical OdysseyNam

论文杂记上一篇主目录下一篇文章结构1预备知识1.1Cross-modalimageretrieval1.2特征融合方法1.2.1LSTM1.2.2AttributeasOperator2本文方法2.1整体框架

ShaneHolmes·2022-12-28 12:00

【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension

motivation：之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法，分为两个阶段，第一步，模型根据实体词和属性词来感知表达式中描述的所有实体，第二步，模型进一步推理实体之间的关系，以突出所指对象并抑制其他不匹配的实体。idea：提出了一个跨模态渐进理解(CMPC)模块，该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块，第一步将从

lynn_Dai·2022-12-28 09:56

Referring Image Segmentation 综述

希望对您有用(●'◡'●)参考github顶会合集Cross-ModalSelf-AttentionNetworkforReferringImageSegmentation用了self-attention

一只想飞的咸鱼君·2022-12-28 09:56

论文：Linguistic Structure Guided Context Modeling for Referring Image Segmentation

AbstractReferringimagesegmentationaimstopredicttheforegroundmaskoftheobjectreferredbyanaturallanguagesentence.Multimodalcontextofthesentenceiscrucialtodistinguishthereferentfromthebackground.Existin

小仙女呀灬·2022-12-28 09:56

[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

文章地址：http://arxiv.org/pdf/2203.16778个人阅读见解，欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索，而有时图像中出现的场景文本(Scenetext)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用，并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一，跨模

TycoonL·2022-12-28 09:54

[论文翻译]数据集的domian问题:Intramodality Domain Adaptation Using Self Ensembling and Adversarial Training

论文pdf下载:链接IntramodalityDomainAdaptationUsingSelfEnsemblingandAdversarialTraining使用自集成和对抗性训练的模式域内适应Abstract.Advancesindeeplearningtechniqueshaveledtocompellingachievementsinmedicalimageanalysis.However

玖零猴·2022-12-27 21:28

Visually-Rich Document understanding—— 阅读笔记

：1、2021《LayoutLM:Pre-trainingofTextandLayoutforDocumentImageUnderstanding》微软2、2021《LayoutLMv2:Multi-modalPre-trainingforVisually-richDocumentUnderstanding

lynn_Dai·2022-12-27 16:57

【论文笔记】LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding(LayoutLMv2)

文章目录LayoutLMv2:Multi-modalPre-trainingforVisually-richDocumentUnderstanding基本信息摘要模型结构TextEmbeddingVisualEmbeddingLayoutEmbeddingSpatial-AwareSelf-AttentionMechanismPre-trainingTasksMaskedvisual-Langua

每天想peach·2022-12-27 16:25

【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

文章目录LayoutXLM:MultimodalPre-trainingforMultilingualVisually-richDocumentUnderstanding基本信息摘要模型结构ModelArchitecturePre-trainingMultilingualMaskedVisual-LanguageModelingText-ImageAlignmentText-ImageMatchi

每天想peach·2022-12-27 16:25

生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架

本篇推文引自：Amultimodaldeeplearningframeworkforpredictingdrug–druginteractionevents1.摘要动机:药物-药物相互作用(DDIs

ShenggengLin·2022-12-27 11:47

2018ECCV：Attention-Aware Deep Adversarial Hashing for Cross-Modal Retrieval 论文笔记

0.摘要由于多模态数据的快速增长，跨模态检索的哈希方法受到了广泛的关注。然而，由于存在异质性差异，在不同数据模式之间寻找内容相似性仍然具有挑战性。为了进一步解决这个问题，我们提出了一个带有注意机制的对抗性哈希网络，通过选择性地关注多模态数据的信息部分，来增强内容相似性的测量。提出的新的深层对抗网络包括三个构建模块:(1)特征学习模块获取特征表征;(2)用于生成注意掩码的注意模块，该注意掩码用于将特

彦祖琦·2022-12-26 14:48

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章来源：SIGIR’20摘要文章基于BERT提出了一个跨模态检索模型，该模型并不是一个通用的检索模型，主要用于电商领域时尚用品（Fashon）检索，作者是阿里巴巴。框架图文章框架和之前基于transformer的文章网络架构大致相同，输入输入文本和图片，对文本取token对图片取patch输出[CLS]用来判断文本和图片是否对齐训练任务遮挡图片（文本）预测图片（文本），预测文本和图片是否匹配Wh

hatake.18·2022-12-26 14:48

（跨模态检索综述）A Comprehensive Survey on Cross-modal Retrieval

AComprehensiveSurveyonCross-modalRetrievalKaiyeWangy,QiyueYiny,WeiWang,ShuWu,LiangWang∗,SeniorMember,

HYY233·2022-12-26 14:47

跨模态/多模态 cross-modal

模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的常见的多模态问题有视觉问答：针对图片提问题让计算机回答多模态建索，用自然语言问句来搜图多模态任务还有的比如模型在RGB数据集上训练，然后让在深度图或光流图上预测

hxxjxw·2022-12-26 14:47

多模态小样本

Large-ScaleFew-ShotLearningviaMulti-ModalKnowledgeDiscovery（解决大类别下的小样本学习）关键点：视觉特征分块；语义弱监督的引入在视觉空间中，将图片分为三种

DeepWWJ·2022-12-26 00:45

LXMERT:Learning Cross-Modality Encoder Representations from Transformers

LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers视觉-语言推理需要理解视觉概念、语言语义，最重要的是，理解两种模态之间的一致性和关系

但愿此生，从未邂逅·2022-12-25 22:16

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervisionTags:Transformer,VLP,multimodal

BL.S.·2022-12-25 22:14

【论文笔记】ASNet：基于生成对抗网络（GAN）的无监督单模和多模配准网络（范敬凡老师）

本文是论文《Adversariallearningformono-ormulti-modalregistration》的阅读笔记，是范敬凡老师的工作，是文章《AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration

棉花糖灬·2022-12-25 19:11

基于GAN的图像配准汇总

落花逐流水·2022-12-25 19:38

计算机视觉与图形学-神经渲染专题-NeRF汇总大礼包-I

001NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesisNeRF综述类002NEURALVOLUMERENDERINGNERFANDBEYOND025MultimodalImageSynthesisandE

元宇宙MetaAI·2022-12-25 14:06

图文结合-LXMERT

本文介绍一篇图文结合的经典论文，论文发布于2019年，算是最早出来的一批模型论文信息论文题目：LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers

poorlytechnology·2022-12-25 00:49

TomBert:一种基于Bert改进的多模态的情感识别方法

TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为AdaptingBERTforTarget-OrientedMultimodalSentimentClassification基于目标的情感分类是细粒度情感分类的重要任务

Neways谭·2022-12-24 16:47

小红书都在研究的多模态学习 , 到底有多强?

多模态机器学习，英文全称MultiModalMachineLearning(MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。

我爱计算机视觉·2022-12-23 12:22

＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

工作难度不大，但工作量极大，工程价值极高。目录后门攻击摘要一、Introduction二：RelatedWork三、Methods3.1、ThreatModel3.2、BackdoorDesign3.3、OptimizedPatches3.4、DetectorsandModels3.5、BackdoorTraining3.6、Metrics四、DesignExperiments4.1、Visual

金克丝、·2022-12-22 16:59

＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA

金克丝、·2022-12-22 16:59

文献阅读3

05Date:2022.12.17--05Title:Multi‑ModalFeatureFusion‑BasedMulti‑BranchClassificationNetworkforPulmonaryNoduleMalignancySuspiciousnessDiagnosisLink

Erwachen·2022-12-22 13:39

Towards Cross-Modality Medical Image Segmentation with Online Mutual Knowledge Distillation论文的研读

TowardsCross-ModalityMedicalImageSegmentationwithOnlineMutualKnowledgeDistillation论文的研读原文出处：英文原文本文主要翻译了摘要引言以及结论部分

我就是我2333·2022-12-22 10:16

2020-TMI-Unsupervised Bidirectional Cross-Modality Adaptation via Deeply Synergistic

作者在论文中提到在生成图像空间的特征对齐。这块理解有点不清楚？对于目标域到源域生成器（由E&U组成）生成的类源图像，作者添加一个附加任务至源判别器来区分所生成的图像/输入图像是从重建得到，还是从真实目标图像变化而来。如果判别器能成功地区分出生成图像的域，意味着所提取到的特征仍然包含域特征。为了确保特征域不变性，以下对抗损失被运用来监督特征提取的过程。值得注意的是编码器E被鼓励提取域不变特征，通过从

开心就哈哈·2022-12-22 09:43

医学图像多模分割论文列表2

TMI2021AdaptEverywhere:UnsupervisedAdaptationofPoint-CloudsandEntropyMinimizationforMulti-ModalCardiacImageSegmentation

胖头猫·2022-12-22 09:10

CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and Dual Norm

CVPR2022:GeneralizableCross-modalityMedicalImageSegmentationviaStyleAugmentationandDualNormalization基于样式增强和双重归一化的通用跨模态医学图像分割

HheeFish·2022-12-22 09:37

Hierarchical Fusion Model （2019 ACL）三种模态的层次融合

论文题目（Title）：Multi-ModalSarcasmDetectioninTwitterwithHierarchicalFusionModel研究问题（Question）：主要研究了推特中由文本和图像组成的推文的多模态讽刺检测研究动机

肉嘟嘟的zhu·2022-12-22 06:32

SWRM(2022)

论文题目（Title）：SentimentWordAwareMultimodalRefinementforMultimodalSentimentAnalysiswithASRErrors研究问题（Question

肉嘟嘟的zhu·2022-12-22 06:32

AutoGluon处理多模态数据方法及案例——Multimodal Data Tables: Tabular, Text, and Image

多模式数据表：表格、文本和图像注意：本教程需要GPU才能训练图像和文本模型。此外，具有适当CUDA版本的MXNet和Torch需要安装GPU。PetFinder数据集我们将使用PetFinder数据集。PetFinder数据集提供有关收容所动物的信息，这些信息出现在其收养档案中，目的是预测动物的收养率。最终目标是让救援避难所使用预测的收养率来识别可以改善其档案的动物，以便他们找到一个家。每只动物的

余余余2020·2022-12-21 09:18

mscoco数据集_多模态情感分析数据集整理

《Multi-ModalSarcasmDetectioninTwitterwithHierarchicalFusionModel》--【多模

weixin_39635084·2022-12-21 09:45

MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection

MAF-YOLO:基于多模态注意力融合的行人检测YOLOABSTRACT实现自然环境中行人的快速准确检测是人工智能系统的重要应用。然而，由于红外图像的低光密度和低分辨率，夜间行人的准确检测具有一定的挑战性，且对检测速度要求较高。提出一种基于多模态注意力融合YOLO(mafo-YOLO)的实时行人检测方法。首先，基于压缩的Darknet53框架构建多模态特征提取模块，以适应夜间行人检测，保证检测效率

yBooooo·2022-12-20 21:19

浅读LXMERT: Learning Cross-Modality Encoder Representations from Transformers

这篇文章提出的模型在视觉问答（VQA，GQA）上得到了最好的结果，甚至今年后续以此为基础或对照的的文章都没有超越这个结果。论文中很多地方提到这一方法是用到了BERT模型的方法（BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding）参考博客：博客整个模型，作者意图是将其称为预训练，输出的视觉，语言和跨模态结果

是尘埃呀！·2022-12-20 18:32

2019LXMERT：Learning Cross-Modality Encoder Representations from Transformers

摘要视觉-语言推理不仅需要视觉概念、语言语义的理解，更需要这两个模态的对齐和关系。因此，我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中，我们构建了一个大规模的Transformer模型包含三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来，为了赋予我们模型连接视觉和语言语义的能力，我们通过五种不同的预训练任

weixin_42653320·2022-12-20 18:02

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

目录ModelArchitecturePre-TrainingStrategiesExperimentalSetupandResultsReferencesLXMERT:LearningCross-ModalityEncoderRepresen-tationsfromTransformersModelArchitectureInputEmbeddings

连理o·2022-12-20 18:01

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记

文章目录1.文章概要2.模型体系结构2.1InputEmbeddings2.2编码器2.3输出表示3.预训练任务3.1LanguageTask:MaskedCross-ModalityLM3.2VisionTask

小有名气的可爱鬼·2022-12-20 17:31

EMNLP 2019 LXMERT: Learning Cross-Modality Encoder Representations from Transformers

动机视觉语言推理要求对视觉内容、语言语义以及跨模态的对齐和关系进行理解。过去已有大量的工作，分别开发具有更好的表示方法的骨干模型，用于语言和语音的单一模态。对于现有的视觉内容，人们已经开发了几个骨干模型，并在大型视觉数据集上显示了它们的有效性。开拓性工作还通过在不同任务上微调这些预训练的（特别是在ImageNet上）骨干模型来显示它们的泛化性。在语言理解方面，去年，本论文在构建具有大规模语境化语言

smile909·2022-12-20 17:00

lxmert:learning cross-modality encoder representations from transformers

LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉-语言推理需要对视觉概念

Kun Li·2022-12-20 17:00

＜＜多模态预训练and视觉问答＞＞2019：LXMERT: Learning Cross-Modality Encoder Representations from Transformers

2.1InputEmbeddings2.2Encoders2.3OutputRepresentations三、预训练策略3.1Pre-TrainingTasks3.1.1LanguageTask:MaskedCross-ModalityLM3.1.2VisionTask

金克丝、·2022-12-20 17:28

【论文笔记】LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Vision-and-languagereasoningrequiresanunderstandingofvisualconcepts,languagesemantics,and,mostimportantly,thealignmentandrelationshipsbetweenthesetwomodalities

烫烫烫烫的若愚·2022-12-20 17:56

LXMERT: Learning Cross-Modality Encoder Representationsfrom Transformers

Transformer模型，该模型由3个编码器组成：（1）对象关系编码器（objectrelationshipencoder）（2）语言编码器（languageencoder）（3）跨模态编码器（cross-modalityencoder

pinkshell_1314·2022-12-20 17:23

微信小程序弹窗提示：wx.showToast、wx.showModal、wx.showLoading的使用场景与实现

1、wx.showToast使用场景：常规的提示，没有确定和取消按钮。例：属性：title：提示的内容icon：显示的图标，合法值有success、error、loading、noneimage：自定义图标的本地路径，优先级高于iconduration：提示的延迟时间mask：是否显示透明蒙层，防止触摸穿透success：API调用成功后的回调函数fail：API调用失败后的回调函数complet

Shewyoo·2022-12-18 15:34

21年 46篇神经架构搜索(NAS) ICCV CVPR Survey 笔记 (21-46持续更新)

目录21.AutoSpace:NeuralArchitectureSearchwithLessHumanInterference(ICCV)22.CM-NAS:Cross-ModalityNeuralArchitectureSearchforVisible-InfraredPersonRe-Identifification23

miss_the_boat·2022-12-18 08:19

MICCAI 2022 | mmFormer:Multimodal Medical Transformer for Incomplete Multimodal Learning of BTS

MultimodalMedicalTransformerforIncompleteMultimodalLearningofBrainTumorSegmentation摘要从磁共振成像（MRI）中准确地分割脑肿瘤是多模态图像的联合学习所需要的

Jorko的浪漫宇宙·2022-12-18 07:45

推荐频道

modal