Cross-Modal

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

UniAdapter:UnifiedParameter-EfficientTransferLearningforCross-modalModeling论文链接：https://arxiv.org/pdf/2302.06605.pdf源码链接：https://hub.nuaa.cf/RERV/UniAdapter简介预训练-微调范式在自然语言处理，计算机视觉和多模态建模中取得了巨大的成功，其中模型首

qgh1223·2024-01-30 15:41

Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News

检测跨模态不一致以防范神经性假新闻在网上大规模传播旨在误导或欺骗普通民众的虚假信息是一个重大的社会问题。图像、视频和自然语言生成模型的快速发展只会加剧这种情况，并加剧我们对有效防御机制的需求。虽然已经提出了现有的方法来防御神经假新闻，但它们通常局限于非常有限的环境，即文章只有文本和元数据，如标题和作者。在本文中，我们介绍了一项更现实、更具挑战性的任务，即防御机器生成的新闻，其中也包括图像和图像标题

卫卫卫·2024-01-20 19:56

DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

文章目录摘要1.问题的提出引出当前研究的不足与问题属性不平衡问题属性共现问题解决方案2.数据集和模型构建数据集传统的零样本学习范式v.s.DUET学习范式DUET模型总览属性级别对比学习==正负样本解释：==3.结果分析VIT-basedvisiontransformerencoder.消融研究消融研究解释4.结论与启示结论总结启发PLMs的潜在语义知识引入多模态，跨模态整合细粒度角度考虑原文链接

GCTTTTTT·2024-01-10 09:37

CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

目录一、论文阅读笔记：1、摘要：2、主要贡献点：3、方法：3.1网络的总体框架图：3.2Transformer-basedInformationPropagationPath(TIPP)3.3Intra-Modal/Cross-ScaleSelf-Attention(IMSA/CSSA)Q1:MHSA计算复杂度较高A1:Patch-wiseTokenRe-Embedding(PTRE)Q2:目前的

一只懒洋洋·2024-01-05 21:08

Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval暴露和减轻跨模态检索的虚假相关性

Abstract模式检索方法是在数据库中搜索与查询图像最匹配的文本的首选工具，反之亦然。然而，图像文本检索模型通常学习记住训练数据中的虚假相关性，例如频繁的对象共现，而不是查看图像中预测的实际根本原因。对于图像文本检索，这体现在提及查询图像中不存在的对象的检索句子中。在这项工作中，我们引入了ODmAP@k，一种对象去相关度量，用于衡量模型对训练数据中的虚假相关性的鲁棒性。我们使用自动图像和文本操作

Mars_prime·2023-12-19 08:33

Deep Supervised Dual Cycle Adversarial Network for Cross-Modal Retrieval 论文阅读笔记

#1.论文信息论文名称DeepSupervisedDualCycleAdversarialNetworkforCross-ModalRetrieval作者LeiLiao中山大学会议/出版社IEEETransactionsonCircuitsandSystemsforVideoTechnologypdf在线pdf代码无代码本文是基于公共空间的跨模态检索方法。文章中提出了DSDCAN的方法，由两个Cy

wwweiyx·2023-12-16 06:10

Probabilistic Embeddings for Cross-Modal Retrieval

题目：ProbabilisticEmbeddingsforCross-ModalRetrieval作者：SanghyukChun不确定估计hedgedinstanceembedding对比损失变分自编码一、要解决的问题（研究动机）确定的函数不能很好地捕获一对多的对应关系。二、研究目标提出PCME（跨模态概率嵌入），将不同模态下的样本表示为同一嵌入空间下的概率分布。三、技术路线1、视觉-文本联合嵌入

二苏旧局吖·2023-11-15 13:16

论文阅读：xMUDA: Cross-Modal Unsupervised Domain Adaptationfor 3D Semantic Segmentation

题目：xMUDA：跨模态无监督域自适应的3D语义分割来源：2020CVPR重点和自己的理解（加粗）表示，如有不对欢迎探讨，其余主要是翻译~0、引言无监督域适应(UDA)对于解决新域中缺少注释的问题至关重要。有许多多模态数据集，但大多数UDA方法都是单模态的。在这项工作中，我们探索如何从多模态中学习并提出跨模态UDA(xMUDA)，我们假设存在用于3D语义分割的2D图像和3D点云。这是具有挑战性的，

shiyueyueya·2023-11-10 09:24

论文笔记：Spatial-temporal Graphs for Cross-modal Text2Video Retrieval

用于跨模态Text2Video检索的时空图摘要介绍方法A.文本编码B.视频编码C.**联合嵌入空间学习**摘要跨模态文本到视频检索旨在通过文本查询找到相关视频，这对于各种现实世界的应用是至关重要的。解决这个问题的关键是建立视频和文本之间的对应关系，这样来自不同模式的相关样本就可以对齐。由于文本(句子)包含表示对象及其交互的名词和动词，因此检索相关视频需要对视频内容进行细致的理解——不仅是语义概念(

帅帅梁·2023-11-07 15:39

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

titleSpeech-TextDialogPre-trainingforSpokenDialogUnderstandingwithExplicitCross-ModalAlignment时间2023年译题基于明确的跨模态对齐的语音-文本对话预训练会议ACL(CCFA)Speech-TextDialogPre-trainingforSpokenDialogUnderstandingwithExpl

uuu_柚子·2023-09-27 01:14

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读

Self-pacedMulti-grainedCross-modalInteractionModelingforReferringExpressionComprehension论文阅读笔记一、Abstract二、引言三、相关工作A、指代表达式理解B、TransformerC、自定进度学习四、方法A、动机和框架总览B、多粒度跨模态注意力1）跨模态交替注意力模块Cross-modalAlternate

乄洛尘·2023-09-17 13:32

Seeing Voices and Hearing Faces: Cross-modal biometric matching

我们介绍了一个看似不可能完成的任务:只给某人一段讲话的音频，从两张人脸图像中判断出哪个是说话者。在本文中，我们研究了这一点，以及一些相关的跨模态任务，旨在回答以下问题:我们能从脸部周围的声音推断出多少信息，反之又能推断出多少信息?我们在野外研究这个任务，使用目前公开的数据集，从静态图像识别人脸(VGGFace)和从音频识别说话人(VoxCeleb)。这为跨模态匹配的静态和动态测试提供了训练和测试场

lhlovelymouse·2023-09-13 10:24

【论文阅读笔记】（2022 ECCV）CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Di

写在前面我又回来啦~前段时间忙毕业论文，停更了好久【dbq】。现在论文终于送审出去啦~撒花花~后面会继续读博当科研狗吧，努力继续看论文更新blog，耶✌有小伙伴提建议弄中文版的解读，咱努力哈，一般是英文，时间有富余的话会用中文再总结一遍哒~今天可以有中文版~CMD:Self-supervised3DActionRepresentationLearningwithCross-modalMutualD

小吴同学真棒·2023-08-15 12:05

Improving Cross-Modal Retrieval with Set of Diverse Embeddings

框架图：UsingTripletLoss:Smooth-ChamfersimilarityUsingLog-Sum-Exp,

欧阳AI锋·2023-07-29 11:19

Cross-modal Moment Localization in Videos论文笔记

Cross-modalMomentLocalizationinVideos论文笔记0.来源1.摘要2.介绍3.模型3.1语言-时间注意网络3.2损失函数3.2.1对齐损失3.2.2位置损失3.2.2损失函数4.实验4.1数据集4.2性能比较4.3ROLE的几种变体5.未来工作0.来源2018年Cross-modalMomentLocalizationinVideos1.摘要一种称为“语言-时间注意

7个七·2023-06-15 00:55

Cross-Modal Prompt Tuning

论文名字：CPT:COLORFULPROMPTTUNINGFORPRE-TRAINEDVISION-LANGUAGEMODELS[1]Yao,Y.,Zhang,A.,Zhang,Z.,Liu,Z.,Chua,T.S.,&Sun,M.(2021).Cpt:Colorfulprompttuningforpre-trainedvision-languagemodels.arXivpreprintarXi

BBBBBAAAAAi·2023-04-07 01:59

Adversarial Attack on Deep Cross-Modal Hamming Retrieval

AdversarialAttackonDeepCross-ModalHammingRetrievalICCV-20211Introduction近来，汉明空间的跨模态检索(CrossModalHammingRetrieval，CMHR)又到越来越多的关注，这主要得益于深度神经网络出色的表示能力。另一方面，深度网络的脆弱性使深度跨模态检索系统暴露于各种安全风险之下。然而，攻击深度跨模态汉明检索仍未得

鄙人不善奔跑·2023-03-30 03:37

CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV

**本文内容仅代表个人理解，如有错误，欢迎指正**1.Points这篇论文主要解决两个问题1.跨模态对比学习(Cross-modalContrastivelearning)更注重于不同模态下的数据，而非同一模态下的数据。-也就是说，将不同模态下的数据投影到Jointspace时，希望pairedsamples(eg,Image1和Text1)之间的距离可以尽可能地小，unpairedsamples

BachelorSC·2023-03-29 02:32

2021：多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

摘要由于缺乏标签的数据，现有的医学视觉问答往往依赖于转移学习获取图像特征表示，使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行，没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式，迫使它考虑到特定图像理解任务中特征的适用性。此外，我们引入了一种跨模态自注意力模块（CMSA）有选择的捕捉长期的上下文相关性，以更有效的融合视觉和

weixin_42653320·2023-03-29 02:01

论文精读：Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection

1.JML方法这篇2021EMNLP的论文首先定义了联合多模态方面集情感分析任务。在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下，X为长为k的单词序列，I是的图片。而联合任务即是同时抽取方面术语listA(m个)，并对这m个aspect进行分类的sentimentlistS。其实就是联合抽取方面术语和其对应的情感(ATE+SC)，基于正确的Aspect来predicat

两面包+芝士·2023-03-29 02:30

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection (学习跨模态深度表示以实现可靠的行人检测)

LearningCross-ModalDeepRepresentationsforRobustPedestrianDetection第一单位：UniversityofTrento引用量：102CVPR2017code：https://github.com/danxuhk/CMT-CNN贡献：提出了一种新颖的网络结构，包括RGB-thermal映射关系学习的重建网络和多尺度行人检测网络。主要思想是通

低吟浅笑·2023-03-29 01:36

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

Semi-supervisedMulti-modalEmotionRecognitionwithCross-ModalDistributionMatching、特征提取部分BERT-large1024维DenseNet342OPENsmile1582z-normalization（怀疑就是这个导致准备率不高，测试一下）DAE部分对于视觉和文字，因为是一个关于时间的序列特征，所以使用Seq2Seq的

B站：阿里武·2023-03-29 01:03

论文笔记：Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

跨视角语言建模:走向统一的跨语言跨模式预训练摘要1介绍2相关工作3Cross-ViewLanguageModeling（跨视角的语言建模）3.1Overview（概述）3.2AMutualInformationMaximizationPerspective（相互信息最大化视角）4Experiment4.1ExperimentalSettings4.1.1Pre-trainingDatasets4.

帅帅梁·2023-03-29 01:01

【论文阅读】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲讽检测，多模态，跨模态，图神经网络

本博客系博主根据个人理解所写，非逐字逐句翻译，预知详情，请参阅论文原文。发表地点：ACL2022；论文下载链接：Multi-ModalSarcasmDetectionviaCross-ModalGraphConvolutionalNetwork-ACLAnthology代码链接：https://github.com/HITSZ-HLT/CMGCN；摘要：随着在线发布包含多模态信息的博客的流行，很多

me_yundou·2023-03-29 01:31

Learning with Noisy Correspondence for Cross-modal Matching个人笔记

abstract背景：多模态匹配Cross-modalmatching，在不同模型间建立对应关系，已经应用于跨模态检索（retrieval）和vision-and-languageunderstanding问题：以往方法都假设多模态训练数据是对齐的，但实际不是，且代价很高（这里对齐的意思应该是总有匹配的对象和label？）提出解决方案：新方向：noisycorrespondence（anewpar

double_yellow·2023-03-29 01:17

小国模型和大国模型的差别、跨模态（Cross-modal）和多模态（Multi-modal）的差别

一、小国模型和大国模型的差别通俗易懂理解小国模型和大国模型是指在深度学习领域中，模型的规模和参数量大小的不同。一般来说，小国模型指的是参数量较小的模型，例如MobileNet、ShuffleNet等，而大国模型则指参数量较大的模型，例如VGG、ResNet、Inception等。具体来说，小国模型是通过精简网络结构或采用轻量化设计，以达到减少参数量、减少计算量和加速训练过程的目的。这些模型通常在计

源代码杀手·2023-03-29 01:25

NeurIPS 2021：Learning with Noisy Correspondence for Cross-modal Matching

论文标题：LearningwithNoisyCorrespondenceforCross-modalMatching；作者：ZhenyuHuang，GuochengNiu，XiaoLiu，WenbiaoDing，XinyanXiao，HuaWu，XiPeng；单位：CollegeofComputerScience，SichuanUniversity,ChinaBaiduInc.,ChinaTALE

lishuoshi1996·2023-03-26 21:06

《Integrating Information Theory and Adversarial Learning for Cross-modal Retrieval》论文学习

Abstract为了解决异构性差距和语义差距带来的挑战，我们提出了integratingShannoninformationtheoryandadversariallearning.（香农信息理论),在异质性差距方面，我们将模态分类与信息熵最大化对立地结合起来。我们建立了一种模态分类器(作为鉴别器)，根据文本和图像的不同统计特性来区分它们。该鉴别器利用其输出概率计算香农信息熵，用以衡量其所进行的模

waiall·2023-03-10 16:24

《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习

摘要本文提出了一种新的方法modal-adversarialhybridtransfernetwork(MHTN)，它提出的主要目的是：实现知识从单模态源域向目标源域进行转移，并学习跨模态的公共表示。它有端到端两个子网络结构，第一是提出了一种模态共享知识转移子网络，以星型网络结构将知识从源域中的单个模态共同转移到目标域中的所有模态，从而散布与模态无关的补充知识以促进交叉模态共同表示学习。第二提出了

waiall·2023-03-10 16:24

《Progressive Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval》论文学习

AbstractZero-shotsketch-basedimageretrieval(ZS-SBIR)是一个特别的跨模态检索任务，涉及通过可用的手绘草图，在零次学习的设想下，去搜索自然图片。以前的方法都是设想把草图和图像特征映射到一个低纬度的公共空间，来完成高效率的搜索。并且同时，对齐和映射特征到他们的语义特征（类别级的词向量），将knowledge从seen到unseen进行迁移。然而对齐与投

waiall·2023-03-10 16:24

论文笔记：Adversarial Cross-Modal Retrivieval

对抗式跨模态检索0.Pre-workFeatureProjector0.Pre-work要解决什么问题：现有的基于DNN的跨模态检索仅仅关注于保持配对的跨模态数据集的成对相似性，这些数据共享语义标签并且在模型学习的过程中充当输入，然而一个模态的一项数据可能存在多个语义不同的项，所以仅仅关注成对样本是远远不够的用什么方法解决？提出了一种基于对抗训练的跨模态搜索ACMR(Adversarial

帅帅梁·2023-03-10 16:21

论文阅读：Adversarial Cross-Modal Retrieval对抗式跨模式检索

AdversarialCross-ModalRetrieval对抗式跨模式检索跨模态检索研究的核心是学习一个共同的子空间，不同模态的数据可以直接相互比较。本文提出了一种新的对抗性跨模态检索（ACMR）方法，它在对抗性学习的基础上寻求有效的共同子空间。对抗性学习是作为两个过程的相互作用来实现的。第一个过程，一个特征映射器，试图在公共子空间中生成一个模态不变的表示，并混淆另一个过程，即模态分类器，它试

若年封尘·2023-03-10 16:19

Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

Self-SupervisedAdversarialHashingNetworksforCross-ModalRetrieval解决问题：1.在模型训练时利用单标签去估计语义相关性，但实际数据集中有多类标签同时存在，利用多标签更精准；2.利用哈希编码会导致高维数据的丢失主要思想：自监督对抗哈希网络将标签作为自监督学习的标准，建立两个对抗网络，可让文本，图像，标签在特征提取后信息丢失更少，且语义相关

HYY233·2023-02-06 13:21

【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

GeneratingImageDescriptionsviaSequentialCross-ModalAlignmentGuidedbyHumanGazeAbstract当说话者描述一幅图像时，他们倾向于在提到物体之前先看它们。本文通过对图像描述生成过程的计算建模，研究了这种序列跨模态对齐。作者以一个SOTA的图像字幕系统作为出发点，利用人类注视信息设计不同模型变体。本文主要是提出了第一种生成图像

Vincy_King·2023-01-28 07:44

【论文翻译】PERFECT MATCH: IMPROVED CROSS-MODAL EMBEDDINGS FOR AUDIO-VISUAL SYNCHRONISATION

PERFECTMATCH:IMPROVEDCROSS-MODALEMBEDDINGSFORAUDIO-VISUALSYNCHRONISATION超匹配：改进了用于音频-视频合成的跨地带调制摘要：本文提出了一种学习音频到视频同步的强大跨模态嵌入的新策略。在这里，我们将问题设置为跨模态检索，其中目标是找到给定短视频剪辑的最相关的音频片段。该方法建立在跨模态自我监督学习表示的最新进展的基础上。主要的贡献

页页读·2023-01-25 18:19

《论文阅读》xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

留个笔记自用xMUDA:Cross-ModalUnsupervisedDomainAdaptationfor3DSemanticSegmentation做什么Instancesegmentation实例分割目标检测（Objectdetection）不仅需要提供图像中物体的类别，还需要提供物体的位置（boundingbox）。语义分割（Semanticsegmentation）需要预测出输入图像的每

未知丶丶·2023-01-12 18:51

零样本分割系列论文（2）Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

我最近刚刚入门zero-shotsegmentation，准备以此作为我的博士研究方向，这是我入门这个方向读的第二篇论文，这篇论文我读了5遍以上，文章篇幅有限，所以很多细节我在读论文的时候发现不了，导致我在跟师兄师姐分享论文的时候，他们提出的一些问题我回答不上来。于是，在读了很多遍之后，啊我的阅读笔记分享一下，可能还是有不对的地方，文章暂时没提供代码，有些细节问题可能还是得阅读源码。写在前面：可以

TEn%·2023-01-09 21:35

论文阅读：Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering

参考连接：博客论文链接：https://arxiv.org/pdf/2006.09073代码链接：https://github.com/astro-zihao/mucko发表会议：IJCAI2020一，介绍在阅读本文之前，请先阅读下面几篇论文：论文1，AskMeAnything:Free-formVisualQuestionAnsweringBasedonKnowledgefromExternal

是尘埃呀！·2023-01-08 12:57

【论文阅读】Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval 多义性视觉-语义编码跨模态检索视频图像文本

本博客系博主根据个人理解所写，非逐字逐句翻译，预知详情，请参阅论文原文。论文标题：PolysemousVisual-SemanticEmbeddingforCross-ModalRetrieval作者：YaleSong1，MohammadSoleymani2；MicrosoftCloud&AIUSCInstituteforCreativeTechnologies出处：CVPR2019论文下载地址：

me_yundou·2023-01-01 15:41

【论文阅读】Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval 图文检索多模态

本博客系博主根据个人理解所写，非逐字逐句翻译，预知详情，请参阅论文原文。论文标题：EmphasizingComplementarySamplesforNon-literalCross-modalRetrieval；作者：ChristopherThomas1，AdrianaKovashka2；ColumbiaUniversity；UniversityofPittsburgh；发表地点：CVPRwor

me_yundou·2023-01-01 15:41

CVPR2021-RSTNet：自适应Attention的“看图说话”模型

0写在前面由于强大的建模能力，Transformer结构被用在一系列CV、NLP、Cross-modal的任务中。

我爱计算机视觉·2022-12-29 11:43

【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension

motivation：之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法，分为两个阶段，第一步，模型根据实体词和属性词来感知表达式中描述的所有实体，第二步，模型进一步推理实体之间的关系，以突出所指对象并抑制其他不匹配的实体。idea：提出了一个跨模态渐进理解(CMPC)模块，该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块，第一步将从

lynn_Dai·2022-12-28 09:56

[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

文章地址：http://arxiv.org/pdf/2203.16778个人阅读见解，欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索，而有时图像中出现的场景文本(Scenetext)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用，并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一，跨模

TycoonL·2022-12-28 09:54

2018ECCV：Attention-Aware Deep Adversarial Hashing for Cross-Modal Retrieval 论文笔记

0.摘要由于多模态数据的快速增长，跨模态检索的哈希方法受到了广泛的关注。然而，由于存在异质性差异，在不同数据模式之间寻找内容相似性仍然具有挑战性。为了进一步解决这个问题，我们提出了一个带有注意机制的对抗性哈希网络，通过选择性地关注多模态数据的信息部分，来增强内容相似性的测量。提出的新的深层对抗网络包括三个构建模块:(1)特征学习模块获取特征表征;(2)用于生成注意掩码的注意模块，该注意掩码用于将特

彦祖琦·2022-12-26 14:48

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章来源：SIGIR’20摘要文章基于BERT提出了一个跨模态检索模型，该模型并不是一个通用的检索模型，主要用于电商领域时尚用品（Fashon）检索，作者是阿里巴巴。框架图文章框架和之前基于transformer的文章网络架构大致相同，输入输入文本和图片，对文本取token对图片取patch输出[CLS]用来判断文本和图片是否对齐训练任务遮挡图片（文本）预测图片（文本），预测文本和图片是否匹配Wh

hatake.18·2022-12-26 14:48

（跨模态检索综述）A Comprehensive Survey on Cross-modal Retrieval

AComprehensiveSurveyonCross-modalRetrievalKaiyeWangy,QiyueYiny,WeiWang,ShuWu,LiangWang∗,SeniorMember,IEEE1.研究现状：目前跨模态检索主要分为两种方法：(1)real-valued表示学习；(2)binary表示学习。Real-valued表示学习方法目的是学习不同模态数据的实值的相同的表示，大

HYY233·2022-12-26 14:47

跨模态/多模态 cross-modal

模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的常见的多模态问题有视觉问答：针对图片提问题让计算机回答多模态建索，用自然语言问句来搜图多模态任务还有的比如模型在RGB数据集上训练，然后让在深度图或光流图上预测

hxxjxw·2022-12-26 14:47

阅读笔记：XGPT: Cross-modal Generative Pre-Training for Image Captioning

XGPT:Cross-modalGenerativePre-TrainingforImageCaptioningContribution现有大多数VLpre-trainedmodels基本都是Transformer-Encoder结构的，不适用于Vision-and-languagegenerationtasks，因为：Ononehand,pre-trainedmodelsdevelopedfor

Araloak·2022-12-13 06:56

Cross-modal Pretraining in BERT（跨模态预训练）

BERT以及BERT后时代在NLP各项任务上都是强势刷榜，多模态领域也不遑多让…仅在2019年就有8+篇的跨模态预训练的论文挂到了arxiv上…上图是多篇跨模态论文中比较稍迟的VL-BERT论文中的比较图，就按这个表格的分类（Architecture）整理这几篇论文吧。预训练优势？可以从无标注数据上更加通用的知识迁移到目标任务上，进而提升任务性能学习到更好的参数初始点，使得模型在目标任务上只需少量

上杉翔二·2022-12-13 06:52

Cross-modal Pretraining in BERT（跨模态预训练）

BERT以及BERT后时代在NLP各项任务上都是强势刷榜，多模态领域也不遑多让…仅在2019年就有8+篇的跨模态预训练的论文挂到了arxiv上…上图是多篇跨模态论文中比较稍迟的VL-BERT论文中的比较图，就按这个表格的分类（Architecture）整理这几篇论文吧。预训练优势？可以从无标注数据上更加通用的知识迁移到目标任务上，进而提升任务性能学习到更好的参数初始点，使得模型在目标任务上只需少量

u013250861·2022-12-13 06:18

推荐频道

Cross-Modal

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News

DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval暴露和减轻跨模态检索的虚假相关性

Deep Supervised Dual Cycle Adversarial Network for Cross-Modal Retrieval 论文阅读笔记

Probabilistic Embeddings for Cross-Modal Retrieval

论文阅读：xMUDA: Cross-Modal Unsupervised Domain Adaptationfor 3D Semantic Segmentation

论文笔记：Spatial-temporal Graphs for Cross-modal Text2Video Retrieval

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读

Seeing Voices and Hearing Faces: Cross-modal biometric matching

【论文阅读笔记】（2022 ECCV）CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Di

Improving Cross-Modal Retrieval with Set of Diverse Embeddings

Cross-modal Moment Localization in Videos论文笔记

Cross-Modal Prompt Tuning

Adversarial Attack on Deep Cross-Modal Hamming Retrieval

CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV

2021：多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

论文精读：Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection (学习跨模态深度表示以实现可靠的行人检测)

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

论文笔记：Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

【论文阅读】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲讽检测，多模态，跨模态，图神经网络

Learning with Noisy Correspondence for Cross-modal Matching个人笔记

小国模型和大国模型的差别、跨模态（Cross-modal）和多模态（Multi-modal）的差别

NeurIPS 2021：Learning with Noisy Correspondence for Cross-modal Matching

《Integrating Information Theory and Adversarial Learning for Cross-modal Retrieval》论文学习

《MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval》论文学习

《Progressive Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval》论文学习

论文笔记：Adversarial Cross-Modal Retrivieval

论文阅读：Adversarial Cross-Modal Retrieval对抗式跨模式检索

Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

【论文翻译】PERFECT MATCH: IMPROVED CROSS-MODAL EMBEDDINGS FOR AUDIO-VISUAL SYNCHRONISATION

《论文阅读》xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation

零样本分割系列论文（2）Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

论文阅读：Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering

【论文阅读】Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval 多义性 视觉-语义编码 跨模态检索 视频 图像 文本

【论文阅读】Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval 图文检索 多模态

CVPR2021-RSTNet：自适应Attention的“看图说话”模型

【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension

[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

2018ECCV：Attention-Aware Deep Adversarial Hashing for Cross-Modal Retrieval 论文笔记

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

（跨模态检索综述）A Comprehensive Survey on Cross-modal Retrieval

跨模态/多模态 cross-modal

阅读笔记：XGPT: Cross-modal Generative Pre-Training for Image Captioning

Cross-modal Pretraining in BERT（跨模态预训练）

Cross-modal Pretraining in BERT（跨模态预训练）

【论文阅读】Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval 多义性视觉-语义编码跨模态检索视频图像文本

【论文阅读】Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval 图文检索多模态