MultiModal 第5页

论文阅读：DEEP CAPTIONING WITH MULTIMODAL RECURRENTNEURAL NETWORKS (M-RNN)

DEEPCAPTIONINGWITHMULTIMODALRECURRENTNEURALNETWORKS(M-RNN)0.summaryreccurentlayer(deepRNN)+wordembeddinglayer=languagemodelpartFutureimprovements:1.usemorebetterdeepneuralnetworktoextractmorebetterwor

weixin_42322020·2022-11-21 22:56

Multimodal Machine Learning:A Survey and Taxonomy

Abstractaim:buildmodelsthatcanprocessandrelateinformationfrommultiplemodalitiesnewtaxonomy:representation,translation,alignment,fusion,andco-learning.INTRODUCTIONthreemodalities:(nlp)naturallanguagewh

辉辉小学生·2022-11-20 20:24

AutoGluon包使用示例（表格、图像与多模态）

的成绩，在房价预测中拿到了第1名的成绩（用到了表格+文本的多模态模型）这里我用员工满意度预测(Table)、ChildrenvsAdultsClassification(Image)、流浪猫收留预测(Multimodal

羽星_s·2022-11-20 13:12

FusionPainting: Multimodal Fusion with Adaptive Attention for3D Object Detection(多模态融合与自适应注意的3D物体检测)

摘要:三维障碍物的精确检测是自动驾驶和智能交通的一项重要任务。在本研究中，我们提出了一个通用的多模态融合框架FusionPainting，在语义层面融合2DRGB图像和3D点云，以增强3D目标检测任务。特别是，FusionPainting框架由三个主要模块组成:多模态语义分割模块、自适应的基于注意的语义融合模块和3D对象检测器。首先，基于二维和三维分割方法获取二维图像和三维激光雷达点云的语义信息;

邱宇-·2022-11-20 11:38

Geometric multimodal representation learning

[2209.03299v1]Geometricmultimodalrepresentationlearning(arxiv.org)https://arxiv.org/abs/2209.03299v1摘要以图为中心的人工智能(GraphAI)在建模自然界中普遍存在的交互系统方面取得了显著的成功，从生物动力学系统到粒子物理。数据的日益异构性需要可以结合多种归纳偏差的图神经架构。然而，结合来自不同来源

小蜗子·2022-11-19 22:16

2.1 Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Vision-LanguagePre-TrainingforMultimodalAspect-BasedSentimentAnalysis1、基本信息作者：YanLing,JianfeiYu,RuiXia会议：ACL2022单位：南京理工大学2、主要框架任务：MultimodalAspect-BasedSentimentAnalysis(MABSA)MultimodalAspectTermExtr

谢桥光·2022-11-19 01:51

论文笔记：Learning Social Image Embedding with Deep Multimodal Attention Networks

感想这篇文章我看了一下作者是北航和微软亚洲研究院合起来做的一篇文章，我感觉最深的是它的那个image-textnetworkembedding的思想，用采样的方法来降低训练的复杂度。这也是一个深度学习注意力模型，更开心的是，论文里面说代码是用keras来写的，论文接收之后会公开源码，还是蛮期待的。文章说的链接关系困扰了我好久，到结尾才说原来是tags之间的关联关系，前面吹得这么高大上，我还真以为他

农民小飞侠·2022-11-19 01:47

[阅读论文] RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining

[阅读论文]RoCBert:RobustChineseBertwithMultimodalContrastivePretraining摘要大规模的预训练语言模型在NLP任务上取得了很好的成果。但是，它们已被证明容易受到对抗性攻击，尤其是对于中文等字形语言而言。针对于以上问题，本文提出了ROCBERT:一种经过训练的中文Bert，对各种形式的对抗性攻击(例如单词扰动，同义词，错别字等)具有鲁棒性。它

小千不爱内卷·2022-10-30 07:39

谣言检测论文精度——10.Supervised Contrastive Learning for Multimodal Unreliable News Detection in COVID-19

Abstract作者在这一小节提出了自己关于谣言检测的新见解以及新模型：新闻报道的可信度不应孤立地考虑。相反，可以使用之前发布的关于类似事件的新闻文章来评估新闻报道的可信度。受此启发，我们提出了一个基于BERT的多模式不可靠新闻检测框架，该框架利用对比学习策略从不可靠文章中捕获文本和视觉信息。对比学习者与不可靠新闻分类器进行交互，将相似的可信新闻（或类似的不可靠新闻）推得更近，同时在多模态嵌入空间

头发没了还会再长·2022-10-04 07:08

谣言检测论文精读——9.Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs

Abstract我们观察到，除了文本之外，越来越多的用户正在使用图像和视频来发布新闻。推文或微博通常由文本、图像和社交环境组成。在本文中，我们提出了一种新颖的具有注意机制（att-RNN）的递归神经网络，以融合多模态特征以进行有效的谣言检测。在这个端到端网络中，图像特征被结合到文本和社会背景的联合特征中，这些特征是通过LSTM（长短期记忆）网络获得的，以产生可靠的融合分类。Introduction

头发没了还会再长·2022-10-04 07:06

Part2_扩展MATSIM_Subpart4_除个人车外的其他模式_第21章多模式

21.1基本信息文档入口点：http://matsim.org/extensions→multimodal调用模块：http://matsim.org/javadoc→multimodal→RunMultimodalExampleclass21.2

桃桃tao·2022-09-22 13:47

猿创征文｜多模态图像合成和编辑（MISE）：Multimodal Image Synthesis and Editing: A Survey

由于信息在现实世界中以各种形式存在，多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用。近期OpenAI发布的DALLE-2和谷歌发布的Imagen等实现了令人惊叹的文字到图像的生成效果，引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。多模态图像合成和编辑在建模多模态信息之间的交互方面具有强大的能力

中杯可乐多加冰·2022-09-21 07:32

Multimodal Machine Learning:A Survey and Taxonomy 多模态机器学习：综述与分类

模态是指某种事物发生或经历的方式，每一种信息的来源或者形式，都可以称为一种模态。当研究问题包括多种这样的形态时，研究问题被描述为多模态。多模态机器学习，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。1.1引言我们周围的世界包含多种形式——我们看到物体，听见声音，感受质地，闻到气味等等。一般来说，模态是指事情发生或经历的方式。大多数人把模态这个词和代表我们交流和感觉的主要渠道即感觉形式联系

zzzzz_ttttt·2022-08-10 07:30

论文笔记：Multimodal Machine Learning: A Survey and Taxonomy

论文笔记：MultimodalMachineLearning:ASurveyandTaxonomy文章目录论文笔记：MultimodalMachineLearning:ASurveyandTaxonomy多模态的历史回顾多模态的五个核心技术挑战多模态表示（Representation）联合表示（JointRepresentations）神经网络概率图形模型顺序表示协调表示基于神经网络图像和语言的顺

林小瓜0327·2022-08-10 07:37

深度学习前沿技术摘要

去马赛克）去雾去雪3D重建风格迁移OCR（光学字符识别）自然语言处理（NLP）文本分类文本标签实体抽取句法依存语义消歧情感分析机器翻译自然语言理解（NLU）观点分析意图提取/识别智能对话生成任务多模态（multimodal

YuCong Wang·2022-08-09 20:50

Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译

前言：基于GAN的图像翻译方向一直很火爆，上次介绍了一个无法复现的SketchyGAN，非常失望。这次介绍一个来自英伟达研究院无监督GAN的图像翻译工作MUNIT，下一篇介绍同样是无监督图像翻译工作的《UnsupervisedSketch-to-PhotoSynthesis》比较二者的异同，思考能给现在的工作带来的启发。目录主要贡献方法详解部分共享潜在空间假设

沉迷单车的追风少年·2022-07-28 11:21

2020_ACM MM_MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

MISA:Modality-Invariantand-SpecificRepresentationsforMultimodalSentimentAnalysis论文地址：https://dl.acm.org/doi/abs/10.1145/3394171.3413678?casa_token=oI8VnZ8Eg10AAAAA:mVUbDA0AZiAXcDxiDmV9-ooRH4PxzlSMXkBC

CityD·2022-07-21 13:05

单细胞分析之细胞注释-1：Azimuth

Azimuth：使用锚点整合的方法对单细胞类型进行预测，可以用于手动细胞注释结果的参考参考网站：https://satijalab.org/seurat/articles/multimodal_reference_mapping.htmlAzimuth

Hayley笔记·2022-07-01 10:58

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation（翻译）

基于任务感知调制的多模态模型不可知元学习摘要模型不相关的元学习的目的是从相似任务中获得元学习参数，从而只通过少量的梯度更新来适应与任务同分布的新任务。由于在模型选择上的灵活性，这些框架在多个领域上展示了引人注目的性能，比如小样本图像分类和强化学习。然后，这种框架的其中一个重要的限制是它们寻求整个任务分布的公共初始参数，这极大的限制了框架能够学习的任务分布的多样性。在本文中，我们增加了MAML从多模

qq_36514344·2022-06-07 07:28

【论文笔记】Multimodal Conditional Image Synthesis with Product-of-Experts GANs

论文标题：MultimodalConditionalImageSynthesiswithProduct-of-ExpertsGANs论文链接：http://arxiv.org/abs/2112.05130论文代码：https://deepimagination.cc/PoE-GAN/发表时间：2021年12月Abstract现有的条件图像合成框架基于单一模态中的用户输入生成图像，例如文本、分割、草

arXiv每周论文精读速递·2022-02-28 07:15

CS3483 Multimodal Design

CS3483MultimodalInterfaceDesignAssignmentOverviewIntheassignment,youarerequiredtousep5.jsandml5.jstodevelopaninterfaceforviewingandinteractingwithanimage.Theseactionsareperformedbyusingfacedetectionan

·2021-12-09 11:56

CS3483 Multimodal

CS3483MultimodalInterfaceDesignAssignmentOverviewIntheassignment,youarerequiredtousep5.jsandml5.jstodevelopaninterfaceforviewingandinteractingwithanimage.Theseactionsareperformedbyusingfacedetectionan

·2021-12-07 14:44

论文阅读：《Multimodal Few-Shot Learning with Frozen Language Models》

大规模的自回归语言模型具有很好的学习新任务的能力，如GPT-2，给定几个“示例”，GPT-2能很快的学习到任务形式并回答新的问题。此文试图将这种能力迁移到多模态场景之下，通过一个图像编码器将图像转换为连续的嵌入序列，作为一种prompt，与文本信息一起送入语言模型中。在多个few-shot场景下的测试表明，此文的算法在多模态少样本情况下表现出比基线较好的效果。Motivation大规模的预训练tr

z花落·2021-08-01 16:34

Multimodal Transformer with Multi-View Visual Representation for Image Captioning

Introduction之前方法的主要问题：注意力机制只关注模态间的相互影响（objecttoword）目前的模型都太小可能无法完全理解visualobject之间的复杂关系region-basedvisualfeatures可能无法涵盖图中所有的object，不足的视觉表达导致无法产生精准的caption针对前两点：使用MT（MultimodalTransformer）modelforimage

卖鱼家的少爷·2021-04-14 23:08

Multimodal analysis of personality traits on videos of self-presentation and induced behavior 阅读笔记

虽然这篇论文的投的期刊IF不是很高，但仍有一些值得学习和借鉴的地方，2020年的最新多模态情感分析1.模型结构1.1面部特征特征提取用OpenFace提取68个脸部的坐标点，脸部边界（20），眼睛眉毛（22），鼻子（9），嘴巴（20）然后对坐标点进行线性的变换，把它规划，去掉旋转角度、平移角度，得到面部的正脸照片。resize到224*224建模对生成的连续的人脸照片进行建模，使用两种模型结构：R

B站：阿里武·2021-02-10 11:50

阅读笔记 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

前言论文讲的是两个模态的情感分析，作者提出一个网络，此网络通过在多个层次上引入注意力，从视觉和文本中产生区分性特征。通过利用视觉数据中的通道channel注意力和空间注意力来获得双注意力的视觉特征。总体来说用两个注意力channelattention和spatialattention注意力提高CNN采集图像特征能力提出语义注意力模拟单词的图像区域与语义之间的相关性，也就是一个JOINTATTEND

B站：阿里武·2021-01-14 13:04

多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

NoiseEstimationUsingDensityEstimationforSelf-SupervisedMultimodalLearning这篇文件讲的是，按照现有多模态的任务，往往会出现噪音的问题，噪声使得模型一直得不到最好结果，而这篇文章提出一个去噪方法，自监督的去训练一个去噪模块来消除噪声，实验结果显示，用此方法，能够直接提高VQA，Text-To-VideoRetrieval等任务的

B站：阿里武·2021-01-12 22:25

Multistage Fusion with Forget Gate for Multimodal Summarization in Open-Domain Videos 阅读笔记

介绍这篇文章是对一个长视频得到一个摘要，是属于多模态的论文.模型结构模型总体结构如图，还是非常易懂的经典双线程，其中两个模态有交叉（信息交换）的地方，模型总体还算简单特征初步提取videoResNeXt-1013Dconvolutionalneuralnetwork提取视频的16帧，然后加入一个位置嵌入positionembeddingstext使用两种方式每个单词使用biGRU得到单词embed

B站：阿里武·2020-12-29 23:14

阅读笔记 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

CR-Net:ADeepClassification-RegressionNetworkforMultimodalApparentPersonalityAnalysis模型结构模型包括数据处理，特征提取，预测回归三个部分，下面分别介绍数据预处理visual每个视频取样32帧，而且每一帧又分为**背景和脸部**图片，以往的工作专注于面部特征，但是作者认为其背景特征也是一种补充信息，作者举了一个例子，

B站：阿里武·2020-10-09 19:40

论文笔记-Multimodal Unsupervised Image-to-Image Translation

论文信息论文标题：MultimodalUnsupervisedImage-to-ImageTranslation论文出处：ECCV2018论文作者：XunHuang,Ming-YuLiu,SergeJ.Belongie,JanKautz研究机构：康奈尔大学；英伟达代码链接：https://github.com/nvlabs/MUNIT引用信息：@inproceedings{DBLP:conf/ec

kingsleyluoxin·2020-10-02 23:37

论文阅读“Multimodal Network Embedding via Attention based Multi-view Variational Autoencoder”

引用：HuangF,ZhangX,LiC,etal.Multimodalnetworkembeddingviaattentionbasedmulti-viewvariationalautoencoder[C]//Proceedingsofthe2018ACMonInternationalConferenceonMultimediaRetrieval.2018:108-116.问题说明多模态网络被定

掉了西红柿皮_Kee·2020-09-18 11:34

科研笔记----七月总结

六月四号是正式开始科研的第一天，刚开始科研，脑袋一片空白，老师也没有跟我交代太多，就让我看了一篇multimodal的综述文章，然后写一篇report交给他。

hust_zhengT·2020-09-12 16:25

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

该笔记基于：MultimodalMachineLearning:ASurveyandTaxonomy该论文是一篇对多模态机器学习领域的总结和分类，且发表于2017年，算是相当新的综述了。老师在课上推荐阅读，我花了三天大体看了一边，其中有很多实际的方法或者技术对我来说是全新的领域，也是未来学习的方向，但是对这个领域和其想解决的问题有了大致的了解。记录如下：关键名词解释：Modality：Aparti

mishidemudong·2020-09-11 22:32

CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

目录简介动机贡献方法实验简介本文提出了一种用于多模态学习的超图注意力网络，作者来自Kakao公司和首尔大学。Kakao公司的主要产品是Kakaotalk，类似于国内的微信，且腾讯是其第二大股东。KakaoBrain这个团队比较出名的是在NeurlPS2019上的Fastautoaugment这篇文章，大家可以关注一下。下载链接Kakao团队的视频讲解。动机不同模态信息的level是不同的，也就是不

NeverMoreH·2020-09-10 15:28

风格迁移学习笔记(1):Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast

以下将分为3个部分介绍:效果解決的問題Howtosolveit？1.效果:先来看一下效果2.解决的问题:通用框架下进行styletransfer时候的笔触差异原始的方法永远会和style差距较大解决不同size下的笔触问题,如下图如果只用256的size去训练较coarse的笔触或者用1024的size去训练较fine的笔触因此单独训练学出来的结果的笔触会和原图有较大的出入。3.How?Easyw

Alanyannick·2020-08-24 20:21

M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

Paper:https://arxiv.org/abs/1911.06258Code:https://ronghanghu.com/m4c/基于多模式transformer结构以及图像中文本的丰富表示形式。通过将不同模态嵌入到共同的语义空间中，自然地将不同的模式融合在一起，在该空间中，自我注意被应用于模式间和模式内上下文。使用动态指针网络进行迭代答案解码，从而允许模型通过多步预测而不是一步分类来形

CharlesWu123·2020-08-22 17:06

SMA :Structured Multimodal Attentions for TextVQA --- 论文阅读笔记

Paper:https://arxiv.org/abs/2006.00753SMA首先使用结构图表示去编码图像中的object-object，object-text和text-text之间的关系，然后使用一个多模态图注意力网络去理解，最后，由全局-局部注意回答模块处理来自上述模块的输出，以迭代地产生包含OCR和固定词汇的答案。PipelineSMA模型对具有多种关系类型的图进行推理。Questio

CharlesWu123·2020-08-22 17:06

SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

Paper:https://arxiv.org/abs/2007.12146[ECCV2020]spatiallyawareself-attentionlayer:使用空间图定义每一个视觉实体只看相邻的实体，多头自注意力层的每个头都专注于关系的不同子集。每个头都考虑局部上下文，而不是将注意力分散在所有视觉实体中；避免学习多余的特征在TextVQA数据集中大约有13%的问题存在一个或多个空间词，SA

CharlesWu123·2020-08-22 17:06

医学影像处理--Unet在Multimodal Brain Tumor Segmentation Challenge 2019上的应用

背景MultimodalBrainTumorSegmentationChallenge2019http://braintumorsegmentation.org/是一个脑部肿瘤分割的比赛，主要是利用病人的核磁共振的图像，预测病人脑部胶质瘤的位置，预测病人的生存期，这两部分会有一个排名，这是属于图像的语义分割的问题。数据分析原始的数据需要在这个网站上注册下载，分成两部分，train和validati

song430·2020-08-16 01:21

论文笔记：Hashtag recommendation for multimodal microblog posts

农民小飞侠·2020-08-08 23:08

Deep Multimodal Subspace Clustering Networks

DeepMultimodalSubspaceClusteringNetworks作者：MahdiAbavisani,StudentMember,IEEE,andVishalM.Patel,SeniorMember,IEEEIEEEJOURNALOFSELECTEDTOPICSINSIGNALPROCESSING,VOL.12,NO.6,DECEMBER2018这是一篇关于多视图聚类的文章：接下来我

Asure_AI·2020-08-08 12:37

用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》

目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。一、文献摘要介绍TherecentlyemergedresearchofVisualQuestionAnswering(VQA)hasbecomeahottopicincomputervision.AkeysolutiontoVQAexist

Tiám青年·2020-08-03 08:45

【论文解读 WWW 2019 | MVAE】Multimodal Variational Autoencoder for Fake News Detection

论文题目：MVAE:MultimodalVariationalAutoencoderforFakeNewsDetection论文来源：WWW2019论文链接：https://doi.org/10.1145/3308558.3313552代码链接：https://github.com/dhruvkhattar/MVAE关键词：多模态融合；图片；文本；变分自编码器；假新闻检测；microblogs文章

byn12345·2020-08-02 20:10

【论文解读 ICMR 2020 | KMGCN】Fake News Detection via Knowledge-driven Multimodal GCN

论文题目：FakeNewsDetectionviaKnowledge-drivenMultimodalGraphConvolutionalNetworks论文来源：ICMR2020论文链接：https://doi.org/10.1145/3372278.3390713关键词：假新闻检测；多模态；知识；图卷积文章目录1摘要2引言3方法3.1问题定义3.2整体框架3.3知识蒸馏3.4多模态内容的图构建

byn12345·2020-08-02 20:10

【论文解读 arXiv 2019 | DEAN】DEAN: Learning Dual Emotion for Fake News Detection on Social Media

LearningDualEmotionforFakeNewsDetectiononSocialMedia论文来源：arXiv2019论文链接：https://arxiv.org/abs/1903.01728关键词：假新闻检测，社交网络，情感，multimodal

byn12345·2020-08-02 20:35

MDDR：Multimodal Dialogue Dense Retriever模型

MDDR：能够实现文本或图片两种模态多轮对话的检索，通过对海量多模态历史交互信息的检索召回与排序，实现对当前问题的应答。模型结构见下图。模型子模块：闲聊分类模块：针对多轮对话场景，判断当前用户问题是否含有充足的业务信息。在对话过程中，系统会使用该模块对用户问题进行判断，如果当前信息不足以进行有意义的应答，则系统会加上上一轮的用户问题，进行检索召回。该模块示例使用fasttext模型实现，并随机挑选

修行者_Yang·2020-07-28 07:41

Structured Multimodal Attentions for TextVQA

原文链接：https://arxiv.org/pdf/2006.00753Motivation对于TextVQA任务，作者提出了一种基于结构化的文本-物体图的模型。图中文本和物体作为节点，节点之间的联系作为边。PipelineTextVQA任务需要三个步骤：reading，reasoning，answering，该模型专注于后两个步骤。1、Questionself-attentionmodule：

-Limbo-·2020-07-17 01:00

2018 LNCS之GAN（image transfer）：Multimodal Unsupervised Image-to-Image Translation

MultimodalUnsupervisedImage-to-ImageTranslation开源：https://github.com/nvlabs/MUNIT当前的问题及概述：无监督图像到图像的转换目前CV中一个重要的问题，在没有pair的前提下，学习源域对应图像在目标域内的条件分布。现有的方法为确定性的一对一映射，因此，它们无法从给定的源域图像生成不同的输出。为了解决这一限制，本文提出了一个

matlabLKL·2020-07-11 20:36

论文笔记：Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

09-1809:58:50Paper：http://openaccess.thecvf.com/content_ECCV_2018/papers/Edgar_Margffoy-Tuay_Dynamic_Multimodal_Instance_ECCV

a1424262219·2020-07-11 01:45

论文笔记：Hashtag Recommendation for Multimodal Microblog Using Co-Attention Network

感想这篇论文我觉得是讲得非常详细的一篇，从头到尾的实现细节都说了一遍，不知道作者肯不肯给数据集和源码，如果这样的话就更好了，它的精度只达到了0.3，可见提升的空间还是蛮大的，最大的特点是利用了文本和图片的信息，加入attention机制，这样文本有图片，图片有文本的信息，思路从某个程度上还是很新的。关键是效果更好了。1介绍近几年，微博已经成为最流行了信息产生和扩散，以及各种社交媒体的社交的服务之一

农民小飞侠·2020-07-10 05:37

推荐频道

MultiModal

论文阅读：DEEP CAPTIONING WITH MULTIMODAL RECURRENTNEURAL NETWORKS (M-RNN)

Multimodal Machine Learning:A Survey and Taxonomy

AutoGluon包使用示例（表格、图像与多模态）

FusionPainting: Multimodal Fusion with Adaptive Attention for3D Object Detection(多模态融合与自适应注意的3D物体检测)

Geometric multimodal representation learning

2.1 Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

论文笔记：Learning Social Image Embedding with Deep Multimodal Attention Networks

[阅读论文] RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining

谣言检测论文精度——10.Supervised Contrastive Learning for Multimodal Unreliable News Detection in COVID-19

谣言检测论文精读——9.Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs

Part2_扩展MATSIM_Subpart4_除个人车外的其他模式_第21章 多模式

猿创征文｜多模态图像合成和编辑（MISE）：Multimodal Image Synthesis and Editing: A Survey

Multimodal Machine Learning:A Survey and Taxonomy 多模态机器学习：综述与分类

论文笔记：Multimodal Machine Learning: A Survey and Taxonomy

深度学习前沿技术摘要

Multimodal Unsupervised Image-to-Image Translation多通道无监督图像翻译

2020_ACM MM_MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

单细胞分析之细胞注释-1：Azimuth

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation（翻译）

【论文笔记】Multimodal Conditional Image Synthesis with Product-of-Experts GANs

CS3483 Multimodal Design

CS3483 Multimodal

论文阅读：《Multimodal Few-Shot Learning with Frozen Language Models》

Multimodal Transformer with Multi-View Visual Representation for Image Captioning

Multimodal analysis of personality traits on videos of self-presentation and induced behavior 阅读笔记

阅读笔记 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

Multistage Fusion with Forget Gate for Multimodal Summarization in Open-Domain Videos 阅读笔记

阅读笔记 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

论文笔记-Multimodal Unsupervised Image-to-Image Translation

论文阅读“Multimodal Network Embedding via Attention based Multi-view Variational Autoencoder”

科研笔记----七月总结

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

风格迁移学习笔记(1):Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast

M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

SMA :Structured Multimodal Attentions for TextVQA --- 论文阅读笔记

SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

医学影像处理--Unet在Multimodal Brain Tumor Segmentation Challenge 2019上的应用

论文笔记：Hashtag recommendation for multimodal microblog posts

Deep Multimodal Subspace Clustering Networks

用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》

【论文解读 WWW 2019 | MVAE】Multimodal Variational Autoencoder for Fake News Detection

【论文解读 ICMR 2020 | KMGCN】Fake News Detection via Knowledge-driven Multimodal GCN

【论文解读 arXiv 2019 | DEAN】DEAN: Learning Dual Emotion for Fake News Detection on Social Media

MDDR：Multimodal Dialogue Dense Retriever模型

Structured Multimodal Attentions for TextVQA

2018 LNCS之GAN（image transfer）：Multimodal Unsupervised Image-to-Image Translation

论文笔记：Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

论文笔记：Hashtag Recommendation for Multimodal Microblog Using Co-Attention Network

Part2_扩展MATSIM_Subpart4_除个人车外的其他模式_第21章多模式