MultiModal 第6页

Multistage Fusion with Forget Gate for Multimodal Summarization in Open-Domain Videos 阅读笔记

介绍这篇文章是对一个长视频得到一个摘要，是属于多模态的论文.模型结构模型总体结构如图，还是非常易懂的经典双线程，其中两个模态有交叉（信息交换）的地方，模型总体还算简单特征初步提取videoResNeXt-1013Dconvolutionalneuralnetwork提取视频的16帧，然后加入一个位置嵌入positionembeddingstext使用两种方式每个单词使用biGRU得到单词embed

B站：阿里武·2020-12-29 23:14

阅读笔记 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

CR-Net:ADeepClassification-RegressionNetworkforMultimodalApparentPersonalityAnalysis模型结构模型包括数据处理，特征提取，预测回归三个部分，下面分别介绍数据预处理visual每个视频取样32帧，而且每一帧又分为**背景和脸部**图片，以往的工作专注于面部特征，但是作者认为其背景特征也是一种补充信息，作者举了一个例子，

B站：阿里武·2020-10-09 19:40

论文笔记-Multimodal Unsupervised Image-to-Image Translation

论文信息论文标题：MultimodalUnsupervisedImage-to-ImageTranslation论文出处：ECCV2018论文作者：XunHuang,Ming-YuLiu,SergeJ.Belongie,JanKautz研究机构：康奈尔大学；英伟达代码链接：https://github.com/nvlabs/MUNIT引用信息：@inproceedings{DBLP:conf/ec

kingsleyluoxin·2020-10-02 23:37

论文阅读“Multimodal Network Embedding via Attention based Multi-view Variational Autoencoder”

引用：HuangF,ZhangX,LiC,etal.Multimodalnetworkembeddingviaattentionbasedmulti-viewvariationalautoencoder[C]//Proceedingsofthe2018ACMonInternationalConferenceonMultimediaRetrieval.2018:108-116.问题说明多模态网络被定

掉了西红柿皮_Kee·2020-09-18 11:34

科研笔记----七月总结

六月四号是正式开始科研的第一天，刚开始科研，脑袋一片空白，老师也没有跟我交代太多，就让我看了一篇multimodal的综述文章，然后写一篇report交给他。

hust_zhengT·2020-09-12 16:25

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

该笔记基于：MultimodalMachineLearning:ASurveyandTaxonomy该论文是一篇对多模态机器学习领域的总结和分类，且发表于2017年，算是相当新的综述了。老师在课上推荐阅读，我花了三天大体看了一边，其中有很多实际的方法或者技术对我来说是全新的领域，也是未来学习的方向，但是对这个领域和其想解决的问题有了大致的了解。记录如下：关键名词解释：Modality：Aparti

mishidemudong·2020-09-11 22:32

CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

目录简介动机贡献方法实验简介本文提出了一种用于多模态学习的超图注意力网络，作者来自Kakao公司和首尔大学。Kakao公司的主要产品是Kakaotalk，类似于国内的微信，且腾讯是其第二大股东。KakaoBrain这个团队比较出名的是在NeurlPS2019上的Fastautoaugment这篇文章，大家可以关注一下。下载链接Kakao团队的视频讲解。动机不同模态信息的level是不同的，也就是不

NeverMoreH·2020-09-10 15:28

风格迁移学习笔记(1):Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast

以下将分为3个部分介绍:效果解決的問題Howtosolveit？1.效果:先来看一下效果2.解决的问题:通用框架下进行styletransfer时候的笔触差异原始的方法永远会和style差距较大解决不同size下的笔触问题,如下图如果只用256的size去训练较coarse的笔触或者用1024的size去训练较fine的笔触因此单独训练学出来的结果的笔触会和原图有较大的出入。3.How?Easyw

Alanyannick·2020-08-24 20:21

M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

Paper:https://arxiv.org/abs/1911.06258Code:https://ronghanghu.com/m4c/基于多模式transformer结构以及图像中文本的丰富表示形式。通过将不同模态嵌入到共同的语义空间中，自然地将不同的模式融合在一起，在该空间中，自我注意被应用于模式间和模式内上下文。使用动态指针网络进行迭代答案解码，从而允许模型通过多步预测而不是一步分类来形

CharlesWu123·2020-08-22 17:06

SMA :Structured Multimodal Attentions for TextVQA --- 论文阅读笔记

Paper:https://arxiv.org/abs/2006.00753SMA首先使用结构图表示去编码图像中的object-object，object-text和text-text之间的关系，然后使用一个多模态图注意力网络去理解，最后，由全局-局部注意回答模块处理来自上述模块的输出，以迭代地产生包含OCR和固定词汇的答案。PipelineSMA模型对具有多种关系类型的图进行推理。Questio

CharlesWu123·2020-08-22 17:06

SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

Paper:https://arxiv.org/abs/2007.12146[ECCV2020]spatiallyawareself-attentionlayer:使用空间图定义每一个视觉实体只看相邻的实体，多头自注意力层的每个头都专注于关系的不同子集。每个头都考虑局部上下文，而不是将注意力分散在所有视觉实体中；避免学习多余的特征在TextVQA数据集中大约有13%的问题存在一个或多个空间词，SA

CharlesWu123·2020-08-22 17:06

医学影像处理--Unet在Multimodal Brain Tumor Segmentation Challenge 2019上的应用

背景MultimodalBrainTumorSegmentationChallenge2019http://braintumorsegmentation.org/是一个脑部肿瘤分割的比赛，主要是利用病人的核磁共振的图像，预测病人脑部胶质瘤的位置，预测病人的生存期，这两部分会有一个排名，这是属于图像的语义分割的问题。数据分析原始的数据需要在这个网站上注册下载，分成两部分，train和validati

song430·2020-08-16 01:21

论文笔记：Hashtag recommendation for multimodal microblog posts

农民小飞侠·2020-08-08 23:08

Deep Multimodal Subspace Clustering Networks

DeepMultimodalSubspaceClusteringNetworks作者：MahdiAbavisani,StudentMember,IEEE,andVishalM.Patel,SeniorMember,IEEEIEEEJOURNALOFSELECTEDTOPICSINSIGNALPROCESSING,VOL.12,NO.6,DECEMBER2018这是一篇关于多视图聚类的文章：接下来我

Asure_AI·2020-08-08 12:37

用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》

目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。一、文献摘要介绍TherecentlyemergedresearchofVisualQuestionAnswering(VQA)hasbecomeahottopicincomputervision.AkeysolutiontoVQAexist

Tiám青年·2020-08-03 08:45

【论文解读 WWW 2019 | MVAE】Multimodal Variational Autoencoder for Fake News Detection

论文题目：MVAE:MultimodalVariationalAutoencoderforFakeNewsDetection论文来源：WWW2019论文链接：https://doi.org/10.1145/3308558.3313552代码链接：https://github.com/dhruvkhattar/MVAE关键词：多模态融合；图片；文本；变分自编码器；假新闻检测；microblogs文章

byn12345·2020-08-02 20:10

【论文解读 ICMR 2020 | KMGCN】Fake News Detection via Knowledge-driven Multimodal GCN

论文题目：FakeNewsDetectionviaKnowledge-drivenMultimodalGraphConvolutionalNetworks论文来源：ICMR2020论文链接：https://doi.org/10.1145/3372278.3390713关键词：假新闻检测；多模态；知识；图卷积文章目录1摘要2引言3方法3.1问题定义3.2整体框架3.3知识蒸馏3.4多模态内容的图构建

byn12345·2020-08-02 20:10

【论文解读 arXiv 2019 | DEAN】DEAN: Learning Dual Emotion for Fake News Detection on Social Media

LearningDualEmotionforFakeNewsDetectiononSocialMedia论文来源：arXiv2019论文链接：https://arxiv.org/abs/1903.01728关键词：假新闻检测，社交网络，情感，multimodal

byn12345·2020-08-02 20:35

MDDR：Multimodal Dialogue Dense Retriever模型

MDDR：能够实现文本或图片两种模态多轮对话的检索，通过对海量多模态历史交互信息的检索召回与排序，实现对当前问题的应答。模型结构见下图。模型子模块：闲聊分类模块：针对多轮对话场景，判断当前用户问题是否含有充足的业务信息。在对话过程中，系统会使用该模块对用户问题进行判断，如果当前信息不足以进行有意义的应答，则系统会加上上一轮的用户问题，进行检索召回。该模块示例使用fasttext模型实现，并随机挑选

修行者_Yang·2020-07-28 07:41

Structured Multimodal Attentions for TextVQA

原文链接：https://arxiv.org/pdf/2006.00753Motivation对于TextVQA任务，作者提出了一种基于结构化的文本-物体图的模型。图中文本和物体作为节点，节点之间的联系作为边。PipelineTextVQA任务需要三个步骤：reading，reasoning，answering，该模型专注于后两个步骤。1、Questionself-attentionmodule：

-Limbo-·2020-07-17 01:00

2018 LNCS之GAN（image transfer）：Multimodal Unsupervised Image-to-Image Translation

MultimodalUnsupervisedImage-to-ImageTranslation开源：https://github.com/nvlabs/MUNIT当前的问题及概述：无监督图像到图像的转换目前CV中一个重要的问题，在没有pair的前提下，学习源域对应图像在目标域内的条件分布。现有的方法为确定性的一对一映射，因此，它们无法从给定的源域图像生成不同的输出。为了解决这一限制，本文提出了一个

matlabLKL·2020-07-11 20:36

论文笔记：Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

09-1809:58:50Paper：http://openaccess.thecvf.com/content_ECCV_2018/papers/Edgar_Margffoy-Tuay_Dynamic_Multimodal_Instance_ECCV

a1424262219·2020-07-11 01:45

论文笔记：Hashtag Recommendation for Multimodal Microblog Using Co-Attention Network

感想这篇论文我觉得是讲得非常详细的一篇，从头到尾的实现细节都说了一遍，不知道作者肯不肯给数据集和源码，如果这样的话就更好了，它的精度只达到了0.3，可见提升的空间还是蛮大的，最大的特点是利用了文本和图片的信息，加入attention机制，这样文本有图片，图片有文本的信息，思路从某个程度上还是很新的。关键是效果更好了。1介绍近几年，微博已经成为最流行了信息产生和扩散，以及各种社交媒体的社交的服务之一

农民小飞侠·2020-07-10 05:37

论文解读：Dual Attention Networks for Multimodal Reasoning and Matching

这是关于VQA问题的第八篇系列文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：DualAttentionNetworksforMultimodalReasoningandMatching1，主要思想：这篇文章依然从多模态推理上介绍，不同的是文章引入两种类型的DANs进行多模态推理,匹配以及分类。推理模型允许可视化并在协作推理期间用文本注意机制互相关联。2，模型架构DAN

yealxxy·2020-07-10 05:24

论文笔记 Memory Fusion Network for Multi-view Sequential Learning (AAAI2018)

文章中的multiview其实指代可以很广泛，许多地方也叫做multimodal，对于多模态序列学习而言，模态往往存在两种形式的交互（1）模态内关联（view-specificinteractions)

猴猴猪猪·2020-07-09 21:58

【论文阅读】【CVPR2017】Dual Attention Networks for Multimodal Reasoning and Matching

Abstract我们提出双重注意网络模型（DANs）利用视觉和文字共同注意机制捕捉视觉和语言之间的细微互动。DANs关注图像和文字的特定区域文本信息，这些文本信息是通过多个步骤收集来自两种模式的重要信息。基于这个框架，我们引入两种类型的DANs进行多模态推理,匹配以及分类。推理模型允许可视化并在协作推理期间用文本注意机制互相关联，这对于视觉问答（VQA）等任务很有用。此外，匹配模型利用文本和图像两

JustinXTT·2020-07-09 20:41

【迁移学习】Self Paced Adversarial Training for Multimodal Few-shot Learning论文解读

paper：SelfPacedAdversarialTrainingforMultimodalFew-shotLearning20181127WACV-19SelfPacedAdversarialTrainingforMultimodalFew-shotLearning.方法源域训练GAN网络利用源域数据训练GAN网络。具体地，GAN网络设成stackGAN网络，所谓stackGAN网络是指，用l

zkq_1986·2020-07-09 06:41

Deep Multimodal Vehicle Detection in Aerial ISR Imagery译文

航空ISR影像深度多模式车辆检测WesamSaklaGoranKonjevodT.NathanMundhenk计算机工程部劳伦斯利弗莫尔国家实验室2017年3月24日至2017年3月31日摘要自引入深度卷积神经网络（CNN）以来，图像中的物体检测在最先进的性能方面取得了实质性的突破。国防部门利用空中的图像传感器，在电磁波谱的各个波段获取大视场的航空影像，然后将其用于各种应用，包括人造物体的检测和定

xunan003·2020-07-06 09:13

AutoML论文笔记（十五）Neural Architecture Search for Gliomas Segmentation on Multimodal Magnetic Resonance I

文章题目：NeuralArchitectureSearchforGliomasSegmentationonMultimodalMagneticResonanceImaging链接：linkhttps://arxiv.org/pdf/2005.06338论文内容论文阅读笔记，帮助记忆的同时，方便和大家讨论。因能力有限，可能有些地方理解的不到位，如有谬误，请及时指正。近年来，随着深度学习的发展，医学影

霸王龙Alvin·2020-07-04 23:14

读书笔记---Explain Images with Multimodal Recurrent Neural Networks

之前的方法将imagecaption任务看成检索任务，对句子和图像提取特征，并将他们映射到相同的语义嵌入空间，只能对数据集中已经存在的图像进行注释，不能描述先前看不到的对象和场景。这篇文章提出了一个多模式递归神经网络模型（m-RNN）用于解释图像的内容。这个模型根据已经给出的图片和之前生成的单词来预测下一个单词。m-RNN主要是由两个子网络组成的：用于句子的深度递归网络和用于图像的深度卷积网络。这

call_me_mr_wei·2020-07-01 19:26

Adversarial Multimodal Network for Movie Question Answering心得体会

利用多模态信息进行可视化问题回答，近年来受到了越来越多的关注。然而，由于视觉内容和自然语言具有截然不同的统计特性，这是一项非常具有挑战性的任务。本文提出了一个称为对抗性多模态网络(AMN)的方法，以更好地理解视频故事的问题回答。在AMN中，受到生成式对抗网络的启发，通过为视频剪辑和相应的文本(例如，字幕和问题)寻找更一致的子空间来学习多模态特征表示。此外，引入了一个自我注意机制来加强所谓的一致性约

untitled713·2020-07-01 05:25

【笔记】Multimodal Keyless Attention Fusion for Video Classification

本片论文是发表在AAAI-18上的一篇文章，清华大学出品。基于注意力机制的多模式融合，视频本身就是多模式的，包括视觉和声音等，单纯的考虑一种模式并不全面。![本图提供了两个视频中不同时间段的图像示例，显示了每种模态的重要性如何随时间变化。](https://img-blog.csdn.net/20180906110118575?watermark/2/text/aHR0cHM6Ly9ibG9nLm

leo1130·2020-06-30 03:48

对A Multimodal Deep Learning Method for Android Malware Detection Using Various Features的简单理解

**对AMultimodalDeepLearningMethodforAndroidMalwareDetectionUsingVariousFeatures的简单理解**核心技术：从各种方面对安卓软件的特性进行细分，然后基于相似性对特性进行划分，在恶意软件检测中实现了对有效的特征表示。同时，提出了一种基于多模式深度学习的恶意软件检测模型。该技术先对软件动态分析，对模糊恶意软件进行再处理，重点研究了

-Ausen·2020-06-29 11:49

论文阅读笔记：Multimodal Self-Supervised Learning for Medical Image Analysis

来源arxiv标题MultimodalSelf-SupervisedLearningforMedicalImageAnalysis作者单位德国波茨坦大学HassoPlattner研究所方法简介关键词：自监督学习，图像拼接（Jigsawpuzzle），名义任务（pretext），下游任务（downstreamtask），多模态图像方法本质：自监督学习算法中的图像拼接算法。该算法将一张图像切成大小均匀

愿十四亿神州尽舜尧·2020-06-29 02:27

【Paper】Deep Multimodal Representation Learning: A Survey （Part1）

论文被引：6(04/22/20)论文年份：2019论文原文：点击此处文章目录DeepMultimodalRepresentationLearning:ASurveyABSTRACTI.INTRODUCTIONII.DEEPMULTIMODALREPRESENTATIONLEARNINGFRAMEWORKSA.MODALITY-SPECIFICREPRESENTATIONSB.JOINTREPRES

datamonday·2020-06-28 22:27

读：Instance-aware Image and Sentence Matching with Selective Multimodal LSTM

摘要：有效图像和句子匹配取决于如何很好地度量其全局视觉-语义相似度。基于观察到这样的全局相似性是由图像（对象）和句子（词）的成对实例之间的多个局部相似性的复合聚集，我们提出了一个实例感知图像和句子匹配的选择性多模态长期短期记忆网络（sm-LSTM）。sm-LSTM在每个时间步包含一个多模式的上下文调制的注意方案，通过预测图像和句子的成对实例显着图，可以选择性地关注一对图像和句子的实例。对于选定的成

weixin_30672295·2020-06-27 23:12

论文Multimodal Unsupervised Image-to-Image Translation

简介：无监督图像迁移网络是计算机视觉领域的一个技术难题，即给定一张源域图像，如何在没有其他图像样本的情况下，学习相应目标域图像的条件分布。当处理多维条件分布时，现有的方法是在过度简化的假设条件下，通过绘制源域图像和确定的、一对一的目标图像来进行建模。然而，上述方法无法用来生成给定源域图像的多种多样的目标图像。因此，本文提出了一种多维无监督图像迁移网络框架。本文中假定代表图像可以被分解成域不变的内容

summer2day·2020-06-26 15:10

Toward Multimodal Image-to-Image Translation（BicycleGAN）图像一对多转换测试

CycleGAN、pix2pix、iGAN的主要贡献者最近在NIPS2017上又推出了一篇文章TowardMultimodalImage-to-ImageTranslation（见https://junyanz.github.io/BicycleGAN/，https://arxiv.org/pdf/1711.11586.pdf），讨论如何从一张图像同时转换为多张风格不一成对的图像。从作者摘要第一句

sparkexpert·2020-06-26 14:53

BiCycleGAN——Toward Multimodal Image-to-Image Translation，NIPS2017论文解读

TowardMultimodalImage-to-ImageTranslation论文亮点摘要介绍相关工作生成模型条件图像生成确定编码的多模态多模态的图像到图像转换Baseline:pix2pix+noise(z→B^)(\mathbf{z}\rightarrow\widehat{\mathbf{B}})(z→B)ConditionalVariationalAutoencoderGAN:cVAE−

风雪夜归人o·2020-06-25 22:13

[译]Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks

写在前面：这篇文章，值得看的地方有两块，一个是GAT（图注意力网络的应用），第二个是（Cycle-GAN）的应用。本文是全文翻译。关于Cycle-GAN的论文见解和阅读SINO的阅读笔记不错，文章3.6部分链接贴出来了。文章目录Social-BiGAT摘要1引言2相关工作3Social-BiGAT3.1问题定义3.2整体模型3.3FeatureEncoder3.4AttentionNetwork3

Way_X·2020-06-25 22:22

A Multimodal Database for Affect Recognition and Implicit Tagging

EmtionsrepersentationInordertorepresentemtionsorfeelingsaccurately,Theauthorrepresentsemtionsinan3-dimensionalspace,whichisthe3Dvalence-arousal(激励)-dominance(支配)orpleasure-arousal-dominancespace.Theva

p0werHu·2020-06-25 21:59

《Dual Attention Networks for Multimodal Reasoning and Matching》

DualAttentionNetworksforMultimodalReasoningandMatchingCVPR2017图文匹配终极问题是整个Text与整个Image的匹配问题，但是这个问题比较难以解决，所以一个最基本的想法就是把这个问题拆分开来，Text由不同的单词构成，Image由不同的区域构成，如果能把Text的单词与Image的区域进行一个匹配，那么这个问题就会变得比较简单。一个基本的

黄鑫huangxin·2020-06-25 06:55

[ECCV2018] [MUNIT] Multimodal Unsupervised Image-to-Image Translation

贡献：为one-to-one的unpairedimagetranslation的生成图像提供多样性提出假设：1、图像可以分解为stylecode与contentcode；2、不同领域的图像，共享一个contentspace，但是属于不同的stylespace；stylecodecapturesdomain-specificproperties,andcontentcodeisdomain-inva

hellopipu·2020-06-25 02:47

AutoML论文笔记（八）Deep Multimodal Neural Architecture Search：多模态神经网络搜索

文章题目：DeepMultimodalNeuralArchitectureSearch链接：linkhttps://arxiv.org/abs/2004.12070会议期刊：ICCV2020论文阅读笔记，帮助记忆的同时，方便和大家讨论。因能力有限，可能有些地方理解的不到位，如有谬误，请及时指正。论文内容多模态学习包括问答系统、图文匹配和文字描述。传统的技术途径要么是固定网络学习，要么是在不同领域搜

霸王龙Alvin·2020-06-24 10:22

音视频多模态研究点

今天又是充满希望的一天·2020-06-24 06:51

多模态融合 Multimodal Fusion

多模态融合MultimodalFusion多模态融合（MultimodalFusion）负责联合多个模态的信息，进行目标预测（分类或者回归），属于MMML最早的研究方向之一，也是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合（Multi-sourceInformationFusion）、多传感器融合（Multi-sensorFusion)。按照融合的层次，可以将多模态融合分为pixe

jwy2014·2020-06-23 23:26

多模态融合算法——Multimodal Compact Bilinear Pooling

Multimodal

华为云·2020-06-23 03:18

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

目录1.介绍（introduction）2.历史回顾（review）3.表示（representation）4.映射（Translation/Mapping）5.对齐（Alignment）6.融合（Fusion）7.联合学习（Co-learning）8.结论（conclusion）以下是本人每一章节整理的笔记：1.介绍（introduction）论文总体介绍了多模态的五个方向/挑战：表示（repr

dxwell6·2020-06-22 10:29

Multimodal Unsupervised Image-to-Image Translation

MultimodalUNsupervisedImage-to-imageTranslation是ECCV2018的一篇工作，是UNIT思路的一个延续。之前的UNIT实现的是两个domain之间的一个转换，MUNIT更进一步可以实现多个domain之间的转换，下面就来展开介绍这篇论文的细节。计算机视觉中的很多问题的目标可以理解成是将一个domain中的图像转换到另一个domain，例如超分辨率（su

Marcovaldo·2020-06-22 01:53

Multimodal Deep Learning（多模态深度学习）未完待续

摘要：本文提出一种在深度网络上的新应用，用深度网络学习多模态。特别的是，我们证明了跨模态特征学习——如果在特征学习过程中多模态出现了，对于一个模态而言，更好的特征可以被学习（多模态上学习，单模态上测试）。此外，我们展示了如何在多模态间学习一个共享的特征，并在一个特别的任务上评估它——分类器用只有音频的数据训练但是在只有视频的数据上测试（反之亦然）。我们的模型在CUAVE和AVLetters数据集上

mishidemudong·2020-06-21 08:04

推荐频道

MultiModal

Multistage Fusion with Forget Gate for Multimodal Summarization in Open-Domain Videos 阅读笔记

阅读笔记 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

论文笔记-Multimodal Unsupervised Image-to-Image Translation

论文阅读“Multimodal Network Embedding via Attention based Multi-view Variational Autoencoder”

科研笔记----七月总结

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

风格迁移学习笔记(1):Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast

M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

SMA :Structured Multimodal Attentions for TextVQA --- 论文阅读笔记

SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

医学影像处理--Unet在Multimodal Brain Tumor Segmentation Challenge 2019上的应用

论文笔记：Hashtag recommendation for multimodal microblog posts

Deep Multimodal Subspace Clustering Networks

用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》

【论文解读 WWW 2019 | MVAE】Multimodal Variational Autoencoder for Fake News Detection

【论文解读 ICMR 2020 | KMGCN】Fake News Detection via Knowledge-driven Multimodal GCN

【论文解读 arXiv 2019 | DEAN】DEAN: Learning Dual Emotion for Fake News Detection on Social Media

MDDR：Multimodal Dialogue Dense Retriever模型

Structured Multimodal Attentions for TextVQA

2018 LNCS之GAN（image transfer）：Multimodal Unsupervised Image-to-Image Translation

论文笔记：Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

论文笔记：Hashtag Recommendation for Multimodal Microblog Using Co-Attention Network

论文解读：Dual Attention Networks for Multimodal Reasoning and Matching

论文笔记 Memory Fusion Network for Multi-view Sequential Learning (AAAI2018)

【论文阅读】【CVPR2017】Dual Attention Networks for Multimodal Reasoning and Matching

【迁移学习】Self Paced Adversarial Training for Multimodal Few-shot Learning论文解读

Deep Multimodal Vehicle Detection in Aerial ISR Imagery译文

AutoML论文笔记（十五）Neural Architecture Search for Gliomas Segmentation on Multimodal Magnetic Resonance I

读书笔记---Explain Images with Multimodal Recurrent Neural Networks

Adversarial Multimodal Network for Movie Question Answering心得体会

【笔记】Multimodal Keyless Attention Fusion for Video Classification

对A Multimodal Deep Learning Method for Android Malware Detection Using Various Features的简单理解

论文阅读笔记：Multimodal Self-Supervised Learning for Medical Image Analysis

【Paper】Deep Multimodal Representation Learning: A Survey （Part1）

读：Instance-aware Image and Sentence Matching with Selective Multimodal LSTM

论文Multimodal Unsupervised Image-to-Image Translation

Toward Multimodal Image-to-Image Translation（BicycleGAN）图像一对多转换测试

BiCycleGAN——Toward Multimodal Image-to-Image Translation，NIPS2017论文解读

[译]Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks

A Multimodal Database for Affect Recognition and Implicit Tagging

《Dual Attention Networks for Multimodal Reasoning and Matching》

[ECCV2018] [MUNIT] Multimodal Unsupervised Image-to-Image Translation

AutoML论文笔记（八）Deep Multimodal Neural Architecture Search：多模态神经网络搜索

音视频多模态研究点

多模态融合 Multimodal Fusion

多模态融合算法——Multimodal Compact Bilinear Pooling

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

Multimodal Unsupervised Image-to-Image Translation

Multimodal Deep Learning（多模态深度学习）未完待续