E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MultiModal
Multistage Fusion with Forget Gate for
Multimodal
Summarization in Open-Domain Videos 阅读笔记
介绍这篇文章是对一个长视频得到一个摘要,是属于多模态的论文.模型结构模型总体结构如图,还是非常易懂的经典双线程,其中两个模态有交叉(信息交换)的地方,模型总体还算简单特征初步提取videoResNeXt-1013Dconvolutionalneuralnetwork提取视频的16帧,然后加入一个位置嵌入positionembeddingstext使用两种方式每个单词使用biGRU得到单词embed
B站:阿里武
·
2020-12-29 23:14
多模态
深度学习
自然语言处理
多模态
视频简介生成
mulit-modal
阅读笔记 CR-Net: A Deep Classification-Regression Network for
Multimodal
Apparent Personality Analysis
CR-Net:ADeepClassification-RegressionNetworkforMultimodalApparentPersonalityAnalysis模型结构模型包括数据处理,特征提取,预测回归三个部分,下面分别介绍数据预处理visual每个视频取样32帧,而且每一帧又分为**背景和脸部**图片,以往的工作专注于面部特征,但是作者认为其背景特征也是一种补充信息,作者举了一个例子,
B站:阿里武
·
2020-10-09 19:40
多模态
个性分析
个性分析
多模态
论文笔记-
Multimodal
Unsupervised Image-to-Image Translation
论文信息论文标题:MultimodalUnsupervisedImage-to-ImageTranslation论文出处:ECCV2018论文作者:XunHuang,Ming-YuLiu,SergeJ.Belongie,JanKautz研究机构:康奈尔大学;英伟达代码链接:https://github.com/nvlabs/MUNIT引用信息:@inproceedings{DBLP:conf/ec
kingsleyluoxin
·
2020-10-02 23:37
计算机视觉
论文笔记
深度学习
计算机视觉
深度学习
人工智能
论文阅读“
Multimodal
Network Embedding via Attention based Multi-view Variational Autoencoder”
引用:HuangF,ZhangX,LiC,etal.Multimodalnetworkembeddingviaattentionbasedmulti-viewvariationalautoencoder[C]//Proceedingsofthe2018ACMonInternationalConferenceonMultimediaRetrieval.2018:108-116.问题说明多模态网络被定
掉了西红柿皮_Kee
·
2020-09-18 11:34
科研笔记----七月总结
六月四号是正式开始科研的第一天,刚开始科研,脑袋一片空白,老师也没有跟我交代太多,就让我看了一篇
multimodal
的综述文章,然后写一篇report交给他。
hust_zhengT
·
2020-09-12 16:25
人工智能
机器学习
Multimodal
Machine Learning: A Survey and Taxonomy/多模态机器学习综述
该笔记基于:MultimodalMachineLearning:ASurveyandTaxonomy该论文是一篇对多模态机器学习领域的总结和分类,且发表于2017年,算是相当新的综述了。老师在课上推荐阅读,我花了三天大体看了一边,其中有很多实际的方法或者技术对我来说是全新的领域,也是未来学习的方向,但是对这个领域和其想解决的问题有了大致的了解。记录如下:关键名词解释:Modality:Aparti
mishidemudong
·
2020-09-11 22:32
多模态学习
CVPR 2020 HAN:《Hypergraph Attention Networks for
Multimodal
Learning》论文笔记
目录简介动机贡献方法实验简介本文提出了一种用于多模态学习的超图注意力网络,作者来自Kakao公司和首尔大学。Kakao公司的主要产品是Kakaotalk,类似于国内的微信,且腾讯是其第二大股东。KakaoBrain这个团队比较出名的是在NeurlPS2019上的Fastautoaugment这篇文章,大家可以关注一下。下载链接Kakao团队的视频讲解。动机不同模态信息的level是不同的,也就是不
NeverMoreH
·
2020-09-10 15:28
vision&language
#
others
CVPR2020
HAN
Kakao
多模态
风格迁移学习笔记(1):
Multimodal
Transfer: A Hierarchical Deep Convolutional Neural Network for Fast
以下将分为3个部分介绍:效果解決的問題Howtosolveit?1.效果:先来看一下效果2.解决的问题:通用框架下进行styletransfer时候的笔触差异原始的方法永远会和style差距较大解决不同size下的笔触问题,如下图如果只用256的size去训练较coarse的笔触或者用1024的size去训练较fine的笔触因此单独训练学出来的结果的笔触会和原图有较大的出入。3.How?Easyw
Alanyannick
·
2020-08-24 20:21
StyleTransfer
DL
Computer
vision
M4C:Iterative Answer Prediction with Pointer-Augmented
Multimodal
Transformers for TextVQA ---论文阅读笔记
Paper:https://arxiv.org/abs/1911.06258Code:https://ronghanghu.com/m4c/基于多模式transformer结构以及图像中文本的丰富表示形式。通过将不同模态嵌入到共同的语义空间中,自然地将不同的模式融合在一起,在该空间中,自我注意被应用于模式间和模式内上下文。使用动态指针网络进行迭代答案解码,从而允许模型通过多步预测而不是一步分类来形
CharlesWu123
·
2020-08-22 17:06
VQA
SMA :Structured
Multimodal
Attentions for TextVQA --- 论文阅读笔记
Paper:https://arxiv.org/abs/2006.00753SMA首先使用结构图表示去编码图像中的object-object,object-text和text-text之间的关系,然后使用一个多模态图注意力网络去理解,最后,由全局-局部注意回答模块处理来自上述模块的输出,以迭代地产生包含OCR和固定词汇的答案。PipelineSMA模型对具有多种关系类型的图进行推理。Questio
CharlesWu123
·
2020-08-22 17:06
VQA
SA-M4C : Spatially Aware
Multimodal
Transformers for TextVQA --- 论文阅读笔记
Paper:https://arxiv.org/abs/2007.12146[ECCV2020]spatiallyawareself-attentionlayer:使用空间图定义每一个视觉实体只看相邻的实体,多头自注意力层的每个头都专注于关系的不同子集。每个头都考虑局部上下文,而不是将注意力分散在所有视觉实体中;避免学习多余的特征在TextVQA数据集中大约有13%的问题存在一个或多个空间词,SA
CharlesWu123
·
2020-08-22 17:06
VQA
医学影像处理--Unet在
Multimodal
Brain Tumor Segmentation Challenge 2019上的应用
背景MultimodalBrainTumorSegmentationChallenge2019http://braintumorsegmentation.org/是一个脑部肿瘤分割的比赛,主要是利用病人的核磁共振的图像,预测病人脑部胶质瘤的位置,预测病人的生存期,这两部分会有一个排名,这是属于图像的语义分割的问题。数据分析原始的数据需要在这个网站上注册下载,分成两部分,train和validati
song430
·
2020-08-16 01:21
机器学习算法
论文笔记:Hashtag recommendation for
multimodal
microblog posts
感想这篇论文是18年的最新发表的论文,我看它的一个原因,是因为它很新,同时利用了新浪微博的微文,并且利用了微博和图片的信息来进行推荐,不过有点遗憾的是,它们采取的方法是传统的方法,比较的算法也是传统的NB,SVM等算法,没有用到深度学习,不知道作者有没有意向把数据集贡献一下,好让大家也做相关的研究,不过工作量还是有的,还是值得肯定的。1介绍随着社交媒体的迅速增长,大约72%的成人互联网用户是至少一
农民小飞侠
·
2020-08-08 23:08
推荐系统
Deep
Multimodal
Subspace Clustering Networks
DeepMultimodalSubspaceClusteringNetworks作者:MahdiAbavisani,StudentMember,IEEE,andVishalM.Patel,SeniorMember,IEEEIEEEJOURNALOFSELECTEDTOPICSINSIGNALPROCESSING,VOL.12,NO.6,DECEMBER2018这是一篇关于多视图聚类的文章:接下来我
Asure_AI
·
2020-08-08 12:37
用于视觉问答的基于关系推理和注意力的多峰特征融合模型《
Multimodal
feature fusion by relational reasoning and attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍TherecentlyemergedresearchofVisualQuestionAnswering(VQA)hasbecomeahottopicincomputervision.AkeysolutiontoVQAexist
Tiám青年
·
2020-08-03 08:45
VQA
计算机视觉
【论文解读 WWW 2019 | MVAE】
Multimodal
Variational Autoencoder for Fake News Detection
论文题目:MVAE:MultimodalVariationalAutoencoderforFakeNewsDetection论文来源:WWW2019论文链接:https://doi.org/10.1145/3308558.3313552代码链接:https://github.com/dhruvkhattar/MVAE关键词:多模态融合;图片;文本;变分自编码器;假新闻检测;microblogs文章
byn12345
·
2020-08-02 20:10
虚假信息识别
论文
【论文解读 ICMR 2020 | KMGCN】Fake News Detection via Knowledge-driven
Multimodal
GCN
论文题目:FakeNewsDetectionviaKnowledge-drivenMultimodalGraphConvolutionalNetworks论文来源:ICMR2020论文链接:https://doi.org/10.1145/3372278.3390713关键词:假新闻检测;多模态;知识;图卷积文章目录1摘要2引言3方法3.1问题定义3.2整体框架3.3知识蒸馏3.4多模态内容的图构建
byn12345
·
2020-08-02 20:10
虚假信息识别
论文
GCN
假新闻检测
知识图谱
【论文解读 arXiv 2019 | DEAN】DEAN: Learning Dual Emotion for Fake News Detection on Social Media
LearningDualEmotionforFakeNewsDetectiononSocialMedia论文来源:arXiv2019论文链接:https://arxiv.org/abs/1903.01728关键词:假新闻检测,社交网络,情感,
multimodal
byn12345
·
2020-08-02 20:35
虚假信息识别
论文
MDDR:
Multimodal
Dialogue Dense Retriever模型
MDDR:能够实现文本或图片两种模态多轮对话的检索,通过对海量多模态历史交互信息的检索召回与排序,实现对当前问题的应答。模型结构见下图。模型子模块:闲聊分类模块:针对多轮对话场景,判断当前用户问题是否含有充足的业务信息。在对话过程中,系统会使用该模块对用户问题进行判断,如果当前信息不足以进行有意义的应答,则系统会加上上一轮的用户问题,进行检索召回。该模块示例使用fasttext模型实现,并随机挑选
修行者_Yang
·
2020-07-28 07:41
NLP
Structured
Multimodal
Attentions for TextVQA
原文链接:https://arxiv.org/pdf/2006.00753Motivation对于TextVQA任务,作者提出了一种基于结构化的文本-物体图的模型。图中文本和物体作为节点,节点之间的联系作为边。PipelineTextVQA任务需要三个步骤:reading,reasoning,answering,该模型专注于后两个步骤。1、Questionself-attentionmodule:
-Limbo-
·
2020-07-17 01:00
2018 LNCS之GAN(image transfer):
Multimodal
Unsupervised Image-to-Image Translation
MultimodalUnsupervisedImage-to-ImageTranslation开源:https://github.com/nvlabs/MUNIT当前的问题及概述:无监督图像到图像的转换目前CV中一个重要的问题,在没有pair的前提下,学习源域对应图像在目标域内的条件分布。现有的方法为确定性的一对一映射,因此,它们无法从给定的源域图像生成不同的输出。为了解决这一限制,本文提出了一个
matlabLKL
·
2020-07-11 20:36
GAN
论文笔记:Dynamic
Multimodal
Instance Segmentation Guided by Natural Language Queries
09-1809:58:50Paper:http://openaccess.thecvf.com/content_ECCV_2018/papers/Edgar_Margffoy-Tuay_Dynamic_
Multimodal
_Instance_ECCV
a1424262219
·
2020-07-11 01:45
论文笔记:Hashtag Recommendation for
Multimodal
Microblog Using Co-Attention Network
感想这篇论文我觉得是讲得非常详细的一篇,从头到尾的实现细节都说了一遍,不知道作者肯不肯给数据集和源码,如果这样的话就更好了,它的精度只达到了0.3,可见提升的空间还是蛮大的,最大的特点是利用了文本和图片的信息,加入attention机制,这样文本有图片,图片有文本的信息,思路从某个程度上还是很新的。关键是效果更好了。1介绍近几年,微博已经成为最流行了信息产生和扩散,以及各种社交媒体的社交的服务之一
农民小飞侠
·
2020-07-10 05:37
推荐系统
论文解读:Dual Attention Networks for
Multimodal
Reasoning and Matching
这是关于VQA问题的第八篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:DualAttentionNetworksforMultimodalReasoningandMatching1,主要思想:这篇文章依然从多模态推理上介绍,不同的是文章引入两种类型的DANs进行多模态推理,匹配以及分类。推理模型允许可视化并在协作推理期间用文本注意机制互相关联。2,模型架构DAN
yealxxy
·
2020-07-10 05:24
vqa问题
论文笔记 Memory Fusion Network for Multi-view Sequential Learning (AAAI2018)
文章中的multiview其实指代可以很广泛,许多地方也叫做
multimodal
,对于多模态序列学习而言,模态往往存在两种形式的交互(1)模态内关联(view-specificinteractions)
猴猴猪猪
·
2020-07-09 21:58
【论文阅读】【CVPR2017】Dual Attention Networks for
Multimodal
Reasoning and Matching
Abstract我们提出双重注意网络模型(DANs)利用视觉和文字共同注意机制捕捉视觉和语言之间的细微互动。DANs关注图像和文字的特定区域文本信息,这些文本信息是通过多个步骤收集来自两种模式的重要信息。基于这个框架,我们引入两种类型的DANs进行多模态推理,匹配以及分类。推理模型允许可视化并在协作推理期间用文本注意机制互相关联,这对于视觉问答(VQA)等任务很有用。此外,匹配模型利用文本和图像两
JustinXTT
·
2020-07-09 20:41
论文阅读
深度学习
CCF
【迁移学习】Self Paced Adversarial Training for
Multimodal
Few-shot Learning论文解读
paper:SelfPacedAdversarialTrainingforMultimodalFew-shotLearning20181127WACV-19SelfPacedAdversarialTrainingforMultimodalFew-shotLearning.方法源域训练GAN网络利用源域数据训练GAN网络。具体地,GAN网络设成stackGAN网络,所谓stackGAN网络是指,用l
zkq_1986
·
2020-07-09 06:41
神经网络
Deep
Multimodal
Vehicle Detection in Aerial ISR Imagery译文
航空ISR影像深度多模式车辆检测WesamSaklaGoranKonjevodT.NathanMundhenk计算机工程部劳伦斯利弗莫尔国家实验室2017年3月24日至2017年3月31日摘要自引入深度卷积神经网络(CNN)以来,图像中的物体检测在最先进的性能方面取得了实质性的突破。国防部门利用空中的图像传感器,在电磁波谱的各个波段获取大视场的航空影像,然后将其用于各种应用,包括人造物体的检测和定
xunan003
·
2020-07-06 09:13
目标检测
AutoML论文笔记(十五)Neural Architecture Search for Gliomas Segmentation on
Multimodal
Magnetic Resonance I
文章题目:NeuralArchitectureSearchforGliomasSegmentationonMultimodalMagneticResonanceImaging链接:linkhttps://arxiv.org/pdf/2005.06338论文内容论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。近年来,随着深度学习的发展,医学影
霸王龙Alvin
·
2020-07-04 23:14
AutoML论文笔记
医学影像
读书笔记---Explain Images with
Multimodal
Recurrent Neural Networks
之前的方法将imagecaption任务看成检索任务,对句子和图像提取特征,并将他们映射到相同的语义嵌入空间,只能对数据集中已经存在的图像进行注释,不能描述先前看不到的对象和场景。这篇文章提出了一个多模式递归神经网络模型(m-RNN)用于解释图像的内容。这个模型根据已经给出的图片和之前生成的单词来预测下一个单词。m-RNN主要是由两个子网络组成的:用于句子的深度递归网络和用于图像的深度卷积网络。这
call_me_mr_wei
·
2020-07-01 19:26
image
caption
Adversarial
Multimodal
Network for Movie Question Answering心得体会
利用多模态信息进行可视化问题回答,近年来受到了越来越多的关注。然而,由于视觉内容和自然语言具有截然不同的统计特性,这是一项非常具有挑战性的任务。本文提出了一个称为对抗性多模态网络(AMN)的方法,以更好地理解视频故事的问题回答。在AMN中,受到生成式对抗网络的启发,通过为视频剪辑和相应的文本(例如,字幕和问题)寻找更一致的子空间来学习多模态特征表示。此外,引入了一个自我注意机制来加强所谓的一致性约
untitled713
·
2020-07-01 05:25
【笔记】
Multimodal
Keyless Attention Fusion for Video Classification
本片论文是发表在AAAI-18上的一篇文章,清华大学出品。基于注意力机制的多模式融合,视频本身就是多模式的,包括视觉和声音等,单纯的考虑一种模式并不全面。,名义任务(pretext),下游任务(downstreamtask),多模态图像方法本质:自监督学习算法中的图像拼接算法。该算法将一张图像切成大小均匀
愿十四亿神州尽舜尧
·
2020-06-29 02:27
论文阅读笔记
我的文章
【Paper】Deep
Multimodal
Representation Learning: A Survey (Part1)
论文被引:6(04/22/20)论文年份:2019论文原文:点击此处文章目录DeepMultimodalRepresentationLearning:ASurveyABSTRACTI.INTRODUCTIONII.DEEPMULTIMODALREPRESENTATIONLEARNINGFRAMEWORKSA.MODALITY-SPECIFICREPRESENTATIONSB.JOINTREPRES
datamonday
·
2020-06-28 22:27
论文学习(Paper)
多模态表征(MR)
读:Instance-aware Image and Sentence Matching with Selective
Multimodal
LSTM
摘要:有效图像和句子匹配取决于如何很好地度量其全局视觉-语义相似度。基于观察到这样的全局相似性是由图像(对象)和句子(词)的成对实例之间的多个局部相似性的复合聚集,我们提出了一个实例感知图像和句子匹配的选择性多模态长期短期记忆网络(sm-LSTM)。sm-LSTM在每个时间步包含一个多模式的上下文调制的注意方案,通过预测图像和句子的成对实例显着图,可以选择性地关注一对图像和句子的实例。对于选定的成
weixin_30672295
·
2020-06-27 23:12
论文
Multimodal
Unsupervised Image-to-Image Translation
简介:无监督图像迁移网络是计算机视觉领域的一个技术难题,即给定一张源域图像,如何在没有其他图像样本的情况下,学习相应目标域图像的条件分布。当处理多维条件分布时,现有的方法是在过度简化的假设条件下,通过绘制源域图像和确定的、一对一的目标图像来进行建模。然而,上述方法无法用来生成给定源域图像的多种多样的目标图像。因此,本文提出了一种多维无监督图像迁移网络框架。本文中假定代表图像可以被分解成域不变的内容
summer2day
·
2020-06-26 15:10
论文
Toward
Multimodal
Image-to-Image Translation(BicycleGAN)图像一对多转换测试
CycleGAN、pix2pix、iGAN的主要贡献者最近在NIPS2017上又推出了一篇文章TowardMultimodalImage-to-ImageTranslation(见https://junyanz.github.io/BicycleGAN/,https://arxiv.org/pdf/1711.11586.pdf),讨论如何从一张图像同时转换为多张风格不一成对的图像。从作者摘要第一句
sparkexpert
·
2020-06-26 14:53
pytorch
GAN
BiCycleGAN——Toward
Multimodal
Image-to-Image Translation,NIPS2017论文解读
TowardMultimodalImage-to-ImageTranslation论文亮点摘要介绍相关工作生成模型条件图像生成确定编码的多模态多模态的图像到图像转换Baseline:pix2pix+noise(z→B^)(\mathbf{z}\rightarrow\widehat{\mathbf{B}})(z→B)ConditionalVariationalAutoencoderGAN:cVAE−
风雪夜归人o
·
2020-06-25 22:13
深度学习
[译]Social-BiGAT:
Multimodal
Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks
写在前面:这篇文章,值得看的地方有两块,一个是GAT(图注意力网络的应用),第二个是(Cycle-GAN)的应用。本文是全文翻译。关于Cycle-GAN的论文见解和阅读SINO的阅读笔记不错,文章3.6部分链接贴出来了。文章目录Social-BiGAT摘要1引言2相关工作3Social-BiGAT3.1问题定义3.2整体模型3.3FeatureEncoder3.4AttentionNetwork3
Way_X
·
2020-06-25 22:22
论文研读
自动驾驶
神经网络
深度学习
A
Multimodal
Database for Affect Recognition and Implicit Tagging
EmtionsrepersentationInordertorepresentemtionsorfeelingsaccurately,Theauthorrepresentsemtionsinan3-dimensionalspace,whichisthe3Dvalence-arousal(激励)-dominance(支配)orpleasure-arousal-dominancespace.Theva
p0werHu
·
2020-06-25 21:59
《Dual Attention Networks for
Multimodal
Reasoning and Matching》
DualAttentionNetworksforMultimodalReasoningandMatchingCVPR2017图文匹配终极问题是整个Text与整个Image的匹配问题,但是这个问题比较难以解决,所以一个最基本的想法就是把这个问题拆分开来,Text由不同的单词构成,Image由不同的区域构成,如果能把Text的单词与Image的区域进行一个匹配,那么这个问题就会变得比较简单。一个基本的
黄鑫huangxin
·
2020-06-25 06:55
论文阅读
[ECCV2018] [MUNIT]
Multimodal
Unsupervised Image-to-Image Translation
贡献:为one-to-one的unpairedimagetranslation的生成图像提供多样性提出假设:1、图像可以分解为stylecode与contentcode;2、不同领域的图像,共享一个contentspace,但是属于不同的stylespace;stylecodecapturesdomain-specificproperties,andcontentcodeisdomain-inva
hellopipu
·
2020-06-25 02:47
GAN
论文笔记
计算机视觉
AutoML论文笔记(八)Deep
Multimodal
Neural Architecture Search:多模态神经网络搜索
文章题目:DeepMultimodalNeuralArchitectureSearch链接:linkhttps://arxiv.org/abs/2004.12070会议期刊:ICCV2020论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。论文内容多模态学习包括问答系统、图文匹配和文字描述。传统的技术途径要么是固定网络学习,要么是在不同领域搜
霸王龙Alvin
·
2020-06-24 10:22
AutoML论文笔记
深度学习
算法
机器学习
人工智能
神经网络
音视频多模态研究点
在音视频方面主要有以下几个相关论文,这是我参照github上一位作者公布的论文名单:https://github.com/pliang279/awesome-
multimodal
-ml#audio-and-visual
今天又是充满希望的一天
·
2020-06-24 06:51
paper
多模态融合
Multimodal
Fusion
多模态融合MultimodalFusion多模态融合(MultimodalFusion)负责联合多个模态的信息,进行目标预测(分类或者回归),属于MMML最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-sourceInformationFusion)、多传感器融合(Multi-sensorFusion)。按照融合的层次,可以将多模态融合分为pixe
jwy2014
·
2020-06-23 23:26
深度学习
多模态融合算法——
Multimodal
Compact Bilinear Pooling
Multimodal
华为云
·
2020-06-23 03:18
技术交流
Multimodal
Machine Learning: A Survey and Taxonomy/多模态机器学习综述
目录1.介绍(introduction)2.历史回顾(review)3.表示(representation)4.映射(Translation/Mapping)5.对齐(Alignment)6.融合(Fusion)7.联合学习(Co-learning)8.结论(conclusion)以下是本人每一章节整理的笔记:1.介绍(introduction)论文总体介绍了多模态的五个方向/挑战:表示(repr
dxwell6
·
2020-06-22 10:29
机器学习
Multimodal
Unsupervised Image-to-Image Translation
MultimodalUNsupervisedImage-to-imageTranslation是ECCV2018的一篇工作,是UNIT思路的一个延续。之前的UNIT实现的是两个domain之间的一个转换,MUNIT更进一步可以实现多个domain之间的转换,下面就来展开介绍这篇论文的细节。计算机视觉中的很多问题的目标可以理解成是将一个domain中的图像转换到另一个domain,例如超分辨率(su
Marcovaldo
·
2020-06-22 01:53
图像转换
Multimodal
Deep Learning(多模态深度学习)未完待续
摘要:本文提出一种在深度网络上的新应用,用深度网络学习多模态。特别的是,我们证明了跨模态特征学习——如果在特征学习过程中多模态出现了,对于一个模态而言,更好的特征可以被学习(多模态上学习,单模态上测试)。此外,我们展示了如何在多模态间学习一个共享的特征,并在一个特别的任务上评估它——分类器用只有音频的数据训练但是在只有视频的数据上测试(反之亦然)。我们的模型在CUAVE和AVLetters数据集上
mishidemudong
·
2020-06-21 08:04
机器学习
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他