E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
modal
CVPR2021-RSTNet:自适应Attention的“看图说话”模型
0写在前面由于强大的建模能力,Transformer结构被用在一系列CV、NLP、Cross-
modal
的任务中。
我爱计算机视觉
·
2022-12-29 11:43
计算机视觉
机器学习
人工智能
深度学习
编程语言
【文献阅读】XVQA——一篇关于VQA的解释性研究(K. Alipour等人,ArXiv,2020)
一、背景文章题目:《AStudyonMulti
modal
andInteractiveExplanationsforVisualQuestionAnswering》文章下载链接:https://arxiv.org
全部梭哈迟早暴富
·
2022-12-28 16:05
#
视觉问答阅读
科研论文阅读
XVQA
多模态特征融合机制(含代码):TFN(Tensor Fusion Network)和LMF(Low-rank Multi
modal
Fusion)
文章目录写在前面简单的concatTFN融合策略LWF融合策略论文全称:《TensorFusionNetworkforMulti
modal
SentimentAnalysis》《EfficientLow-rankMulti
modal
Fusionwith
Modal
ity-SpecificFactors
我是大黄同学呀
·
2022-12-28 12:30
快乐ML/DL
深度学习
Composing Text and Image for Image Retrieval - An Empirical OdysseyNam
论文杂记上一篇主目录下一篇文章结构1预备知识1.1Cross-
modal
imageretrieval1.2特征融合方法1.2.1LSTM1.2.2AttributeasOperator2本文方法2.1整体框架
ShaneHolmes
·
2022-12-28 12:00
图像检索论文
图像检索
TIRG
【cvpr2020】Referring Image Segmentation via Cross-
Modal
Progressive Comprehension
motivation:之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法,分为两个阶段,第一步,模型根据实体词和属性词来感知表达式中描述的所有实体,第二步,模型进一步推理实体之间的关系,以突出所指对象并抑制其他不匹配的实体。idea:提出了一个跨模态渐进理解(CMPC)模块,该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块,第一步将从
lynn_Dai
·
2022-12-28 09:56
阅读笔记
#
Referring
Image
Segmentation
人工智能
计算机视觉
Referring Image Segmentation 综述
希望对您有用(●'◡'●)参考github顶会合集Cross-
Modal
Self-AttentionNetworkforReferringImageSegmentation用了self-attention
一只想飞的咸鱼君
·
2022-12-28 09:56
弱监督
RES-REC
论文:Linguistic Structure Guided Context Modeling for Referring Image Segmentation
AbstractReferringimagesegmentationaimstopredicttheforegroundmaskoftheobjectreferredbyanaturallanguagesentence.Multi
modal
contextofthesentenceiscrucialtodistinguishthereferentfromthebackground.Existin
小仙女呀灬
·
2022-12-28 09:56
Visual
grounding
python
[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-
Modal
Retrieval
文章地址:http://arxiv.org/pdf/2203.16778个人阅读见解,欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索,而有时图像中出现的场景文本(Scenetext)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用,并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一,跨模
TycoonL
·
2022-12-28 09:54
文献阅读
计算机视觉
深度学习
机器学习
[论文翻译]数据集的domian问题:Intra
modal
ity Domain Adaptation Using Self Ensembling and Adversarial Training
论文pdf下载:链接Intra
modal
ityDomainAdaptationUsingSelfEnsemblingandAdversarialTraining使用自集成和对抗性训练的模式域内适应Abstract.Advancesindeeplearningtechniqueshaveledtocompellingachievementsinmedicalimageanalysis.However
玖零猴
·
2022-12-27 21:28
#
论文翻译与解读
深度学习
深度学习
机器学习
Visually-Rich Document understanding—— 阅读笔记
:1、2021《LayoutLM:Pre-trainingofTextandLayoutforDocumentImageUnderstanding》微软2、2021《LayoutLMv2:Multi-
modal
Pre-trainingforVisually-richDocumentUnderstanding
lynn_Dai
·
2022-12-27 16:57
阅读笔记
python
cv
nlp
【论文笔记】LayoutLMv2: Multi-
modal
Pre-training for Visually-rich Document Understanding(LayoutLMv2)
文章目录LayoutLMv2:Multi-
modal
Pre-trainingforVisually-richDocumentUnderstanding基本信息摘要模型结构TextEmbeddingVisualEmbeddingLayoutEmbeddingSpatial-AwareSelf-AttentionMechanismPre-trainingTasksMaskedvisual-Langua
每天想peach
·
2022-12-27 16:25
文档信息抽取
自然语言处理
深度学习
人工智能
【论文笔记】LayoutXLM: Multi
modal
Pre-training for Multilingual Visually-rich Document Understanding
文章目录LayoutXLM:Multi
modal
Pre-trainingforMultilingualVisually-richDocumentUnderstanding基本信息摘要模型结构ModelArchitecturePre-trainingMultilingualMaskedVisual-LanguageModelingText-ImageAlignmentText-ImageMatchi
每天想peach
·
2022-12-27 16:25
文档信息抽取
自然语言处理
深度学习
人工智能
生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架
本篇推文引自:Amulti
modal
deeplearningframeworkforpredictingdrug–druginteractionevents1.摘要 动机:药物-药物相互作用(DDIs
ShenggengLin
·
2022-12-27 11:47
生物信息学
计算机辅助药物设计
药物相互作用
深度学习
生物信息学
机器学习
2018ECCV:Attention-Aware Deep Adversarial Hashing for Cross-
Modal
Retrieval 论文笔记
0.摘要由于多模态数据的快速增长,跨模态检索的哈希方法受到了广泛的关注。然而,由于存在异质性差异,在不同数据模式之间寻找内容相似性仍然具有挑战性。为了进一步解决这个问题,我们提出了一个带有注意机制的对抗性哈希网络,通过选择性地关注多模态数据的信息部分,来增强内容相似性的测量。提出的新的深层对抗网络包括三个构建模块:(1)特征学习模块获取特征表征;(2)用于生成注意掩码的注意模块,该注意掩码用于将特
彦祖琦
·
2022-12-26 14:48
信息检索
人工智能
深度学习
【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-
modal
Retrieval
文章来源:SIGIR’20摘要文章基于BERT提出了一个跨模态检索模型,该模型并不是一个通用的检索模型,主要用于电商领域时尚用品(Fashon)检索,作者是阿里巴巴。框架图文章框架和之前基于transformer的文章网络架构大致相同,输入输入文本和图片,对文本取token对图片取patch输出[CLS]用来判断文本和图片是否对齐训练任务遮挡图片(文本)预测图片(文本),预测文本和图片是否匹配Wh
hatake.18
·
2022-12-26 14:48
看的文章
(跨模态检索综述)A Comprehensive Survey on Cross-
modal
Retrieval
AComprehensiveSurveyonCross-
modal
RetrievalKaiyeWangy,QiyueYiny,WeiWang,ShuWu,LiangWang∗,SeniorMember,
HYY233
·
2022-12-26 14:47
文献阅读
跨模态/多模态 cross-
modal
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的常见的多模态问题有视觉问答:针对图片提问题让计算机回答多模态建索,用自然语言问句来搜图多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测
hxxjxw
·
2022-12-26 14:47
跨模态
多模态
多模态小样本
Large-ScaleFew-ShotLearningviaMulti-
Modal
KnowledgeDiscovery(解决大类别下的小样本学习)关键点:视觉特征分块;语义弱监督的引入在视觉空间中,将图片分为三种
DeepWWJ
·
2022-12-26 00:45
few
shot
learning
多模态
LXMERT:Learning Cross-
Modal
ity Encoder Representations from Transformers
LXMERT:LearningCross-
Modal
ityEncoderRepresentationsfromTransformers视觉-语言推理需要理解视觉概念、语言语义,最重要的是,理解两种模态之间的一致性和关系
但愿此生,从未邂逅
·
2022-12-25 22:16
人工智能
深度学习
计算机视觉
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervisionTags:Transformer,VLP,multi
modal
BL.S.
·
2022-12-25 22:14
transformer
深度学习
人工智能
【论文笔记】ASNet:基于生成对抗网络(GAN)的无监督单模和多模配准网络(范敬凡老师)
本文是论文《Adversariallearningformono-ormulti-
modal
registration》的阅读笔记,是范敬凡老师的工作,是文章《AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration
棉花糖灬
·
2022-12-25 19:11
医学图像处理
ASNet
医学图像配准
GAN
生成对抗网络
范敬凡
基于GAN的图像配准汇总
AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration1.1、简介1.2、、记号1.3、网络结构2、Adversariallearningformono-ormulti-
modal
registration2.1
落花逐流水
·
2022-12-25 19:38
医学图像
GAN
GAN
计算机视觉与图形学-神经渲染专题-NeRF汇总大礼包-I
001NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesisNeRF综述类002NEURALVOLUMERENDERINGNERFANDBEYOND025Multi
modal
ImageSynthesisandE
元宇宙MetaAI
·
2022-12-25 14:06
图文结合-LXMERT
本文介绍一篇图文结合的经典论文,论文发布于2019年,算是最早出来的一批模型论文信息论文题目:LXMERT:LearningCross-
Modal
ityEncoderRepresentationsfromTransformers
poorlytechnology
·
2022-12-25 00:49
图文结合
自然语言处理
图像处理
TomBert:一种基于Bert改进的多模态的情感识别方法
TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为AdaptingBERTforTarget-OrientedMulti
modal
SentimentClassification基于目标的情感分类是细粒度情感分类的重要任务
Neways谭
·
2022-12-24 16:47
多模态
NLP
深度学习
自然语言处理
情感分析
小红书都在研究的多模态学习 , 到底有多强?
多模态机器学习,英文全称Multi
Modal
MachineLearning(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。
我爱计算机视觉
·
2022-12-23 12:22
神经网络
人工智能
大数据
机器学习
编程语言
<<视觉问答>>2022:Dual-Key Multi
modal
Backdoors for Visual Question Answering
工作难度不大,但工作量极大,工程价值极高。目录后门攻击摘要一、Introduction二:RelatedWork三、Methods3.1、ThreatModel3.2、BackdoorDesign3.3、OptimizedPatches3.4、DetectorsandModels3.5、BackdoorTraining3.6、Metrics四、DesignExperiments4.1、Visual
金克丝、
·
2022-12-22 16:59
Visual
Question
Answering
计算机视觉
深度学习
人工智能
神经网络
<<视觉问答>>2022:MuKEA: Multi
modal
Knowledge Extraction and Accumulation for Knowledge-based VQA
`目录摘要一、介绍二、RelatedWork三、Methodology3.1、Multi
modal
KnowledgeTripletExtraction3.2、KnowledgeTripletRepresentationLearning3.3
金克丝、
·
2022-12-22 16:59
Visual
Question
Answering
深度学习
人工智能
计算机视觉
神经网络
文献阅读3
05Date:2022.12.17--05Title:Multi‑
Modal
FeatureFusion‑BasedMulti‑BranchClassificationNetworkforPulmonaryNoduleMalignancySuspiciousnessDiagnosisLink
Erwachen
·
2022-12-22 13:39
文献整理(个人使用)
人工智能
深度学习
Towards Cross-
Modal
ity Medical Image Segmentation with Online Mutual Knowledge Distillation论文的研读
TowardsCross-
Modal
ityMedicalImageSegmentationwithOnlineMutualKnowledgeDistillation论文的研读原文出处:英文原文本文主要翻译了摘要引言以及结论部分
我就是我2333
·
2022-12-22 10:16
神经网络
论文研读
神经网络
深度学习
2020-TMI-Unsupervised Bidirectional Cross-
Modal
ity Adaptation via Deeply Synergistic
作者在论文中提到在生成图像空间的特征对齐。这块理解有点不清楚?对于目标域到源域生成器(由E&U组成)生成的类源图像,作者添加一个附加任务至源判别器来区分所生成的图像/输入图像是从重建得到,还是从真实目标图像变化而来。如果判别器能成功地区分出生成图像的域,意味着所提取到的特征仍然包含域特征。为了确保特征域不变性,以下对抗损失被运用来监督特征提取的过程。值得注意的是编码器E被鼓励提取域不变特征,通过从
开心就哈哈
·
2022-12-22 09:43
域适应
医学图像多模分割论文列表2
TMI2021AdaptEverywhere:UnsupervisedAdaptationofPoint-CloudsandEntropyMinimizationforMulti-
Modal
CardiacImageSegmentation
胖头猫
·
2022-12-22 09:10
多模分割
深度学习
图像处理
CVPR2022:Generalizable Cross-
modal
ity Medical Image Segmentation via StyleAugmentation and Dual Norm
CVPR2022:GeneralizableCross-
modal
ityMedicalImageSegmentationviaStyleAugmentationandDualNormalization基于样式增强和双重归一化的通用跨模态医学图像分割
HheeFish
·
2022-12-22 09:37
遥感
计算机视觉
深度学习
人工智能
图像处理
Hierarchical Fusion Model (2019 ACL)三种模态的层次融合
论文题目(Title):Multi-
Modal
SarcasmDetectioninTwitterwithHierarchicalFusionModel研究问题(Question):主要研究了推特中由文本和图像组成的推文的多模态讽刺检测研究动机
肉嘟嘟的zhu
·
2022-12-22 06:32
多模态
多模态
SWRM(2022)
论文题目(Title):SentimentWordAwareMulti
modal
RefinementforMulti
modal
SentimentAnalysiswithASRErrors研究问题(Question
肉嘟嘟的zhu
·
2022-12-22 06:32
多模态
多模态
情感分析
方面级
AutoGluon处理多模态数据方法及案例——Multi
modal
Data Tables: Tabular, Text, and Image
多模式数据表:表格、文本和图像注意:本教程需要GPU才能训练图像和文本模型。此外,具有适当CUDA版本的MXNet和Torch需要安装GPU。PetFinder数据集我们将使用PetFinder数据集。PetFinder数据集提供有关收容所动物的信息,这些信息出现在其收养档案中,目的是预测动物的收养率。最终目标是让救援避难所使用预测的收养率来识别可以改善其档案的动物,以便他们找到一个家。每只动物的
余余余2020
·
2022-12-21 09:18
pytorch
深度学习
计算机视觉
集成学习
人工智能
mscoco数据集_多模态情感分析数据集整理
《Multi-
Modal
SarcasmDetectioninTwitterwithHierarchicalFusionModel》--【多模
weixin_39635084
·
2022-12-21 09:45
mscoco数据集
MAF-YOLO: Multi-
modal
attention fusion based YOLO forpedestrian detection
MAF-YOLO:基于多模态注意力融合的行人检测YOLOABSTRACT实现自然环境中行人的快速准确检测是人工智能系统的重要应用。然而,由于红外图像的低光密度和低分辨率,夜间行人的准确检测具有一定的挑战性,且对检测速度要求较高。提出一种基于多模态注意力融合YOLO(mafo-YOLO)的实时行人检测方法。首先,基于压缩的Darknet53框架构建多模态特征提取模块,以适应夜间行人检测,保证检测效率
yBooooo
·
2022-12-20 21:19
深度学习
计算机视觉
聚类
浅读LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
这篇文章提出的模型在视觉问答(VQA,GQA)上得到了最好的结果,甚至今年后续以此为基础或对照的的文章都没有超越这个结果。论文中很多地方提到这一方法是用到了BERT模型的方法(BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding)参考博客:博客整个模型,作者意图是将其称为预训练,输出的视觉,语言和跨模态结果
是尘埃呀!
·
2022-12-20 18:32
论文阅读笔记
python
深度学习
2019LXMERT:Learning Cross-
Modal
ity Encoder Representations from Transformers
摘要视觉-语言推理不仅需要视觉概念、语言语义的理解,更需要这两个模态的对齐和关系。因此,我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中,我们构建了一个大规模的Transformer模型包含三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来,为了赋予我们模型连接视觉和语言语义的能力,我们通过五种不同的预训练任
weixin_42653320
·
2022-12-20 18:02
视觉问答
深度学习
计算机视觉
LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
目录ModelArchitecturePre-TrainingStrategiesExperimentalSetupandResultsReferencesLXMERT:LearningCross-
Modal
ityEncoderRepresen-tationsfromTransformersModelArchitectureInputEmbeddings
连理o
·
2022-12-20 18:01
#
多模态
多模态
LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers 论文笔记
文章目录1.文章概要2.模型体系结构2.1InputEmbeddings2.2编码器2.3输出表示3.预训练任务3.1LanguageTask:MaskedCross-
Modal
ityLM3.2VisionTask
小有名气的可爱鬼
·
2022-12-20 17:31
VQA
深度学习
python
EMNLP 2019 LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
动机视觉语言推理要求对视觉内容、语言语义以及跨模态的对齐和关系进行理解。过去已有大量的工作,分别开发具有更好的表示方法的骨干模型,用于语言和语音的单一模态。对于现有的视觉内容,人们已经开发了几个骨干模型,并在大型视觉数据集上显示了它们的有效性。开拓性工作还通过在不同任务上微调这些预训练的(特别是在ImageNet上)骨干模型来显示它们的泛化性。在语言理解方面,去年,本论文在构建具有大规模语境化语言
smile909
·
2022-12-20 17:00
EMNLP
2019
lxmert:learning cross-
modal
ity encoder representations from transformers
LXMERT:LearningCross-
Modal
ityEncoderRepresentationsfromTransformers论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉-语言推理需要对视觉概念
Kun Li
·
2022-12-20 17:00
多模态和自然语言处理
计算机视觉
深度学习
人工智能
<<多模态预训练and视觉问答>>2019:LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
2.1InputEmbeddings2.2Encoders2.3OutputRepresentations三、预训练策略3.1Pre-TrainingTasks3.1.1LanguageTask:MaskedCross-
Modal
ityLM3.1.2VisionTask
金克丝、
·
2022-12-20 17:28
Multi-Modal
Pretraing
Visual
Question
Answering
计算机视觉
深度学习
人工智能
【论文笔记】LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
Vision-and-languagereasoningrequiresanunderstandingofvisualconcepts,languagesemantics,and,mostimportantly,thealignmentandrelationshipsbetweenthesetwo
modal
ities
烫烫烫烫的若愚
·
2022-12-20 17:56
深度学习
计算机视觉
人工智能
LXMERT: Learning Cross-
Modal
ity Encoder Representationsfrom Transformers
Transformer模型,该模型由3个编码器组成:(1)对象关系编码器(objectrelationshipencoder)(2)语言编码器(languageencoder)(3)跨模态编码器(cross-
modal
ityencoder
pinkshell_1314
·
2022-12-20 17:23
人工智能
计算机视觉
微信小程序弹窗提示:wx.showToast、wx.show
Modal
、wx.showLoading的使用场景与实现
1、wx.showToast使用场景:常规的提示,没有确定和取消按钮。例:属性:title:提示的内容icon:显示的图标,合法值有success、error、loading、noneimage:自定义图标的本地路径,优先级高于iconduration:提示的延迟时间mask:是否显示透明蒙层,防止触摸穿透success:API调用成功后的回调函数fail:API调用失败后的回调函数complet
Shewyoo
·
2022-12-18 15:34
微信小程序
微信小程序
21年 46篇神经架构搜索(NAS) ICCV CVPR Survey 笔记 (21-46持续更新)
目录21.AutoSpace:NeuralArchitectureSearchwithLessHumanInterference(ICCV)22.CM-NAS:Cross-
Modal
ityNeuralArchitectureSearchforVisible-InfraredPersonRe-Identifification23
miss_the_boat
·
2022-12-18 08:19
机器学习
深度学习
深度学习
机器学习
人工智能
MICCAI 2022 | mmFormer:Multi
modal
Medical Transformer for Incomplete Multi
modal
Learning of BTS
Multi
modal
MedicalTransformerforIncompleteMulti
modal
LearningofBrainTumorSegmentation摘要从磁共振成像(MRI)中准确地分割脑肿瘤是多模态图像的联合学习所需要的
Jorko的浪漫宇宙
·
2022-12-18 07:45
数字图像处理
医学图像
transformer
深度学习
人工智能
上一页
28
29
30
31
32
33
34
35
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他