E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
模态框(Modal)
【论文泛读】Multi
modal
Neural Graph Memory Networks for Visual Question Answering
生成词向量的一种方法理解GloVe模型(Globalvectorsforwordrepresentation)GRU是LSTM的一种变形,LSTM和CRU都是通过各种门函数来将重要特征保留下来,这样就保证了在long-term传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数,因此在参数的数量上也是要少于LSTM的,所以整体上GRU的训练速度要快于LSTM的。两个网络的好坏还是得看具体的
浪里摸鱼
·
2022-12-31 09:56
python
算法
人工智能
深度学习
Multi
modal
Graph-based Transformer Framework for BiomedicalRelation Extraction
Protein-ProteinInteractiontaskintroducedanovelframeworkthatenablesthemodeltolearnmulti-omnicsbiologicalinformationaboutentities(proteins)withthehelpofadditionalmulti-
modal
cueslikemolecula
辉辉小学生
·
2022-12-31 08:52
多模态paper
transformer
深度学习
人工智能
MTGAT:Multi
modal
Temporal Graph Attention;图卷积网络用于多模态情感分析
摘要多模态数据呈现复杂的多关系以及时序交互的特点,从这样的数据中学习具有挑战性本文提出了MTGAT。它是基于图以及具有可解释性的神经网络模型,可以利用这个框架解决多模态序列数据主要包括两个部分:构建以及处理。首先将非对齐的多模态序列转换成具有异构型(heterogeneous)节点以及边的图,这个过程可以随着时间的推移捕获到不同模态之间的交互。其次,使用多模态时序注意力以及动态pruning和re
Bourne___1
·
2022-12-31 08:50
论文阅读
自然语言处理
神经网络
深度学习
pytorch
2019 ICLR | Learning Multi
modal
Graph-to-Graph Translation for Molecular Optimization
arxiv.org/pdf/1812.01070Code:https://github.com/wengong-jin/iclr19-graph2graph2019ICLR|LearningMulti
modal
Graph-to-GraphTranslationforMolecularOptimization
发呆的比目鱼
·
2022-12-31 08:19
DrugAi
深度学习
人工智能
神经网络
MULTI-
MODAL
ROBUSTNESS ANALYSIS AGAINST LANGUAGE AND VISUAL PERTURBATIONS
ABSTRACT最近,与单模态学习相比,基于大规模数据集的联合视觉和语言建模在多模态任务中取得了良好的进展。然而,这些方法对现实世界扰动的鲁棒性尚未研究。在这项工作中,我们对这些模型进行了第一次广泛的鲁棒性研究,研究对象是视频和语言。我们专注于文本到视频检索,并提出了两个大型基准数据集,MSRVTT-P和YouCook2-P,它们利用了90种不同的视觉和35种不同的文本扰动。研究揭示了一些有趣的发
Tsukinousag1
·
2022-12-30 07:35
自然语言处理
人工智能
Autogluon代码
教程来源:Multi
modal
Prediction—AutoGluonDocumentation0.5.2documentation此外还有:图像分类、多语言文本、多模态、CLIP等目录入门:表格预测文本分类文本相似
Blossom Flight
·
2022-12-29 17:01
python
CVPR2021-RSTNet:自适应Attention的“看图说话”模型
0写在前面由于强大的建模能力,Transformer结构被用在一系列CV、NLP、Cross-
modal
的任务中。
我爱计算机视觉
·
2022-12-29 11:43
计算机视觉
机器学习
人工智能
深度学习
编程语言
【文献阅读】XVQA——一篇关于VQA的解释性研究(K. Alipour等人,ArXiv,2020)
一、背景文章题目:《AStudyonMulti
modal
andInteractiveExplanationsforVisualQuestionAnswering》文章下载链接:https://arxiv.org
全部梭哈迟早暴富
·
2022-12-28 16:05
#
视觉问答阅读
科研论文阅读
XVQA
多模态特征融合机制(含代码):TFN(Tensor Fusion Network)和LMF(Low-rank Multi
modal
Fusion)
文章目录写在前面简单的concatTFN融合策略LWF融合策略论文全称:《TensorFusionNetworkforMulti
modal
SentimentAnalysis》《EfficientLow-rankMulti
modal
Fusionwith
Modal
ity-SpecificFactors
我是大黄同学呀
·
2022-12-28 12:30
快乐ML/DL
深度学习
Composing Text and Image for Image Retrieval - An Empirical OdysseyNam
论文杂记上一篇主目录下一篇文章结构1预备知识1.1Cross-
modal
imageretrieval1.2特征融合方法1.2.1LSTM1.2.2AttributeasOperator2本文方法2.1整体框架
ShaneHolmes
·
2022-12-28 12:00
图像检索论文
图像检索
TIRG
【cvpr2020】Referring Image Segmentation via Cross-
Modal
Progressive Comprehension
motivation:之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法,分为两个阶段,第一步,模型根据实体词和属性词来感知表达式中描述的所有实体,第二步,模型进一步推理实体之间的关系,以突出所指对象并抑制其他不匹配的实体。idea:提出了一个跨模态渐进理解(CMPC)模块,该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块,第一步将从
lynn_Dai
·
2022-12-28 09:56
阅读笔记
#
Referring
Image
Segmentation
人工智能
计算机视觉
Referring Image Segmentation 综述
希望对您有用(●'◡'●)参考github顶会合集Cross-
Modal
Self-AttentionNetworkforReferringImageSegmentation用了self-attention
一只想飞的咸鱼君
·
2022-12-28 09:56
弱监督
RES-REC
论文:Linguistic Structure Guided Context Modeling for Referring Image Segmentation
AbstractReferringimagesegmentationaimstopredicttheforegroundmaskoftheobjectreferredbyanaturallanguagesentence.Multi
modal
contextofthesentenceiscrucialtodistinguishthereferentfromthebackground.Existin
小仙女呀灬
·
2022-12-28 09:56
Visual
grounding
python
[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-
Modal
Retrieval
文章地址:http://arxiv.org/pdf/2203.16778个人阅读见解,欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索,而有时图像中出现的场景文本(Scenetext)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用,并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一,跨模
TycoonL
·
2022-12-28 09:54
文献阅读
计算机视觉
深度学习
机器学习
[论文翻译]数据集的domian问题:Intra
modal
ity Domain Adaptation Using Self Ensembling and Adversarial Training
论文pdf下载:链接Intra
modal
ityDomainAdaptationUsingSelfEnsemblingandAdversarialTraining使用自集成和对抗性训练的模式域内适应Abstract.Advancesindeeplearningtechniqueshaveledtocompellingachievementsinmedicalimageanalysis.However
玖零猴
·
2022-12-27 21:28
#
论文翻译与解读
深度学习
深度学习
机器学习
Visually-Rich Document understanding—— 阅读笔记
:1、2021《LayoutLM:Pre-trainingofTextandLayoutforDocumentImageUnderstanding》微软2、2021《LayoutLMv2:Multi-
modal
Pre-trainingforVisually-richDocumentUnderstanding
lynn_Dai
·
2022-12-27 16:57
阅读笔记
python
cv
nlp
【论文笔记】LayoutLMv2: Multi-
modal
Pre-training for Visually-rich Document Understanding(LayoutLMv2)
文章目录LayoutLMv2:Multi-
modal
Pre-trainingforVisually-richDocumentUnderstanding基本信息摘要模型结构TextEmbeddingVisualEmbeddingLayoutEmbeddingSpatial-AwareSelf-AttentionMechanismPre-trainingTasksMaskedvisual-Langua
每天想peach
·
2022-12-27 16:25
文档信息抽取
自然语言处理
深度学习
人工智能
【论文笔记】LayoutXLM: Multi
modal
Pre-training for Multilingual Visually-rich Document Understanding
文章目录LayoutXLM:Multi
modal
Pre-trainingforMultilingualVisually-richDocumentUnderstanding基本信息摘要模型结构ModelArchitecturePre-trainingMultilingualMaskedVisual-LanguageModelingText-ImageAlignmentText-ImageMatchi
每天想peach
·
2022-12-27 16:25
文档信息抽取
自然语言处理
深度学习
人工智能
生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架
本篇推文引自:Amulti
modal
deeplearningframeworkforpredictingdrug–druginteractionevents1.摘要 动机:药物-药物相互作用(DDIs
ShenggengLin
·
2022-12-27 11:47
生物信息学
计算机辅助药物设计
药物相互作用
深度学习
生物信息学
机器学习
2018ECCV:Attention-Aware Deep Adversarial Hashing for Cross-
Modal
Retrieval 论文笔记
0.摘要由于多模态数据的快速增长,跨模态检索的哈希方法受到了广泛的关注。然而,由于存在异质性差异,在不同数据模式之间寻找内容相似性仍然具有挑战性。为了进一步解决这个问题,我们提出了一个带有注意机制的对抗性哈希网络,通过选择性地关注多模态数据的信息部分,来增强内容相似性的测量。提出的新的深层对抗网络包括三个构建模块:(1)特征学习模块获取特征表征;(2)用于生成注意掩码的注意模块,该注意掩码用于将特
彦祖琦
·
2022-12-26 14:48
信息检索
人工智能
深度学习
【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-
modal
Retrieval
文章来源:SIGIR’20摘要文章基于BERT提出了一个跨模态检索模型,该模型并不是一个通用的检索模型,主要用于电商领域时尚用品(Fashon)检索,作者是阿里巴巴。框架图文章框架和之前基于transformer的文章网络架构大致相同,输入输入文本和图片,对文本取token对图片取patch输出[CLS]用来判断文本和图片是否对齐训练任务遮挡图片(文本)预测图片(文本),预测文本和图片是否匹配Wh
hatake.18
·
2022-12-26 14:48
看的文章
(跨模态检索综述)A Comprehensive Survey on Cross-
modal
Retrieval
AComprehensiveSurveyonCross-
modal
RetrievalKaiyeWangy,QiyueYiny,WeiWang,ShuWu,LiangWang∗,SeniorMember,
HYY233
·
2022-12-26 14:47
文献阅读
跨模态/多模态 cross-
modal
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的常见的多模态问题有视觉问答:针对图片提问题让计算机回答多模态建索,用自然语言问句来搜图多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测
hxxjxw
·
2022-12-26 14:47
跨模态
多模态
多模态小样本
Large-ScaleFew-ShotLearningviaMulti-
Modal
KnowledgeDiscovery(解决大类别下的小样本学习)关键点:视觉特征分块;语义弱监督的引入在视觉空间中,将图片分为三种
DeepWWJ
·
2022-12-26 00:45
few
shot
learning
多模态
LXMERT:Learning Cross-
Modal
ity Encoder Representations from Transformers
LXMERT:LearningCross-
Modal
ityEncoderRepresentationsfromTransformers视觉-语言推理需要理解视觉概念、语言语义,最重要的是,理解两种模态之间的一致性和关系
但愿此生,从未邂逅
·
2022-12-25 22:16
人工智能
深度学习
计算机视觉
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervisionTags:Transformer,VLP,multi
modal
BL.S.
·
2022-12-25 22:14
transformer
深度学习
人工智能
【论文笔记】ASNet:基于生成对抗网络(GAN)的无监督单模和多模配准网络(范敬凡老师)
本文是论文《Adversariallearningformono-ormulti-
modal
registration》的阅读笔记,是范敬凡老师的工作,是文章《AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration
棉花糖灬
·
2022-12-25 19:11
医学图像处理
ASNet
医学图像配准
GAN
生成对抗网络
范敬凡
基于GAN的图像配准汇总
AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration1.1、简介1.2、、记号1.3、网络结构2、Adversariallearningformono-ormulti-
modal
registration2.1
落花逐流水
·
2022-12-25 19:38
医学图像
GAN
GAN
计算机视觉与图形学-神经渲染专题-NeRF汇总大礼包-I
001NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesisNeRF综述类002NEURALVOLUMERENDERINGNERFANDBEYOND025Multi
modal
ImageSynthesisandE
元宇宙MetaAI
·
2022-12-25 14:06
图文结合-LXMERT
本文介绍一篇图文结合的经典论文,论文发布于2019年,算是最早出来的一批模型论文信息论文题目:LXMERT:LearningCross-
Modal
ityEncoderRepresentationsfromTransformers
poorlytechnology
·
2022-12-25 00:49
图文结合
自然语言处理
图像处理
TomBert:一种基于Bert改进的多模态的情感识别方法
TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为AdaptingBERTforTarget-OrientedMulti
modal
SentimentClassification基于目标的情感分类是细粒度情感分类的重要任务
Neways谭
·
2022-12-24 16:47
多模态
NLP
深度学习
自然语言处理
情感分析
小红书都在研究的多模态学习 , 到底有多强?
多模态机器学习,英文全称Multi
Modal
MachineLearning(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。
我爱计算机视觉
·
2022-12-23 12:22
神经网络
人工智能
大数据
机器学习
编程语言
<<视觉问答>>2022:Dual-Key Multi
modal
Backdoors for Visual Question Answering
工作难度不大,但工作量极大,工程价值极高。目录后门攻击摘要一、Introduction二:RelatedWork三、Methods3.1、ThreatModel3.2、BackdoorDesign3.3、OptimizedPatches3.4、DetectorsandModels3.5、BackdoorTraining3.6、Metrics四、DesignExperiments4.1、Visual
金克丝、
·
2022-12-22 16:59
Visual
Question
Answering
计算机视觉
深度学习
人工智能
神经网络
<<视觉问答>>2022:MuKEA: Multi
modal
Knowledge Extraction and Accumulation for Knowledge-based VQA
`目录摘要一、介绍二、RelatedWork三、Methodology3.1、Multi
modal
KnowledgeTripletExtraction3.2、KnowledgeTripletRepresentationLearning3.3
金克丝、
·
2022-12-22 16:59
Visual
Question
Answering
深度学习
人工智能
计算机视觉
神经网络
文献阅读3
05Date:2022.12.17--05Title:Multi‑
Modal
FeatureFusion‑BasedMulti‑BranchClassificationNetworkforPulmonaryNoduleMalignancySuspiciousnessDiagnosisLink
Erwachen
·
2022-12-22 13:39
文献整理(个人使用)
人工智能
深度学习
Towards Cross-
Modal
ity Medical Image Segmentation with Online Mutual Knowledge Distillation论文的研读
TowardsCross-
Modal
ityMedicalImageSegmentationwithOnlineMutualKnowledgeDistillation论文的研读原文出处:英文原文本文主要翻译了摘要引言以及结论部分
我就是我2333
·
2022-12-22 10:16
神经网络
论文研读
神经网络
深度学习
2020-TMI-Unsupervised Bidirectional Cross-
Modal
ity Adaptation via Deeply Synergistic
作者在论文中提到在生成图像空间的特征对齐。这块理解有点不清楚?对于目标域到源域生成器(由E&U组成)生成的类源图像,作者添加一个附加任务至源判别器来区分所生成的图像/输入图像是从重建得到,还是从真实目标图像变化而来。如果判别器能成功地区分出生成图像的域,意味着所提取到的特征仍然包含域特征。为了确保特征域不变性,以下对抗损失被运用来监督特征提取的过程。值得注意的是编码器E被鼓励提取域不变特征,通过从
开心就哈哈
·
2022-12-22 09:43
域适应
医学图像多模分割论文列表2
TMI2021AdaptEverywhere:UnsupervisedAdaptationofPoint-CloudsandEntropyMinimizationforMulti-
Modal
CardiacImageSegmentation
胖头猫
·
2022-12-22 09:10
多模分割
深度学习
图像处理
CVPR2022:Generalizable Cross-
modal
ity Medical Image Segmentation via StyleAugmentation and Dual Norm
CVPR2022:GeneralizableCross-
modal
ityMedicalImageSegmentationviaStyleAugmentationandDualNormalization基于样式增强和双重归一化的通用跨模态医学图像分割
HheeFish
·
2022-12-22 09:37
遥感
计算机视觉
深度学习
人工智能
图像处理
Hierarchical Fusion Model (2019 ACL)三种模态的层次融合
论文题目(Title):Multi-
Modal
SarcasmDetectioninTwitterwithHierarchicalFusionModel研究问题(Question):主要研究了推特中由文本和图像组成的推文的多模态讽刺检测研究动机
肉嘟嘟的zhu
·
2022-12-22 06:32
多模态
多模态
SWRM(2022)
论文题目(Title):SentimentWordAwareMulti
modal
RefinementforMulti
modal
SentimentAnalysiswithASRErrors研究问题(Question
肉嘟嘟的zhu
·
2022-12-22 06:32
多模态
多模态
情感分析
方面级
AutoGluon处理多模态数据方法及案例——Multi
modal
Data Tables: Tabular, Text, and Image
多模式数据表:表格、文本和图像注意:本教程需要GPU才能训练图像和文本模型。此外,具有适当CUDA版本的MXNet和Torch需要安装GPU。PetFinder数据集我们将使用PetFinder数据集。PetFinder数据集提供有关收容所动物的信息,这些信息出现在其收养档案中,目的是预测动物的收养率。最终目标是让救援避难所使用预测的收养率来识别可以改善其档案的动物,以便他们找到一个家。每只动物的
余余余2020
·
2022-12-21 09:18
pytorch
深度学习
计算机视觉
集成学习
人工智能
mscoco数据集_多模态情感分析数据集整理
《Multi-
Modal
SarcasmDetectioninTwitterwithHierarchicalFusionModel》--【多模
weixin_39635084
·
2022-12-21 09:45
mscoco数据集
MAF-YOLO: Multi-
modal
attention fusion based YOLO forpedestrian detection
MAF-YOLO:基于多模态注意力融合的行人检测YOLOABSTRACT实现自然环境中行人的快速准确检测是人工智能系统的重要应用。然而,由于红外图像的低光密度和低分辨率,夜间行人的准确检测具有一定的挑战性,且对检测速度要求较高。提出一种基于多模态注意力融合YOLO(mafo-YOLO)的实时行人检测方法。首先,基于压缩的Darknet53框架构建多模态特征提取模块,以适应夜间行人检测,保证检测效率
yBooooo
·
2022-12-20 21:19
深度学习
计算机视觉
聚类
浅读LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
这篇文章提出的模型在视觉问答(VQA,GQA)上得到了最好的结果,甚至今年后续以此为基础或对照的的文章都没有超越这个结果。论文中很多地方提到这一方法是用到了BERT模型的方法(BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding)参考博客:博客整个模型,作者意图是将其称为预训练,输出的视觉,语言和跨模态结果
是尘埃呀!
·
2022-12-20 18:32
论文阅读笔记
python
深度学习
2019LXMERT:Learning Cross-
Modal
ity Encoder Representations from Transformers
摘要视觉-语言推理不仅需要视觉概念、语言语义的理解,更需要这两个模态的对齐和关系。因此,我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中,我们构建了一个大规模的Transformer模型包含三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来,为了赋予我们模型连接视觉和语言语义的能力,我们通过五种不同的预训练任
weixin_42653320
·
2022-12-20 18:02
视觉问答
深度学习
计算机视觉
LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
目录ModelArchitecturePre-TrainingStrategiesExperimentalSetupandResultsReferencesLXMERT:LearningCross-
Modal
ityEncoderRepresen-tationsfromTransformersModelArchitectureInputEmbeddings
连理o
·
2022-12-20 18:01
#
多模态
多模态
LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers 论文笔记
文章目录1.文章概要2.模型体系结构2.1InputEmbeddings2.2编码器2.3输出表示3.预训练任务3.1LanguageTask:MaskedCross-
Modal
ityLM3.2VisionTask
小有名气的可爱鬼
·
2022-12-20 17:31
VQA
深度学习
python
EMNLP 2019 LXMERT: Learning Cross-
Modal
ity Encoder Representations from Transformers
动机视觉语言推理要求对视觉内容、语言语义以及跨模态的对齐和关系进行理解。过去已有大量的工作,分别开发具有更好的表示方法的骨干模型,用于语言和语音的单一模态。对于现有的视觉内容,人们已经开发了几个骨干模型,并在大型视觉数据集上显示了它们的有效性。开拓性工作还通过在不同任务上微调这些预训练的(特别是在ImageNet上)骨干模型来显示它们的泛化性。在语言理解方面,去年,本论文在构建具有大规模语境化语言
smile909
·
2022-12-20 17:00
EMNLP
2019
lxmert:learning cross-
modal
ity encoder representations from transformers
LXMERT:LearningCross-
Modal
ityEncoderRepresentationsfromTransformers论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉-语言推理需要对视觉概念
Kun Li
·
2022-12-20 17:00
多模态和自然语言处理
计算机视觉
深度学习
人工智能
上一页
31
32
33
34
35
36
37
38
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他