E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
VQA
胶囊网络之 Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules论文笔记
Weakly-supervisedGroundedVisualQuestionAnsweringusingCapsules论文笔记一、Abstract二、引言三、相关工作3.1
VQA
和视觉定位3.2
VQA
乄洛尘
·
2023-04-19 07:40
多模态研究
深度学习
计算机视觉
视觉定位
WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
WeaQA:WeakSupervisionviaCaptionsforVisualQuestionAnswering论文笔记一、Abstract二、引言三、相关工作3.1
VQA
中的鲁棒性3.2无监督的QA3.3
乄洛尘
·
2023-04-19 07:10
多模态研究
计算机视觉
深度学习
人工智能
多模态视觉问答
VQA
2021年之后的方向启蒙:Human-Adversarial Visual Question Answering 论文笔记
VQA
2021年之后的方向启蒙:Human-AdversarialVisualQuestionAnswering论文笔记一、Abstract二、引言三、相关工作3.1
VQA
模型加压测试3.2之前达到饱和的模型
乄洛尘
·
2023-04-19 07:10
多模态研究
计算机视觉
深度学习
人工智能
多模态视觉问答
视觉问答
Biases and Reasoning Patterns in
VQA
笔记
BiasesandReasoningPatternsinVQA笔记摘要一、Evaluatingthebiasdependency二、Insearchofreasoningpatterns总结写在前面这是
VQA
2021workshop
乄洛尘
·
2023-04-19 07:39
多模态研究
vqa
人工智能
自然语言处理
计算机视觉
深度学习
Video Question Answering: Datasets, Algorithms and Challenges 论文阅读
论文地址:2203.01225v1.pdf(arxiv.org)一篇
VQA
的综述摘要视频问题回答(VideoQA)旨在根据给定的视频回答自然语言问题。
魔法少女玛格姬
·
2023-04-17 22:28
视觉问答阶段性总结
另外,能力有限就不研究数据集了,目前复现的代码的代码大多基于
VQA
2.0。每一小节中尽量重点讲目前使用最好的情况。
是尘埃呀!
·
2023-04-12 01:38
计算机视觉
pytorch
深度学习
CVPR 2023|淘宝视频质量评价算法被顶会收录
近日,阿里巴巴大淘宝技术题为《MD-
VQA
:Multi-DimensionalQualityAssessmentforUGCLiveVideos》——适用于无参考视频质量评价的最新研究成果被计算机视觉领域顶级会议
阿里巴巴淘系技术团队官网博客
·
2023-04-03 17:56
音视频
算法
人工智能
计算机视觉
2021:多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical
VQA
摘要由于缺乏标签的数据,现有的医学视觉问答往往依赖于转移学习获取图像特征表示,使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行,没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式,迫使它考虑到特定图像理解任务中特征的适用性。此外,我们引入了一种跨模态自注意力模块(CMSA)有选择的捕捉长期的上下文相关性,以更有效的融合视觉和
weixin_42653320
·
2023-03-29 02:01
视觉问答
深度学习
计算机视觉
YUV视频播放器
YUV视频播放器我在研究全景视频的时候,下载了全景视频的VR-
VQA
48数据集,参考视频为YUV格式,我想看一下是什么样的,但是无法观看。
qq_43306047
·
2023-03-28 23:06
全景视频质量评估
视频
视觉问答
VQA
之通过提问题获取知识
论文通过迭代的查询(问问题query)来获取额外知识和信息,从而更好的解决
VQA
问题(关于
VQA
的纵览可以看我的另一篇文章——一文带你了解视觉问答
VQA
)。
萧风萧雨
·
2023-03-28 02:42
Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
1.AbstractVisualQuestionAnswering(
VQA
)任务,忽略一个重要的模态—图像中的文本,它承载着场景理解和推理的基本信息。
Tsukinousag
·
2023-03-20 10:49
论文阅读 [TPAMI-2022] MRA-Net: Improving
VQA
Via Multi-Modal Relation Attention Network
论文阅读[TPAMI-2022]MRA-Net:ImprovingVQAViaMulti-ModalRelationAttentionNetwork论文搜索(studyai.com)搜索论文:MRA-Net:ImprovingVQAViaMulti-ModalRelationAttentionNetwork搜索论文:http://www.studyai.com/search/whole-site/
北岭狼人
·
2023-03-19 07:11
人工智能
计算机视觉
机器学习
深度学习
CVPR
Visual chatgpt多模态大模型的前菜
表面看起来这是一个用chatgpt做意图理解、对话管理,然后用各种多模态视觉模型做任务(
VQA
、图生文)简单的系统。
远洋之帆
·
2023-03-14 07:03
AIGC
自然语言综合项目
笔记
chatgpt
人工智能
python
AIGC
BLIP2-图像文本预训练论文解读
图像编码器学习视觉语言表征图像文本对比学习(ITC)基于图像文本生成(ITG)图文匹配(ITM)从大规模语言模型学习视觉到语言生成模型预训练预训练数据预训练图像编码器与LLM预训练设置实验引导零样本图像到文本生成零样本
VQA
‘Atlas’
·
2023-03-10 07:58
论文详解
跨模态
深度学习
BLIP-2
跨模态
人工智能
计算机视觉
2019: Unified Vision-Language Pre-training for Image Captioning and
VQA
摘要本文提出一个统一的视觉-语言预训练模型,(1)可以用于视觉-语言生成或理解任务的微调;(2)使用一个共享的多层transformer网络编码和解码,与许多编码器和解码器使用单独的模型不同。统一的VLP模型在大量的图像-文本对上进行预训练,使用两个任务进行无监督学习:双向和序列到序列(seq2seq)掩码视觉-语言预测,这两个任务的不同之处仅仅在于预测条件的背景。这是利用共享transforme
weixin_42653320
·
2023-01-31 23:42
视觉语言融合
transformer
深度学习
人工智能
对话系统中的自然语言生成(NLG)
zhuanlan.zhihu.com/p/49197552(此处只是为了我本人方便查看,我只关注深度学习的方法,想全面了解的建议看原文)自然语言生成(NLG)在很多NLP领域或任务都有涉及,比如摘要生成、
VQA
你好世界_zhy
·
2023-01-28 04:04
论文解读:Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering
今天,先进的
VQA
方法通过设计共同注意机制
幽灵深度学习
·
2023-01-25 22:33
研究生文献阅读
KnowIT
VQA
:Answering Knowledge-Based Questions about Videos心得体会
前段时间看了movieQA相关论文后,想要继续了解关于videoQA的相关知识,所以找到了这篇《KnowITVQA:AnsweringKnowledge-BasedQuestionsaboutVideos》。提出了一个新的数据集,用于视频中基于知识的视觉问题解答,并提出了一种视频推理模型,其中将多模式视频信息与有关任务的特定知识结合在一起。文章链接:KnowITVQA:AnsweringKnowl
untitled713
·
2023-01-23 13:46
深度学习
vqa
Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会
最近刚好在写综述,也看了一篇较早的综述性文章,作为
VQA
入门性文章还是值得一看的,这边自己记录了一下关于这篇文章的阅读体会,以及相关部分翻译,以供自己学习写作为用。
智商25的憨憨
·
2023-01-11 10:29
视觉问答
LayoutLM源码踩坑记录
LayoutLM(V1/V2)源码踩坑记录前言:最近在看
VQA
相关内容,正好发现了LayoutLM这个repo,有开源代码,有pretrainedmodel,就想着白嫖一波LayoutLMrepo地址:
littletomatodonkey
·
2023-01-11 02:30
VGA
LayoutLM
vqa
transformer
mult
multmodal
multimodal
VQA
学习笔记(一)CNN-LSTM
笔者小白,初学
VQA
,如有不对之处还请指教。mmf是什么?
神奇的阳哥1573
·
2023-01-10 11:33
vqa学习之路
vqa
pytorch
论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
翻译一下题目:针对视觉推理的外部知识整合一句话简介:用场景图做VR(仔细
VQA
和VR还是不同的,就改成VR了)论文提出了两个贡献点:1.KnowledgeIncorporationNetwork,简称KI-Net
糖豆豆今天也要努力鸭
·
2023-01-08 12:23
机器学习
计算机视觉
场景图
scene
graph
视觉推理
VQA
多模态论文导读--
VQA
视觉问答经典论文:(注意力机制)Where To Look: Focus Regions for Visual Question Answering
大家好,我是CuddleSabe,目前大四在读,深圳准入职算法工程师,研究主要方向为多模态(
VQA
、ImageCaptioning等),欢迎各位佬来讨论!
CuddleSabe
·
2023-01-01 15:42
多模态入门论文系列
人工智能
算法
论文阅读笔记:Blind Video Quality Assessment With Weakly Supervised Learning and Resampling Strategy
论文PDF:BlindVideoQualityAssessmentWithWeaklySupervisedLearningandResamplingStrategy摘要在本文中,提出了一个通用的无参考
VQA
qq_25283239
·
2022-12-30 00:38
论文笔记
VQA
【
VQA
文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新
VQA
数据集
【
VQA
文献阅读】(CVPR2019)AnswerThemAll!
程序媛小哨
·
2022-12-29 11:51
VQA
人工智能
计算机视觉
深度学习
vqa
自然语言处理
【文献阅读】XVQA——一篇关于
VQA
的解释性研究(K. Alipour等人,ArXiv,2020)
一、背景文章题目:《AStudyonMultimodalandInteractiveExplanationsforVisualQuestionAnswering》文章下载链接:https://arxiv.org/pdf/2003.00431.pdf文章引用格式:KamranAlipour,JurgenP.Schulze,YiYao,AviZiskindandGiedriusBurachas."AS
全部梭哈迟早暴富
·
2022-12-28 16:05
#
视觉问答阅读
科研论文阅读
XVQA
VQA
-CP v2数据集和
VQA
v2数据集
VQA
-CP问题类型:65个类别Yes/NoNumother答案:如上总体分为3个类别,共有2274图像:每张图片的36个区域的2048维的特征向量。
但愿此生,从未邂逅
·
2022-12-25 22:16
人工智能
计算机视觉
python
计算机视觉
谷歌最新多模态模型CoCa,多项任务取得SOTA效果,ImageNet达到91.0%
来自:圆圆的算法笔记作者:Fareise最近谷歌提出了最新多模态预训练方法CoCa,在图像分类、图文检索、看图说话、
VQA
等多个任务都取得了SOTA效果。
zenRRan
·
2022-12-25 17:42
算法
机器学习
人工智能
深度学习
计算机视觉
图文融合模型(续) and
VQA
过往简述
文章目录图文融合模型,书接上文[seed+transformer+finetune+图文融合+VLP+PromptLearning整合](https://blog.csdn.net/weixin_42455006/article/details/124576668)一.ALBEF(对比学习用cosine对一个batch的样本做个交叉熵)二.特征空间局部注意力(feature-spacelocala
两面包+芝士
·
2022-12-22 16:01
paper
深度学习
计算机视觉
人工智能
<<视觉问答>>2022:MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based
VQA
`目录摘要一、介绍二、RelatedWork三、Methodology3.1、MultimodalKnowledgeTripletExtraction3.2、KnowledgeTripletRepresentationLearning3.3、KnowledgeAccumulationandPrediction四、Experiments4.1、ComparisonwithState-of-the-A
金克丝、
·
2022-12-22 16:59
Visual
Question
Answering
深度学习
人工智能
计算机视觉
神经网络
多模态论文导读--
VQA
视觉问答前沿论文:(零样本学习)CLIP Models are Few-shot Learners
大家好,我是CuddleSabe,目前大四在读,深圳准入职算法工程师,研究主要方向为多模态(
VQA
、ImageCaptioning等),欢迎各位佬来讨论!
CuddleSabe
·
2022-12-22 16:59
多模态论文导读系列
深度学习
迁移学习
bert
transformer
人工智能
<<视觉问答NeurIPS>>2022:REVIVE: Regional Visual Representation Matters in Knowledge-Based
VQA
收录情况:NeurIPS-2022论文链接:https://arxiv.org/abs/2206.01201代码链接:未开源文章目录简介问题方案主要贡献相关工作Knowledge-BasedVQAVision-LanguageModels方法REVIVEa、RegionalFeatureExtractionModuleb、Object-CentricKnowledgeRetrievalModule
金克丝、
·
2022-12-22 16:28
Visual
Question
Answering
人工智能
机器学习
计算机视觉
<<视觉问答>>2021:How Transferable are Reasoning Patterns in
VQA
?
AnalysisofReasoningPatterns3.1.Visualnoisevs.modelswithperfect-sight3.3、Attentionmodesandtaskfunctions摘要:视觉问答(
VQA
金克丝、
·
2022-12-22 16:28
Visual
Question
Answering
计算机视觉
深度学习
人工智能
<<视觉问答>>2022:CLIP Models are Few-shot Learners: Empirical Studies on
VQA
and Visual Entailment
目录摘要:一、介绍二、Preliminaries2.1、CLIP2.2、Vision-LanguageUnderstandingTasks三、Zero-shotVQA3.1、ATwo-StepPromptGenerationMethodStepI:AutomaticTemplateGenerationStepII:AnswerFiltering3.2TAP-CMethodforVQA四、Zero-
金克丝、
·
2022-12-22 15:25
Visual
Question
Answering
Multi-Modal
Pretraing
计算机视觉
人工智能
transformer
深度学习
浅读LXMERT: Learning Cross-Modality Encoder Representations from Transformers
这篇文章提出的模型在视觉问答(
VQA
,GQA)上得到了最好的结果,甚至今年后续以此为基础或对照的的文章都没有超越这个结果。
是尘埃呀!
·
2022-12-20 18:32
论文阅读笔记
python
深度学习
<<视觉问答AAAI>>2022:An Empirical Study of GPT-3 for Few-Shot Knowledge-Based
VQA
收录情况:AAAI-2022论文链接:https://arxiv.org/abs/2109.05014代码链接:https://github.com/microsoft/PICa文章目录简介问题方案相关工作Knowledge-basedVQA方法GPT-3forIn-contextLearningGPT-3forVQAIn-contextExamplesIn-contextexampleselec
金克丝、
·
2022-12-20 11:59
Visual
Question
Answering
Image
Captioning
gpt-3
人工智能
transformer
语言模型
自然语言处理
深度学习第一篇论文阅读笔记(
VQA
Visual Question Answering)
1VQAVisualQuestionAnswering一,介绍二,数据集收集1,图像2,问题3,答案三,数据集分析1,问题2,答案3,常识与标题四,
VQA
基线和方法1,基线2,方法五,结论相关链接前言写这篇论文笔记之前
是尘埃呀!
·
2022-12-17 11:40
论文阅读笔记
深度学习
计算机视觉
机器学习
人工智能
Cycle-Consistency for Robust Visual Question Answering阅读笔记
感兴趣的同学可参考原文:Cycle-ConsistencyforRobustVisualQuestionAnswering目录一.abstract二.文章精读2.1Introduction2.2相关工作2.3方法2.4.
VQA
智商25的憨憨
·
2022-12-16 20:47
视觉问答
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记
这是一篇2018年的CVPR的论文,使用自下而上和自上而下相结合的注意力机制实现了imagecaptioning和
VQA
,作者使用这个注意力模型在imagecaptioning上取得了非常好的效果,在2017
BXDBB
·
2022-12-16 20:47
VQA
论文阅读
深度学习
计算机视觉
自然语言处理
人工智能
[论文阅读笔记]:LEARNING TO COUNT OBJECTS IN NATURAL IMAGES FOR VISUAL QUESTION ANSWERING
物体计数在
VQA
任务中的应用论文地址:https://github.com/Cyanogenoid/
vqa
-counting项目地址:https://openreview.net/pdf?
snow5618
·
2022-12-16 08:07
神经网络
pytorch
视觉问答
python
计算机视觉
No Reference Video Quality Assessment with authentic distor-tions using 3-D Deep Convolutional Neura
摘要:视频质量评估(
VQA
)是从视频流媒体到相机制造等多个行业的一个重要课题。本文提出了一种新的无参考
VQA
方法。这个框架速度很快,不需要提取手工制作的特性。
水溺三千
·
2022-12-15 06:02
质量评价
计算机视觉
深度学习
神经网络
Point and Ask: Incorporating Pointing into
VQA
论文笔记
PointandAsk:IncorporatingPointingintoVQA论文笔记一、Abstract二、引言部分三、相关Work1、SpatialGroundinginVQA2、Pointinput四、数据集1️⃣:PointQA-Local:reasoningaboutaregion1.PointQA-Localdataset2、PointQA-Localmodels3、PointQA-
乄洛尘
·
2022-12-14 06:50
多模态研究
自然语言处理
深度学习
2019 VisualBERT: a Simple and Performant Baseline for Vision and Language
在
VQA
、VCR、NLVR、和Flickr30K这四个视觉和语言任务上的实验表明,VisualBERT优于先进模型
weixin_42653320
·
2022-12-13 09:46
视觉问答参考文章
深度学习
吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生!
文|赵一静最近,三个重量级榜单,视觉推理VCR、文本推理ANLI、视觉问答
VQA
同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地,重塑了小编的认知和期望。
夕小瑶
·
2022-12-13 06:57
大数据
计算机视觉
机器学习
人工智能
深度学习
对话系统-“任务型”多轮对话(四):自然语言生成(NLG)
自然语言生成(NLG)在很多NLP领域或任务都有涉及,比如摘要生成、
VQA
(视觉问答)、翻译、写诗词、写作文、写新闻、NBA等赛事报道、对话系统等。
u013250861
·
2022-12-13 06:24
#
NLP应用/对话系统
自然语言生成
多轮对话
论文-《Visual Question Answering as Reading Comprehension Hui》笔记
论文下载摘要:Visualquestionanswering(
VQA
)demandssimultaneouscomprehensionofboththeimagevisualcontentandnaturallanguagequestions.Insomecases
Vivinia_Vivinia
·
2022-12-11 20:53
论文
论文
笔记
VQA
【文献阅读】SLAKE——医学图像的
VQA
双语数据集(Bo Liu等人,ArXiv,2021)
一、背景文章题目:《SLAKE:ASemantically-LabeledKnowledge-EnhancedDatasetforMedicalVisualQuestionAnswering》文章下载地址:https://arxiv.org/pdf/2102.09542.pdf文章引用格式:BoLiu,Li-MingZhan,LiXu,LinMa,YanYang,Xiao-MingWu."SLAK
全部梭哈迟早暴富
·
2022-12-11 19:13
#
视觉问答阅读
科研论文阅读
Multi-Granularity Alignment for Visual Question Answering(视觉问答的多粒度对齐)
本文提出了视觉问答任务的多粒度对齐架构(MGA-
VQA
),该架构通过多粒度对齐来学习模态内和模态间的相关性,并通过决策融合模块输出最终结果。
呆呆_kk
·
2022-12-11 19:43
pytorch
VQA
计算机视觉
人工智能
SA-
VQA
: Structured Alignment of Visual and Semantic Representations for Visual Question Answering
视觉问答中视觉和语义的结构化对齐摘要以前的方法广泛使用实体级别的对齐,例如视觉区域与其语义标签之间的关联,或者问题词和对象特征之间的交互。这些尝试旨在改善跨模态表征,而忽略其内部关系。相反,本文应用结构化对齐,将视觉和文本内容用图来表示,旨在捕捉视觉和文本模式之间的深层联系。为结构化对齐而进行表示和集成graph是非常重要的。本文首先首先将不同模态实体转换为序列节点和邻接图,然后将其合并用于结构化
呆呆_kk
·
2022-12-11 19:12
pytorch
VQA
深度学习
计算机视觉
用于文化遗产的
VQA
(基于ArtPedia数据集)
艺术文化遗产领域VQAparper阅读VisualQuestionAnsweringforCulturalHeritage文章目录艺术文化遗产领域VQAparper阅读前言方法visualQuestionAnsweringwithvisualandcontextualquestionsQuestionClassifierModuleContextualQuestionAnsweringModule
Gao+Ling
·
2022-12-11 19:42
VQA
博士期间学术杂记
论文阅读
人工智能
计算机视觉
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他