VQA 第2页

经典多模态模型

视觉问答（VQA）给定一个问题，给定一个图片，看是否能根据图片回答问题。闭集VQA：分类问题，固定答案set从中选答案。mul

Scabbards_·2023-06-16 07:26

VQA 2.0数据集的学习和使用过程

文章目录前言什么是VQA一、下载原始数据集VQA2.0（1）VQAAnnotations：（2）VQAInputQuestions：（3）trainval_annotation和trainval_question

Gao+Ling·2023-06-14 10:52

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军（内含夺冠方案）

近日，CVPRNTIRE2023QualityAssessmentofVideoEnhancementChallenge比赛结果公布，来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍，从37支队伍中脱颖而出

·2023-06-08 12:08

iOS 使用base64字符串生成图片

字符串postrdata:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAd4AAAHeCAYAAAA1nmrDAAA+G0lEQVR4Xu3VQa5rS44l0Zz

刘小哈哈哈·2023-06-06 22:07

Where To Look: Focus Regions for Visual Question Answering——CVPR2016

arxiv.org/pdf/1511.07394.pdfWhereToLook:FocusRegionsforVisualQuestionAnswering概括：个人感觉wheretolook的地位有点相当于VQA

weixin_43364401·2023-04-20 09:34

『论文笔记』In Defense of Grid Features for Visual Question Answering

导论本文主要探讨了在VQA等视觉语言任务中，使用什么类型的图像特征可以达到更好的效果。区域特征(Regions)还是网格特征(Grids)？

Hoshino Ren·2023-04-20 09:03

论文-《MUREL: Multimodal Relational Reasoning for Visual Question Answering Remi》笔记

重点翻译拓展摘要：如今在涉及真是图像的VQA任务中，多模态注意力网络时性能最好的，但是这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。

Vivinia_Vivinia·2023-04-20 09:00

胶囊网络之 Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules论文笔记

Weakly-supervisedGroundedVisualQuestionAnsweringusingCapsules论文笔记一、Abstract二、引言三、相关工作3.1VQA和视觉定位3.2VQA

乄洛尘·2023-04-19 07:40

WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

WeaQA:WeakSupervisionviaCaptionsforVisualQuestionAnswering论文笔记一、Abstract二、引言三、相关工作3.1VQA中的鲁棒性3.2无监督的QA3.3

乄洛尘·2023-04-19 07:10

VQA2021年之后的方向启蒙：Human-Adversarial Visual Question Answering 论文笔记

VQA2021年之后的方向启蒙：Human-AdversarialVisualQuestionAnswering论文笔记一、Abstract二、引言三、相关工作3.1VQA模型加压测试3.2之前达到饱和的模型

乄洛尘·2023-04-19 07:10

Biases and Reasoning Patterns in VQA 笔记

BiasesandReasoningPatternsinVQA笔记摘要一、Evaluatingthebiasdependency二、Insearchofreasoningpatterns总结写在前面这是VQA2021workshop

乄洛尘·2023-04-19 07:39

Video Question Answering: Datasets, Algorithms and Challenges 论文阅读

论文地址：2203.01225v1.pdf(arxiv.org)一篇VQA的综述摘要视频问题回答（VideoQA）旨在根据给定的视频回答自然语言问题。

魔法少女玛格姬·2023-04-17 22:28

视觉问答阶段性总结

另外，能力有限就不研究数据集了，目前复现的代码的代码大多基于VQA2.0。每一小节中尽量重点讲目前使用最好的情况。

是尘埃呀！·2023-04-12 01:38

CVPR 2023｜淘宝视频质量评价算法被顶会收录

近日，阿里巴巴大淘宝技术题为《MD-VQA:Multi-DimensionalQualityAssessmentforUGCLiveVideos》——适用于无参考视频质量评价的最新研究成果被计算机视觉领域顶级会议

阿里巴巴淘系技术团队官网博客·2023-04-03 17:56

2021：多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

摘要由于缺乏标签的数据，现有的医学视觉问答往往依赖于转移学习获取图像特征表示，使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行，没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式，迫使它考虑到特定图像理解任务中特征的适用性。此外，我们引入了一种跨模态自注意力模块（CMSA）有选择的捕捉长期的上下文相关性，以更有效的融合视觉和

weixin_42653320·2023-03-29 02:01

YUV视频播放器

YUV视频播放器我在研究全景视频的时候，下载了全景视频的VR-VQA48数据集，参考视频为YUV格式，我想看一下是什么样的，但是无法观看。

qq_43306047·2023-03-28 23:06

视觉问答VQA之通过提问题获取知识

论文通过迭代的查询（问问题query）来获取额外知识和信息，从而更好的解决VQA问题（关于VQA的纵览可以看我的另一篇文章——一文带你了解视觉问答VQA）。

萧风萧雨·2023-03-28 02:42

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA

1.AbstractVisualQuestionAnswering(VQA)任务，忽略一个重要的模态—图像中的文本，它承载着场景理解和推理的基本信息。

Tsukinousag·2023-03-20 10:49

论文阅读 [TPAMI-2022] MRA-Net: Improving VQA Via Multi-Modal Relation Attention Network

论文阅读[TPAMI-2022]MRA-Net:ImprovingVQAViaMulti-ModalRelationAttentionNetwork论文搜索(studyai.com)搜索论文:MRA-Net:ImprovingVQAViaMulti-ModalRelationAttentionNetwork搜索论文:http://www.studyai.com/search/whole-site/

北岭狼人·2023-03-19 07:11

Visual chatgpt多模态大模型的前菜

表面看起来这是一个用chatgpt做意图理解、对话管理，然后用各种多模态视觉模型做任务（VQA、图生文）简单的系统。

远洋之帆·2023-03-14 07:03

BLIP2-图像文本预训练论文解读

图像编码器学习视觉语言表征图像文本对比学习（ITC）基于图像文本生成（ITG）图文匹配（ITM）从大规模语言模型学习视觉到语言生成模型预训练预训练数据预训练图像编码器与LLM预训练设置实验引导零样本图像到文本生成零样本VQA

‘Atlas’·2023-03-10 07:58

2019： Unified Vision-Language Pre-training for Image Captioning and VQA

摘要本文提出一个统一的视觉-语言预训练模型，（1）可以用于视觉-语言生成或理解任务的微调；（2）使用一个共享的多层transformer网络编码和解码，与许多编码器和解码器使用单独的模型不同。统一的VLP模型在大量的图像-文本对上进行预训练，使用两个任务进行无监督学习：双向和序列到序列(seq2seq)掩码视觉-语言预测，这两个任务的不同之处仅仅在于预测条件的背景。这是利用共享transforme

weixin_42653320·2023-01-31 23:42

对话系统中的自然语言生成（NLG）

zhuanlan.zhihu.com/p/49197552（此处只是为了我本人方便查看，我只关注深度学习的方法，想全面了解的建议看原文）自然语言生成(NLG)在很多NLP领域或任务都有涉及，比如摘要生成、VQA

你好世界_zhy·2023-01-28 04:04

论文解读：Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

今天，先进的VQA方法通过设计共同注意机制

幽灵深度学习·2023-01-25 22:33

KnowIT VQA:Answering Knowledge-Based Questions about Videos心得体会

untitled713·2023-01-23 13:46

Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会

最近刚好在写综述，也看了一篇较早的综述性文章，作为VQA入门性文章还是值得一看的，这边自己记录了一下关于这篇文章的阅读体会，以及相关部分翻译，以供自己学习写作为用。

智商25的憨憨·2023-01-11 10:29

LayoutLM源码踩坑记录

LayoutLM(V1/V2)源码踩坑记录前言：最近在看VQA相关内容，正好发现了LayoutLM这个repo，有开源代码，有pretrainedmodel，就想着白嫖一波LayoutLMrepo地址：

littletomatodonkey·2023-01-11 02:30

VQA学习笔记（一）CNN-LSTM

笔者小白，初学VQA，如有不对之处还请指教。mmf是什么？

神奇的阳哥1573·2023-01-10 11:33

论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

翻译一下题目：针对视觉推理的外部知识整合一句话简介：用场景图做VR（仔细VQA和VR还是不同的，就改成VR了）论文提出了两个贡献点：1.KnowledgeIncorporationNetwork，简称KI-Net

糖豆豆今天也要努力鸭·2023-01-08 12:23

多模态论文导读--VQA视觉问答经典论文：（注意力机制）Where To Look: Focus Regions for Visual Question Answering

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2023-01-01 15:42

论文阅读笔记：Blind Video Quality Assessment With Weakly Supervised Learning and Resampling Strategy

论文PDF：BlindVideoQualityAssessmentWithWeaklySupervisedLearningandResamplingStrategy摘要在本文中，提出了一个通用的无参考VQA

qq_25283239·2022-12-30 00:38

【VQA文献阅读】(CVPR2019)Answer Them All! Toward Universal Visual Question Answering Models ——直观了解最新VQA数据集

【VQA文献阅读】(CVPR2019)AnswerThemAll!

程序媛小哨·2022-12-29 11:51

【文献阅读】XVQA——一篇关于VQA的解释性研究（K. Alipour等人，ArXiv，2020）

一、背景文章题目：《AStudyonMultimodalandInteractiveExplanationsforVisualQuestionAnswering》文章下载链接：https://arxiv.org/pdf/2003.00431.pdf文章引用格式：KamranAlipour,JurgenP.Schulze,YiYao,AviZiskindandGiedriusBurachas."AS

全部梭哈迟早暴富·2022-12-28 16:05

VQA-CP v2数据集和VQA v2数据集

VQA-CP问题类型：65个类别Yes/NoNumother答案：如上总体分为3个类别，共有2274图像：每张图片的36个区域的2048维的特征向量。

但愿此生，从未邂逅·2022-12-25 22:16

谷歌最新多模态模型CoCa，多项任务取得SOTA效果，ImageNet达到91.0%

来自：圆圆的算法笔记作者：Fareise最近谷歌提出了最新多模态预训练方法CoCa，在图像分类、图文检索、看图说话、VQA等多个任务都取得了SOTA效果。

zenRRan·2022-12-25 17:42

图文融合模型(续) and VQA过往简述

文章目录图文融合模型，书接上文[seed+transformer+finetune+图文融合+VLP+PromptLearning整合](https://blog.csdn.net/weixin_42455006/article/details/124576668)一.ALBEF(对比学习用cosine对一个batch的样本做个交叉熵)二.特征空间局部注意力（feature-spacelocala

两面包+芝士·2022-12-22 16:01

＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA

金克丝、·2022-12-22 16:59

多模态论文导读--VQA视觉问答前沿论文：（零样本学习）CLIP Models are Few-shot Learners

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-12-22 16:59

＜＜视觉问答NeurIPS＞＞2022：REVIVE: Regional Visual Representation Matters in Knowledge-Based VQA

收录情况：NeurIPS-2022论文链接：https://arxiv.org/abs/2206.01201代码链接：未开源文章目录简介问题方案主要贡献相关工作Knowledge-BasedVQAVision-LanguageModels方法REVIVEa、RegionalFeatureExtractionModuleb、Object-CentricKnowledgeRetrievalModule

金克丝、·2022-12-22 16:28

＜＜视觉问答＞＞2021：How Transferable are Reasoning Patterns in VQA?

AnalysisofReasoningPatterns3.1.Visualnoisevs.modelswithperfect-sight3.3、Attentionmodesandtaskfunctions摘要：视觉问答(VQA

金克丝、·2022-12-22 16:28

＜＜视觉问答＞＞2022：CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

目录摘要：一、介绍二、Preliminaries2.1、CLIP2.2、Vision-LanguageUnderstandingTasks三、Zero-shotVQA3.1、ATwo-StepPromptGenerationMethodStepI:AutomaticTemplateGenerationStepII:AnswerFiltering3.2TAP-CMethodforVQA四、Zero-

金克丝、·2022-12-22 15:25

浅读LXMERT: Learning Cross-Modality Encoder Representations from Transformers

这篇文章提出的模型在视觉问答（VQA，GQA）上得到了最好的结果，甚至今年后续以此为基础或对照的的文章都没有超越这个结果。

是尘埃呀！·2022-12-20 18:32

＜＜视觉问答AAAI＞＞2022：An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

收录情况：AAAI-2022论文链接：https://arxiv.org/abs/2109.05014代码链接：https://github.com/microsoft/PICa文章目录简介问题方案相关工作Knowledge-basedVQA方法GPT-3forIn-contextLearningGPT-3forVQAIn-contextExamplesIn-contextexampleselec

金克丝、·2022-12-20 11:59

深度学习第一篇论文阅读笔记（VQA Visual Question Answering）

1VQAVisualQuestionAnswering一，介绍二，数据集收集1，图像2，问题3，答案三，数据集分析1，问题2，答案3，常识与标题四，VQA基线和方法1，基线2，方法五，结论相关链接前言写这篇论文笔记之前

是尘埃呀！·2022-12-17 11:40

Cycle-Consistency for Robust Visual Question Answering阅读笔记

感兴趣的同学可参考原文：Cycle-ConsistencyforRobustVisualQuestionAnswering目录一.abstract二.文章精读2.1Introduction2.2相关工作2.3方法2.4.VQA

智商25的憨憨·2022-12-16 20:47

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》——2018 CVPR论文笔记

这是一篇2018年的CVPR的论文，使用自下而上和自上而下相结合的注意力机制实现了imagecaptioning和VQA，作者使用这个注意力模型在imagecaptioning上取得了非常好的效果，在2017

BXDBB·2022-12-16 20:47

[论文阅读笔记]：LEARNING TO COUNT OBJECTS IN NATURAL IMAGES FOR VISUAL QUESTION ANSWERING

物体计数在VQA任务中的应用论文地址：https://github.com/Cyanogenoid/vqa-counting项目地址：https://openreview.net/pdf?

snow5618·2022-12-16 08:07

No Reference Video Quality Assessment with authentic distor-tions using 3-D Deep Convolutional Neura

摘要：视频质量评估(VQA)是从视频流媒体到相机制造等多个行业的一个重要课题。本文提出了一种新的无参考VQA方法。这个框架速度很快，不需要提取手工制作的特性。

水溺三千·2022-12-15 06:02

Point and Ask: Incorporating Pointing into VQA论文笔记

PointandAsk:IncorporatingPointingintoVQA论文笔记一、Abstract二、引言部分三、相关Work1、SpatialGroundinginVQA2、Pointinput四、数据集1️⃣：PointQA-Local:reasoningaboutaregion1.PointQA-Localdataset2、PointQA-Localmodels3、PointQA-

乄洛尘·2022-12-14 06:50

2019 VisualBERT: a Simple and Performant Baseline for Vision and Language

在VQA、VCR、NLVR、和Flickr30K这四个视觉和语言任务上的实验表明，VisualBERT优于先进模型

weixin_42653320·2022-12-13 09:46

推荐频道

VQA