VQA 第3页

论文-《Visual Question Answering as Reading Comprehension Hui》笔记

论文下载摘要：Visualquestionanswering(VQA)demandssimultaneouscomprehensionofboththeimagevisualcontentandnaturallanguagequestions.Insomecases

Vivinia_Vivinia·2022-12-11 20:53

【文献阅读】SLAKE——医学图像的VQA双语数据集（Bo Liu等人，ArXiv，2021）

一、背景文章题目：《SLAKE:ASemantically-LabeledKnowledge-EnhancedDatasetforMedicalVisualQuestionAnswering》文章下载地址：https://arxiv.org/pdf/2102.09542.pdf文章引用格式：BoLiu,Li-MingZhan,LiXu,LinMa,YanYang,Xiao-MingWu."SLAK

全部梭哈迟早暴富·2022-12-11 19:13

Multi-Granularity Alignment for Visual Question Answering(视觉问答的多粒度对齐)

本文提出了视觉问答任务的多粒度对齐架构(MGA-VQA)，该架构通过多粒度对齐来学习模态内和模态间的相关性，并通过决策融合模块输出最终结果。

呆呆_kk·2022-12-11 19:43

SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering

视觉问答中视觉和语义的结构化对齐摘要以前的方法广泛使用实体级别的对齐，例如视觉区域与其语义标签之间的关联，或者问题词和对象特征之间的交互。这些尝试旨在改善跨模态表征，而忽略其内部关系。相反，本文应用结构化对齐，将视觉和文本内容用图来表示，旨在捕捉视觉和文本模式之间的深层联系。为结构化对齐而进行表示和集成graph是非常重要的。本文首先首先将不同模态实体转换为序列节点和邻接图，然后将其合并用于结构化

呆呆_kk·2022-12-11 19:12

用于文化遗产的VQA（基于ArtPedia数据集）

艺术文化遗产领域VQAparper阅读VisualQuestionAnsweringforCulturalHeritage文章目录艺术文化遗产领域VQAparper阅读前言方法visualQuestionAnsweringwithvisualandcontextualquestionsQuestionClassifierModuleContextualQuestionAnsweringModule

Gao+Ling·2022-12-11 19:42

【pytorch】制作自己的数据集—基于VQA视频数据集

ODV-VQA数据集里面全部都是全景视频。

Hoppipolla0816·2022-12-11 19:41

2019：Answer Them All! Toward Universal Visual Question Answering Models

摘要视觉问题回答(VQA)研究分为两个阵营：第一个关注需要自然图像理解的VQA数据集，第二个关注测试推理的合成数据集。一个好的VQA算法应该同时能够实现，但只有少数VQA算法用这种方法进行测试。

weixin_42653320·2022-12-11 19:41

2017 VQA Challenge 第一名技术报告

作者丨罗若天学校丨TTIC博士生研究方向丨NLP，CV1.前言之前听ChrisManning讲过一个talk，说他们复现别人的paper，按照别人的算法写，做到了比原本那篇paper高了10个点的结果。还有听认识的同学说，有一年因为算法的performance不够好论文被拒了，第二年重新回过去跑那个代码，随便调了调，performance就比当时他们提交的时候高了很多。我们做玄学的，好的idea固

PaperWeekly·2022-12-11 19:41

VQA2-2017-Dual Attention Networks for Multimodal Reasoning and Matching

原文网址：文章目录Abstrace1.Introduction2.RelatedWork2.1.AttentionMechanisms2.2.VisualQuestionAnswering(VQA)2.3

edwinhaha·2022-12-11 19:41

VQA数据集及评价方法介绍

VQA(VisualQuestionAnswering)是一项涉及到计算机视觉和自然语言处理的视觉任务，简单介绍下当前VQA所使用的数据集： 1.DQAUAR DAQUAR(TheDAtasetforQUestionAnsweringonReal-worldimages

这样子的话·2022-12-11 19:41

VQA任务学习记录1(附数据使用代码记录)

0、前言最近需要学习处理VQA任务特此记录，这个主要是对论文bottom-upandtop-down()和bilinearattentionnetwork()中的代码部分的学习记录，目前也并不是很熟悉，

布捞·2022-12-11 19:10

VQA（图像问答）数据集结构及大致内容

这篇文章只讲下VQA的文件结构和文件内容，官方工具的用法及一些小技巧。VQA数据集概况其实VQA有很多种数据集，比较常用的有VQAv1.0、VQAv2.0、Visual7W等。

Geek_of_csdn·2022-12-11 19:39

VQA_v2数据集预处理

一、数据集文件介绍1.1数据集大小VQA官网上提供了数据集文件：VQA_v2数据集imagetrain：82783val：40504test：81434questiontrain：443757val：214354test

呆呆_kk·2022-12-11 19:39

【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings（M. Shah等人，CVPR，2019）

Cycle-ConsistencyforRobustVisualQuestionAnswering》这篇文章和前面介绍的MirrorGAN几乎是同一个idea，作者主要来自facebook，找到了第三和第四作者的个人主页，其中MarcusRohrbach一直在做VQA

全部梭哈迟早暴富·2022-12-10 21:12

2022 CVPR VQA相关论文

以下内容是今年4月份汇总的~用关键词大概检索出8篇VQA相关论文。其中有两篇研究的是基于外部知识的视觉问答，一篇是场景文本视觉问答，这些都是提出的新模型。

BXDBB·2022-12-10 21:03

【论文精读】LaTr: Layout-Aware Transformer for Scene-Text VQA

概述1.核心问题：STVQA（Scene-TextVisualQuestionAnswering）场景文本视觉问答，利用场景图片中的文本回答问题（相关概念：OCR（OpticalCharacterRecognition）图片文字识别）需要利用多种模态的语义信息进行推理（视觉、语言、场景文本）需要模型具有的能力：（1）先验信息和知识（2）利用视觉、语言、场景文本信息做推理2.研究背景：大概分为三种问

M号攻城狮·2022-12-10 20:58

视觉问答——使用预训练模型提取特征以及特征融合的代码学习（未完待续，tensorflow实现）

二、VQA关键部分代码标准VQA模型包括3个模块，分别是图像特征提取模块，文本特征提取模块，以及特征融合后的分类模块。

全部梭哈迟早暴富·2022-12-10 08:40

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA 论文阅读 From CVPR 2022

MuKEA：基于视觉问答（VQA）的多模态知识抽取与积累论文下载：https://arxiv.org/abs/2203.09138github代码：https://github.com/AndersonStra

八个牙履·2022-12-10 01:56

VQA-ReGat 项目运行遇到的错误

VQA-ReGat:关系感知图形注意网络用于VQA项目地址论文地址1.torch报错：StopIteration:CaughtStopIterationinreplica0ondevice0.原因：多GPU

snow5618·2022-12-09 10:47

QuTrunk与MindSpore量子神经网络初探

QuTrunk开发框架是可以与第三方AI框架深度结合进行量子计算程序开发的，前面一篇中我们已经使用QuTrunk+paddle在VQA算法实现上做了一个小的尝试。

昇思MindSpore·2022-12-08 22:46

【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

ThispaperpresentsaunifiedVision-LanguagePre-training(VLP)model.Themodelisunifiedinthat(1)itcanbefine-tunedforeithervision-languagegeneration(e.g.,imagecaptioning)orunderstanding(e.g.,visualquestionans

烫烫烫烫的若愚·2022-12-06 10:33

Towards Robust Visual Question Answering: Making the Most of BiasedSamples via Contrastive Learning

走向鲁棒的视觉问题回答:通过对比学习，最大限度地利用有偏样本提出问题：视觉问答(VQA)模型通常依赖于虚假的相关性，即语言先验。使得其在分布外(OOD)测试数据面前表现不好。

pinkshell_1314·2022-12-03 19:56

论文阅读：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

abstractWepresentMMFT-BERT(MultiModalFusionTransformerwithBERTencodings),tosolveVisualQuestionAnswering(VQA

cheetah023·2022-12-02 18:40

安装maskrcnn-benchmark时遇到的问题

根据如下步骤进行安装（1）gitclonehttps://gitlab.com/vedanuj/vqa-maskrcnn-benchmark.git（2）cdvqa-maskrcnn-benchmark

菜鸟一直努力·2022-11-30 08:40

VQA文献阅读 Learning Conditioned Graph Structures for Interpretable Visual Question Answering

1.动机作者认为：1.现有的基于图结构的VQA方法是定制的不能从抽象图像扩展到真实图像2.没有考虑将问题信息添加进来3.没有直观的展示得到结果的过程（Interpretable）2.贡献1.提出一个新的

今天也要学习！·2022-11-27 13:34

用自我监督学习克服语言先验的视觉问答

大多数VQA模型都有语言先验的问题，语言先验：归根结底就是说模型过度依赖question，或者完全凭借问题就可以给出答案，而不会结合我们给的图片。

哪朵玫瑰_没有荆棘·2022-11-27 05:48

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文链接：https://arxiv.org/pdf/2006.09073代码：https://github.com/astro-zihao/mucko发表会议：IJCAI2020任务定义及背景VQA（

开放知识图谱·2022-11-26 20:38

保持姿态·2022-11-26 19:03

多模态VQA24

Notion–Theall-in-oneworkspaceforyournotes,tasks,wikis,anddatabases.1VQA痛点（领域问题）1.1对各个模态之中的语义信息进行有效的挖掘

东方未明源·2022-11-26 19:33

多模态VQA24

Notion–Theall-in-oneworkspaceforyournotes,tasks,wikis,anddatabases.1VQA痛点（领域问题）1.1对各个模态之中的语义信息进行有效的挖掘

东方未明源·2022-11-26 19:33

多模态VQA24

Notion–Theall-in-oneworkspaceforyournotes,tasks,wikis,anddatabases.1VQA痛点（领域问题）1.1对各个模态之中的语义信息进行有效的挖掘

东方未明源·2022-11-26 19:33

多模态VQA24

Notion–Theall-in-oneworkspaceforyournotes,tasks,wikis,anddatabases.1VQA痛点（领域问题）1.1对各个模态之中的语义信息进行有效的挖掘

东方未明源·2022-11-26 19:02

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 2

作者信息王军杰粤港澳大湾区数字经济研究院（IDEA研究院）实习研究博士生清华大学2021级客座学生、早稻田大学博士生（指导老师：杨余久、酒井哲也）总体结构●VQA任务是什么●介绍之前的模型和方法●欢迎来到

PaperWeekly·2022-11-26 17:08

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

文章简介本文从视觉问答（VQA）任务出发，讲述了2015年任务的定义开始，接踵出现的各种多模态技术。

PaperWeekly·2022-11-26 17:08

M6-中文多模态预训练模型

一种中文的多模式预训练机目录：回顾方法下游应用程序可扩展到具有万亿个参数的模型1.回顾多模态预训练模型架构：l基于transformerl单流或者双流图像特征：l目标特征lPatch特征l原始像素下游任务：l理解：VQA

Necther·2022-11-25 19:29

多模态预训练模型

：COCO，VG，CC，SBUCaptionITC,MLM,ITMCLIP400million网络公开数据集对比学习UniT视觉/文本单模态和多模态的8个数据集基于8个数据集的7个任务，包含目标检测，VQA

a839766550·2022-11-25 18:49

多模态预训练模型简介

hblg_bobo·2022-11-25 18:43

PyTorch搭建RNN联合嵌入模型（LSTM GRU）实现视觉问答（VQA）实战（超详细附数据集和源码）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~一、视觉问题简介视觉问答（VQA）是一种同时设计计算机视觉和自然语言处理的学习任务。

showswoller·2022-11-24 20:47

【论文小综】基于外部知识的VQA（视觉问答）

作为多模态领域的一个典型场景，VQA旨在结合视觉的信息来回答所提出的问题。

奈何辰星无可奈·2022-11-24 01:08

【笔记】目标检测以及分割的现状和挑战

objectdetection（目标检测）*semanticsegmentation（语义分割）*instancesegmentation(实例分割）*keypointdetection(关键点检测）*VQA

crushqqi·2022-11-23 14:02

深度学习入门--锚框Anchor的生成处理及可视化（详细说明及代码实现）

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:51

深度学习入门--Transformer中的Encoder详解：Multi-Head-Attention及Feed-Forward

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:50

使用柏林噪声生成游戏地图（一维和二维实现）

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:50

NLP入门--Word2Vec（CBOW）实战

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:50

NLP入门--Seq2Seq英汉翻译实战

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:50

深度学习入门--Transformer中的Decoder详解

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:20

深度学习入门--Transformer中的Positional Encoding详解

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:19

图像处理入门系列--使用numpy实现OTSU大津法及其改进

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:49

CV入门--VGG16迁移学习（猫狗分类）实战

大家好，我是CuddleSabe，目前大四在读，深圳准入职算法工程师，研究主要方向为多模态（VQA、ImageCaptioning等），欢迎各位佬来讨论！

CuddleSabe·2022-11-23 12:43

2022年机器视觉综述论文

lucky基石·2022-11-22 23:51

推荐频道

VQA

论文-《Visual Question Answering as Reading Comprehension Hui》笔记

【文献阅读】SLAKE——医学图像的VQA双语数据集（Bo Liu等人，ArXiv，2021）

Multi-Granularity Alignment for Visual Question Answering(视觉问答的多粒度对齐)

SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering

用于文化遗产的VQA（基于ArtPedia数据集）

【pytorch】制作自己的数据集—基于VQA视频数据集

2019：Answer Them All! Toward Universal Visual Question Answering Models

2017 VQA Challenge 第一名技术报告

VQA2-2017-Dual Attention Networks for Multimodal Reasoning and Matching

VQA数据集及评价方法介绍

VQA任务学习记录1(附数据使用代码记录)

VQA（图像问答）数据集结构及大致内容

VQA_v2数据集预处理

【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings（M. Shah等人，CVPR，2019）

2022 CVPR VQA相关论文

【论文精读】LaTr: Layout-Aware Transformer for Scene-Text VQA

视觉问答——使用预训练模型提取特征以及特征融合的代码学习（未完待续，tensorflow实现）

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA 论文阅读 From CVPR 2022

VQA-ReGat 项目运行遇到的错误

QuTrunk与MindSpore量子神经网络初探

【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

Towards Robust Visual Question Answering: Making the Most of BiasedSamples via Contrastive Learning

论文阅读：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

安装maskrcnn-benchmark时遇到的问题

VQA文献阅读 Learning Conditioned Graph Structures for Interpretable Visual Question Answering

用自我监督学习克服语言先验的视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

VQA相关概念简单整理

多模态VQA24

多模态VQA24

多模态VQA24

多模态VQA24

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 2

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

M6-中文多模态预训练模型

多模态预训练模型

多模态预训练模型简介

PyTorch搭建RNN联合嵌入模型（LSTM GRU）实现视觉问答（VQA）实战（超详细 附数据集和源码）

【论文小综】基于外部知识的VQA（视觉问答）

【笔记】目标检测以及分割的现状和挑战

深度学习入门--锚框Anchor的生成处理及可视化（详细说明及代码实现）

深度学习入门--Transformer中的Encoder详解：Multi-Head-Attention及Feed-Forward

使用柏林噪声生成游戏地图（一维和二维实现）

NLP入门--Word2Vec（CBOW）实战

NLP入门--Seq2Seq英汉翻译实战

深度学习入门--Transformer中的Decoder详解

深度学习入门--Transformer中的Positional Encoding详解

图像处理入门系列--使用numpy实现OTSU大津法及其改进

CV入门--VGG16迁移学习（猫狗分类）实战

2022年机器视觉综述论文

PyTorch搭建RNN联合嵌入模型（LSTM GRU）实现视觉问答（VQA）实战（超详细附数据集和源码）