CharlesWu123

SMA :Structured Multimodal Attentions for TextVQA --- 论文阅读笔记

Paper : https://arxiv.org/abs/2006.00753

SMA 首先使用结构图表示去编码图像中的 object-object，object-text 和 text-text 之间的关系，然后使用一个多模态图注意力网络去理解，最后，由全局-局部注意回答模块处理来自上述模块的输出，以迭代地产生包含OCR和固定词汇的答案。

Pipeline

SMA 模型对具有多种关系类型的图进行推理。

Question Self-Attention Module 把问题分解为六个子组件，包括 objects, object-object relations, object-text relations, texts, text-text relations and text-object relations。
使用 objects/text 节点构建一个 role-aware graph。节点之间的连接由相对距离决定。使用 question-conditioned graph attention module 更新这个图。在 SMA 中，没有使用整个问题指导图更新，只是使用了确定类型的问题组件更新对应的图组件。例如，与问题相关的 object 只更新object 节点，与问题相关的 object-text 只更新 object-text 边。
使用 global-local attentional module 产生一个不定长的答案。

Question Self-Attention Module

使用问题序列生成自注意权重，用于生成以问题为条件的 object 和 text 特征；和 6 个分解后的问题特征，用来指导 question conditioned graph attention.

因为问题 $Q$ 不仅包含 object 和 text 节点信息，也包含他们之间的 4 类关系 ( object-object, object-text, text-object, text-object )，此模块把问题分解为 6 个子组件。

给定 $T$ 个单词 $q = \{ q_t\}_{t=1}^T$ 的问题 $Q$ ，首先使用预训练的 BERT 把单词嵌入到特征序列 ${e_t\}_{t=1}^T$ 中获得 $\{\mathbf{x}_t^{bert}\}_{t=1}^T$ 。然后使用 6 个单独的带有 softmax 层的双层 MLP 生成 6 组注意力权重，例如 ${a_t^o\}_{t=1}^T,\{a_t^{oo}\}_{t=1}^T,\{a_t^{ot}\}_{t=1}^T,\{a_t^{t}\}_{t=1}^T,\{a_t^{tt}\}_{t=1}^T,\{a_t^{to}\}_{t=1}^T$ 。使用这些权重计算 6 个 $\{\mathbf{x}_t^{bert}\}_{t=1}^T$ 的注意力权重和： $s^o, s^{oo}, s^{ot}, s^{t}, s^{tt}, s^{to}$ ，为分解后的问题表示 object 节点，object-object ( oo ) 边，object-text ( ot ) 边，text 节点，text-text ( tt ) 边缘和 text-object ( to ) 边缘。以 ${a_t^o\}_{t=1}^T$ 和 $s^o$ 作为例子：
$a_t^o = \frac{\exp(MLP_{obj}^a(\mathbf{x}_t^{bert}))}{\sum_{i=1}^T \exp(MLP_{obj}^a(\mathbf{x}_t^{bert}))}, t=1,...,T; \;\;\; s^o = \sum_{t=1}^T a_t^o \mathbf{x}_t^{bert} \tag{1}$
使用分解后的问题特征指导 question conditioned graph attention 。

还学习了分解后的子组件的两组自注意力权重，即 ${w^o, w^{oo}, w^{ot}\}, \{w^t, w^{tt}, w^{to}\}$ ，其中每个 $w$ 是一个标量。它们计算如下:
$w^{o,oo,ot} = \frac{1}{Z^{obj}} \exp(\mathbf{W}_{w}^{o,oo,ot} \mathbf{s}), w^{t,tt,to} = \frac{1}{Z^{text}} \exp(\mathbf{W}_{w}^{t,tt,to} \mathbf{s}), \tag{2}$
其中 $\mathbf{s} = \frac{1}{T}\sum_{t=1}^T \mathbf{x}_t^{bert}, Z^{obj} = \exp(\mathbf{W}_w^o \mathbf{s})+ \exp(\mathbf{W}_w^{oo} \mathbf{s})+\exp(\mathbf{W}_w^{ot} \mathbf{s}), Z^{text} = \exp(\mathbf{W}_w^t \mathbf{s})+ \exp(\mathbf{W}_w^{tt} \mathbf{s})+\exp(\mathbf{W}_w^{to} \mathbf{s})$ 在某种程度上，这些权重扮演着先验概率的角色，因为它们只能通过问题来计算。两组问题自注意力权重将分别用于生成以问题为条件的 object 和 text 特征 $\mathbf{g}_{obj}$ 和 $\mathbf{g}_{text}$

Question Conditioned Graph Attention Module

生成并理解一个 objects 和 texts 的异构图

Role-aware Heterogeneous Graph Construction

‘Role’ 表示节点的类型。首先构建一个节点为 objects 和 texts 的异构图，边表示在两个特殊节点之间的关系，每一个节点可以连接 5 个 object 节点和 5 个 text 节点，边可以分为四种类型表示不同的 role : object-object, object-text, text-text, text-object 。以构建 object-object 边为例，对于 object 节点 $o_i$ ，对剩下的 object 根据它们到 $o_i$ 的空间距离排序，把排名前 5 的 object 节点作为邻居 $\mathcal{N}_i^{oo}$ 。根据它们的相对位置关系建立两个节点的边的关系。 $o_i$ 的位置表示为 $x_i^c, y_i^c, w_i, h_i]$ (中心坐标，高，宽)，另一个节点 $o_j$ 的位置表示为 $x_i^{tl}, y_i^{tl}, x_j^{br}, y_j^{br}, w_j, h_j]$ ( 左上角坐标，右下角坐标，宽，高 )，然后它们的边关系为 $\mathbf{e}_{ij} = [\frac{x_j^{tl} - x_i^c}{w_i}, \frac{y_j^{tl} - y_i^c}{h_i}, \frac{x_j^{br} - x_i^c}{w_i}, \frac{y_j^{br} - x_i^c}{h_i}, \frac{w_j \cdot h_j}{w_i \cdot h_i}]$

Question Conditioned Graph Attention

使用分解的问题特征 $\mathbf{s}$ 来理解 role-aware graph 。把当做一个注意力机制。用不同的问题特征根据它们的角色 ( role ) 更新图的不同部分。例如，使用与 object 相关的问题特征 $\mathbf{s}^o$ 指导 object 节点的注意力权重，使用 $\mathbf{s}^{to}$ 指导 text-object 边的注意力权重。分别计算图中 6 个角色的注意力权重：object 节点 ( $\mathbf{p}^o$ )，text 节点 ( $\mathbf{p}^t$ )，object-object 边 ( $\mathbf{p}^{oo}$ )，object-text 边 ( $\mathbf{p}^{ot}$ )，text-text 边 ( $\mathbf{p}^{tt}$ )，text-object 边 ( $\mathbf{p}^{to}$ )，可以写成
$\mathbf{p}^m = \text{Att}_m (\{\mathbf{x}^{obj}\}, \{\mathbf{x}^{text}\}, \{\mathbf{e}^{ij}\}, \mathbf{s}^m) \tag{3}$
$\text{Att}_m$ 是使用问题特征和图中特殊的节点/边计算注意力权重的注意力机制， $m = \{o,oo,ot,t,tt,to\}$ 。

object 节点注意力权重 object 表示为 2048 维的外形特征 $\{\mathbf{x}_{fr,i}^o\}_{i=1}^N$ 和相对位置坐标 $\{\mathbf{x}_{bbox,i}^o\}_{i=1}^N$ ，在 $\mathbf{s}^o$ 的指导下计算 object 节点的注意力权重 :
$\begin{cases} & \hat{\mathbf{x}}_i^{obj} = \text{LN}(\mathbf{W}_{fr}^o \mathbf{x}_{fr,i}^o) + \text{LN}(\mathbf{W}_{b}^o \mathbf{x}_{bbox,i}^o), \\ & p_i^{o'} = \mathbf{w}_o^{\top}[\text{ReLU}(\mathbf{W}_s^o \mathbf{s}^o) \circ \text{ReLU}(\mathbf{W}_x^o \hat{\mathbf{x}}^{obj}_i)], \\ & p_i^o = \exp(p_i^{o'}) / \sum_{j=1}^N \exp(p_j^{o'}), i =1,...,N, \end{cases} \tag{4}$
其中 $\text{LN}(\cdot)$ 是层正则化， $\mathbf{W}_*^*, \mathbf{w}_*$ 是要学习的线性转换参数。最后，获得 object 节点的注意力权重 $\mathbf{p}^o = \{p_i^o\}_{i=1}^N$
text 节点注意力权重 与 M4C 相似，使用多个特征的结合丰富 OCR 的表示。300 维的 FastText 特征 $\{\mathbf{x}_{ft,i}^t\}_{i=N+1}^{N+M}$ ，2048 维的外形特征 $\{\mathbf{x}_{fr,i}^t\}_{i=N+1}^{N+M}$ ，604 维的 PHOC 特征 $\{\mathbf{x}_{p,i}^t\}_{i=N+1}^{N+M}$ ，4 维的边框特征 $\{\mathbf{x}_{bbox,i}^t\}_{i=N+1}^{N+M}$ ，除此之外还有 512 维的 CNN 特征 $\{\mathbf{x}_{tr,i}^t\}_{i=N+1}^{N+M}$ ( 来自于 RecogCNN ) 。在 $\mathbf{s}^t$ 的指导下计算 text 节点的注意力权重 :
$\begin{cases}& \hat{\mathbf{x}}_i^{text} = \text{LN}(\mathbf{W}_{ft}^t \mathbf{x}_{ft,i}^t + \mathbf{W}_{fr}^t \mathbf{x}_{fr,i}^t + \mathbf{W}_{p}^t \mathbf{x}_{p,i}^t + \mathbf{W}_{tr}^t \mathbf{x}_{tr,i}^t) + \text{LN}(\mathbf{W}_{b}^t \mathbf{x}_{bbox,i}^t), \\& p_i^{t'} = \mathbf{w}_t^{\top}[\text{ReLU}(\mathbf{W}_s^t \mathbf{s}^t) \circ \text{ReLU}(\mathbf{W}_x^t \hat{\mathbf{x}}^{text}_i)], \\& p_i^t = \exp(p_i^{t'}) / \sum_{j=N+1}^{N+M} \exp(p_j^{t'}), i =N+1,...,N+M,\end{cases} \tag{5}$

最后，获得 text 节点的注意力权重 $\mathbf{p}^t = \{p_i^t\}_{i=N=1}^{N+M}$
边的注意力权重 边的注意力权重需要考虑两个节点之间的关系，以计算 object-object 的注意力权重 $\mathbf{p}^{oo}$ 为例，其他的类似。主要有两步，首先，计算所有连接节点 $o_i$ 的边的注意力权重 $\mathbf{q}_i^{oo} = \{q_{ij}^{oo}\}_{j \in \mathcal{N}_i^{oo}}$
$\begin{cases}& \hat{\mathbf{x}}_{ij}^{oo} = \text{f}^{oo} ([\mathbf{e}_{ij} ; \hat{\mathbf{x}}_i^{obj}]), \\& q_{ij}^{oo'} = \mathbf{w}_{oo}^{\top}[\text{ReLU}(\mathbf{W}_s^{oo} \mathbf{s}^{oo}) \circ \text{ReLU}(\mathbf{W}_x^{oo} \hat{\mathbf{x}}^{oo}_{ij})], \\& q_{ij}^{oo} = \exp(q_{ij}^{oo'}) / \sum_{k \in \mathcal{N}_i^{oo}} \exp(q_{ik}^{oo'}), j \in \mathcal{N}_i^{oo},\end{cases} \tag{6}$
$\text{f}^{oo}$ 是一个 MLP，编码初始化 $o o$ 边特征 ( 由关系特征 $\mathbf{e}_{ij}$ 和连接节点特征 $\hat{\mathbf{x}}_i^{obj}$ 拼接 )，边的注意力权重 $\mathbf{q}_{i}^{oo}$ 。然后，计算所有 object 节点的 $o o$ 边的注意力权重
$\begin{cases}& \tilde{\mathbf{x}}_{i}^{oo} = \sum_{j \in \mathcal{N}_{i}^{oo}} q_{ij}^{oo} \hat{\mathbf{x}}_{ij}^{oo}, \\& p_{i}^{oo'} = \mathbf{w}_{oo'}^{\top}[\text{ReLU}(\mathbf{W}_s^{oo'} \mathbf{s}^{oo}) \circ \text{ReLU}(\mathbf{W}_x^{oo'} \tilde{\mathbf{x}}^{oo}_{i})], \\& p_{i}^{oo} = \exp(p_{i}^{oo'}) / \sum_{j=1}^N \exp(p_{j}^{oo'}), i = 1, ...,N,\end{cases} \tag{7}$
$\tilde{\mathbf{x}}_{ij}^{oo}$ 是以问题为条件的节点 $o_i$ 的 $o o$ 边的特征。使用相同的方法计算 $\mathbf{p}^{ot}, \mathbf{p}^{tt}, \mathbf{p}^{to}$ 。

Weighting Module

每个 object 和 text 节点通过图注意力模块输出三个注意力权重。每个 object 节点 $o_i$ ，都有 $p_i^o, p_i^{oo}, p_i^{to}$ ；每个 text 节点 $t_i$ ，都有 $p_i^t, p_i^{tt}, p_i^{to}$ 。使用问题自注意力权重和它们结合，每一个 object 节点，最终的权重分数通过三部分的权重和计算：
$\alpha_i^o = w^o p_i^o + w^{oo} o_i^{oo} + w^{ot} p_i^{ot} , i=1,...,N, \tag{8}$
每一个 text 节点最终的权重：
$\alpha_i^t = w^t p_i^t + w^{tt} o_i^{tt} + w^{to} p_i^{to} , i=1,...,N, \tag{9}$
注意 $\sum_{i=1}^N \alpha_i^o = 1$ ，因为 $w^o + w^{oo} + w^{ot} = 1, \sum_{i=1}^N p_i^o =1, \sum_{i=1}^N p_i^{oo} =1, \sum_{i=1}^N p_i^{ot} =1$ 。也有 $\sum_{i=N+1}^{N+M} \alpha_i^t = 1$ 。权重 $\{\alpha_i^o\}_{i=1}^N$ 和 $\{\alpha_i^t\}_{i=N+1}^{N+1}$ 计算了 object/text 节点和问题的相关性，用来生成以问题为条件的 object 和 text 特征：
$\mathbf{g}_{obj} = \sum_{i=1}^N \alpha_i^o \cdot \hat{\mathbf{x}}_i^{obj}, \;\;\;\;\ \mathbf{g}_{text} = \sum_{i=N+1}^{N+M} \alpha_i^t \cdot \hat{\mathbf{x}}_i^{text} \tag{10}$

Global-Local Attentional Answering Module

全局图特征 $\mathbf{g}_{obj}$ 和 $\mathbf{g}_{text}$ 不是直接和全局问题特征 $\mathbf{s}^{o}, \mathbf{s}^{oo}, \mathbf{s}^{ot}, \mathbf{s}^{t}, \mathbf{s}^{tt}, \mathbf{s}^{to}$ 融合，而是通过和局部的 OCR 节点嵌入输入到 transformer 的答案模块中进行更新。与 object 相关的和与 text 相关的问题特征拼接在一起：
$\overline{\mathbf{s}}^o = [s^o; s^{oo}, s^{ot}], \;\; \overline{\mathbf{s}}^t = [s^t,s^{tt}, s^{to}] \tag{11}$
$\overline{\mathbf{s}}^o, \overline{\mathbf{s}}^t, \mathbf{g}_{obj}, \mathbf{g}_{text}$ 是一起输入到 transformer 层，更新为 $\tilde{\mathbf{s}}^o, \tilde{\mathbf{s}}^t, \tilde{\mathbf{g}}_{obj}, \tilde{\mathbf{g}}_{text}$ 。

然后，我们将更新的特征 $\tilde{\mathbf{g}}_{obj}$ 和 $\tilde{\mathbf{g}}_{text}$ 与它们各自的问题表示形式融合在一起，如下所示
$\mathbf{g}_{OBJ} = \tilde{\mathbf{g}}_{obj} \circ \tilde{\mathbf{s}}^o, \;\;\; \mathbf{g}_{TEXT} = \tilde{\mathbf{g}}_{text} \circ \tilde{\mathbf{s}}^t \tag{12}$
在第一步预测答案概率 $\mathbf{p}_{ans}^1$
$\mathbf{p}_{ans}^1 = \text{f}_{pred} (\mathbf{W}_g[\mathbf{g}_{OBJ}; \mathbf{g}_{TEXT}]), \tag{13}$
$\text{f}_{pred}$ 是一个两分支分数函数，它解决了 TextVQA 任务中答案可能是动态文本在不同问题中发生变化的难题。答案空间是两部分的结合：一个包含 5000 个词的固定词典和从每个特定的图像中提取的动态 OOV OCR tokens。两个分支计算各自的分数。一个分支是一个简单的线性层，把输入映射到 5000 维的分数向量，另一个分支计算输入和每一个更新的 OCR 嵌入的点积。然后两个分支的分数拼接在一起，选择最高的分数作为结果。

在第一步，融合特征的拼接作为输入，在剩下的步骤，使用前一个更新的输出作为输入迭代解码：
$\mathbf{p}_{ans}^t = \text{f}_{pred} (\mathbf{g}_{dec}), t=2,...,T, \tag{14}$
其中 $\mathbf{g}_{dec}$ 是以前一个输出 $\mathbf{g}^{dec}$ 作为输入的答案模块的输出。如果前一个输出来自于 OCR，则 $\mathbf{g}^{dec}$ 是 OCR 嵌入，然后输入到答案模块。否则，通用词汇表的相应线性层权重将变为 $\mathbf{g}^{dec}$ 。我们还将位置嵌入和类型嵌入添加到解码输入中，其中类型嵌入表示此输入是固定词汇还是OCR token。

Experiments

在 TextVQA 上的结果

使用 GT OCR 在 TextVQA 上的结果

在 ST-VQA 上的结果

【VQA】VQA数据集和判别标准阮恒
一、VQA常用的数据集：1.COCO-QACOCO-QA数据集中的图像来自于MS-COCO数据集，主要包括123287张图像，其中72738张用于训练，38948用于测试，并且每张图像都有一个question/answerpair，每个answer都是一个单词。这些question/answerpair都是根据MS-COCO中的图像描述自动生成的。根据Answer可以将Question分为四类：o
MUTAN readme文件（翻译） hongyuyahei 学习笔记
/!\VQA的新版本PyTorch代码现已提供，链接在这里:代码链接这个仓库是由RemiCadene（LIP6）和HediBen-Younes（LIP6-Heuritech）创建的，他们是在UPMC-LIP6从事VQA研究的两名博士生，以及他们的导师MatthieuCord（LIP6）和NicolasThome（LIP6-CNAM）。我们在一篇名为“MUTAN:MultimodalTuckerFu
论文阅读：Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019) 糖豆豆今天也要努力鸭机器学习场景图 scene graph 场景理解计算机视觉 cv
因为我的方向是场景图，所以仅介绍这篇论文中有关场景图的内容，不涉及VQA。(a)FeatureExtraction先对输入图像进行目标检测，每个proposal的视觉特征x包括以下特征：ROIAlignfeature(2048维)，空间feature(8维)，论文这里说视觉特征不局限于bbox，实例分割特征和全景特征也可以。(b)构建可学习的对称矩阵S（1）S的计算方法如下：f(xi,xj)称为对
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs huahuahuahhhh 多模态
大开眼界？探索多模态模型种视觉编码器的缺陷。论文中指出，上面这些VQA问题，人类可以瞬间给出正确的答案，但是多模态给出的结果却是错误的。是哪个环节出了问题呢？视觉编码器的问题？大语言模型出现了幻觉？还是视觉特征与语言模型间的特征没有对齐？作者将上述问题分成了9个类别（通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类）通过实验发现，增加模型规模/训练数据的数量，多模态模型仅在
2024年1月17日Arxiv热门NLP大模型论文：Generative Multi-Modal Knowledge Retrieval with Large Language Models 夕小瑶人工智能深度学习机器学习
清华&腾讯AAAI2024联手突破！提出多模态知识检索新框架，性能大幅领先引言：多模态知识检索的重要性与挑战在当今信息爆炸的时代，多模态知识检索已成为支持知识密集型多模态应用的关键技术。例如，在视觉问答（VQA）、多模态实体链接和多模态对话等应用中，多模态上下文内的信息可能不足以满足需求，因此需要获取外部知识。然而，现有的方法在有效性和训练效率方面面临挑战，尤其是在训练和整合多个检索器以处理多模态
《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想 hema12138
跟随attetion工作阅读该文摘要该文给我带来的思考首先于注意力的使用，它采用的co-attention结构，注意力函数类似于attentionisallyouneed类似采用多层尺度乘法注意，第二它对齐图像和问句特征采用多层的co-attention网络，通过拉伸的特征矩阵表示句子或图像。模型结构如图所示，Q和V分别是图像和问句的特征表示，大小为d×T，d×N，T为特征图展平后长度，N为句子长
多模态统计图表综述：图表分类，图表理解，图表生成，图表大一统模型猴猴猪猪多模态大模型人工智能深度学习论文阅读
Overview多模态统计图表综述一、图表分类1.1Survey1.2常见分类数据集：1.3常见图表类型二、图表理解2.1VQA2..1.1DVQACVPR20182.1.2PlotQA20192.1.3ChartQA20222.2Summary2.2.1Chart-to-textACL2022三、图表生成
bottom-up-attention-vqa-master 成功复现！！！ hongyuyahei vqa python
代码地址1、create_dictionary.py建立词典和使用预训练的glove向量（1）create_dictionary()遍历每个question文件取出所关注的question部分，qs遍历qs，对每个问题的文本内容进行分词，并将分词结果添加到字典中，True表示添加新词而非索引#创建词典#词典用于将文本数据中的单词映射到唯一的整数标识符defcreate_dictionary(dat
【论文解读】NuScenes-QA：自动驾驶场景的多模态视觉问答基准深度之眼人工智能干货粉丝的投稿深度学习干货自动驾驶人工智能机器学习视觉问答
来源：投稿作者：橡皮编辑：学姐论文链接：https://arxiv.org/pdf/2305.14836.pdf开源代码：https://github.com/qiantianwen/NuScenes-QA摘要：我们在自动驾驶背景下引入了一种新颖的视觉问答（VQA）任务，旨在根据街景线索回答自然语言问题。与传统的VQA任务相比，自动驾驶场景中的VQA提出了更多的挑战。首先，原始视觉数据是多模态的，
论文阅读——Img2LLM（cvpr2023）じんじん论文深度学习人工智能
arxiv：[2212.10846]FromImagestoTextualPrompts:Zero-shotVQAwithFrozenLargeLanguageModels(arxiv.org)一、介绍使用大语言模解决VQA任务的方法大概两种：multi-modalpretrainingandlanguage-mediatedVQA，即多模态预训练的方法和以语言模型为媒介的VQA。Multi-mo
【数据处理】pth文件读取 snow5618 视觉问答 pytorch python
1.数据处理首先将json文件（如下），经过一系列处理好保存在trainset.pth文件中1.1json文件数据预处理----trainset.pth文件self.path_trainset=osp.join(self.subdir_processed,'trainset.pth')#将vqa2.0json文件处理好后存放的地方defprocess(self):dir_ann=osp.join(
论文笔记：Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering hongyuyahei vqa 论文阅读
主要学习该方法在VQA中的用法。摘要自顶向下和自底向上结合的注意力机制，使注意力能够在物体和其他显著图像区域的水平上进行计算。自底向上的机制(基于FasterR-CNN)提出图像区域，每个区域都有一个相关的特征向量，而自顶向下的机制确定特征权重。1、介绍注意力机制上图是：左边：注意力模型在CNN特征上运行，这些特征对应于大小相等的图像区域的统一网格。右边：模型在物体和其他显著图像区域的水平上计算注
LOIS: Looking Out of Instance Semanticsfor Visual Question Answering hanranV 论文阅读人工智能计算机视觉深度学习
目录一、论文速读1.1摘要1.2论文概要总结二、论文精度2.1论文试图解决什么问题？2.2论文中提到的解决方案之关键是什么？2.3用于定量评估的数据集是什么？代码有没有开源？2.4这篇论文到底有什么贡献？2.5下一步呢？有什么工作可以继续深入？一、论文速读论文arxiv链接1.1摘要视觉问答（VQA）作为一种需要在视觉和语言之间架起桥梁以正确推断答案的多模态任务，已被密集研究。最近的尝试开发了各种
Fully Authentic Visual Question Answering Dataset from Online Communities hanranV 论文阅读人工智能
目录一、论文速读1.1摘要1.2论文概要总结相关工作主要贡献论文主要方法实验数据未来研究方向二、论文精度2.1论文试图解决什么问题？2.2下一步呢？有什么工作可以继续深入？一、论文速读arxiv：https://arxiv.org/pdf/2311.15562.pdf1.1摘要视觉问答（VQA）是指关于图像的问题的回答。我们介绍了第一个VQA数据集，其中所有内容都来自真实用例。这个数据集源自在线问
mcan-vqa代码浪里摸鱼 pytorch python 深度学习
总代码readme.md先决条件软硬件要求您可能需要一台至少配备1个GPU(>=8GB)、20GB内存和50GB可用磁盘空间的机器。我们强烈建议使用SSD驱动器来保证高速I/O。您应该首先安装一些必要的软件包：安装Python>=3.5安装Cuda>=9.0和cuDNN使用CUDA安装PyTorch>=0.4.1（也支持PyTorch1.x）安装SpaCy并初始化GloVe如下：$pipinsta
论文阅读——Prophet（cvpr2023）じんじん论文人工智能
一、Framework这个模型分为两阶段：一是答案启发生成阶段（answerheuristicsgenerationstage），即在一个基于知识的VQA数据集上训练一个普通的VQA模型，产生两种类型的答案启发，答案候选列表和答案例子；二是启发增强提示阶段（heuristics-enhancedpromptingstage），即将答案启发、问题、描述融合为一个格式化的提示prompt，引导GPT-
MCAN：Deep Modular Co-Attention Networks for Visual Question Answering——2019 CVPR 论文笔记 BXDBB VQA 论文阅读人工智能深度学习自然语言处理
这是一篇2019年CVPR的论文。作者认为VQA任务需要对图像中的视觉内容和问题中的文本内容进行细粒度和同步的理解。因此，设计一个有效的“共同注意”模型将问题中的关键词与图像中的关键对象相关联是VQA性能提升的核心。论文链接：CVPR2019OpenAccessRepositorycode：GitHub-MILVLG/mcan-vqa:DeepModularCo-AttentionNetworks
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in ... ——2022 CVPR 论文笔记 BXDBB VQA 论文阅读人工智能深度学习
这是今年4月份读的一篇论文了，个人认为这篇文章idea非常有趣，可解释性较强，符合VQA方向的发展趋势。本文从一个新的角度来研究VQA模型的鲁棒性：visualcontext•作者认为VQA模型过度依赖visualcontext，即图像中不相关的对象来进行预测。提出一种名为SwapMix的扰动方法，来诊断模型对visualcontext的依赖与评估模型的鲁棒性。•在模型训练阶段，还能使用SwapM
论文阅读——MCAN（cvpr2019）じんじん论文人工智能
补充一下MCAN-VQA：对图片的处理：首先输入图片到FasterR-CNN，会先设定一个判断是否检测到物体的阈值，这样动态的生成m∈[10,100]个目标，然后从检测到的对应的区域通过平均池化提取特征。第i个物体特征表示为：，所以一张图片就被表示为一个特征矩阵：。对问题的处理：首先分成词，最多分为14个词，然后用300-DGloVewordembeddings变成向量，然后过LSTM，使用LST
NLP实践——VQA/Caption生成模型BLIP-2的应用介绍常鸿宇生成模型自然语言处理计算机视觉自然语言处理 BLIP 多模态
NLP实践——VQA/Caption生成模型BLIP-2的应用介绍1.简介2.模型下载3.运行环境4.模型应用1.简介今天介绍一个跨模态模型，也是最近比较火的一个工作，叫做BLIP-2。很久很久之前我写过一个简单的imagecaption项目的介绍，那个模型原理比较简单，就是encode-decode模式，但是项目却不怎么好运行，而现在，随着技术的迭代升级，还有huggingface社区的加持，想
新王加冕，GPT-4V 屠榜视觉问答夕小瑶人工智能
当前，多模态大型模型（Multi-modalLargeLanguageModel,MLLM）在视觉问答（VQA）领域展现了卓越的能力。然而，真正的挑战在于知识密集型VQA任务，这要求不仅要识别视觉元素，还需要结合知识库来深入理解视觉信息。本文对MLLM，尤其是近期提出的GPT-4V，从理解、推理和解释等方面进行了综合评估。结果表明，当前开源MLLM的视觉理解能力在很大程度上落后于GPT-4V，尤其
多模态常见任务介绍佛系调参多模态大模型人工智能深度学习语言模型
视觉问答（VQA，VisualQuestionAnswer）目标：给定一个图片以及问题，需要理解图片的内容并基于此用自然语言回答问题。例如，图像中发生什么事，人物穿的衣服是什么颜色，图像中有多少架飞机等。例如，TDIUC（TaskDirectedImageUnderstandingChallege）是一个任务导向的图像理解数据集。作者收集了VQAv2等数据集，并进一步划分为12个子任务图像描述（I
YOLO改进系列之注意力机制（CoTAttention模型介绍） BestSongC YOLO 目标检测 pytorch 人工智能深度学习
简介CoTAttention网络是一种用于多模态场景下的视觉问答（VisualQuestionAnswering，VQA）任务的神经网络模型。它是在经典的注意力机制（AttentionMechanism）上进行了改进，能够自适应地对不同的视觉和语言输入进行注意力分配，从而更好地完成VQA任务。CoTAttention网络中的“CoT”代表“Cross-modalTransformer”，即跨模态T
Yolov8改进CoTAttention注意力机制，效果秒杀CBAM、SE code2035 yolo从入门到精通 YOLO 人工智能深度学习目标检测
1.CoTAttention论文地址：2107.12292.pdf(arxiv.org)CoTAttention网络是一种用于多模态场景下的视觉问答（VisualQuestionAnswering，VQA）任务的神经网络模型。它是在经典的注意力机制（AttentionMechanism）上进行了改进，能够自适应地对不同的视觉和语言输入进行注意力分配，从而更好地完成VQA任务。CoTAttentio
视觉问答（VQA）12篇顶会精选论文合集，附常用数据集下载深度之眼深度学习干货人工智能干货人工智能计算机视觉 NLP
今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向：视觉问答（VQA）。视觉问答的任务是：给出一张图片和一个关于这张图片的自然语言问题，计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在图像理解和语言理解上的能力，需要计算机可以像人一样从图片中抽取信息，理解问题，并用自然语言给出合理的回答。作为计算机视觉与语言交互的新兴研究热点，视觉问答涉及了图像处理、计算机视觉、自然语言处
通俗讲解看图说话（Image Captioning）和视觉问答（VQA）任务 top_小酱油
“看图说话”之ImageCaptioning问题介绍ImageCaptioning任务的定义是对一幅图片生成相对于图片内容的文本描述。一个AI系统不仅需要对图片进行识别，也需要理解和解释看到的图片内容，并且能够像人一样描述出图片中的对象之间的关系。-输入：一张图片-输出：一句文本描述最早的imagecaptioning系统是2014年Circa提出的，该系统使用多层感知系统（multi-layer
minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning Kun Li 大模型多模态和生成语言模型人工智能自然语言处理 minigpt
1.introduction不同任务下的回答不同，提出一种以任务为导向的指导训练方法，为每个人物提供一个独特的任务标识符token，为训练视觉问答任务的所有数据样本提供一个[vqa]标识符token，总共提供6个不同的任务标识符。2.method2.1modelarchitecturevisionbackbone：采用EVA作为视觉backbone，在全部训练中都冻结，图像分辨率为448x448，
多模态论文串讲白蜡虫可论文笔记深度学习计算机视觉
多模态论文串讲近几年，尤其是CLIP出现以来，多模态学习的发展异常火爆。除了传统的VQA、图文检索、图像描述等，还有受启发于CLIP的新任务LanguageGuidedDetection/Segmentation、文本图像生成、文本视频生成等。本次串讲主要还是围绕传统多模态任务，包括图文检索、图文问答、视觉推理、视觉蕴含等。本次串讲的内容可分为两部分。第一部分是只用TransformerEncod
Causal Attention论文详解 MLTalks 大模型深度学习人工智能机器学习 pytorch python transformer
1.背景介绍CausalAttention论文是一篇因果推断(causalinference)和注意力(attention)结合的一篇文章，主要用在视觉和文本结合的领域，如VQA(VisualQuestionAnswering)视觉问答。VQA(VisualQuestionAnswering)视觉问答的一个基本流程如下，对输入图进行self-attn编程得到K和V的向量，从文本得到Q的向量进行At
VLP、多模态图文任务（4） x_cube VLP 计算机视觉人工智能自然语言处理语言模型
图文检索、视觉问答（VQA）和图像描述和可以说是文献中最广泛研究的三个图文任务。它们要求AI系统理解输入图像和文本内容。受到语言模型预训练的巨大成功的启发，再加上NLP和CV社区中使用的体系结构的统一，对于开发用于图文任务的VLP方法产生了激增的研究兴趣。具体而言，将大量的图像-标题对输入到同时处理图像和文本的模型中进行预训练，以获得编码丰富的多模态知识并有助于下游任务。在本章中，我们对这种新兴的
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，