Multi-level Knowledge Injecting for Visual Commonsense Reasoning

背景

本篇的工作来自北大彭宇新组,论文被TCSVT接收

摘要

题为多级知识注入的VCR方法,作者认为计算机在推理方面弱势是由于:
(1)计算机不具备人类日积月累的各种常识
(2)计算机不具备认知级别的多步推理能力
针对以上两点,作者提出的CKRM网络分别包括多级知识迁移网络Multi-level knowledge transfer network基于知识的推理Knowledge based reasoning两个模块来解决上述问题。

方法

Multi-level knowledge transfer network
多级知识迁移网络,多级知识迁移器分别是:
Cell-level Transfer、Layer-level Transfer、Attention-level Transfer
从知识迁移字面理解,不难得知作者使用的是迁移学习的手段,通过从源域学习到知识(视为是常识)来用于目标域中(即VCR任务中)。源域任务使用的是文本推理数据集SWAG(通过给定一个上下文,模型选择一个合适的结尾来描述接下来要发生事),任务形式如下:(正确答案已经黑体标出)
Multi-level Knowledge Injecting for Visual Commonsense Reasoning_第1张图片

Multi-level knowledge transfer network模块结构

Multi-level Knowledge Injecting for Visual Commonsense Reasoning_第2张图片
由图可知,源域和目标域均使用BiLSTM处理文本特征。
cell-level transfer:在处理正式任务VCR时,每个LSTM单元的输入包括上一个时间步的输出 h k − 1 T h_{k-1}^T hk1T、对应的源域LSTM该单元的输入 s k s_k sk:(对两者进行以权重参数 λ k \lambda_k λk进行加权)
在这里插入图片描述
layer-level transfer
取源域LSTM和目标域LSTM最后一个隐层的输出来作为全局上下文特征。送入到第二阶段的推理模块
在这里插入图片描述
Attention-level transfer
将源域的两路文本特征输出后有attention交互操作,交互后得到权重信息会送入到目标域正式任务的attention操作中,作为额外的知识对正式任务进行引导。

基于知识的推理Knowledge based reasoning

第二部分推理模块的输入包括三部分:
图像特征、attention-level的引导信息、layer-level的引导信息
推理部分写的不详细啊(又是BiLSTM进行推理)
前两部分输入用来获得attended 视觉区域表示。

结论

本文提出了一种获取外部常识知识并注入其以支持视觉常识推理任务的CKRM框架。首先,我们提出了一个多层次的知识转移网络,从不同的角度捕捉知识,即单元级、层级和注意力级的源任务信息。其次,我们进一步提出了一种基于知识的推理方法,该方法可以充分利用转移的知识来推导推理结果。作为一个端到端的架构,我们的方法可以联合优化,相互促进迁移学习和推理。我们在VCR上进行了实验来验证我们提出的方法的有效性。在以后的工作中,我们将加入更多的知识类型来辅助视觉常识推理任务。深度学习与传统人工智能方法相结合是一个很有前途的方向,我们将探索如何更好地将经典的基于知识的方法与深度学习相结合。

你可能感兴趣的:(深度学习)