<Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation>论文阅读

论文链接:论文

论文简介:

        这是一篇CVPR2018的论文,主要针对的是Visual Relationship Detection任务。论文主要利用谓词及对之间的强相关性(strong correlations)来推断谓词。同样由于这个原因,联合建模比独立建模更能准确地反映三个实体之间的关系,但是由于视觉关系的语义空间巨大(种类过多),训练数据有限,这会使得学习变得复杂。为了解决这个问题,论文利用语言统计学的知识来学习视觉模型,从训练注释和外部知识之中来计算给定对时谓词的概率分布。同时,作者认为,仅依靠单纯的visual cue难以准确的识别出谓词,提出联合object,subject和他们的空间位置来对谓词进行综合预测。

主要贡献:

利用视觉和语言表征在视觉关系检测中的作用,利用内部和外部语言知识来规范端到端深层神经网络的学习过程,以显著提高其预测能力和泛化能力。

论文笔记:

(1)、论文针对的分类方法是将一整个三元组看作一类,这种方法面临的是巨大的语义空间,因此论文提出用训练注释和外部知识来作为规范化信息来帮助CNN的训练。

(2)、论文框架:

<Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation>论文阅读_第1张图片

给定一幅图像,提取其中的三个特征:

①、检测到的物体的联合剪裁图像

②、对象的语义表示

③、从检测到的边界盒对中或得到的空间特征

论文将三个特征连接起来,然后使用真实标签GT和得到的知识来训练一个FC层进行预测输出,将数据驱动的模型称为student Network,语言规范化模型成为Teacher Network

 (3)、语言知识提炼(Linguistic Knowledge Distillation)

在语言知识提炼这一模块之中,分为两个部分:

①、初步在DNNs中整合知识及将知识提炼用于Visual Relationship Detection

        虽然论文中这两个部分是分开的,但是个人觉得这两部分基本是紧密相连,就放到一块说了。这一步采用的是X. Ma等人在论文的思路,这里放一位大佬的解读

指路:解读

        所谓knowledge distillation,就是使student network的输出的概率分布不断接近teacher network输出的概率分布。另外teacher network的输出也不是一成不变的,teacher network是根据student network的概率输出及规则空间联合决定的(这里我个人觉得可以理解为生成-判别之间的相互学习,判别网络需结合一些现有的规则,以更符合实际情况),因此在每一轮更新上都需重新构建teacher network:

使用KL-divergence(又称相对熵(relative entropy)) ,衡量两个概率分布之间的相似程度。

②、语言知识集合(Linguistic Knowledge Collection)

        为了得到语言知识的一个先验P(predict|object,subject),一种简单的方法是统计训练数据的注释信息,但这会带来很严重的Long-Tail问题,论文搜集互联网上的更多不可见的语言知识

(4)、 Semantic and Spatial Representations

        论文认为,语义和空间表征捕获了视觉关系之间的相似性,可以更好地概括不可见视觉关系的相似性,使用word embedding来代表语义标签,而空间表征则由如下计算:

                ​​​​​​​        

 而后根据语义表征、空间特征、及区域的联合表示来决定谓词的预测: 

        ​​​​​​​        <Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation>论文阅读_第2张图片​​​​​​​

你可能感兴趣的:(深度学习,计算机视觉,神经网络)