论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)
因为我的方向是场景图,所以仅介绍这篇论文中有关场景图的内容,不涉及VQA。(a)FeatureExtraction先对输入图像进行目标检测,每个proposal的视觉特征x包括以下特征:ROIAlignfeature(2048维),空间feature(8维),论文这里说视觉特征不局限于bbox,实例分割特征和全景特征也可以。(b)构建可学习的对称矩阵S(1)S的计算方法如下:f(xi,xj)称为对