明天考试今天简单理解理解吧
物体检测中,不同大小和分辨率的多个proposal的特征细节在进行分类的时候是互补的,来自这些proposal的上下文特征的整合是目标检测中的基本问题,在本文中,作者提出了一种门控双向神经网络(GBD网络),用于在特征学习和特征提取的过程中在来自不同proposal的特征之间传递信息。这种信息传递可以通过两个方向上相邻的proposal之间的卷积来实现,并且可以在不同层之中进行。
在不同分辨率的proposal之间根据不同的图像实例来控制传递信息是非常必要的,蓝色框代表GT,红色框是候选框,由于(a)中相似的局部特征和(b)中对遮挡区域的忽略,很难对proposal进行分类。
作者的思路就是来自不同分辨率和proposal的特征验证彼此的存在,例如兔子耳朵在局部区域的存在有助于加强兔子头的存在,而兔子上半身在更大的context区域存在也有助于验证兔子头的存在,因此作者建议具有不同分辨率和proposal的特征应该在多个层中互相传递信息,以便于在特征学习和特征提取过程中共同验证。
GBD-Net采集Context信息的方式是直接在目标窗口基础上放大窗口以获得更多的context信息,或缩小窗口以保留更多的目标细节,以此得到多个support region,双向连接的网络让不同尺度和分辨率的信息在每个support region之间相互传递,从而综合学习到最优的特征。然而如研究动机中所说,并非所有的上下文信息都能给决策带来“正能量”,所以在双向互通的连接上都加了一个“门”,以此控制context信息的相互传播。