11:ERNIE-VIL:KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH
1.介绍为了学习图片和文本的联合表征,我们提出了知识增强的方法ERNIE-Vil,ERNIE-Vil尝试构建详细的语法连接(物体,属性,以及物体在视觉场景的关系)目前模型不区分常见词,本文将其分为object,attribute,relationship。1.1OscarOscar是比较典型的单流结构,效果似乎很好,但我们需要比较每个word和图片的关系,灵活性似乎不足。2.2CLIPCLIP是双