HOTR: End-to-End Human-Object Interaction Detection with Transformers
模型在vcoco场景1上的验证效果模型在vcoco场景2上的验证效果模型在HICO-DET上的验证效果HOTR的模型结构图如下所示:在代码中如何实现的?在Backbone中:(1)将图片([bs,3,H,W])送入CNN模型中进行特征提取,使用了ResNet50,得到特征图src([bs,2048,h,w])(2)引入位置编码pos_embed[bs,256,h,w],query_embed([1