2022:Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval
摘要近些年跨模态图像-配方检索得到了广泛的关注。我们提出一种新的检索框架,T-Food(用于跨模态食物检索的多模态正则化的Transformer解码器),使用一种新的正则化方案利用模态间的交互作用,在测试时只使用单模态编码器用于高效检索。我们还利用专门的配方编码器捕获配方实体间的内部依赖,并提出一种具有动态边缘的三重损失的变体,以适应任务的难度。最后,我们利用最近的VLP模型的力量用于图像编码器,