Seeing Voices and Hearing Faces: Cross-modal biometric matching
我们介绍了一个看似不可能完成的任务:只给某人一段讲话的音频,从两张人脸图像中判断出哪个是说话者。在本文中,我们研究了这一点,以及一些相关的跨模态任务,旨在回答以下问题:我们能从脸部周围的声音推断出多少信息,反之又能推断出多少信息?我们在野外研究这个任务,使用目前公开的数据集,从静态图像识别人脸(VGGFace)和从音频识别说话人(VoxCeleb)。这为跨模态匹配的静态和动态测试提供了训练和测试场