拥有更好的文本视频交互,DRL 分离框架改进 CLIP4Clip

出品人:Towhee 技术团队

尽管 CLIP4Clip 实现了跨模态文本/视频检索,但该网络结构依然存在一些局限性或改进空间。于是 2022 年初,便有 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。 在视频检索任务中,改良后的模型大幅提升了在各大文本视频数据集上的精度。

拥有更好的文本视频交互,DRL 分离框架改进 CLIP4Clip_第1张图片

Overview of DRL for Text-Video Retrieval

CLIP4Clip 在计算文本和视频的相似度时,只考虑了两个模态的总体表征,缺少细粒度的交互。比如,当文字描述只对应了视频的一部分帧时,如果抽取视频的整体特征,那么模型可能会被其它视频帧的信息干扰与误导。DRL 对 CLIP4Clip 提出两个重要改进,一个是 Weighted Token-wise Interaction,进行相似度的稠密预测,通过 max 操作找到潜在的激活的 token。另一个是 Channel Decorrelation Regularization,通道去相关正则可以减少通道间信息的冗余和竞争,使用协方差矩阵度量通道上的冗余。

相关资料

更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)


你可能感兴趣的:(机器学习人工智能)