论文内可解释性分析

目录

  • 3 TEPM(Text-Enhanced Prototype Module)
    • 3.1 为什么要进行文本增强?(动机)
    • 3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv?
    • 3.3 为什么 Q=F_C,K=V=F_R ?(第一层注意力)
    • 3.4 为什么要进行两层注意力?
    • 3.5 为什么最终结果会更好?
    • **3.6 面试官可能问的挑战性问题**

3 TEPM(Text-Enhanced Prototype Module)

3.1 为什么要进行文本增强?(动机)

TEPM(Text-Enhanced Prototype Module) 通过 跨模态融合 提高了类别原型的质量。

少样本学习(Few-Shot Learning, FSL)中,类别原型(Prototype)是关键。

  • CLIP 的视觉特征 Fv 可能不够区分性,特别是对于细粒度的动作类别(例如“挥手”和“鼓掌”)。
  • 文本特征 T 蕴含了类别的语义信息,可以提供额外的上下文,让类别原型更加稳健。
  • 直接使用 CLIP 处理后的 Fv 作为类别原型可能丢失了语义关联,因此需要引入文本增强。

3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv?

Concat(Fv, T) 提供了 显式的模态拼接,Repeat(T) + Fv 通过广播让文本影响整个时序信息。两者结合,使得文本特征能够更深入地影响视频表征,而不是简单地拼接。

  1. 拼接 (Concat):

    • 直接拼接 F_C = cat(Fv, T)

你可能感兴趣的:(Attention,多模态)