Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning(TubeViT论文翻译)
RethinkingVideoViTs:SparseVideoTubesforJointImageandVideoLearningAJPiergiovanniWeichengKuoAneliaAngelova论文链接Abstract我们提出了一个将ViT编码器变成一个有效的视频模型的方法,它可以无缝地处理图像和视频输入。通过对输入进行稀疏采样,该模型能够从图像和视频输入中进行训练和推理。该模型易于