直播预告 | ICLR’22:用于高效时空表征学习的统一变换器

直播预告 | ICLR’22:用于高效时空表征学习的统一变换器_第1张图片

「AI Drive」是由 biendata 和 PaperWeekly 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。

本期 AI Drive,我们邀请到中国科学院深圳先进技术研究院二年级博士生-黎昆昌,为大家在线解读其发表在 ICLR 2022的最新研究成果:用于高效时空表征学习的统一变换器。对本期主题感兴趣的小伙伴,4月 26日(周二)晚 7 点,我们准时相约 AI_Drive  B 站直播间。

一、​直播信息

1、演讲摘要:

视频帧间存在巨大的局部冗余性与复杂的全局依赖性,使得从视频中学习丰富的多尺度语义信息极具挑战。现有的两大主流模型CNN和ViT,往往只关注解决问题之一。卷积只在局部小邻域聚合上下文,天然地避免了冗余的全局计算,但受限的感受野难以建模全局依赖;而自注意力通过比较全局相似度,自然将长距离目标关联,但可视化分析表明,自注意力在浅层编码局部特征十分低效。在UniFormer中,我们以Transformer的风格统一了卷积与自注意力,在网络浅层和深层分别解决冗余性与长时依赖性两大问题。实验表明,UniFormer不仅在视频分类上性能优越,而且拓展到图像分类、检测、分割和姿态估计任务上,同样效果

你可能感兴趣的:(人工智能)