本期为TechBeat人工智能社区第465期线上Talk!
北京时间12月22日(周四)20:00,腾讯AI Lab研究员——童湛&南京大学计算机科学与技术系硕士研究生——谈婧的Talk将准时在TechBeat人工智能社区开播!
他们与大家分享的主题是: “基于注意力机制的视频自监督表示学习和时序动作检测”,届时将分享在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。
Talk·信息
▼
主题:基于注意力机制的视频自监督表示学习和时序动作检测
嘉宾:腾讯AI Lab研究员 童湛
南京大学计算机科学技术系硕士研究生 谈婧
时间:北京时间 12月22日(周四) 20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
点击下方链接,即可观看视频
TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=742
Talk·介绍
▼
基于注意力机制的视频自监督表示学习和时序动作检测
视频理解已经成为现阶段人工智能领域的研究热点和难点,视频自监督表示学习和时序动作检测是其中的关键技术。注意力机制(Attention)已经在视觉、语音、自然语言处理等领域展现了强大的表示和建模能力。在本次Talk中,我们将介绍在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。
基于掩码和重建的视频自监督预训练范式
目前最先进的视觉自注意力模型 (Vision Transformer)通常需要先在超大规模的图像或视频数据集上进行预训练, 才能在相对较小的数据集上展示出卓越的性能。在这个工作中,我们利用掩码式自监督预训练的方式对Vision Transformer进行预训练。我们设计了一种带有极高掩码比率的管道式掩码策略,并且提出了视频掩码自编码器(VideoMAE),释放Vision Transformer在视频理解相关任务上的强大表征能力。
Talk大纲如下:
问题引入
目前领域存在的问题
方法:视频掩码自编码器
实验:消融实验与结果
可视化分析
总结
基于可学习查询点的多类别时序动作检测框架
经典时序动作检测任务往往局限于同一个视频中只包含单一类别、不重叠动作的理想情况。但在现实场景中,不同类别的动作常常同时发生。因此,我们关注多类别场景下的时序动作检测,旨在检测多类别视频中所有的动作。该任务具有着细粒度动作识别和并发动作的精细定位两大挑战。为了应对这些挑战,我们在NeurIPS2022提出PointTAD,可以灵活地基于一组可学习的查询点同时定位动作边界帧和关键帧,构建精细动作表征。
Talk大纲如下:
问题引入:时序动作检测是什么?为什么要研究多类别场景下的时序动作检测?
相关工作及存在的问题
方法:查询点的核心思想、PointTAD模型总览、动作查询量的更新流程、可学习查询点与多层次交互模块的具体设计
实验:消融实验与结果
可视化分析
总结
Talk·预习资料
▼
paper: https://arxiv.org/abs/2203.12602
code: https://github.com/MCG-NJU/VideoMAE
paper: https://arxiv.org/abs/2210.11035
code: https://github.com/MCG-NJU/PointTAD
Talk·提问交流
▼
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
▼
童湛
腾讯AI Lab研究员
童湛,腾讯AI Lab研究员,硕士毕业于南京大学计算机科学与技术系,导师为王利民。主要研究方向包含计算机视觉、深度学习、视频理解、视频自监督表征学习等。
谈婧
南京大学计算机科学与技术系硕士研究生
谈婧,南京大学计算机科学与技术系硕士研究生,导师为王利民教授,本科毕业于南京大学匡亚明学院计算机方向,未来前往香港中文大学MMLab攻读博士。硕士期间在计算机视觉和机器学习顶会ICCV和NeurIPS上作为第一作者发表两篇工作。主要研究方向包含计算机视觉、深度学习、视频理解、时序动作检测。
-The End-
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区