Talk预告 | 腾讯AI Lab研究员童湛&南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

Talk预告 | 腾讯AI Lab研究员童湛&南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测_第1张图片

本期为TechBeat人工智能社区465线上Talk!

北京时间12月22(周四)20:00腾讯AI Lab研究员——童湛&南京大学计算机科学与技术系硕士研究生——谈婧的Talk将准时在TechBeat人工智能社区开播!

他们与大家分享的主题是: “基于注意力机制的视频自监督表示学习和时序动作检测”,届时将分享在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。

Talk·信息

主题:基于注意力机制的视频自监督表示学习和时序动作检测

嘉宾:腾讯AI Lab研究员 童湛

南京大学计算机科学技术系硕士研究生 谈婧

时间:北京时间 12月22日(周四) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

点击下方链接,即可观看视频

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=742

Talk·介绍

基于注意力机制的视频自监督表示学习和时序动作检测

视频理解已经成为现阶段人工智能领域的研究热点和难点,视频自监督表示学习和时序动作检测是其中的关键技术。注意力机制(Attention)已经在视觉、语音、自然语言处理等领域展现了强大的表示和建模能力。在本次Talk中,我们将介绍在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。

基于掩码和重建的视频自监督预训练范式

目前最先进的视觉自注意力模型 (Vision Transformer)通常需要先在超大规模的图像或视频数据集上进行预训练, 才能在相对较小的数据集上展示出卓越的性能。在这个工作中,我们利用掩码式自监督预训练的方式对Vision Transformer进行预训练。我们设计了一种带有极高掩码比率的管道式掩码策略,并且提出了视频掩码自编码器(VideoMAE),释放Vision Transformer在视频理解相关任务上的强大表征能力。

Talk大纲如下:

  • 问题引入

  • 目前领域存在的问题

  • 方法:视频掩码自编码器

  • 实验:消融实验与结果

  • 可视化分析

  • 总结

基于可学习查询点的多类别时序动作检测框架

经典时序动作检测任务往往局限于同一个视频中只包含单一类别、不重叠动作的理想情况。但在现实场景中,不同类别的动作常常同时发生。因此,我们关注多类别场景下的时序动作检测,旨在检测多类别视频中所有的动作。该任务具有着细粒度动作识别和并发动作的精细定位两大挑战。为了应对这些挑战,我们在NeurIPS2022提出PointTAD,可以灵活地基于一组可学习的查询点同时定位动作边界帧和关键帧,构建精细动作表征。

Talk大纲如下:

  • 问题引入:时序动作检测是什么?为什么要研究多类别场景下的时序动作检测?

  • 相关工作及存在的问题

  • 方法:查询点的核心思想、PointTAD模型总览、动作查询量的更新流程、可学习查询点与多层次交互模块的具体设计

  • 实验:消融实验与结果

  • 可视化分析

  • 总结

Talk·预习资料

  • paper: https://arxiv.org/abs/2203.12602

  • code: https://github.com/MCG-NJU/VideoMAE

  • paper: https://arxiv.org/abs/2210.11035

  • code: https://github.com/MCG-NJU/PointTAD  

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

Talk预告 | 腾讯AI Lab研究员童湛&南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测_第2张图片

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

Talk预告 | 腾讯AI Lab研究员童湛&南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测_第3张图片

童湛

腾讯AI Lab研究员

童湛,腾讯AI Lab研究员,硕士毕业于南京大学计算机科学与技术系,导师为王利民。主要研究方向包含计算机视觉、深度学习、视频理解、视频自监督表征学习等。

Talk预告 | 腾讯AI Lab研究员童湛&南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测_第4张图片

谈婧

南京大学计算机科学与技术系硕士研究生

谈婧,南京大学计算机科学与技术系硕士研究生,导师为王利民教授,本科毕业于南京大学匡亚明学院计算机方向,未来前往香港中文大学MMLab攻读博士。硕士期间在计算机视觉和机器学习顶会ICCV和NeurIPS上作为第一作者发表两篇工作。主要研究方向包含计算机视觉、深度学习、视频理解、时序动作检测。

 -The End-

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

你可能感兴趣的:(每周Talk上架,计算机视觉,视频理解,视频自监督表征学习,时序动作检测)