直播 | 旷视研究院最新理论成果:批归一化和权重衰减的球面优化机制

「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。

本期 PW Live,我们邀请到旷视研究院基础模型组算法研究员万若斯,为大家带来批归一化和权重衰减的球面优化机制的主题分享。

对本期主题感兴趣的小伙伴,7 月 9 日(周四)晚 7 点,我们准时相约 PaperWeekly B 站直播间。

分享提纲

批归一化(Batch Normalization,BN)和权重衰减(weight decay,WD)以其出色稳定的表现成为了当今各种深度学习模型的标准配置,但它们的理论机制,一直以来仅有模糊的定性分析。

在这次报告中,我将介绍 BN 和 WD 对深度神经网络的训练过程的共同作用的球面优化机制(Spherical Motion Dynamics, SMD)。值得注意的是,我们基于球面优化机制的定量理论结果,不受限于模型的结构、数据集或任务类型,可以在诸如 ImageNet,COCO 等基于真实数据的复杂计算机视觉任务上得到完美验证。

本次分享的具体内容有:

  • BN与WD的背景

    • BN的表达方式与放缩不变形

    • BN和WD对损失函数的地形的影响

  • BN和WD的球面优化机制

    • 球面优化机制的推导

    • 球面优化机制的部分性质

  • 实验结果

    • 在不同模型、数据集、计算机视觉任务上验证球面优化机制

    • 讨论球面优化机制对调参的影响

  • 结论

嘉宾介绍

 万若斯 / 旷视研究院算法研究员 

万若斯,现为旷视研究院基础模型组的算法研究员。在北京大学数学科学学院取得应用数学学士学位,并在北京大学前沿交叉学院获得数据科学硕士学位。主要研究方向是深度学习模型与训练方法的理论基础。

直播地址 & 交流群

本次直播将在 PaperWeekly B 站直播间进行,扫描下方海报二维码点击阅读原文即可免费观看。线上分享结束后,嘉宾还将在直播交流群内实时 QA,在 PaperWeekly 微信公众号后台回复「PW Live」,即可获取入群通道

B 站直播间:

https://live.bilibili.com/14884511

直播 | 旷视研究院最新理论成果:批归一化和权重衰减的球面优化机制_第1张图片

合作伙伴

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

你可能感兴趣的:(直播 | 旷视研究院最新理论成果:批归一化和权重衰减的球面优化机制)