关注并星标
从此不迷路
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2201.04620v1.pdf
计算机视觉研究院专栏
作者:Edison_G
「大量的实践经验已被提炼成这份强大的深度学习模型调参指南。」——Geoffrey Hinton。
转自《机器之心》
众所周知,AI 的超参数决定着模型学习效果和速度。相比普通机器学习任务,深度学习需要的训练时间较长,因此调参技巧就显得尤为重要。
但鉴于深度学习「炼丹」的特性,不同的模型需要不同的超参数,而每个超参的意义又不同,在不同实验中,参数和调整的方向又都不一样。调参这件事一直以来没有固定的套路,每个人都有自己的经验,因此经常会出现一些似是而非的理论,比如:
Random seed = 0 得到坏的结果
Random seed = 42 得到好的结果
为了破除「迷信」,高举科学旗帜,近日来自谷歌大脑、哈佛大学的研究人员发布了《Deep Learning Tuning Playbook》,旨在帮助大家解决这一 AI 领域的老大难问题。
项目 GitHub 上线仅一天就已收获了上千 Star 量:
项目地址:https://github.com/google-research/tuning_playbook
该项目也得到了图灵奖获得者,谷歌 AI 科学家 Geoffrey Hinton 等人的转推支持。Geoffrey Hinton 表示「大量的实践经验已被提炼成这份强大的深度学习模型调参指南。」
文档意义
这份调参指南适用于对改进深度学习模型性能感兴趣的工程师和研究人员。阅读这份指南需要掌握机器学习和深度学习的基本知识。
这份指南的主要内容是调整超参数,也涉及深度学习训练的其他方面,例如 pipeline 实现和优化。指南假设机器学习问题是一个监督学习问题或自监督学习问题,但其中的一些规定也适用于其他类型的问题。
当前,深度神经网络就像一个黑箱,要想在实践中获得良好的性能,需要付出大量的努力和猜测。更糟糕的是,很少有人记录各种研究获得良好结果的实际方法。人们似乎在回避详解实践中的调参问题,也极少分享经验。这让深度学习专家获得的实验结果,与普通从业者复现相似方法获得的结果差距悬殊。
随着深度学习方法的成熟并对世界产生重要影响,深度学习社区需要更多涵盖有用方法的资源,包括对于获得良好结果至关重要的所有实用细节。
本项目是一个由五名研究人员和工程师组成的团队,他们在深度学习领域工作多年,其中一些人早在 2006 年就开始了。
该团队已经将深度学习应用于从语音识别到天文学的各个领域的问题,并在此过程中学到了很多东西。本文档源于工程师们训练神经网络、教授新机器学习工程师以及为同事提供深度学习实践建议的经验。虽然深度学习早已从实验室实践的机器学习方法发展为数十亿人使用的技术驱动产品,但它作为一门工程学科仍处于起步阶段。
该指南是谷歌研究人员在构建自有深度学习方法时产生的,它代表了作者在撰写本文时的观点,而不是任何客观规律。为此,作者鼓励发现其中存在问题的读者提出替代建议和令人信服的证据,以便不断更新完善这份指南。
需要说明的是,这不是 TensorFlow 等谷歌产品的官方支持文档。
指南内容
该指南包含哪些内容?可以分为四大部分:
指导开始新项目
改善模型性能的科学方法
如何决定每次训练运行步数
训练过程中的其他经验
例如第一部分,你开始新项目时如何选择模型架构、优化器、batch 大小等,都有详细的经验指导。
该指南中关于选择模型架构的经验。
而后关于「炼丹」的模型性能改进、训练运行的步数等也有经验分享。
可以说,这份指南可以教你提升模型性能的大量细节。看完下面目录,大家可以去Github细致学习下。
© The Ending
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
利用先进技术保家卫国:深度学习进行小目标检测(适合初学者入门)
用于精确目标检测的多网格冗余边界框标注
华为诺亚方舟实验室品:加法神经网络在目标检测中的实验研究
多尺度特征融合:为检测学习更好的语义信息(附论文下载)
CVPR2020最佳目标检测 | AdderNet(加法网络)含论文及源码链接
代码实践 | CVPR2020——AdderNet(加法网络)迁移到检测网络(代码分享)
人脸专集1 | 级联卷积神经网络用于人脸检测
人脸专集知识巩固2 | 人脸关键点检测汇总(文末有相关文章链接)
纯干货:Box Size置信度偏差会损害目标检测器(附源代码)
优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位(代码待开源)