关于深度学习的一些概念

一、网络篇

视频讲解:https://www.zhihu.com/zvideo/1339968067628105728
字面解释:https://www.zhihu.com/question/399611596

  • Backbone: 主干网络,大多是提取特征,比如 resnet、VGG
  • Neck: 更好的利用Backbone提取的特征
  • Head:获取网络输出内容的网络,利用前提取的特征,做出预测
  • bottleneck: 瓶颈,通常指网络输入的数据维度和输出的维度不同,输出的维度比输入小了许多,通常设置256;
  • Gap: Global Average Pool 全局平均池化,就是将某个通道的特征取平均值;
  • Embedding: 抽取特征并表示为向量,这一过程就是embedding;

二、一些概念

目标检测中常用的:https://zhuanlan.zhihu.com/p/137769687

1. warm up

参考:https://blog.csdn.net/chen1234520nnn/article/details/120152226
https://blog.csdn.net/weixin_40051325/article/details/107465843

  • warmup介绍
    warmup可以称为训练热身。由于神经网络在刚开始训练的时候是非常不稳定的,因此刚开始的学习率应当设置得很低很低,这样可以保证网络能够具有良好的收敛性。但是较低的学习率会使得训练过程变得非常缓慢,因此这里会采用以较低学习率逐渐增大至较高学习率的方式实现网络训练的“热身”阶段,随着训练的进行学习率慢慢变大,到了一定程度,以设置的初始学习率进行训练,接着过了一些inter后,学习率再慢慢变小;学习率变化:上升——平稳——下降

  • warmup具体步骤
    启用warm up,设置warm up setp(一般等于epoch*iter_one_epoch),当step小于warm up setp时,学习率等于基础学习率×(当前step/warmup_step),由于后者是一个小于1的数值,因此在整个warm up的过程中,学习率是一个递增的过程!当warm up结束后,学习率以基础学习率进行训练,再学习率开始递减。

2. 权重衰减(weight decay)

https://wenku.baidu.com/view/52e2e5e388d63186bceb19e8b8f67c1cfad6ee1f.html

L2正则化的⽬的就是为了让权重衰减到更⼩的值,在⼀定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。
在损失函数中,weight decay是放在正则项(regularization)前⾯的⼀个系数,正则项⼀般指⽰模型的复杂度,所以weight decay的作⽤是调节模型复杂度对损失函数的影响,若weight decay很⼤,则复杂的模型损失函数的值也就⼤。

你可能感兴趣的:(深度学习,leetcode,pytorch,python)