深度学习理论学习笔记

文章目录

    • 数据
        • 数据少
    • 优化
        • SGD
        • 动量
        • Nesterov 加速梯度
        • Adagrad
        • Adam
      • 学习率
    • 正则化
        • 岭回归(Tikhonov 正则化)
        • Lasso回归(l1范数)
        • 弹性网络(ElasticNet)
    • 样式迁移
      • 损失函数
      • Tips

数据

有代表性,防止样本偏差

数据少

无监督预训练
辅助任务预训练,用低层的权重(特征)

优化

SGD

动量

与前一次梯度关系很大,动量参数设置在0(高摩擦)和1(无摩擦)之间

Nesterov 加速梯度

测量损失函数的梯度不是在局部位置,而是在动量方向稍微靠前,加速

Adagrad

对简单问题有效,但是它经常停止得太早。 学习率被缩减得太多,以至于在达到全局最优之前,算法完全停止

Adam

就像动量优化一样,它追踪过去梯度的指数衰减平均值,就像 RMSProp 一样,它跟踪过去平方梯度的指数衰减平均值

学习率

性能调度:
每 N 步测量验证误差(就像提前停止一样),当误差下降时,将学习率降低一个因子 λ 。
指数调度:
将学习率设置为迭代次数 t 的函数:在这里插入图片描述 。 这很好,但它需要调整 η0 和 r 。 学习率将由每 r 步下降 10 倍。容易实现。常用

正则化

防止过拟合——早期停止、正则化

岭回归(Tikhonov 正则化)

在这里插入图片描述
训练时加上正则项,测试时去掉。在使用岭回归前,对数据进行放缩,算法对于输入特征的数值尺度(scale)非常敏感。大多数的正则化模型都是这样的。

Lasso回归(l1范数)

弹性网络(ElasticNet)

前两者结合
在这里插入图片描述

如果你的特征仅有少数是真正有用的,你应该选择 Lasso 和弹性网络。稀疏模型在训练过程中应用强 l1 正则化。

样式迁移

深度学习理论学习笔记_第1张图片

损失函数

样式迁移的损失函数即内容损失、样式损失和总变差损失的加权和

  • 总变差降噪(total variation denoising):设置总变差损失,使能够尽可能使邻近的像素值相似

Tips

训练集的维度越高,过拟合的风险就越大——降维

你可能感兴趣的:(深度学习,深度学习,人工智能,机器学习)