NNDL 实验八 网络优化与正则化(1) 小批量梯度下降法

本章内容主要包含两部分:

  • 网络优化:通过案例和可视化对优化算法、参数初始化、逐层规范化等网络优化算法进行分析和对比,展示它们的效果,通过代码详细展示这些算法的实现过程。
  • 网络正则化:通过案例和可视化对ℓ1和ℓ2正则化、权重衰减、暂退法等网络正则化方法进行分析和对比,展示它们的效果。

提醒

在本书中,对《神经网络与深度学习》中一些术语的翻译进行修正。

Normalization翻译为规范化、Dropout翻译为暂退法。

NNDL 实验八 网络优化与正则化(1) 小批量梯度下降法_第1张图片

7.1 小批量梯度下降法(Mini-Batch Gradient Descent)

在具体实现中,梯度下降法可以分为三种方式:

  • 批量梯度下降 全部样本
  • 随机梯度下降 单个随机样本
  • 小批量梯度下降 小批量随机样本

区别在于批大小(Batch Size)不同。根据不同的数据量和参数量,可选择不同的实现形式。

影响神经网络优化的主要超参有三个:

  1. 批大小
  2. 学习率
  3. 梯度计算

ref:

NNDL 实验7 - HBU_DAVID - 博客园 (cnblogs.com)

11. 优化算法 — 动手学深度学习 2.0.0-beta1 documentation (d2l.ai)

4.5. 权重衰减 — 动手学深度学习 2.0.0-beta1 documentation (d2l.ai)

4.6. 暂退法(Dropout) — 动手学深度学习 2.0.0-beta1 documentation (d2l.ai)

你可能感兴趣的:(DeepLearning,深度学习,神经网络)