教材选用《动手学深度学习》，李沐等著；

单层神经网络

单层神经网络是最简单的神经网络，有线性回归（linear-regression）和Softmax回归（softmax-regression）。

线性回归

线性回归的基本要素：模型（model）、模型训练、模型预测。

线性回归模型yˆ = x1w1 + x2w2 + b，其中 w1, w2 是权重（weight），b 是偏差（bias），且均为标量。
模型训练的要素有：训练数据、损失函数、优化算法。

训练数据
在机器学习术语里，训练模型所用的数据集叫训练集（training set），其中每个样本（sample）都有自己真实的标签（label），⽤来预测标签的两个因素叫做特征（feature）。
损失函数
模型训练中，需要衡量预测值和真实值之间的误差，机器学习中将衡量误差的函数成为损失函数（loss function），常用的函数有平方函数，这里称之为平方损失（square loss），也就是拟合中的最小二乘法。
优化算法
在模型和损失函数较为简单时，解可以直接用公式表示，这类解叫做解析解（analytical solution）。而大多数深度学习模型没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫做数值解（numerical solution）。
在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被⼴泛使⽤。在每次迭代中，先随机均匀采样⼀个由固定数⽬训练数据样本所组成的小批量（mini-batch）B；然后求小批量中数据样本的平均损失有关模型参数的导数（梯度）；最后⽤此结果与预先设定的⼀个正数η的乘积作为模型参数在本次迭代的减小量。
|B| 代表每个小批量中的样本个数（批量⼤小，batch size），η 称作学习率（learning rate）并取正数。需要强调的是，这⾥的批量⼤小和学习率的值是⼈为设定的，并不是通过模型训练学出的，因此叫做超参数（hyperparameter），我们通常所说的“调参”指的正是调节超参数。

模型预测得到的是最优解的一个近似，用于估算训练数据集以外的解，也称为模型推断或模型测试。

线性回归的表示方法：神经网络图和矢量计算表达式。

线性回归神经网络图

神经⽹络图隐去了模型参数权重和偏差。

Softmax回归

线性回归模型适⽤于输出为连续值的情景，对于离散值预测问题，我们可以使⽤诸如 softmax 回归在内的分类模型，softmax 回归的输出单元从⼀个变成了多个，且引⼊了 softmax 运算使得输出更适合离散值的预测和训练。

softmax 回归神经网络图

softmax运算符解决了直接使用输出层的问题，它通过运算符将输出值转化为值为正且和为 1 的概率分布。
在softmax回归中，为了更适合衡量两个概率分布差异，通常使用 交叉熵（cross entropy）作为损失函数。为了理解交叉熵参阅了以下资料：
1.交叉熵在信息论中的解释 - 知乎
2.交叉熵和最大似然估计 -
3.从最大似然估计看交叉熵 - 博客园
4.最大似然估计在统计学中的解释 - 马同学
从中看出，虽然领域不同交叉熵和最大似然估计（MLE）有着异曲同工之处。

多层感知机

带多层感知机的神经网络图

为了使神经网络引入非线性特性，在隐藏层中的神经元要使用激活函数（Activation functions），常用的激活函数包括 ReLU 函数、sigmoid 函数和 tanh 函数。

ReLU 函数

ReLU 函数公式

ReLU 函数图
sigmoid 函数

sigmoid 函数公式

sigmoid 函数图
tanh 函数

tanh 函数公式

tanh 函数图

模型选择

训练误差和泛化误差

模型在训练集上更准确时，在测试集上不一定准确。这是因为误差分为在训练集上的训练误差（training error）和测试集上的泛化误差（generalization error），机器学习模型应关注降低泛化误差。
在机器学习中，评估若⼲候选模型的表现并从中选择模型的过程称为模型选择（model selection），我们预留一部分在训练数据集和测试数据集以外的数据来进行模型选择，这部分数据被称为验证集（validation set）。
为了有效利用验证集，常用K 折交叉验证（K-fold cross-validation），先把原始训练数据集分割成 K 个不重合的⼦数据集，然后做 K 次模型训练和验证。每⼀次，我们使⽤⼀个⼦数据集验证模型，并使⽤其他 K − 1 个⼦数据集来训练模型。

⽋拟合和过拟合

模型训练中经常出现两类典型问题,⼀类是模型⽆法得到较低的训练误差，我们将这⼀现象称作⽋拟合（underfitting）,另⼀类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。虽然有很多因素可能导致这两种拟合问题，在这⾥我们重点讨论两个因素：模型复杂度和训练数据集⼤小。

模型复杂度
给定训练数据集，如果模型的复杂度过低，很容易出现⽋拟合；如果模型复杂度过⾼，很容易出现过拟合。应对⽋拟合和过拟合的⼀个办法是针对数据集选择合适复杂度的模型。
训练数据集⼤小
⼀般来说，如果训练数据集中样本数过少，过拟合更容易发⽣。我们通常希望训练数据集⼤⼀些，特别是层数较多的深度学习模型。

对过拟合问题的常⽤⽅法有权重衰减（weight decay）和丢弃法（dropout）。

权重衰减

权重衰减等价于L2 范数正则化（regularization），L2 范数正则化在模型原损失函数基础上添加 L2 范数惩罚项，从而得到训练所需要最小化的函数。L2 范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。L2 范数正则化令权重 w1 和 w2 先⾃乘小于 1 的数，再减去不含惩罚项的梯度。因此，L2范数正则化⼜叫权重衰减。

丢弃法

除了权重衰减以外，深度学习模型常常使⽤丢弃法（dropout）来应对过拟合问题。由于在训练中隐藏层神经元的丢弃是随机的，从而在训练模型时起到正则化的作⽤，并可以⽤来应对过拟合。在测试模型时，我们为了拿到更加确定性的结果，⼀般不使⽤丢弃法。

正向传播、反向传播和计算图

正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。

正向传播计算图

上述正向传播图中，x为特征，z为中间变量，h为隐藏层变量，o为输入层变量，L为单个样本损失项，s为正则化项，J=L+s为给定数据样本的目标函数（正向传播）。

反向传播指的是计算神经网络参数梯度的方法。总的来说，反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。

在训练深度学习模型时，正向传播和反向传播之间相互依赖。在模型参数初始化完成后，交替地进行正向传播和反向传播，并根据反向传播计算的梯度迭代模型参数。

数值稳定性和模型初始化

深度模型有关数值稳定性的典型问题是衰减（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。举个例子，假设输入和所有层的权重参数都是标量，比如权重参数为 0.2 和 5，多层感知机的第 30 层输出为输入分别与 0.230≈1×10−21 （衰减）和 530≈9×1020 （爆炸）的乘积。
在神经网络中，我们通常需要随机初始化模型参数。如果将每个隐藏单元的参数都初始化为相等的值，这些参数在使用基于梯度的优化算法迭代后值依然相等，这种情况下，无论隐藏单元有多少，隐藏层本质上只有 1 个隐藏单元在发挥作用。因此，通常将神经网络的模型参数，特别是权重参数进行随机初始化。

深度学习基础知识学习笔记