一、 线性回归
线性回归的基本要素
模型
为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:
数据集
我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set),一栋房屋被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征(feature)。特征用来表征样本的特点。
损失函数
在模型训练中,我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差,且数值越小表示误差越小。一个常用的选择是平方函数。 它在评估索引为 ii 的样本误差的表达式为
优化函数 - 随机梯度下降
当模型和损失函数形式较为简单时,上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解(analytical solution)。本节使用的线性回归和平方误差刚好属于这个范畴。然而,大多数深度学习模型并没有解析解,只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解(numerical solution)。
在求数值解的优化算法中,小批量随机梯度下降(mini-batch stochastic gradient descent)在深度学习中被广泛使用。它的算法很简单:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所组成的小批量(mini-batch) BB ,然后求小批量中数据样本的平均损失有关模型参数的导数(梯度),最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。
(w,b)←(w,b)−η|B|∑i∈B∂(w,b)l(i)(w,b)
(w,b)←(w,b)−η|B|∑i∈B∂(w,b)l(i)(w,b)
学习率: ηη 代表在每次优化中,能够学习的步长的大小
批量大小: BB 是小批量计算中的批量大小batch size
总结一下,优化函数的有以下两个步骤:
(i)初始化模型参数,一般来说使用随机初始化;
(ii)我们在数据上迭代多次,通过在负梯度方向移动参数来更新每个参数
二、softmax和分类模型
softmax的基本概念
分类问题
一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。
图像中的4像素分别记为 x1,x2,x3,x4x1,x2,x3,x4 。
假设真实标签为狗、猫或者鸡,这些标签对应的离散值为 y1,y2,y3y1,y2,y3 。
我们通常使用离散的数值来表示类别,例如 y1=1,y2=2,y3=3y1=1,y2=2,y3=3 。
神经网络图
下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样,也是一个单层神经网络。由于每个输出 o1,o2,o3o1,o2,o3 的计算都要依赖于所有的输入 x1,x2,x3,x4x1,x2,x3,x4 ,softmax回归的输出层也是一个全连接层。
softmax回归是一个单层神经网络
既然分类问题需要得到离散的预测输出,一个简单的办法是将输出值 oioi 当作预测类别是 ii 的置信度,并将值最大的输出所对应的类作为预测输出,即输出 argmaxioiargmaxioi 。例如,如果 o1,o2,o3o1,o2,o3 分别为 0.1,10,0.10.1,10,0.1 ,由于 o2o2 最大,那么预测类别为2,其代表猫。
输出问题
直接使用输出层的输出有两个问题:
一方面,由于输出层的输出值的范围不确定,我们难以直观上判断这些值的意义。例如,刚才举的例子中的输出值10表示“很置信”图像类别为猫,因为该输出值是其他两类的输出值的100倍。但如果 o1=o3=103o1=o3=103 ,那么输出值10却又表示图像类别为猫的概率很低。
另一方面,由于真实标签是离散值,这些离散值与不确定范围的输出值之间的误差难以衡量。
softmax运算符(softmax operator)解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布:
其中
容易看出 y1+y2+y3=1y1+y2+y3=1 且 0≤y1,y2,y3≤10≤y1,y2,y3≤1 ,因此 y1,y2,y3y1,y2,y3 是一个合法的概率分布。这时候,如果 y2=0.8y2=0.8 ,不管 y1y1 和 y3y3 的值是多少,我们都知道图像类别为猫的概率是80%。此外,我们注意到
计算效率
单样本矢量计算表达式
为了提高计算效率,我们可以将单样本分类通过矢量计算来表达。在上面的图像分类问题中,假设softmax回归的权重和偏差参数分别为
设高和宽分别为2个像素的图像样本 ii 的特征为
预测为狗、猫或鸡的概率分布为
softmax回归对样本 ii 分类的矢量计算表达式为
小批量矢量计算表达式
为了进一步提升计算效率,我们通常对小批量数据做矢量计算。广义上讲,给定一个小批量样本,其批量大小为 nn ,输入个数(特征数)为 dd ,输出个数(类别数)为 qq 。设批量特征为 X∈Rn×dX∈Rn×d 。假设softmax回归的权重和偏差参数分别为 W∈Rd×qW∈Rd×q 和 b∈R1×qb∈R1×q 。softmax回归的矢量计算表达式为
其中的加法运算使用了广播机制, O,Y∈Rn×qO,Y∈Rn×q 且这两个矩阵的第 ii 行分别为样本 ii 的输出 o(i)o(i) 和概率分布 y(i)y(i) 。
交叉熵损失函数
对于样本 ii ,我们构造向量 y(i)∈Rqy(i)∈Rq ,使其第 y(i)y(i) (样本 ii 类别的离散数值)个元素为1,其余为0。这样我们的训练目标可以设为使预测概率分布 y(i)y(i) 尽可能接近真实的标签概率分布 y(i)y(i) 。
平方损失估计
然而,想要预测分类结果正确,我们其实并不需要预测概率完全等于标签概率。例如,在图像分类的例子里,如果 y(i)=3y(i)=3 ,那么我们只需要 y(i)3y3(i) 比其他两个预测值 y(i)1y1(i) 和 y(i)2y2(i) 大就行了。即使 y(i)3y3(i) 值为0.6,不管其他两个预测值为多少,类别预测均正确。而平方损失则过于严格,例如 y(i)1=y(i)2=0.2y1(i)=y2(i)=0.2 比 y(i)1=0,y(i)2=0.4y1(i)=0,y2(i)=0.4 的损失要小很多,虽然两者都有同样正确的分类预测结果。
改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中,交叉熵(cross entropy)是一个常用的衡量方法:
其中带下标的 y(i)jyj(i) 是向量 y(i)y(i) 中非0即1的元素,需要注意将它与样本 ii 类别的离散数值,即不带下标的 y(i)y(i) 区分。在上式中,我们知道向量 y(i)y(i) 中只有第 y(i)y(i) 个元素 y(i)y(i)y(i)y(i) 为1,其余全为0,于是 H(y(i),y(i))=−logyy(i)(i)H(y(i),y(i))=−logyy(i)(i) 。也就是说,交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确。当然,遇到一个样本有多个标签时,例如图像里含有不止一个物体时,我们并不能做这一步简化。但即便对于这种情况,交叉熵同样只关心对图像中出现的物体类别的预测概率。
假设训练数据集的样本数为 nn ,交叉熵损失函数定义为
其中 ΘΘ 代表模型参数。同样地,如果每个样本只有一个标签,那么交叉熵损失可以简写成 ℓ(Θ)=−(1/n)∑ni=1logy(i)y(i)ℓ(Θ)=−(1/n)∑i=1nlogyy(i)(i) 。从另一个角度来看,我们知道最小化 ℓ(Θ)ℓ(Θ) 等价于最大化 exp(−nℓ(Θ))=∏ni=1y(i)y(i)exp(−nℓ(Θ))=∏i=1nyy(i)(i) ,即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。