三、线性神经网络

3.1 线性回归

3.1.1.1 随机梯度下降‘

三、线性神经网络_第1张图片

其中, |β|表示每个小批量中的样本数,这也称为批量大小(batch),\eta 表示学习率(learning rate)。w,b称为超参数,根据训练迭代结果进行调整。

3.1.2 矢量化加速

意思就是说尽量调用库里的运算代码。

3.1.3 正态分布与平方损失

主要结论:均方误差损失函数可用于线性回归。

证明过程:

1、假设噪声服从正态损失。噪声正态分布如下:

2、因此,通过给定x所得到特定y的似然为:

3、通过最小化负对数似然-logP(y|x),得到结果除去常数部分后,与均方误差一样。因此可证明,在高斯噪声的假设下,最小化均方误差仍等价于对线性模型的极大似然估计。

3.2 softmax 回归

 3.2.1 分类问题

可通过回归来预测分类问题,分别计算每个类别的概率,并通过独热编码(one-hot)表示分类数据,类别对对应的分量设置为1,其余分量设置为0。

3.2.2 网络架构

仿射函数:每个输出对应一个仿射函数。例如在由4个输入,3个输出的分类问题中,对应的三个仿射函数为:

因此可将softmax回归视作一个单层神经网络,其输出层是一个全连接层。

3.2.3 损失函数

3.2.3.1 对数似然

softmax函数给出了一个向量\hat{y},可以视作“对给定任何输入x的每个类的条件概率。假设整个数据集共有n个样本 ,通过最小化负对数似然损失函数为:,也称为交叉熵损失。

3.2.3.2 softmax及其导数

3.2.4 信息论基础

3.2.4.1 熵

熵比较大(即平均编码长度较长),意味着这一信息有较多的可能状态,相应的每个状态的可能性比较低,

  3.2.4.2 交叉熵

表示预测概率与真实概率之间的差距,交叉熵越小,差距越小。若预测完全准确,则交叉熵为0。

         

    将其作为损失,得到的梯度为:

你可能感兴趣的:(人工智能,神经网络,人工智能,深度学习)