学习TensorFlow(2)

《学习TensorFlow(2)》这节只学习了机器学习基础--多分类。

学习内容包括:1.Softmax多分类公式   2.Loss function 损失函数(似然函数与交叉熵)   3.一个简单的Softmax分类例子   4.手写数字识别Softmax分类例子   5.神经网络手写数字识别Softmax分类例子

1.Softmaxt多分类公式

在Logistic regression二分类问题中,我们可以使用sigmoid函数将输入Wx+b映射到(0,1)区间中,从而得到属于某个类别的概率。将这个问题进行泛化,推广到多分类问题中,我们可以使用softmax函数,对输出的值归一化为概率值

这里假设在进入softmax函数之前,已经有模型输出C值,其中C是要预测的类别数,模型可以是全连接网络的输出a,其输出个数为C,即输出为a1,a2,...,aC。所以对每个样本,它属于类别i的概率为: 

softmax公式,保证了属于各个类别的概率和为1
softmax的作用就是归一化类别概率

python中,定义的softmax函数:

按softmax公式定义的softmax()函数

注意:当输入x值较大时,exp(x)就会溢出。所以很多机器学习算法中都会使用激活函数,将值变回到[-1,1]的区间内。

exp()溢出

如果仍要输入较大数值x,可以改写softmax()函数,具体请参考:Softmax函数与交叉熵 文章。

2.Loss function 损失函数

2.1 对数似然函数

机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类标签为t,我们的目标是找到这样的θ使得p(t|x)最大。在二分类的问题中,我们有: 

二分类的损失函数

其中,y=f(x)是模型预测的概率值,t是样本对应的类标签。将问题泛化为更一般的情况,多分类问题: 

多分类的损失函数

由于连乘可能导致最终结果接近0的问题,一般对似然函数取对数的负数,变成最小化对数似然函数。 

最小化对数似然函数

2.2 交叉熵Cross-Entropy

交叉熵是机器学习(Machine Learning, ML)领域经常会被提到的名词。

2.2.1 什么是信息量?

假设X是一个离散型随机变量,其取值集合为X,概率分布函数为p(x)=Pr(X=x),x∈X,我们定义事件X=x0的信息量为:

x0事件的信息量

具体例子参考:小明和小王考试 (简略版:小明能考试及格的概率为0.1,小王能考试及格的概率为0.999,则对应事件A:小明及格。信息量为I(xA)=−log(0.1)=3.3219 ;对应事件B:小王及格。信息量为I(xB)=−log(0.999)=0.0014)  信息量可以理解为,一个事件发生的概率越大,则它所携带的信息量就越小

2.2.2 什么是熵?

假设小明的考试结果是一个0-1分布XA只有两个取值{0:不及格,1:及格},在某次考试结果公布前,小明的考试结果有多大的不确定度呢?

怎么来度量这个不确定度?求期望!我们对所有可能结果带来的额外信息量求取均值(期望)。

小明:及格概率为0.1,他的信息量求平均值(期望)的分数
小王:及格概率为0.999,他的信息量求平均值(期望)的分数

再假设一个成绩相对普通的学生小东,他及格的概率是P(xC)=0.5,即及格与否的概率是一样的,对应的熵: 

小东:及格概率为0.5,他的信息量求平均值(期望)的分数

小东的不确定性比前边两位同学要高很多,在成绩公布之前,很难准确猜测出他的考试结果。 可以看出,熵其实是信息量的期望值它是一个随机变量的确定性的度量熵越大,变量的取值越不确定,反之就越确定。

信息熵公式:

信息熵的定义公式 (离散型随机变量X)
信息熵的定义公式 (连续型随机变量X)

2.2.3 什么是相对熵?

相对熵又称为KL散度(Kullback-Leibler Divergence),用来衡量两个分布之间的距离,记为DKL(p||q)。它度量当真实分布为p时,与假设分布q的差异程度的方法

相对熵的定义公式,注:H(p)是p的熵

2.2.4 什么是交叉熵?

假设有两个分布p和q,它们在给定样本集上的相对熵定义为: 

从这里可以看出,交叉熵和相对熵相差了H(p),而当p已知的时候,H(p)是个常数,所以交叉熵和相对熵在这里是等价的,反映了分布p和q之间的相似程度。交叉熵在计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。实例表明,该方法简洁有效.易于计算机自适应实现。交叉熵不失为计算语言学消岐的一种较为有效的工具交叉熵可在神经网络(机器学习)中作为损失函数p表示真实标记的分布q则为训练后的模型的预测标记分布交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

3.一个简单的Softmax分类例子

一个简单的softmax多分类例子:

softmax()多分类例子

4.一个简单的手写数字识别Softmax分类例子

手写数字识别的图片大小:

手写数字识别的图片大小都是规范的,28*28

一个简单的手写数字识别代码:

MNIST数据集  softmax()多分类,前部分代码
MNIST数据集  softmax()多分类,后部分代码
运行结果截图  精确率:0.8863

5.神经网络手写数字识别Softmax分类例子

一个神经网络模型的手写数字识别例子:

MNIST数据集 神经网络 softmax()多分类,前部分代码  
MNIST数据集 神经网络 softmax()多分类,后部分代码  
运行结果截图   精确率:0.9482

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

通过《学习TensorFlow(1)》与《学习TensorFlow(2)》总结:1)如果输出神经元是线性的,那么loss function选择二次代价函数比较合适;如果输出神经元是S型函数(eg:sigmoid函数),那么loss function选择交叉熵函数比较合适。   2)tf.nn.sigmoid_cross_entropy_with_logits()来表示跟sigmoid搭配使用的交叉熵; tf.nn.softmax_cross_entropy_with_logits()来表示跟softmax搭配使用的交叉熵。


参考文章:

【1】香港科技大学TensorFlow三天速成课件

【2】Softmax函数与交叉熵   

【3】交叉熵(Cross-Entropy)

【4】如何通俗的解释交叉熵与相对熵?

【5】深度学习最常用的学习算法:Adam优化算法

你可能感兴趣的:(学习TensorFlow(2))