从0到1:神经网络实现图像识别(上)

本文及其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次。

  • 书的购买链接
  • 书的勘误,优化,源代码资源

纸上得来终觉浅,绝知此事要躬行。

“神经网络”是“机器学习”的利器之一,常用算法在TensorFlow、MXNet计算框架上,有很好的支持。

为了更好的理解与使用这件利器,我们可以不借助计算框架,从零开始,一步步构建模型,实现学习算法,并在一个图像识别数据集上,训练这个模型,再验证模型预测的准确率。

首先,我们来了解一个简洁的分类模型-感知机(perceptron)模型,感知机是1957年由Rosenblatt提出的线性二类分类模型,也是人工神经网络方法的理论基石。

从0到1:神经网络实现图像识别(上)_第1张图片

By the study of systems such as the perceptron, it is hoped that those fundamental laws of organization which are common to all information handling systems, machines and men inclued,may eventually understood.(探究感知机这类体系,我们有望最终理解那些基本法则,那些将”信息认知“,赋能于机器和人类的基本法则。)

- Frank Rosenblatt@Connell Aeronautical Laboratory

 

感知机模型

想像D维空间里分布着个线性可分的实例点  ,当D=3时,这个空间即是一个便于理解的三维空间,其上的任意实例点,都三个特征  、  和  ;实例点看作是3维实数向量  ,三个特征决定了实例点的二分类类别  。

从0到1:神经网络实现图像识别(上)_第2张图片

由输入实例点特征,到输出类别  的映射,可表示为如下感知机函数: 

其中“·”表示两个向量的内积(inner product) 运算,  称为权值向量(weight vector), b称为偏置(bias)

sign(自变量)是符号函数,将自变量,进一步映射到yi的输出类别{+1,-1}上。

接下来定义D维空间里超平面,用线性方程表示: 

这个超平面按照输出类别yi={+1,-1}将实例点  划分在平面两侧,

对正实例点  有 

对负实例点  有 

从0到1:神经网络实现图像识别(上)_第3张图片

根据平面点法式方程的定义,是超平面的法向量,需要回顾的话,可以通过以下步骤反证:

1、由于平面上任意两个不同实例点,  和  都满足 

2、而内积的几何意义,是一个向量在另一个向量方向上的投影长度,与另一个向量长度的乘积。

可知是与分离超平面上任意切向量正交的法向量。

通过某种学习策略找到权值向量(法向量)和偏置(截距)b这两个参数,确定划分正负实例点的超平面,就可以对输入的D维空间上散布的线性可分实例点,做二类分类预测。

 

学习策略

为了找到合适的权值向量和偏置b,首先定义连续可导的损失函数(loss function),再将损失函数极小化,以找到所有可能的分离超平面中,较优的一个;如果损失函数是凸函数,还可以用数值方法,得到全局最优解,学习策略就成为求解最优化问题:

是所有能划分输入样本点的感知机模型f的集合,N是(训练)样本容量,L是模型f的损失函数。

损失函数仅仅是一次预测的好坏度量,然而根据大数定理,当样本容量N足够大时,样本点集合上,由损失函数得到的平均损失,趋近于总体分布在分类模型上的期望损失,从而可以用数理统计方法得到理想概率模型的近似解。

损失函数有多种经典选择,对二类分类问题,可以选择造成模型损失的误分类点,到分离超平面的总距离,来度量损失:

对任意一个样本点,我们可以根据点到平面的距离公式,得出它到超平面  的距离: 

其中,  是法向量到D维空间原点的欧式距离,也称为的L2范数 ,记作||w||,

同时,根据超平面的定义,一个误分类的实例点  , 有:

得到所有误分类实例点到超平面的总距离为: 

在优化损失函数使损失极小时,函数取值的数值缩放正倍数不影响优化方法,所以损失函数可以进一步写为:

直观理解,损失越小,误分类点距离超平面越近,直到所有样本点都被正确分类,损失为0,可知  是  的连续可导函数。

求解最优化问题:

变成了损失函数极小时,参数 ,b 的求解:

 

从0到1:神经网络实现图像识别(上)_第4张图片

学习算法

一种求解算法是 随机梯度下降(stochastic gradient descent),先为,b 设置初始值如 0 ,然后用梯度下降法,让参数不断更新梯度  和  ,来极小化损失函数。 

同样:

为便于灵活调整每次梯度下降的尺度,引入参数“步长” 或“学习率” η,根据随机选出的误分类点,来更新参数:

可以证明,这个算法在线性可分数据集上是收敛的;通过不断随机选取误分类点,更新和 , 通过有限次迭代,能找到一个可以把线性可分正负实例点划分在两侧的分离超平面。

从0到1:神经网络实现图像识别(上)_第5张图片

至此,我们看到感知机解决了D维空间内,N个线性可分实例点的二分类问题;那么这个方法是否能处理多类分类问题, 比如之前介绍的,MNIST数据集上的10类分类问题呢?

 

答案是肯定的。

 

下一次,我们把感知机模型改进推广到分类类别 K>2 的情况,并根据改进后策略和学习算法,在MNIST手写数字识别数据集上,训练模型参数,初步得到一个识别率尚可(>90%)的结果。

(上篇完)

 

参考

[1] 李航 .统计学习方法. 北京:清华大学出版社,2012

[2] Rosenblatt, F. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review.1958,65(6), 386-408

你可能感兴趣的:(机器学习,人工智能)