机器学习方法概论2

机器学习方法概论2

     前面已经介绍到监督学习的模型假设空间了,那么怎么把模型中的最好的选择出来呢,这就涉及到最优化理论中的一些方法了。所以说机器学习是是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个邻域的交叉学科了。首先来看几个重要的概率。
    代价函数(cost function)或损失函数(loss function)是预测值与真实值之间的错误程度,之所以不用两者的“差值”而用“程度”,因为代价函数不一定是用差值来表示的,还可以用平方差,用对数等等。假设选取了一个决策函数f,损失函数就是预测值f(X)和输出Y的非负实值函数,记作L(Y,f(X))。损失函数值越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望(又称期望损失 expected loss)是:

注意,这里是之所以可以用联合分布P(X,Y)来求期望,是因为f(X)是关于X的函数,L(Y,f(X))实质上是关于(X,Y)的函数,所以这样求期望是符合的。学习的目标就是选择期望损失最小的模型,而由于P(X,Y)我们是不知道的,这样上述式子就没法直接计算出一个式子出来,然后像求导啥的来解。正因为不知道,所以才要学习。
    期望损失是求积分,是针对所有的变量(X,Y)来解,我们没法去找到所有的变量,但我们可以搞些训练数据,就是所有的变量(X,Y)的一部分数据,这样可以求给定的训练数据集下(假设有N个样本)的平均损失,即经验风险(empirical risk)
  
根据大数定律,当样本容量N趋于无穷时,经验风险就趋于期望风险,所以一个很自然的想法就是用经验风险估计期望风险,但是毕竟现实中训练样本数目是有限的,甚至很小,所以用经验风险估计期望风险常常并不理想,但是也没有什么好的办法了,那么久只能在后期对经验风险进行一定的矫正
    如何矫正,就是我们所用的极大似然估计(maximum likelihood estimation)、贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP 之类的策略了。这讲起来又是很多内容,只是把大家引到这里,知道为什么要用这些方法,在什么情况下导出的用这些方法。这些在监督学习中都叫策略,两个基本的策略是:经验风险最小化结构风险最小化
   经验风险最小化(empirical risk minimization,ERM)认为:经验风险最小的模型就是最优的模型,根据这一策略,就是求解如下最小化问题:
      

在现实中,当样本容量足够大时,能有较好的效果,被广泛采用,极大似然估计就是经验风险最小策略。但是,当样本容量很小时,效果就未必好了,会产生“过拟合(over-fitting)”现象,过拟合就是指学习时选择的模型所包含的参数过多(一般参数越多,模型越复杂,且对于已知的数据能很好的拟合),以至于出现这一,模型对已知训练数据预测得很好,但对未知数据预测得很差的现象。
   结构风险最小化(structural risk minimization,SRM),是为了防止过拟合而提出的策略,等价于正则化(regularization),结构风险就是在经验风险上加上表示模型复杂度的正则化项(regularizer),正则化项可以是模型参数向量的范数,可以取不同的形式,例如回归问题中用到的L2范数。正则化的作用是选择经验风险与模型复杂度同时较小的模型,正则化符合奥卡姆剃刀(Occam's razor)原理奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。从贝叶斯估计的角度来看,正则化对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。在假设空间、损失函数以及训练数据确定的情况下,结构风险定义是:
         
J(f)为模型复杂度,是定义在假设空间(即所有模型)上的泛函,模型f越复杂,复杂度J(f)就越大。最大后验概率估计就是结构风险最小化的一个例子。相应的结构风险策略认为结构风险最小的模型就是最优模型,所以就是求解如下最优化问题:
                       

    如何求解上面两个最优化的问题,并且高效准确,又是另一个重要的话题了,这里不展开,还是那句话只是引进来。 模型选好后怎么评价,就是一些列定义的误差率、正确率啥的,这里也不展开了。到此,我觉得应该对机器学习的一个大概过程心中应该是有数了,我建议大家都能去这样推一推理一理,这样在以后的学习中碰到更多的新知识时会更加明确到底是干嘛,以及会让自己已经理解的系统不断庞大,最后从一个初学者中蜕变出来。(完)
     

你可能感兴趣的:(机器学习)