机器学习中所谓的学习就是从海量数据中学习到“经验”,再将这种“经验”应用与对未知数据的预测与分析!而这种思想的本质就是来自于统计学。可以所以说机器学习的本质就是统计学习方法,所以要研究机器学习的原理,就一定要从统计学习开始!
机器学习中的学习算法通常分为4类:
监督学习:数据为的数据都是有标签的数据,然后对数据集数据进行学习,通过学习到的方法对新数据进行预测的学习方式。
无监督学习:与监督学习相反的,无监督学习我们喂给她 的无标签的数据,对数据进行聚类等方式进行学习从而可以实现预测的共嗯那个
还有两种分类的算法用到的不多,或者说是我用的不多,他们是半监督学习和强化学习,不过据说强化学习很厉害,有时间研究下!!!!
方法=模型+策略+算法
模型:就是要学习一个什么样的模型
策略:以怎样的方式来学习这个模型
算法:通过什么样的方法对模型进行求解
统计学习的三要素对所有分类的学习方法都适用,之后对所有方法的讨论都将遵循这三个要素!
这篇文章主要介绍下对监督学习介绍下!
在监督学习过程中,模型的选择就是,下面两者之一
回顾下”极大似然估计“
其核心思想就是,我现在知道了事情的结果了,我想知道是谁干的?
也就是说我知道了实验的结果,这个实验的分布模型我们已经知道了,但是这个模型里面一个参数是不知道的,那么我就去求让实验结果同时发生的概率(密度)最大化(最有可能发生)时候的参数是多少。
这个逻辑和我们正常已知分布模型和参数去求概率是个反向的过程
决策函数模型
此模型多少拥有回归算法
条件概率分布模型
此模型多少用于分类算法
2018年1月17日补充(广义分类):其实这里提到的分类是狭义范围上的分类算法,也就是监督学习的分类。而我们也可以从广义范畴来认识”分类“,分类算法可分为监督学习,无监督学习(就是我们常说的聚类),半监督。
2018年1月17日补充(统计学习的目标):我认为,既然统计学习方法的目的就是学习数据后预测数据,那么模型的设计思想必有相同之处,条件概率分布模型,其实不是我们最终想要得到的,我们想要的是把X喂给你,你告诉我是哪个分类就行,所以对这个模型就行包装下,当给定X时候,哪个条件概率分布越大就是哪个分类,而这其实也属于决策函数模型,所以我认为,至少在监督学习的这个范畴内,其目标都是求解一个”决策函数模型”!
监督学习中,一直在围绕着一个思想在做延伸,其实这种思想非常好理解。
比如我们自己做一个万能公式去预测一些数据,我们来怎么认定我们的万能公式是好的呢?所谓预测,就是预测值要无限的趋近于真实值,最理想的模型就是预测值=真实值,如果可以做到这点,那么我们这个模型就非常完美了,但现实中很难做到。所以我们就在我们的预测公式后面再加一项来弥补两者的误差—-**损失函数**L(Y,f(X))。
通常,损失函数的期望E[L(Y,f(X))]被定为为风险函数或期望损失。
那么问题来了,怎么求解风险函数呢?答案是,没办法求解,为什么呢?
因为联合概率密度p(X,Y)是未知的,所以在无法通过这种方式求解,那我们就另辟蹊径!因为我们知道下面的公式:
根据这个原理,我们重构我们的风险函数,因为重构后的是根据经验数据得到的期望,故称其为经验风险:
好了,到此处,我们的学习策略从损失函数最小化升级为经验风险最小化。
应用这个经验风险有个前提条件就是(根据其原理公式),要在样本数据足够大的时候,根据大数定律,样本均值等于样本期望。
极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布且损失函数是对数函数时,经验风险最小化等价于极大似然估计。这一结论在线性回归推导中将得到应用。
但是,当样本容量很小,阶数过高时候,参数往往没有抑制项,就是说没人约束参数了,这样经验风险中的参数theta有时候就会很大,导致过拟合,所以为了解决这个问题,引出了“惩罚项”(正则项),也就是对经验函数进行正则化。从而抑制过拟合。
好了,到这里,我们将经验风险最小化升级为经验风险最小化或者结构风险最小化的问题。
其实这个很好理解,但此算法非彼算法,而是数学算法,就是在模型有了,策略有了的基础上,我们该通过什么样的数学思想来求出我们想要的东西的呢?这种思想就是这里说的监督学习的算法
我们所有的监督学习的学习策略都遵循这这一原则。
相信大家看完这篇能对整个统计学习方法,监督学习有个整体性的认识.我也刚刚接触算法不久肯定有很多不足!希望批评指正,接下来我将写监督学习的回归和分类算法的文章,希望能把所有的知识逻辑织成一个网.