统计学习三要素:模型、策略和算法。
模型分类有几种,监督非监督,参数非参数等。监督学习又分为生成方法和判别方法。
生成模型有:朴素贝叶斯和隐马尔科夫。
判别模型有:K近邻,感知机,决策树,逻辑回归,EM,SVM,Boost,CRF.
控制理论中,讲求反馈。其实,这也是自然界中的重要的规律。人生好比海上的波浪,时起时落。社会上很多现象也这样,物极必反。当我们要做出一些改进,决策的时候需要一些反馈,从而不断的调整我们的决策。模型中有很多改进,需要一些反馈。可能是正反馈,也可能是负反馈。像梯度下降是一种负反馈,蚁群算法信息素的更新是一种正反馈。反馈一般是监督学习才有的,明显只有知道结果的好坏才能给出应变,即代价函数(cost function)。下面说一下下面模型的评价标准。
1. 线性回归
2. 逻辑回归
3. 决策树(ID3,C45)
4. 神经网络
5. SVM
6. 贝叶斯分类器
7. Bagging与随机森林
8. 聚类
公式如下:
y(x,w)=w0+w1x1+...+wdxd
或者写成向量相乘: y(x,w)=wTx (x 是一个向量)
最小化平方和误差函数:
E(w)= 12∑nn=1{y(xi,w)−yi}2
扩展:
y(x,w)=wTx 中的 x 为 ϕj(x)=xj
基函数是x的幂指数形式,则为多项式拟合。
顺便说一句:用多项式拟合数据,最小化平方和误差函数可以看成高斯噪声模型假设下的最大似然解。
还有其他基函数如高斯基函数(RBF): ϕj(x)=exp{−(x−μj)2s2}
RBF核函数将原始空间映射到无穷维特征空间(自行百度)。
还有sigmoid基函数。在SVM中也常用这些核函数,此外还有拉普拉斯核等。
正则化
常用L1,L2正则化。
min E(w)= 12∑nn=1{y(xi,w)−yi}2
上面又称为 经验风险最小化。加上正则项之后(防止过拟合),又称为结构风险最小化。
min E(w)= 12∑nn=1{y(xi,w)−yi}2+λJ(W)
L1与L2区别:
两者都是限制w的大小。L2会限制w的大小,减少过拟合,但得不到稀疏效果,使w均趋于0。L1会产生一个稀疏的模型,使一些w变为0。
L1:Lasso回归
J(W)=∑w|w|
L2:Ridge回归
J(W)=∑ww2
稍微提一下,关于L1,L2的贝叶斯解释。
其实正则项就是对w的先验分布。而这些措施都是一些先验知识。
Lasso回归——>laplace先验分布+最大后验估计(MAP)。
Ridge回归——>Gaussian分布+MAP。
参考:正则项解释
hw(x)=g−1(wTx+b)
使用sigmoid 函数, z=wTx+b
hw(x)=11+exp(−z)
将 hw(x) 看做后验概率。
p(y=1|x,w)=hw(x)
p(y=0|x,w)=1−hw(x)
这样似然函数可以写成 p(y|x,w)=hw(x)y(1−hw(x))1−y
极大似然函数 L(w)=p(Y|x,w)=∏ni=1p(y(i)|x(i),w)
=∏nn=1hw(x(i))y(i)(1−hw(x(i)))1−y(i)
然后取似然函数的负对数(又称交叉熵误差函数)取最小值,即可。
E(w)=−lnL(w)=−∑nn=1y(i)ln(hw(x(i)))+(1−y(i))ln(1−hw(x(i)))
ID3算法:
应用信息增益准则选择特征。
C4.5应用信息增益比来选择特征,是ID3的改进。
信息增益准则
信息增益表示:得知特征X信息使Y类信息不确定性减少的程度。
信息增益比
信息增益比:信息增益与训练数据集关于特征A的熵的比。相当于多除以一个关于特征的熵。以减小偏向于选择取值较多的特征。
决策树的剪枝:防止过拟合,简化模型。
CART算法(分类与回归树)
对于分类树用基尼指数(Gini index)最小化准则,选择特征.
回归树用最小化平方误差。
基尼指数,假设样本k个类别,第K类概率为 pk 。
Gini(p)=1−∑Kk=1p2k
==
参考文献: