监督学习下
输入与输出空间可以是有限元素的集合,也可以是整个欧式空间
特征空间:所有特征向量(对实例的表示)存在的空间
假设空间:输入空间到输出空间映射的集合,即包含所有可能的模型的集合
有时候假设输入空间和特征空间是相同的空间,但有时候也假设他们是不同的空间,把实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的
所以MAP和MLE在优化时的不同就是在于增加了一个先验项 − l o g P ( θ ) -logP(\theta ) −logP(θ)
从数学表达式的角度来说,两者最大的区别就在这里:贝叶斯估计引入了先验概率,通过先验概率与似然概率来求解后验概率。而最大似然估计是直接通过最大化似然概率来求解得出的。最大似然估计没有考虑模型本身的概率,或者说认为模型出现的概率都相等。而贝叶斯估计将模型出现的概率用先验概率的方式在计算过程中有所体现。
在现在看来,Frequentist与Bayesian这两派还将长期并存,在各自适合的领域发挥自己的作用。
正则化项可以取不同的形式。从贝叶斯估计角度看,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
为什么L1和L2正则化可防止过拟合
l1 相比于 l2 为什么容易获得稀疏解?
生成模型
联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)——>条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac {P(X,Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大。建立在bayes理论的基础之上
主要是对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。
由于产生式方法可以在联合分布空间插入变量、不变量、独立性、先验分布等关系的知识。因此,在联合分布空间,通用性(或称多面性)是其本质。这包括了系统中的未知的、观察到的、输入或输出变量,这就使得产生式概率分布成为一个非常灵活的建模工具。
产生式分类器需产生的所有变量的联合概率分布仅仅是分类任务的中间目标,对该中间目标优化的过程,牺牲了最终分类判别任务上的资源和性能,影响了最终的分类性能。
朴素贝叶斯、隐马尔科夫
判别模型
直接学习条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X) 或者决策函数 f ( X ) f(X) f(X)
有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。
寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。
当训练数据较少的时候Logistic Regression分类器的效果比较差,随着训练数据的增加其对测试数据的分类正确率快速增加。而NaiveBayes分类器对于训练数据的多少并不敏感,分类效果比较稳定。
参考链接
极大似然估计与最大后验概率估计
最大似然估计MLE与贝叶斯估计