机器学习 3

Generative Learning Algorithm

refer to http://justin314.blog.163.com/blog/static/18717838720101121115542497/

今天看了一集斯坦福的机器学习课程,讲的是Generative Learning Algorithm。这是与Discriminative Learning Algorithm相对的,DLA是直接学习P(Y|X),例子就是线性回归和logistic regression。而GLA则是走迂回路线,学习P(X|Y),然后根据贝叶斯定理计算P(Y|X)=P(X|Y)P(Y)/P(X),例如Gaussian discriminant analysis和Naive Bayes。

GDA是假设P(X|Y)服从正态分布,然后分别估计P(X|Y=0)和P(X|Y=1)的正态参数。实际上这套方法说出来没有什么不好理解的,以前也在有意无意中想过用过,但是从来没有从理论上思考过它。为什么可以这样用?其实是有贝叶斯公式为理论依据的。老师在最后还讲到GDA是logistic regression的一种特化,或者说GDA蕴含logistic regression。我理解就是,能用GDA学习的都能用logistic regression学出来。虽说GDA假设比较强,貌似适应性差一点,但这其实也是它的好处,假设强就比较容易学习,所需的训练样本数量也要少一些。

Naive Bayes以前用得就更多了。什么图像分类啊、文本聚类啊都有用过这个方法。其实它的理论也比较清晰易懂的。

P(X|Y)=P(X1|Y)P(X2|Y, X1)P(X3|Y, X1, X2)...P(Xn|Y, X1, X2, ..., Xn-1) 这是根据Chain rule得到的
=P(X1|Y)P(X2|Y)P(X3|Y)...P(Xn|Y) 这才是Naive Bayes的关键,即假设输入向量的各维都是独立的

尽管独立假设对于具体的实际问题不一定合理,但这却使计算变得可行。对于n维的输入,只要学习n组参数就可以了。参数的估计也比较简单,就是加法和除法了。

最后,老师讲了Laplace smoothing。这个名词看起来好陌生,听他一讲才知道,原来也是接触过的。Laplace smoothing其实就是平常说的add-one smoothing。Add-one听起来有点太直白,还是Laplace显着高深,呵呵。

你可能感兴趣的:(Algorithm,2010)