在前面跟随者台大机器学习基石课程和机器学习技法课程的设置,对机器学习所涉及到的大部分的知识有了一个较为全面的了解,但是对于没有动手写程序并加以使用的情况,基本上是不可能掌握好的。特别是我的学习进程是突击式的,因此,会很快忘掉,心中只剩下一个基本的纲要,所以后面要通过讲解更为详细的Andrew Ng教授的机器学习课程进行回顾和总结,希望能够抓住它的来龙去脉。所以总结的内容主要是推导的思路,只要能够把握住思路,就能保持长久的记忆。
1. 垃圾邮件特征提取方法
通过垃圾邮件的筛选,介绍了朴素贝叶斯分类器。对于垃圾邮件,建立一个垃圾邮件中经常出现的词的字典,用于将一封邮件通过这个字典转换为特征向量,这个特征向量的长度等于字典中词的个数 N=5000 ,且其每一个位置上的值仅取“1”或“0”,表示对应位置上是否出现了垃圾词。
2. 朴素贝叶斯假设与朴素贝叶斯分类器
已经得到了特征矢量,我们要构建一个generative model。这里先说明一下先验概率与后验概率的含义:
先验概率是指基于先验知识所得到某一件事情发生或出现的概率,通常采用大数据统计就可以得到先验概率。比如罹患肝癌 (y) 的概率,通过统计医院的资料,可以计算出先验概率 p(y) 来。而后验概率则是指当某一件事情已经发生或出现,回推导致这件事情发生的因素的概率。比如某人已经查出罹患肝癌 (y) ,而导致肝癌发生的因素有 x={酒精、多脂肪、病毒、毒素} ,即后验概率就是指 p(x|y) 。
然后再说明一下机器学习中两种不同的model:
discrimination model和generative model, 两者的区别在于对概率密度的建模上:以二分类问题为例,样本特征矢量为 x ,样本标签为 y , y∈{−1,+1}, discrimination model是直接对 p(y|x) 进行建模,类似logistic regression,思路就是从已知的样本集 (x,y) 中直接学习出给定 x ,输出 y 为1的概率是多少。等于说是直接构建以 x 为输入参数的 y 的概率模型。而generative model则是先分别对 p(x|y=0) 和 p(x|y=1) 进行建模,然后再通过后验概率公式(贝叶斯公式)计算得到:
p(y=1|x)=p(x|y=1)×p(y=1)p(x)p(y=0|x)=p(x|y=0)×p(y=0)p(x),这样就考虑了样本的产生模型 p(y) ,同时除去分母是不影响判断的,所以实际上 generative model是对联合概率密度进行的建模 p(y,x)=p(x|y)×p(y) 。而对于 discrimination model则没有考虑样本的生成模型,或者说是认为样本生成模型是均匀分布的。通常对于 generative model要求样本无穷大或尽可能大,而 discrimination model则不需要。
为了对 p(x|y) 进行建模,引入了一个非常强的假设,即假设给定 y 的情况下, xi 是条件独立的,即每个 xi 之间是没有约束关系的。这个假设叫做朴素贝叶斯假设(Naive Bayes assumption),而这样得到的学习算法就叫做朴素贝叶斯分类器。
3. 垃圾邮件的朴素贝叶斯分类器
接着对垃圾邮件进行建模,有:
Ng教授绘制了一种通常的情况用于说明通过典型的generative model :GDA(Gaussian Discrimination Analysis model)方法建立的两类后验概率,生成分类边界实际上与logistic regression的边界一样。这说明了两种模型实际上是有共通之处的,就是上面说过的如果忽略了样本的产生模型 p(y) 两者基本上是类似的。
在处理一些还没有出现或发生过的事件 A 时,如果采用上面那种联合似然函数估计出来的 p(A)=0 ,这是不合理的,因为只是在有限的训练集中没有看到这个事件发生,并不代表它一定不发生,即 p(A)=0 。这个时候采用laplace smoothing会有更好的估计效果。以估计一个多项随机变量 z∈{1,2,...,k} 的均值情况为例,多项分布的参数为 ϕi=p(z=i) ,假定 m 个独立的观测值 {z(1),...,z(m)} ,很简单地得到最大似然估计为:
对于上面构建垃圾邮件分类器,实际上丢掉了一些信息,即没有考虑文本的上下文。Naive Bayes采用multi-variable Bernoulli event model可以解决这样的问题。认为邮件是这样产生的:首先根据先验概率 p(y) 随机生成邮件或垃圾邮件,然后发送邮件的人遍历这个垃圾邮件的字典,根据概率 p(xi=1|y)=ϕi|y 独立决定是否包含第 i 个word。所以,这个message的概率为:
Ng教授通过两个视频的例子说明了神经网络模型的力量,一个是手写体的识别,另一个是模拟小孩说话声音。都表现出了很好的性能。神经网络是在logistic regression的基础上引入的,采用sigmoid函数作为激活函数。神经网络最大的缺点就是变量太多,导致很容易陷入局部最优。神经网络的部分,可以参看我的其他博客文章神经网络模型的总结,有很深入的介绍。
Ng教授对支撑向量机(support vector machine)是从线性可分问题入手的,介绍了怎样的分类边界是好的。对于logistic regression,当 θTX 远大于0时,就有很大的confidence认为 y=+1 ,而当 θTX 远小于0时,就有很大的confidence认为 y=−1 。从而引入了两个margin,一个是function margin,另一个是geometry margin。定义了点 (xi,yi) 到超平面 (w,b) 的距离作为function margin: function margin=y(i)(wTx+b) ,我们求取所有点到决策平面的距离中的最小值作为样本到决策平面的距离。剩下要做的就是maximize 这个margin。样本是固定的,而决策超平面是不定的,是由参数 (w,b) 决定的。我们所要做的就是调整 (w,b) ,而如果参数同时放大时,这个margin也会放大,这样最大化就没意义了。所以,定义了geometric margins,约束 ||w||=1 ,从而得到了如下的公式化的优化问题:
2015-8-23
艺少