目录
第一节 主成分分析PCA
PCA的要求
PCA算法流程
第二节 K-均值聚类(K-means custering)
k均值聚类的优化目标函数
K均值算法的流程
第三节 高斯混合模型
高斯概率密度函数
EM算法求高斯混合模型的流程
第四节 ADABOOST
核心思想
具体流程
应用
主成分分析
(PRINCIPLE COMPONENT ANALYSIS)
如果神经网络只有一层,那么权重和偏置该如何选取?
主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,达到数据压缩的目的。
如图,在二维条件下,PCA的目的是找到一个方向,使得数据在这个方向上投影后的方差最大。
PCA的目的就是通过这些数据的坐标,算出这个投影方向 a,进而算出这些数据在这个方向上的投影。
可以使用拉格朗日乘子法
因此
仍然使用拉格朗日乘子法
具体证明过程如下
以此类推
实践表明,如果特征数量大目可能存在冗余,用PCA降维,往往能收到好的效果,这也就是PCA在机器学习中被广泛运用的原因。
假设
其中zi表示不同点所属的类别
定义K个类的中心,分别用C1、C2...Ck表示
这是一个非连续的规划问题
整数规划(Integral Programming)
期望最大化算法(Expectation-maximization algorithm,EM算法)
K均值算法是EM算法的特例
最终的聚类结果和初始的类别赋值有关
换句话说,不同的初始类别赋值,获得的结果也可能不同
因此,k均值算法求得的是目标E的局部极值
假设
假设这些数据复合高斯分布
在数据是一维的情况下,可以写作如下形式
μ是高斯密度函数的均值
σ是高斯密度函数的方差
对于d维变量,高斯概率密度函数可以写作如下形式
其中μ也是均值,维度是d
Σ是协方差矩阵,维度是d*d
在实际情况中,有些数据的概率分布更接近于两个或多个高斯分布的线性叠加,这样的分布被称为
高斯混合分布(Gaussian mixture distribution)
相应的建模被称为高斯混合模型(Gaussian mixture model, GMM)
假设数据是由K个高斯概率密度分布函数混合,高斯混合分布可以写作如下
其中
高斯混合模型需要做的事
现在的问题是我们不清楚每一个数据属于K个高斯概率密度函数中的哪一个,也不清楚三元组πμΣ
这里采用期望最大化算法(Expectation-maximization algorithm,EM算法)
即固定一个求另一个,不断循环迭代
然后不断循环直至收敛
先用一部分特征训练一些较弱的分类器,然后再将这些较弱的分类器逐步提升为强的分类器。ADABOOST的核心是调整训练样本的分布,使得先前分类器做错的训练样本在后续学习中获得更多的关注,然后基于调整后的样本分布来训练下一个分类器。最后再用权重系数将获得的各个弱分类器组合起来形成强分类器。
假定一个二分类问题
其中
如果Gm(xi)和yi一致,说明第m个分类器把第i个训练样本分类正确,那么在m+1轮中,该样本相应的权重就会减少
步骤三经过M次循环后,进入最后的步骤四
每个分类器的权重系数越大,他对G(x)的影响也就越大
随着弱分类器个数M的增加,ADABOOST获得的强分类器在训练集上的错误率会减小,最终趋近于0
基于ADABOOST的学习器不容易过拟合,在测试集上也能获得很好的性能。
1998年,微软研究院两位研究人员Viola和Jones利用ADABOOST,第一次构建了一个足够鲁棒的人脸检测系统,促进了人脸检测的广泛应用。
基于类哈尔特征(HAAR-LIKE FE ATURES)构建四种弱分类器
积分图
积分图可以通过从左到右从上到下一次性遍历图像获得
对每一个类哈尔特征,构建一个人脸检测的弱分类器
下面是识别率排名前五的类哈尔特征
以上每一个弱分类器,都只是基于一个类哈尔特征构建的,可以想见每一个弱分类器的识别率都不高,它们的识别率大概都只比1/2瞎猜概率多一点点。
实验表明,利用ADABOOST选择4000个左右的弱分类器(M=4000)集成获得的识别率可以满足实用需求。