【浙江大学机器学习胡浩基】07 传统机器学习

目录

第一节 主成分分析PCA

 PCA的要求

 PCA算法流程

第二节 K-均值聚类(K-means custering)

 k均值聚类的优化目标函数

 K均值算法的流程

第三节 高斯混合模型

高斯概率密度函数

EM算法求高斯混合模型的流程

第四节 ADABOOST

核心思想

具体流程

应用


  • 第一节 主成分分析PCA

主成分分析

(PRINCIPLE COMPONENT ANALYSIS)

如果神经网络只有一层,那么权重和偏置该如何选取?

主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,达到数据压缩的目的。

【浙江大学机器学习胡浩基】07 传统机器学习_第1张图片

如图,在二维条件下,PCA的目的是找到一个方向,使得数据在这个方向上投影后的方差最大。

PCA的目的就是通过这些数据的坐标,算出这个投影方向 a,进而算出这些数据在这个方向上的投影。

 PCA的要求

【浙江大学机器学习胡浩基】07 传统机器学习_第2张图片

【浙江大学机器学习胡浩基】07 传统机器学习_第3张图片

可以使用拉格朗日乘子法 

【浙江大学机器学习胡浩基】07 传统机器学习_第4张图片

因此

 接下来求解a2,满足条件为

【浙江大学机器学习胡浩基】07 传统机器学习_第5张图片

仍然使用拉格朗日乘子法

【浙江大学机器学习胡浩基】07 传统机器学习_第6张图片

具体证明过程如下

【浙江大学机器学习胡浩基】07 传统机器学习_第7张图片 

以此类推

PCA算法流程

【浙江大学机器学习胡浩基】07 传统机器学习_第8张图片 

 实践表明,如果特征数量大目可能存在冗余,用PCA降维,往往能收到好的效果,这也就是PCA在机器学习中被广泛运用的原因。


  • 第二节 K-均值聚类(K-means custering)

【浙江大学机器学习胡浩基】07 传统机器学习_第9张图片

假设

【浙江大学机器学习胡浩基】07 传统机器学习_第10张图片

其中zi表示不同点所属的类别

【浙江大学机器学习胡浩基】07 传统机器学习_第11张图片

定义K个类的中心,分别用C1、C2...Ck表示 

k均值聚类的优化目标函数

【浙江大学机器学习胡浩基】07 传统机器学习_第12张图片

这是一个非连续的规划问题

整数规划(Integral Programming)

期望最大化算法(Expectation-maximization algorithm,EM算法)

K均值算法是EM算法的特例

 K均值算法的流程

最终的聚类结果和初始的类别赋值有关

换句话说,不同的初始类别赋值,获得的结果也可能不同

因此,k均值算法求得的是目标E的局部极值


  • 第三节 高斯混合模型

高斯概率密度函数

 假设

【浙江大学机器学习胡浩基】07 传统机器学习_第13张图片

假设这些数据复合高斯分布

在数据是一维的情况下,可以写作如下形式

【浙江大学机器学习胡浩基】07 传统机器学习_第14张图片

μ是高斯密度函数的均值

σ是高斯密度函数的方差

【浙江大学机器学习胡浩基】07 传统机器学习_第15张图片

【浙江大学机器学习胡浩基】07 传统机器学习_第16张图片

对于d维变量,高斯概率密度函数可以写作如下形式

【浙江大学机器学习胡浩基】07 传统机器学习_第17张图片

其中μ也是均值,维度是d

Σ是协方差矩阵,维度是d*d

【浙江大学机器学习胡浩基】07 传统机器学习_第18张图片

在实际情况中,有些数据的概率分布更接近于两个或多个高斯分布的线性叠加,这样的分布被称为

高斯混合分布(Gaussian mixture distribution)

相应的建模被称为高斯混合模型(Gaussian mixture model, GMM)

假设数据是由K个高斯概率密度分布函数混合,高斯混合分布可以写作如下

 【浙江大学机器学习胡浩基】07 传统机器学习_第19张图片

其中

【浙江大学机器学习胡浩基】07 传统机器学习_第20张图片

 

 高斯混合模型需要做的事

【浙江大学机器学习胡浩基】07 传统机器学习_第21张图片

现在的问题是我们不清楚每一个数据属于K个高斯概率密度函数中的哪一个,也不清楚三元组πμΣ

这里采用期望最大化算法(Expectation-maximization algorithm,EM算法)

即固定一个求另一个,不断循环迭代

EM算法求高斯混合模型的流程

 【浙江大学机器学习胡浩基】07 传统机器学习_第22张图片

 然后不断循环直至收敛


  • 第四节 ADABOOST

核心思想

先用一部分特征训练一些较弱的分类器,然后再将这些较弱的分类器逐步提升为强的分类器。ADABOOST的核心是调整训练样本的分布,使得先前分类器做错的训练样本在后续学习中获得更多的关注,然后基于调整后的样本分布来训练下一个分类器。最后再用权重系数将获得的各个弱分类器组合起来形成强分类器。

具体流程

假定一个二分类问题

 

【浙江大学机器学习胡浩基】07 传统机器学习_第23张图片

 其中

【浙江大学机器学习胡浩基】07 传统机器学习_第24张图片

如果Gm(xi)和yi一致,说明第m个分类器把第i个训练样本分类正确,那么在m+1轮中,该样本相应的权重就会减少

步骤三经过M次循环后,进入最后的步骤四

每个分类器的权重系数越大,他对G(x)的影响也就越大

随着弱分类器个数M的增加,ADABOOST获得的强分类器在训练集上的错误率会减小,最终趋近于0

基于ADABOOST的学习器不容易过拟合,在测试集上也能获得很好的性能。

应用

1998年,微软研究院两位研究人员Viola和Jones利用ADABOOST,第一次构建了一个足够鲁棒的人脸检测系统,促进了人脸检测的广泛应用。

基于类哈尔特征(HAAR-LIKE FE ATURES)构建四种弱分类器

【浙江大学机器学习胡浩基】07 传统机器学习_第25张图片

积分图

【浙江大学机器学习胡浩基】07 传统机器学习_第26张图片

 积分图可以通过从左到右从上到下一次性遍历图像获得

对每一个类哈尔特征,构建一个人脸检测的弱分类器

下面是识别率排名前五的类哈尔特征

【浙江大学机器学习胡浩基】07 传统机器学习_第27张图片

以上每一个弱分类器,都只是基于一个类哈尔特征构建的,可以想见每一个弱分类器的识别率都不高,它们的识别率大概都只比1/2瞎猜概率多一点点。

实验表明,利用ADABOOST选择4000个左右的弱分类器(M=4000)集成获得的识别率可以满足实用需求。

你可能感兴趣的:(浙大ML笔记,人工智能,深度学习)