a10.Andrew-ML08-无监督、PCA

Clustering

01. Unsurpervised Learning Introduction


  • 无监督学习算法是训练样本没有标签的分类算法。


02. K-means algorithm


  • 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。

  • 过程:
    选择K个点作为初始质心
    repeat
    将每个点指派到最近的质心,形成K个簇
    重新计算每个簇的质心
    until 簇不发生变化或达到最大迭代次数

03. Otimization Objective


  • 一些定义:

样本Xi现在被分配的聚类中心的序号


第k个聚类中心

样本Xi被分配的聚类中心点

  • 优化函数:每个样本到他的聚类中心点聚类平均值最小


04. 如何选择K(聚类种类)


  • 多少情况人为判断,还有一个“肘部法则”,选择肘关节处的聚类数目。


Dimensionality

01. Data Compression


  • 将数据从高维降到低维。


02. Visualization


  • 可以将多维数据降低到2-3维进行可视化


Principal Component Analysis (主成分分析法)

01. PCA


  • PCA:主成分分析方法是一种常见的数据压缩算法。在该过程中,数据从原来的坐标轴转换到新的坐标系,以方差最大的方向作为坐标轴的方向,因为最大方差给出了数据最主要的数据特征。
    主要是找到一个低维的子空间,使得投影误差的平方和达到最小。

02. PCA算法


  • 过程:
    去除平均值
    计算协方差矩阵
    计算协方差矩阵的特征值和特征向量
    将特征值排序
    保留前N个最大的特征值对应的特征向量
    将数据转换到上面得到的N个特征向量构建的新空间中(实现了特征压缩)

  • 上述降维过程,首先根据数据矩阵的协方差的特征值和特征向量,得到最大的N个特征值对应的特征向量组成的矩阵,可以称之为压缩矩阵;得到了压缩矩阵之后,将去均值的数据矩阵乘以压缩矩阵,就实现了将原始数据特征转化为新的空间特征,进而使数据特征得到了压缩处理。

当然,我们也可以根据压缩矩阵和特征均值,反构得到原始数据矩阵

Applying PCA

01. 原始数据的重构


  • 将被压缩的数据还原到原来的维度

02. 选择主要成分的数量


  • 使得平均投影误差和平均数据误差的比值小于一个概率。


  • 算法:
    使k从1到不断增加直到满足要求。


  • 优化算法:(没懂)


03. PCA的使用建议

  • 压缩数据以减小内存和提高算法效率
  • 可视化数据,k=2 or k=3
  • 对于处理过度拟合并不好,过度拟合直接用正规化就行

你可能感兴趣的:(a10.Andrew-ML08-无监督、PCA)