特征值与特征向量,PCA和谱聚类

特征值和特征向量

  1. 矩阵的基
    • 定义:一个m*n的矩阵可以看成是n个列向量组成,这n个列向量的线性组合构成一个列空间,而通常这n个列向量不是线性无关的,那么求出这n个列向量中不相关的r个,可以称这r列为矩阵列空间的基。
    • 基上投影的计算:要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值。二维直角坐标系中我们经常省略第一步,而默认以(1,0)和(0,1)为基。对向量在某个基上的投影等于此向量和这个基的内积(即向量的点乘)。
  2. 特征值
    2.1 特征值的意义
    • 矩阵主对角线上的元素表示自身和自身的关系,其他位置的元素aij表示i位置和j位置元素之间的相互关系。特征值问题其实就是选取了一组很好的基,就把矩阵 i位置和j位置元素之间的相互关系消除了。
      -特征值越大,矩阵在对应向量上的方差越大,所含的信息越多。
    • 特征值反映了特征向量在变换时的伸缩倍数,反映的是变换的剧烈程度,它的值代表矩阵在基上的投影长度。
  3. 特征向量
    3.1 特征向量的意义
    • 特征向量的引入是为了选取一组很好的基
    • 特征向量指明变换的方向
  4. 特征值分解
    一个变换(矩阵)可由它的所有特征向量完全表示。而每一个向量所对应的特征值,就代表了矩阵在这一向量上的贡献率——说的通俗一点就是能量,可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么,可以将每一个特征向量理解为一个线性的子空间
    对于矩阵A这个变换所在的一个n维空间,如果存在n个线性无关的特征向量, 我们就能用这n个特征向量作为基来表示这个空间的任意向量!

PCA主成分分析

优化目标:数据的方差最大(数据间的分布越离散),数据间的协方差越小(数据间的相关性越小)。

PCA的算法步骤:
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵C=XXTC
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PXY=PX即为降维到k维后的数据

谱聚类

谱聚类算法的实施过程通常包含以下几个步骤:
1)输入:相似度矩阵S(Rn∗n)、目标聚类数目k (在此之前需要完成两项工作: 1.选择合适的相似度函数,2.选择合适的聚类数目k)
2)构造出相似图及其赋权的邻接矩阵(weighted adjacency matrix) (这一步需要选择:相似图的类型以及相应的参数)
3)计算出相似图的Laplacian矩阵 (这一步需要选择:Laplacian矩阵的类型)
4)计算Laplacian矩阵的前k个特征值对应的特征向量,以这k个特征向量为列,拼出新的矩阵Un∗k)
5)视矩阵U的每一行为Rk中的一个点,对这n个点y1,y2,…yn进行k−means聚类,得到k个聚类C1,C2,…Ck
6)输出聚类结果A1,A2,…Ak:yi被分到Cj中的哪一类,xi就被分到相应的Aj类

你可能感兴趣的:(特征值与特征向量,PCA和谱聚类)