主成分分析

PCA原理与推导(pca本质上是一种数据压缩的方法)
主成分分析_第1张图片
在图1中,通常我们要存储A这个点需要x和y两个坐标。假设图中共有n个点,那就需要2n个参数。A在向量 u → \overrightarrow{u} u 上的投影点为 A ′ A' A,在 u → \overrightarrow{u} u 已知的前提下, A ′ A' A仅需要一个参数就可以表示了,这个参数就是 O A ′ OA' OA的长度。(即 A ′ A' A u → \overrightarrow{u} u 上的坐标)用 A ′ A' A代替A,图中的点都这样来表示,这样图中的点的存储只需要n+2个参数即可。其中2是用来确定 u → \overrightarrow{u} u 的参数个数。我们找到合适的方向 u → \overrightarrow{u} u 是的原始点与投影点之间的误差最小。

  1. 样本点中心化
    首先要将样本点移到中心点来(算均值,然后将所有样本点的x-均值)

  2. 求误差
    x → \overrightarrow{x} x 投影到 u → \overrightarrow{u} u 上,误差为 e → \overrightarrow{e} e
    e → \overrightarrow{e} e = x → \overrightarrow{x} x -Prj x → \overrightarrow{x} x
    = x → \overrightarrow{x} x - < \lt < x → \overrightarrow{x} x , u → \overrightarrow{u} u > \gt > u → \overrightarrow{u} u

你可能感兴趣的:(花书学习笔记)