2013-2-5
问方 09:19:20
问下协方差矩阵的特征值和特征向量到底是它的什么,有什么意义
答方1 09:26:44
主轴的方向
答方1 09:27:16
协方差可以描述一个样本的散度
问方 09:28:34
是一个样本还是多个之间
问方 09:29:09
一个样本的散度?就是一个向量?
答方1 09:29:07
协方差的第一特征向量就是这些样本投影在在这个方向得到的分量最大
答方1 09:29:14
一堆样本
答方1 09:29:25
一个样本没有散度的概念
问方 09:30:38
在一个平面上有很多点,这应该是有两个样本吧?
问方 09:31:17
点越散,x向量和y向量协方差越大?
问方 09:31:36
散度越大?
答方1 09:31:45
是的 跟协方差也有关系
答方1 09:31:59
一个点算一个样本
答方1 09:32:18
你看看清华出版的《模式识别》
答方1 09:32:50
第8章 特征的选择与提取
答方1 09:32:54
专门讲这个
问方 09:33:01
嗯
问方 09:33:31
谢谢,我看看
答方1 09:33:39
很明显,如果一百个点非常乱的分布在平面上 肯定散度大
答方1 09:33:49
协方差矩阵也大
问方 09:34:07
样本=特征?
答方1 09:34:12
同理 如果这些点,几种在某个小的区域那么散度也小
答方1 09:34:33
某些情况可以这么说
答方1 09:34:49
一般用特征来描述 样本
问方 09:35:34
就好像一个人就是一个样本,它的名字、性别就是他的维
答方1 09:35:42
你说的有道理
答方1 09:35:55
身高 体重 这个就更有定量的描述特征
问方 09:36:17
一个特征也就有它的维?
答方1 09:37:32
同样 如果样本的分布沿着某一直线附近分布 那么它的特征向量就近似是那条直线的方向 这样我们只要用一维就可以描述二维点 从而达到降维的效果
答方1 09:38:04
嗯 如果身高是一个特征、体重也是的话 这样就特征的维度=2
答方1 09:38:23
再加上其他的特征 维度就增大了
问方 09:38:40
嗯
问方 09:39:50
平面上的每个点就是一个样本,x和y是它的两个特征还是维?
答方1 09:40:31
每个特征用一个维度来表示
电子科大 神灵(531486421) 09:40:45
维是一个度,特征是两个值才能表示
问方 09:43:09
平面上散开的点,样本、特征、维、向量,这四个概念分别对应这些点的什么
答方3(531486421) 09:44:56
你的名字、出生,性别、学历
答方1 09:45:10
样本可以用各种特征来描述,每个特征可以有不同的取值。那么这些特征就张成一个空间叫特征空间,特征的数目就等于特征空间的维度,一个样本在特征空可以用一个点来描述。
问方 09:50:05
说的比较清楚,理解一下。一个点就是一个样本,有位置和颜色两个特征,位置特征分为x和y坐标及它们的值,颜色特征为rgb及它们的值。那么这个特征空间就有位置和颜色两个维
问方 09:50:30
这个特征空间的维度就是2
问方 09:52:18
不知道理解的对不对?“一个样本在特征空可以用一个点来描述”,那针对这些散点,特征空间是什么样的,是不是每个样本就会有两个点?
答方1 09:52:18
位置需要两个维度来描述的
问方 09:53:32
位置是样本的一个特征,也就是样本点的一个维,但这个维又要两个维去描述?
答方1 09:53:57
(想,
答方1 09:54:01
(x,y)
问方 09:55:55
还没看过《模式识别》,下面好好看看
2013-02-06
问方 08:58:24
问下,对角矩阵的特征值是对角线上的数,为什么用matlab的eig函数计算出来 的结果不对啊
问方 10:42:51
不太明白,不知道有哪位高手指点下
2013-2-16:
?
问方 09:46:43
问下,特征值和特征向量最初源自哪篇论文
答方2 10:35:24
那中几百年前的事了
问方 10:36:00
有论文吗?
答方2 10:36:18
应该有 但应该没有电子版
答方2 10:36:33
那么多书籍 为什么非得看论文
问方 10:36:57
还是看不懂
答方2 10:37:24
说 什么不懂
问方 10:37:45
为什么用这种方法求出的特征向量就是矩阵的不变量
答方2 10:38:21
你是说这个东西是矩阵本身特有的东西是吧
问方 10:38:24
这种思维方式的依据,由来是什么
问方 10:38:53
A*x=lamda*x
问方 10:39:04
这个公式的由来和依据
问方 10:39:11
到底有什么意义
答方2 10:39:13
可以这么看
问方 10:39:21
嗯
答方2 10:39:22
X看成是一个坐标
答方2 10:39:44
A看成是一个变换
答方2 10:40:10
X坐标经过一个变换换成另外一个坐标
问方 10:40:19
是
答方2 10:40:32
而这个坐标与原来的坐标有倍数的关系
问方 10:40:55
就是特征值
答方2 10:41:00
对
答方2 10:41:51
也可以看成向量 乘以特征值相当于向量扩展
问方 10:42:52
对一个向量空间的变换等于向量空间的扩展
答方2 10:43:25
对
答方2 10:43:47
我感觉这样相等还是有一些特殊意义存在
问方 10:43:57
嗯?
答方2 10:44:17
你看过PCA吗
问方 10:44:21
在这个式子里lamda和x都是未知量
问方 10:44:27
都要根据A求出来
答方2 10:44:40
是啊
问方 10:45:05
我就是看pca看不明白才看特征值和特征向量的
答方2 10:45:05
lamda和X都是随着A不同而变化
答方2 10:45:22
好吧
答方2 10:46:38
那我恐怕也无能为力了 你想要知道的东西我恐怕回答不了
答方2 10:47:04
自己想想 如果想到了什么新的 告诉我blair
问方 10:49:44
pca中,先求特征的协方差矩阵,然后求这个矩阵的特征值和特征向量,然后按特征值排序,保留一部分向量并组成新的空间,最后把特征值再投影到这个新空间上就是最后结果
问方 10:51:06
我不明白的地方 就是为什么投影上去的就是主成分,其他为什么不是主成分
问方 10:51:16
特征并没有排序
答方2 10:52:18
特征值有排序
答方2 10:52:55
最大的特征值对应的特征向量靠前
问方 10:52:59
特征向量根据特征值也进行了排序,而特征并没有排序
答方2 10:53:15
特征是啥
问方 10:53:58
就是样本,小矩形框出的数据
答方2 10:54:41
每个样本有多个分量
答方2 10:54:52
第个样本都可以投影
答方2 10:55:00
投影后的样本也有多个分量
问方 10:55:10
我取了一张图片的四个特征,横向一阶和二阶导,竖向一阶和二阶导
答方2 10:56:07
每个点都四个特征是不
问方 10:56:17
在一个小矩形框中求这四个特征,然后把求的结果拉成一个向量,共4个向量,
问方 10:56:33
把4个向量首尾连成一个大向量
答方2 10:56:57
哦 明白了
答方2 10:58:15
你不就是想对这个大向量降维去相关吗
问方 10:58:59
一张图片有很多小矩形框,每个矩形框拉成由4个特征组成的长度是矩形面积4倍长度的向量,然后把所有矩形框向量并排放
问方 10:59:03
是
问方 10:59:09
就是降维
答方2 10:59:35
嗯
问方 11:00:14
特征就是最后这个大矩阵(每列是一个小矩形拉成的向量)
答方2 11:00:30
明白
答方2 11:00:44
你先求这些样本的协方差矩阵
问方 11:01:30
设特征矩阵: F,求法就是F*F'
问方 11:02:00
协方差矩阵就是F*F'
答方2 11:02:04
没先减去一个均值
问方 11:02:19
求特征的时候应该减过了
答方2 11:02:30
嗯
问方 11:02:43
把数据中心移到0点
答方2 11:02:53
嗯
问方 11:03:19
下面就是求F的特征值D和特征向量V
答方2 11:04:33
嗯
问方 11:04:54
排序,去除小能量向量,形成新的向量空间,按你说的应该是形成了一个新的坐标系
答方2 11:05:05
对
问方 11:06:18
新的坐标系设为V_pca,那么降维后的结果就是V_pca'*F
问方 11:06:28
我就是这样求的
答方2 11:07:33
这个vpca是特征向量组成的变换矩阵吗
问方 11:07:42
是
问方 11:08:16
只保留了前几个最大特征值对应的特征向量
答方2 11:08:15
那应该没错呀 每一个行向量就是结果呀
答方2 11:09:05
哦 那维数不就降低了吗
问方 11:09:40
是降了,但降的有点有明白
问方 11:10:30
降维后的向量与原先的向量到底有什么关系
答方2 11:10:56
你先把F拆了
问方 11:11:06
然后?
答方2 11:11:06
拆一个样本对应的一个变量
答方2 11:11:18
对应一个向量
问方 11:11:24
嗯
答方2 11:11:43
我不知你是怎么排的 横的排还是竖的排
问方 11:12:03
向量是竖排
问方 11:12:13
一列就是一个样本
答方2 11:13:12
pca*(A1 A2 A3 ...)=(pca*A1 pca*A2 pca*A3 ...)
答方2 11:13:30
A1是一个样本
问方 11:13:35
嗯
答方2 11:14:56
pca=(T1,T2,T3 ...)
答方2 11:15:32
pca*A1 = (T1*A1 T2*A1 T3*A1...)
问方 11:15:38
最后的结果也就是,原来的单个向量变成了新坐标系中在每个坐标上的投影
答方2 11:15:53
对
答方2 11:17:06
T1*A1就是投影
问方 11:17:11
是
答方2 11:17:25
不就是这样吗
问方 11:19:07
前几个最大特征值对应的特征向量组成了一个新坐标系,为什么往这个坐标系投影就能找出主成分
答方2 11:19:46
什么叫主成分?
问方 11:19:54
主要的部分
问方 11:20:07
基本可以代替原来的向量的向量
答方2 11:20:27
其实就是在这个特征向量方向上变化最大
答方2 11:22:20
理解不?
问方 11:23:01
新坐标系每个坐标就是一个特征向量,而这些特征向量能说明原矩阵变化最大的方向
答方2 11:24:01
一会再跟你说 有事先走
问方 11:24:14
好的,非常感谢
问方 17:28:57
请问下,如何求平面上样本点的方差,比如下图的多个样本点:
问方 17:28:59
下面为转载内容:http://blog.sina.com.cn/s/blog_634519db01016wd1.html
整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。但是有没有觉得很神奇,为什么求协方差的特征向量就是最理想的k维向量?其背后隐藏的意义是什么?整个PCA的意义是什么?
要解释为什么协方差矩阵的特征向量就是k维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA意义时简单概述。
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。
比如下图有5个样本点:(已经做过预处理,均值为0,特征方差归一)
下面将样本投影到某一维上,这里用一条过原点的直线表示(前处理的过程实质是将原点移到样本点的中心点)。
假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大。
这里先解释一下投影的概念:
红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是(即或者)由于这些样本点(样例)的每一维特征均值都为0,因此投影到u上的样本点(只有一个到原点的距离值)的均值仍然是0。
回到上面左右图中的左图,我们要求的是最佳的u,使得投影后的样本点方差最大。
由于投影后均值为0,因此方差为:
中间那部分很熟悉啊,不就是样本特征的协方差矩阵么(的均值为0,一般协方差矩阵都除以m-1,这里用m)。
用来表示,表示,那么上式写作
由于u是单位向量,即,上式两边都左乘u得,
即
We got it!就是的特征值,u是特征向量。最佳的投影直线是特征值最大时对应的特征向量,其次是第二大对应的特征向量,依次类推。
因此,我们只需要对协方差矩阵进行特征值分解,得到的前k大特征值对应的特征向量就是最佳的k维新特征,而且这k维新特征是正交的。得到前k个u以后,样例通过以下变换可以得到新的样本。
其中的第j维就是在上的投影。
通过选取最大的k个u,使得方差较小的特征(如噪声)被丢弃。
这是其中一种对PCA的解释,第二种是错误最小化,放在下一篇介绍。