生信中的PCA ,PCoA

生信中的PCA ,PCoA

PCA和PCOA都是降维处理数据集,只不过前者是主成分分析后者是主坐标分析。不过在生信分析中都是用来查看样本之间的相似性或者差异性。
首先要明白一个道理,为什么生信中要进行数据降维,简单的道理就是数据集太大了,不便于我们做数据统计和分析,举个例子,我们做一个16sDNA分析,样本是200个,每一个样本就是一个维度,这样就相当于200个维度,对于如此多的维度我们根本无法理解,就好比二维空间无法理解三维空间。
所以我们进行降维处理。降维到我们能理解的维度,便于我们统计分析。
PCA(主成分分析)
进行降维的思想,然后用方差分解,使得差异贡献值放在二维坐标轴上,如下图(这里是iris数据画的pca图)
同一种的鸢尾花用相同的颜色表示,点与点之间靠的越近说明越相似。X轴是第一主成分贡献值,Y轴是第二主成分贡献值。
生信中的PCA ,PCoA_第1张图片
PCoA

同样采用降维思想,但是PCoA则是将样本数据经过不同距离算法获得样本距离矩阵的投影,在图形中样本点的距离等于距离矩阵中的差异数据距离。(这里说明一下,一般来说PCA是对样本得到丰度数据直接进行降维,PCoA则是经历了距离计算,比方说欧氏距离。这里有一个特点就是直接用丰度数据一组只有两个样本的时候降维就为1了,就不能pca分析,但是基于欧氏距离来算的话就不是组里降维二十全部的样本弄成nxn的形式降维成nx(n-1),这里pca又是可以的。)
PCoA看图就也是靠的近的相似性高。
(python关于PCoA的计算太少了,基本都是用R 语言画的,这里我也用R展示一下)
生信中的PCA ,PCoA_第2张图片

你可能感兴趣的:(机器学习,人工智能,算法)