主成分分析在生命科学研究中的应用

主成分分析常常用于基因组全序列表达研究,但是,到底什么是主成分分析?如何将这种方法用于对高维度数据的分析中呢?

       生命科学研究中采用的一些测定方法,对每个样品所采集的数据的变量要多于所测定的样品数。例如,DNA芯片及质谱仪可以对上百个样品中数以千计的mRNAs或蛋白质水平进行测定。诸如此类的高维度测定使得样品的分析结果很难清晰便捷地进行判断,也限制了对数据进行简单分析的应用。

       主成分分析(Principal component analysis, PCA)是一种数学算法,它可以在减少数据维度的同时,保留数据集中绝大多数的变量[1]。PCA通过对主成分进行辨别,找出一个方向,并沿此方向分布的数据为最大值,从而减少数据维度。通过采用这样的主成分,便可以只选用若干变量而不是上千的变量来对一种样品进行分析了。这样,就可以将样品有关变量绘制成图,使得样品间的相似性和相异之处一目了然,对不同样品是否可以归为一组,也一清二楚。

       Saal等人 [2] 曾使用基因芯片对105个乳腺肿瘤样品中的27,648个基因表达情况进行了检测。本文将采用这组基因表达数据集表明PCA如何只用很少的变量就能完成对样品的分析,包括基因的表达水平、基因表达模式等。所需实验数据来自Gene Expression Omnibus database(accession no.GSE5325)。

               主成分分析在生命科学研究中的应用

                                          图.1 一个基因表达数据集的主成分分析(PCA)

 

a 每一点代表一个乳腺癌样品中两个基因的表达水平(在a-c, e中雌激素受体阳性ER+的样品显示为红色,黑色代表阴性ER—)。

b PCA分析了两个主成分PC1和PC2,沿着这两个主成分数据有最大的分散。

c 样品数据只用一维显示,将ER+、ER—和所有样品的数据都分别记入第一个主成分PC1中。

d 当PCA用于分析样品所有8534个基因的表达水平时,主成分的变量情况。

e PCA二维图,用前两个主成分数据形成的散点图,两个基因采用其权重系数作为主成分 (绿点所示)。所示标度适用于样品;该标度需除以950,才得到基因所对应的标度。

f 图e中的样品数据依ERBB2的情况绘制的图(蓝色、ERBB2+、棕色、ERBB2—、绿色、情况未知)。

主成分

       尽管要深入理解PCA的算法需要具备线性代数的知识,但是,其基本原理却可以通过简单的几何图形进行解释。为了更加简单明了的弄清个中原理,不妨假设在这一实验中,采用的基因芯片只对两个基因GATA3和XBP1的表达水平进行检测。这样可以简化根据乳腺癌样品表达谱进行作图的过程,因为它只包含了两组数据(图.1a)。我们将乳腺癌样品按照雌激素受体阳性或阴性进行分类,本文已选择了两个基因,其表达水平与雌激素受体水平相关[3]。

       在PCA中,鉴别出新的变量即主成分——原始变量的线性组合。这项二维基因表达谱研究中所采用的两个主成分见图.1b。可以很清楚的看出,沿第一个主成分方向,分布的是样品最大变量;沿第二个主成分的方向分布的是与第一个主成分无相关的最大变量。

       如果数据已经过标准化,那么每个基因的数据都应该集中在0平均表达水平,主成分是代表标准化后的基因表达数据协方差的特征向量,并根据它们包含变量信息的多少而被排序。每个主成分都可被理解为一个向量,且它们之间互不相关,每个主成分都尽可能的包含了样品变量的最大差异。这里,用于研究的基因数据在进行PCA前都被进行了标准化,图.1b中的第一个主成分PC1=0.83×GATA3 + 0.56×XBP1。主成分很好的体现了每个样品数据本身的特征,有时就是指特征向量。和PCA相关的方法包括独立成分分析,该方法是用来确认成分之间统计学上互相独立,而不仅仅是非相关的方法。

减维与图像化

       我们可以通过把每个变量都集中到第一主成分中的方法从而把上面的二维分析简化成一维分析(图.1c)。这种一维的分析方法同样保留了样品间激素受体的差异性。将数据转变成主成分也可以看成是另一种基因表达谱,因此这种标准化后的主成分有时也被称作特征基因。因此,对于每个很好代表了样品信息的主成分,PCA都展示了一个基因表达谱。而且,由于数据都是标准化后的,所以样品都是0平均表达,特征基因也就是样品协方差的特征向量。

       刚才,我们用两个基因的数据演示了PCA是如何工作的,但如何分析数千个基因的数据呢?让我们看看用PCA对105个样品表达量的研究吧。这105个样品是用有8534个探针的基因芯片进行分析的。为了让我们对数据的维度有个概念,我们从每个主成分中所有基因共有变量的比例开始(图.1d)。注意,尽管前面的几个主成分比后面的几个主成分有更多的变量,但是第一个和第二个主成分只含有22%的原始变量,所以还需要63个主成分来囊括其它约90%的原始变量。另一方面,只需104个主成分就可以包含所有的原始变量了,这比起8534个原始变量来说,要少得多。当变量的数目比样品的数目多时,PCA可以在不损失信息量的情况下将样品的维度最大程度地减少至样品数。

       为了检测包含在前两个主成分中的变量是否携带乳腺癌样品相关的信息,每一个样品的数据都被计入这两个主成分了(图.1e)。结果我们将所有基因的数目这一维度减少到二维,但仍然保留了足以区分雌激素受体阳性样品和雌激素受体阴性样品的信息。我们已经知道雌激素受体对乳腺癌细胞的基因表达有很大的影响[3],但PCA分析并没有得到两个分离的结果(图.1e),这表明用PCA来发现未知的基因是很困难的。除此之外,用基因表达谱可根据是否携带有ERBB2基因的拷贝,来对乳腺癌进行分类,但只用前两个主成分进行分析时不能包含该信息(图.1f)。这提醒我们PCA是用来分析最大变量的,而不是对样品进行分类的。同样需要注意的是高通量技术得来的数据之间的差异可能是由于系统性试验误差导致的[5-7],而由此得到的主成分和误差相关。

由于主成分针对每个基因都具有相应的权重系数,因此我们就可以用权重来直观地对PCA图中每个基因进行读图[8]。大部分基因都分布在我们上述的二维图线两侧,但最大权重基因的主成分会超出各自的范围[9]。二维图提供了一个方法,即用和基因情况相对应的PCA得到的样品数据情况来判断某些样品中基因群的表达情况。图.1e是以两个基因为例所作的分析。

计算生物学中的应用

       PCA的一项明显的用处是研究高维度的数据集,就象以上提到的那样。通常,我们使用三维图象来做研究,样品数据要不就被计入主成分,象上面例子中的那样,要不根据它们和主成分的相关性直接绘在图上[10]。因为在二维或三维图像化的过程中很多信息不可避免的会被丢失掉,所以在图像化数据的过程中系统地尝试几种主成分的组合就显得非常重要了。因为主成分间互不相关,所以它们也就代表了样品数据的不同方面。这也意味着在对样品数据进行聚类或分类时,PCA可以作为一个非常有用的初步处理工具。然而决定在后续的分析中采用多少主成分,哪些主成分是一个很大的困难,这种困难体现在几个方面[1]。例如,可以使用一个与目标表型[9]相关的主成分或使用足够多的主成分来囊括数据中几乎所有的变量[11]。PCA的结果非常依赖于对数据的预处理和所选择的变量。因此,检查PCA的图也可以发现一些信息,这些信息表明了对数据的预处理的方式的不同和所选择的变量的不同。

       PCA经常被用来进行数据的奇异值分解(singular value decomposition, SVD)。样品样的特征阵列和基因样的特征基因谱都可以同时经由SVD分析获得[10,12]。很多超出了减维、分类和聚类的应用都利用由SVD而产生的基因表达图谱的全球表型。应用还包括辨别出试验误差,并过滤掉这些误差[6]、估计丢失的数据、相关基因及其表达谱、调节子的活性,并可以帮助发现细胞表型的动态结构[7,10,12]。随着技术的飞速发展,产生了高维度的分子生物学数据,这将在未来的几年内,给PCA带来更多可能的应用。

原文检索:www.nature.com

参考文献:
[1]Jolliffe, I.T. Principal Component Analysis (Springer, New York, 2002).
[2]Saal, L.H. et al. Proc. Natl. Acad. Sci. USA 104, 7564-7569(2007).
[3]Perou, C.M. et al. Nature 406, 747-752(2000).
[4]Common, P. Signal Process. 36, 287-314(1994).
[5]Coombes, K.R. et al. Nat. Biotechnol. 23, 291-292(2005).
[6]Nielsen, T.O. et al. Lancet 359, 1301-1307(2002).
[7]Li, C.M. & Klevecz, R.R. Proc. Natl. Acad. Sci. USA 103, 16254-16259(2006).
[8]Gabriel, K.R. Biometrika 58, 453-467(1971).
[9]Landgrebe, J. Wurst, W. & Weizi, G. Genome Biol. 3, RESEARCH0019(2002).
[10]Alter, O., Brown, P.O. & Botstein, D. Proc. Natl. Acad. Sci. USA 97, 10101-10106(2000).
[11]Khan, J. et al. Nat. Med. 7, 673-679(2001).
[12]Holter, N.S. et al. Proc. Natl. Acad. Sci. USA 97, 8409-8414(2000).

小词典:

主成分分析(principal component analysis) 
       将多个变量通过线性变换以选出较少个重要变量的一种多元统计分析方法,又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

(生命奥秘:筱玥 编译)

关键词:主成分分析    奇异值分解
Key words:PCA    SVD

你可能感兴趣的:(分析)