微阵列数据分析(Microarray Data Analysis)

微阵列数据分析(Microarray Data Analysis)

 

蔡政安副教授 (台湾)

 

前言

 

在人类基因组测序计划的重要里程碑陆续完成之后,生命科学迈入了一个前所未有的新时代,在人类染色体总长度约三十亿个碱基对中,约含有四万个基因,这是生物学家首次以这么宏观的视野来检视生命现象,而医药上的研究方针亦从此改观,科学研究从此正式进入后基因组时代。

 

微阵列实验(Microarray)及其它高通量检测(high-throughput screen)技术的兴起,无疑将成为本世纪的主流;微阵列实验主要的优势在于能同时大量地、全面性地侦测上万个基因的表达量,通过基因芯片,可在短时间内找出可能受疾病影响的基因,作为早期诊断的生物标记(biomarker)。

 

然而,由于这一类技术的高度自动化、规模化及微型化的特性,使得他们所生成的数据量非常庞大且数据形态比一般实验数据更加复杂,因此,传统统计分析方法已经不堪使用。在此同时,统计学家并未在此重要时刻缺席,提出非常多新的统计理论和方法来分析微阵列实验数据,也广受生物学家所使用。

 

由于微阵列数据分析所牵涉的统计问题层面相当广且深入,本文仅针对整个实验中所衍生的统计问题加以介绍,并介绍其中一些新的图形工具用以呈现分析结果。

 

基因芯片的原理

 

微阵列芯片即一般所谓的基因芯片,也是基因组计划完成后衍生出来的产品,花费成本虽高,但效用无限,是目前所有生物芯片中应用最广的,由于近年来不断改进,也是最有成效的生物技术。一般而言,基因芯片是利用微处理技术,先把人类所有的基因分别固着在一小范围的玻璃片(glass slide)、薄膜(membrane)或者硅芯片上;然后,可以平行地、大量地、全面性地侦测基因组中mRNA的量,也就是侦测基因的调控及相互作用表达。

 

目前微阵列芯片大致分为以下两种平台(如图一) :cDNA芯片及高密度寡核甘酸芯片(high-density oligonucleotide),两种系统无论在芯片的制备及样本处理上都有相当的差异,因此在分析上也略有不同,以下便就芯片的特性简略介绍。

 

1.cDNA芯片:基本上芯片上的探针(probes)及准备进行杂合反应(hybridization)的样本(Targets)皆来自于cDNA。

 

正常及癌组织中提取的mRNA经反转录后,分别标上绿色(Cy3)和红色(Cy5)荧光标记,并同时和芯片进行杂合反应,反应后经过镭射扫描器显像,绿色萤光点表示正常组织的基因表达高于癌组织;红色荧光点表示癌组织的基因表达高于正常组织;当基因表达不变时,即呈黄色荧光。经影像分析软件可将影像强度转换成数据,用以分析有显著差异表达的基因。

 

2.高密度寡核甘酸芯片:高密度寡核甘酸芯片主要由25个碱基所构成的探针对(probe pair)所组成,而每一个基因由16-20个探针对来代表,每组探针对包括perfect-match(PM)和miss-match (MM)探针,MM探针除了中间碱基不同于PM探针外,两者有相同的DNA序列,主要为内部对照的用。不同于cDNA芯片,正常及癌组织中提取的mRNA分别和不同的芯片进行杂交反应,所以只使用单色荧光标记。经影像分析软件可将荧光强度转换成数据,再利用不同的统计模型将每个基因所对应的探针对整合来显示基因的表达强度。

 

微阵列数据统计分析

 

虽然微阵列实验能快速有效地侦测表达差异的基因,也已广泛应用在生物研究上,然而由于实验的复杂性和特异性也使得分析上的困难度增加;近年来,由于各学术领域研究学者的加入探索并针对实验中各步骤提出各式改进分析的方法,使得整个微阵列实验的精确性及可信度增加至一定的水平,从早期仅用表达差异(fold-change)的大小来筛选有差异表达基因到现在许多复杂计算的统计或数学模型。本文将微阵列数据分析分成五大部份(如图二) ,并介绍其中所牵涉相关的统计问题,这五大分析要素关系整体分析的质量及准确性,分别为: (一)实验设计:通过详细完整的实验设计可以使得数据的质量和效果达到最佳化。实验设计包括样本数估计,其中样本数可分为生物性(biological replicates)及技术性样本(technical replicates);在芯片上质量控制的设计;根据不同微阵列平台及研究因子设计最佳实验配置等。 (二)数据的前置处理:由于微阵列实验的噪音、系统及非系统上变异等干扰因子,因此在进行统计推论的前,需要对数据先行处理。前置处理包括影像分析及正规化用以移除系统性变异;数据转换及筛选;缺失值填补等。数据的前置处理相当复杂,且不同微阵列平台各有不同处理程序,但是此步骤却非常关键,关系着后续分析的精确性,不可轻视。在双色cDNA微阵列中常用的正规化方法如LOWESS平滑曲线调整(如图三( b ) ) 。 (三)显著性分析(表达差异分析):以统计方法检测有显著差异的基因,这也是微阵列实验主要目的的一。近年来有非常多学者提出不同统计方法来侦测有显著差异的基因,但由于在微阵列实验中需要同时检测上万个基因,其中有一个非常重要的统计议题,是关于多重检测(multiple testing)的问题,有别于传统控制family-wise error rate(FWER)的方法太过保守以至于检测力过低,另外控制false discovery rate(FDR)的方法可提供有效解决方案。常用的统计方法有SAM(如图三( c ) )及混合模型(Mixture model)等可控制挑选基因中犯错的比率(FDR)达到研究者设定的标准,此外可同时利用两种以上检测方法来挑选有显著差异的基因,如图三( d )所示的Volcano plot利用表达平均差异质(fold-change)和统计检测的P值(p-values)来挑选有显著差异的基因。 (四)聚类分析和预测分析:聚类分析(Clustering analysis)可由两个方向来讨论,基因和受测组织(如图三( a ) ),基因的聚类分析主要想找出具有相似表达形态的基因聚类,并配合生物上代谢及传导功能来辅助解释;而受测组织的聚类分析可用来评估受测样本的变异程度(variation)及实验的再现性(reproducibility),同时也可藉由聚类分析中发现疾病的亚型。预测分析(Prediction)或分类方法(Classification)主要目的想利用基因表达数据构建分类方法(如图三( e ) ),用以预测疾病的发生,其中包括如何从众多基因中挑选重要的预测因子(feature selection),以及预测模型的构建等,此分析的目标是希望从微阵列实验中找出可能受疾病影响的基因,作为早期诊断的生物标记(biomarker),并成功建立诊断模型。 (五)相关分析及实验确认:通过以上分析,我们可找出具有表达差异或疾病诊断的基因,但是还是要和生物现象做紧密结合,可以通过对照大型公共生物数据库,如GO、KEGG和BioCarta Pathways等,来描述及观察基因在生物功能注释及动态图解模型互动关系。此外,使用较精确的实验(如RT-PCR)来作进一步分析确认也是不可获缺的步骤。 结论 DNA双螺旋结构模型发表至今50年,在全世界科学家不断地探索下已了解七千多个基因的功能。在四万个基因中,目前尚有三万多个基因的功能,或可能有的致病因子及生物医学用途,我们仍一无所知。透过基因组测序计划及基因芯片的应用,可快速探测这些基因在各类疾病或生物体变动中的功能,加速我们对各生物体所有基因的了解。 参考文献 David B. Allison, Xiangqin Cui, Grier P. Page, Mahyar Sabripour, (2006). Microarray data analysis: from disarray to consolidation and consensus. NATURE REVIEWS GENETICS, 7(1), 55-65. 

你可能感兴趣的:(BI)