核酸和蛋白质序列分析
关键词: 核酸序列 蛋白质序列 分析 软件
在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(http://gene.bjmu.edu.cn/science/bioinfomatics.htm),可以直接点击进入检索网站。
下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。(一)核酸序列分析
1
、双序列比对(pairwise
alignment)
双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension
penalty),以获得更优的比对。
除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST
(http://www.ncbi.nlm.nih.gov/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。
(1)BLAST和FASTA
FASTA(http://www.ebi.ac.uk/fasta33/)和BLAST(http://www.ncbi.nlm.nih.gov/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。
使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。
(2)
Needle
和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列
(3) 相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。
2
、多序列比对和进化树
在研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。最常用的多序列比对工具为ClustalW(http://www.ebi.ac.uk/clustalw/),多用于比较蛋白序列。
ClustalW
用法:(1)输入:序列以FastA格式输入。(2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。
3
、ORF(Open Reading
Frame)分析
从核酸序列翻译得到蛋白质序列,需要进行ORF分析,每个生物信息学分析软件包几乎都带有翻译功能。推荐使用NCBI的ORF Finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)软件或EMBOSS中的getorf(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)软件。ORF Finder 以图形方式,分为正链+1、+2、+3和反链+1、+2、+3六个相位预测ORF;Getorf可指定预测ORF的长度下限和指定预测正反链。进行ORF分析虽然比较简单,但应注意以下几点:(1)序列的准确性:尤其是通过计算机拼接的序列,需要根据EST和基因组序列进行反复校正。(2)ORF是否完整:看在ORF上游同一相位是否具有终止码,或者具有起始密码子。(3)参考Kozak一致性规律,即起始密码子位点符合A/GCCATGG。(4)不要忽略反义读框。
4
、染色体定位
根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。具体方法为:(1)进行Genomic BLAST搜索。(2)通过“Genome view”观察基因组结构。(3)点击相应染色体区域,通过表意图(ideogram)和相应区域上下游的基因进行精确定位。
5
、基因结构分析
根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLAST(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。
6
、基因上游调控区分析(1)启动子预测:推荐使用冷泉港开发的FIRSTEF程序(http://rulai.cshl.org/tools/FirstEF/)进行启动子预测。用RT-PCR等实验方法获得的mRNA往往缺少完整的5’端,采用FirstEF 程序可以对第一外显子(尤其是非编码的第一外显子)和CpG相关启动子进行预测。方法:以FastA格式输入起始密码子上游序列。(2)转录因子结合位点分析:推荐使用TFSEARCH程序(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序(http://www.gene-regulation.com/pub/programs.html#match)对转录因子数据库TRANSFAC(http://transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的转录因子结合位点。方法:输入起始密码子上游序列。结果将给出很多可能的转录因子结合位点,注意选择其中分值较高的位点。(二) 蛋白质序列分析
1
、跨膜区预测
各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。
使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov
Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。方法:输入待分析的蛋白序列即可。
2
、信号肽预测
信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。推荐使用SignalP软件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。
3
、亚细胞定位预测
亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。
推荐使用PSORT(http://psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。
DNA
序列分析技术路线图
cDNA
Featues
AATAAA signal,Polyadenylation
Electronic elongation(EST)
ORFs(ORF Finder, getorf)
Restriction site(DNASIS)
Expression profile
EST
SAGEmap,SAGE Genie
Microarray(WormBase)
Genomic sequence
Features
chromosome location(Human Genome)
MW, base compositon(DNAMAN)
Exon-intron(SIM4)
Repeats(RepeatMasker)
SNPs(dbSNP, TSC)
5' flanking sequence
Promoter, TATA box(FIRSTEF)
CpG island(cpgplot)
Transcription factor binding site(TFSEARCH, match)
Novel gene prediction(EST, stackPACK)
蛋白序列分析技术路线图
Protein
features
MW,pi,AA composition(EMBOSS)
Hydrophobicity(BioEdit)
Transmembrane region(TMHMM)
Signal peptide(Signal P)
subcellular location(PSORT)
Coiled coil(COILS)
Antigenic site(DNAStar)
Function inference
Gene knockouts(WormBase)
Similarity search
Alignment(BLAST,FASTA,CLUSTALW)
Phylogenic analysis(DNANAN)
Genome context(COG)
Motif,profile,domain(PROSITE,Pfam,SMART)
Expression 'topology'(WormBase)
Structure information
Secondary structure prediction(PHP)
Structure classification(SCOP)
Structure modeling(HOMOLOGY,DISCOVER)
Binding site analysis(Binding site)