蛋白质组学
蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。
蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。
尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。
另外,高尔基体功能复杂。最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。
蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。
研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。
最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。
3.1 蛋白质功能预测工具[2]
也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。
在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG站点。PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。在检查PSI-BLAST的搜索输出时,也有一些注意事项,因为假的匹配记录很容易污染分析结果。
表3 蛋白质功能预测工具[2]
预测工具 | 类型 | 所在地 | 网站 |
BLAST | 同源搜索 | NCBI:美国国立生物技术信息中心;NIH:美国国家医学研究院 | http://www.ncbi.nlm.nih.gov/BLASTselect protein-protein BLAST |
FASTA | 同源搜索 | 美国弗吉尼亚大学、日本京都大学 | http://fasta.bioch.virginia.eduhttp://fasta.genome.jp/ |
PSI-BLAST | 同源搜索 | NCBI:美国国立生物技术信息中心;NIH:美国国家医学研究院 | http://www.ncbi.nlm.nih.gov/BLASTselect “PSI- and PHI-BLAST” |
Pfam | 蛋白质家族鉴定 | 华盛顿大学 | http://pfam.wustl.edu |
SMART | 保守结构域搜索 | EMBL:欧洲分子生物学实验室 | http://smart.embl-heidelberg.de |
PROSITE | 功能模体搜索 | 瑞士生物信息研究所 | http://us.expasy.org/prositehttp://motif.genome.ad.jp |
ELM | 真核生物功能结构域搜索 | ELM 联合体 | http://elm.eu.org |
STRING | 通过比较基因组学进行功能预测 | EMBL(欧洲分子生物学实验室) | http://string.embl.de |
PSORT | 亚细胞定位预测 | 人类基因组中心东京大学 | http://www.psort.org |
PFP | 通过发掘PSI-BLAST结果进行功能预测 | 美国普渡大学 | http://dragon.bio.purdue.edu/pfp |
Pfam数据库(Protein families database of alignments and HMM, 蛋白质家族比对和HMM数据库)是基于HMM模型(隐马尔可夫模型)构建并拓展起来的。它实际上是一个涵盖了生物蛋白质序列中常见结构域的序列及其相对应的隐马尔科夫模型的数据库,由英国的Sanger Institute维护。Hmmpfam的工作原理简单来说,就是将用户所提交的查询序列在Pfam库中做比对计算,然后预测出查询序列中所隐含的结构域信息。
表4中描述的三个数据库资源——简单模块构架搜索工具(simple modular architecture research tool, SMART)、Motif数据库(PROSITE)以及 ELM是具有不同特点的数据模体数据库。SMART储存有蛋白质家族的保守区域,可以作为每一个基因家族的特征标记。SMART可以说是蛋白结构预测和功能分析的工具集合。简单点说,SMART就是集合了一些工具,可以预测蛋白的一些二级结构,如跨膜区(Transmembrane segment)、复合螺旋区(coiled coil region)、信号肽(Signal peptide)和蛋白结构域(PFAM domain)等。另一方面,PROSITE中的序列模体是一些重要的生物学位点,包括功能位点和容易被修饰的位点。ELM是真核生物功能位点数据库。
PROSITE数据库是基于多序列比较而得到的单一保守序列片段,或称序列模体。PROSITE数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这些区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,PROSITE数据库实际上是蛋白质序列功能位点数据库。通过对PROSITE数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。Prosite数据库实际上包括两个数据库文件:一个为数据文件,即Prosite,该文件给出了能进行匹配的序列及序列的详细信息;另一个为说明文件,即PrositeDoc。PrositeDoc说明文件中给出该序列模式的生物学功能及其文献资料来源。PROSITE数据库使用正则表达式来表示序列模式。
STRING是一个已知和预测基因间功能联系的数据库。STRING一个有趣的特点是,一个查询序列的功能是利用比较基因组学方法预测的。例如,假设一个要查询的基因是几个基因组中功能已知的基因,这几个基因组进化上相关,那么预示着要查询的基因与相邻基因可能涉及相同的途径或功能。
具有相同的系统发生的那些基因,或同时存在和同时消失的那些基因也预示着他们的功能是相互联系的。SMART也利用微阵列中的共表达来分析,用户可以利用SMART站点进行功能预测,基因功能之间的联系资料也可以免费获得。
PSORT工具可以预测基因的亚细胞定位。从根本上说,PSORT工具基于其氨基酸序列预测蛋白质亚细胞定位。它利用机器将要查询蛋白质的特殊序列(如信号肽序列)检测和分类并定位到已知位置。PSORT II是广泛使用的蛋白质亚细胞定位分析软件,通过输入的氨基酸序列,能够预测出其在亚细胞结构中可能的位置。
PFP(蛋白质功能预测)服务器是最近研发的。不同于传统的PSI-BLAST,PFP利用序列采样数可以发掘更多的功能信息。
在列出的蛋白质功能预测工具中,BLAST、FASTA和Pfam最可靠,但它们无法提供关于已经储存在公共数据库中的已注解基因的更多的信息。其它方法都优于上述三种方法,且有更广的覆盖率,但是使用时要小心,因为有相对较高的假采样。为了避免这种情况发生,应该多采样几种方法,检查获得结果的一致性。
表4 蛋白质结构预测工具
预测工具 | 类型 | 所在地 | 网址 |
PSIPRED | 二级结构 | 伦敦大学 | http://bioinf.cs.ucl.ac.uk/psipred/ |
PORTER | 二级结构 | 都柏林学院 | http://distill.ucd.ie/porter/ |
SAM-T02 | 二级结构 | 加州大学圣塔克鲁兹分校 | http://www.cse.ucsc.edu/research/compbio/HMM-apps/T02-query.html |
SABLE | 二级结构和溶剂可接近性 | 美国辛辛那提儿童研究基金会儿童医院医疗中心 | http://sable.cchmc.org/ |
PredictProtein | 二级结构和其他 | 美国哥伦比亚大学 | http://cubic.bioc.columbia.edu/predictprotein/ |
COILS | 2个或以上的α螺旋组成的超螺旋结构区域(卷曲螺旋区域) | 瑞士,EMBnet | http://www.ch.embnet.org/software/COILSform.html |
GlobPlot | 无规则区域 | 欧洲分子生物学实验室 | http://globplot.embl.de/ |
PONDR | 无规则区域 | 印地安纳大学 | http://www.pondr.com/ |
TMHMM | 跨膜结构域 | 丹麦科技大学 | http://www.cbs.dtu.dk/services/TMHMM-2.0/ |
HMMTOP | 跨膜结构域 | 匈牙利科学院 | http://www.enzim.hu/hmmtop/ |
SWISS-MODEL | 3D结构同源建模法 | 瑞士生物信息研究所 | http://swissmodel.expasy.org |
HHPred | 3D结构同源建模法 | 马克斯?普朗克科学促进协会 | http://protevo.eb.tuebingenmpg.de/toolkit/index.php?view=hhpred |
MODELLER | 3D结构同源建模法 | 加州大学旧金山分校 | http://salilab.org/modeller/ |
FUGUE | 3D结构,指认方法(线引法或穿线法) | 剑桥大学 | http://www-cryst.bioc.camac.uk/~fugue/ |
Phyre | 3D结构,指认方法(线引法或穿线法) | 帝国理工学院(伦敦大学(University of London)的独立学院) | http://www.sbg.bio.ic.ac.uk/~phyre/ |
SPARKS | 3D结构,指认方法(线引法或穿线法) | 纽约州立大学水牛城分校 | http://phyyz4.med.buffalo.edu/hzhou/anonymous-fold-sparks2.html |
Robetta | 3D结构从头计算法(ab initio) | 华盛顿大学 | http://robetta.bakerlab.org/ |
3.2 蛋白质结构预测工具
当候选基因被选择出来通过微阵列进行实验检测时,生物信息学蛋白质预测工具就对设计生物化学实验非常重要。例如,一个基因预测的二级结构就对预测结构域很有益处,因为这对设计有限的蛋白质水解以鉴定基因的功能区域非常重要。当今二级结构预测算法的准确率大约75%,足以达到平常预测的要求。表4中列举了5种二级结构预测工具,它们都利用机器学习的技术来识别大家熟悉的二级结构,如α-螺旋和β-折叠。机器学习就是要使计算机能模拟人的学习行为自动通过学习获取知识和技能,不断改善性能,实现自我完善。机器学习研究的就是如何通过识别和利用现有知识来获取新知识和新技能。 PSI-PRED、PORTER、SABLE和PredictProtein seartificial利用人工神经网络(Artificial Neural Networks,简写为ANNs) ,而SAM-T02则利用HMM。 SABLE和 PORTER 被认为是这个领域中最准确的预测工具,它们的准确率分别可以达到78.4%和79%。尽管列表中的工具在蛋白质预测方面准确率还相对较低,但这些工具不仅能够预测二级结构,也能够预测其它结构信息,包括混乱区域、两个或两个以上的α螺旋组成的超螺旋结构区域、每个残基的可溶解程度以及要搜索序列的模体结构,所以他们可以用来“一步完成”蛋白质序列分析。COILS通过序列中周期出现的疏水残基来预测蛋白质的卷曲螺旋。卷曲螺旋是存在于多种天然蛋白质中的结构模式。近年来,人们通过对天然蛋白质中的卷曲螺旋结构以及根据已有知识设计合成的卷曲螺旋结构的研究,已基本掌握了这类结构模式的特点,并将特异的卷曲螺旋结构应用于生化分析、工业和医药卫生等领域。GlobPlot和PONDR是预测蛋白质固有无规则区域的工具,这些区域的天然构象中,没有稳定的蛋白质二级结构。这些无规则区域的重要性最近才刚刚被人们发现,因为它们是很多重要的功能性位点,例如其它蛋白质和配体的结合区域位于球状蛋白质的结构域的外部,所以本质上是没有规则的[3]。
HMMTOP是预测蛋白序列的跨膜螺旋与拓扑结构工具,TMHMM是预测蛋白的跨膜螺旋工具。它们都利用了HMM。跨膜结构域预测是生物信息学在蛋白质结构预测中应用得最成功,HMMTOP预测的跨膜蛋白质98%的结构域和85%的拓扑结构是正确的。且上述这两种工具是基于网络的,HMMTOP也提供本地拷贝[3]。
表5的后面列举了5种预测三级结构的工具。预测蛋白质三级结构的方法在最近几十年中有了较大的改进,并且有些方法的准确率已经足以应用于实践[3]。
结构预测方法大致分为三类:
(1) 同源性建模(homology modeling)方法:这类方法的理论依据是,如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有实验表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况;
(2) 从头计算(Ab initio或de novo) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的 Blue Gene 超级计算机就是要解决这个问题;
(3) 穿线法(Threading或fold recognition):由于 Ab Initio 方法目前只有理论上的意义,Homology方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,因此对于其它大部分蛋白质来说,有必要寻求新的方法,于是Threading应运而生。
以上三种方法中,Ab Initio方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。
SWISS-MODEL和HHPred 是基于网络的同源建模工具,HHPred软件也可以下载。 MODELLER是这一类型软件中应用最早和最广泛的软件。MODELLER和SWISS-MODEL有同源建模数据库。接下来三个工具FUGUE、Phyre和SPARKS属于穿线法。穿线法可在数据库中搜寻和待测蛋白结构非常匹配的模板蛋白质。与同源建模法不同,穿线法中模板蛋白质和待测蛋白质明显的序列相似性并不是必要条件。穿线法可以检测一个数据库中亲缘关系很远的蛋白质,Z-score作为一个统计学值,可以显示模板蛋白质和待测蛋白之间的匹配程度,当Z-score较低时,就意味着没有匹配搜索的结构[3]。
最后,Robetta工具属于从头计算法。它利用从数据库收集的序列片段来组装模型,是一个自动化的蛋白质结构预测服务工具。它由贝克实验室提供,用于非商业性质的从头计算和比较建模[3]。
3.3 蛋白质-蛋白质相互作用数据库
表5列出了蛋白质之间相互作用(protein-protein interactions, PPI)的数据库。在过去的几年中,有大规模实验开始研究蛋白质之间的相互作用,并且很多相关资源可以在互联网上得到。了解一个基因编码蛋白质与其它蛋白质之间的关系,对于推测这个基因发挥功能所需的背景关系具有重要意义。BIND(biomolecular interaction network database)数据库是BOND(biomolecular object network databank)数据库的一个子数据库,它是现在最大的PPI数据库。BIND数据库收录了1500种生物分子之间的200,000种相互作用的数据。这种相互作用不仅包括蛋白质之间的相互作用,还包括蛋白质与DNA、RNA、小分子、脂质以及糖类物质之间的相互作用。BIND数据库每日更新、覆盖面广,包含人、果蝇、酵母、线虫等物种的PPI[3]。
在 BIND 数据库中,PPI 被分成 3 大类:二元分子相互作用(binary interaction) 、分 子 复 合 物(molecularcomplexe)以及生物途径(biological pathway),它们分别从不同层面呈现了分子间的相互作用关系[3]。
DIP(database of interacting protein)数据库专门存储经实验证实的来自文献报道的二元 PPI,以及来自 PDB(protein data bank)数据库的蛋白质复合物。目前DIP收录了18,000种相互作用的数据,DIP的目的在于建立一个简单、易用、高度可信的PPI公共数据库[3]。
MIPS(mammalian protein-protein interactiondatabase)数据库同样利用文献挖掘技术,专门存储哺乳动物的PPI,主要包括人、大鼠和小鼠等物种。该数据库详细记录了蛋白质相互作用的类型、实验证据及其结合位点。同时,它还提供蛋白质名称、实验方法和物种等多种查询方式[3]。
HPRD(human protein reference database)数据库是包含蛋白质注释、PPI、转录后修饰和亚细胞定位等多种信息的综合数据库[3]。
IntAct也是一个存储和分析生物分子间相互作用的公共数据库。它主要记录二元相互作用及其实验方法、实验条件和相互作用结构域,包括人、酵母、果蝇和大肠杆菌等物种。 IntAct 数据库分为基本查询和高级查询:基本查询可以根据蛋白质名称、PubMedID等进行简单搜索;高级查询根据实验方法和IntAct自定义的控制词汇进行查询。GRID存储了酵母、果蝇和线虫的遗传和生理作用。Osprey蛋白质相互作用网络可视化系统是加拿大多伦多大学一个生物信息学研究组开发的,其目的在于更好地研究蛋白质相互作用网络和蛋白质复合物[3]。
表5 蛋白质-蛋白质相互作用数据库和数据库工具工具 | 类型 | 所在地 | 网址 |
BIND | 蛋白质-蛋白质相互作用途径 | 加拿大多伦多西乃山医院 | http://bind.ca/ |
DIP | 蛋白质-蛋白质相互作用 | 加州大学洛杉矶分校 | http://dip.doe-mbi.ucla.edu/ |
MIPS | 哺乳动物的蛋白质-蛋白质相互作用 | 慕尼黑蛋白质序列信息中心 | http://mips.gsf.de/proj/ppi/ |
HPRD | 人类蛋白质参考资源 | 美国约翰霍普金斯大学 | http://www.hprd.org/ |
GRID | 酵母、果蝇和线虫的遗传和生理作用 | 加拿大多伦多西乃山医院 | http://biodata.mshri.on.ca/grid/ |
IntAct | 蛋白质相互作用数据库的db系统和工具的开发资源 | 欧洲生物信息学中心 | http://www.ebi.ac.uk/intact/ |
Ospray | 蛋白质相互作用的可视化工具 | 加拿大多伦多西乃山医院 | http://biodata.mshri.on.ca/osprey/ |