蛋白质组学基础知识12-20

非生物专业小白一枚,因实验需要刚开始自学,不足之处烦请指正。在上也查阅了相关文章,如bioin前辈写的一些,受益匪浅,因此也将自己的整理分享出来,希望能帮助到有需要的伙伴。

What?

蛋白质组学单词是Proteome,1994年由澳大利亚学家Wilkins提出。它是一个合成词,可以拆分为两个单词,proteins和genome,分别取两个单词的前半部分和后半部分,proteins意思是蛋白质,genome意思是基因,其字面意是Proteins expressed by  geome——由基因表达的全部蛋白质,但显然初中生物常识告诉我们,基因组和蛋白质并不是简单的对应关系,下文中有介绍。蛋白质组研究本质上是指在大规模水平研究蛋白质的特征,包括蛋白质的表达水平翻译后修饰蛋白质之间的相互作用等。

Why?

那物美价廉的基因组它不香吗?当然是不够香啦(好好安例,拒绝拉踩。)

我们应该都了解过人类基因组计划(human genome project, HGP),它是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一计划,预算达30亿美元。按照这个计划的设想,在2005年,可以解开人体2.5万个基因的30亿个碱基对的秘密。but理想很丰满,现实很骨感。它GG了,科学家们并没有获得打开生命秘密的钥匙。本着不能在一棵歪脖子树上吊死的原则,科学家们选择了另一棵看起来相对靠谱的树——蛋白质组。为什么说蛋白质组看起来更加靠谱呢?当然是要找个能说服自己的理由啦,不然怎么能潜心科研呢?可能是科学家们瞄准了初中生物课本中的一句话:蛋白质是生命活动的承担者。具体含义在此不赘述。基因组是静态的,一个生命体从出生到死亡,它的基因是相对稳定的,而它的蛋白质组却是动态变化的,打一颗常用的栗子:一只蝴蝶,从卵--幼虫--蛹--成虫,它的一个生命周期内各个阶段基因是无较大变化的,而各个阶段的蛋白质很明显是不一样的。类似的例子还有人和猪,基因相似程度也非常高(所以朋友间的调侃你真是头猪也不无道理)。其实也就是业内常说的:基因组描述的是可能发生的事情,而蛋白质组描述的是正在发生的事情。

铺垫了这么多,当然只为说明一件事情啦,那就是蛋白质组大法好!

HOW?

      接下来就认识一下蛋白质组学的分析原理及常用的技术。

(一)质谱与色谱

先简单熟悉下流程

      得到样品后,首先要对样品进行前处理,然后经过还原烷基化酶解形成肽段,再进行液质连用分析来(把液质连用分析划出来,考试要考的),再进行数据库搜索,最后进行生信分析。下面详细介绍一下液质连用分析:

      此处的“液”是指液相色谱仪,质是质谱仪,其中质谱仪是最最核心。那就首先介绍一下质谱仪。

质谱仪

质谱仪一看就是很贵的样子,先给各位爷大家来张图开开眼。

      质谱仪主要由进样系统、离子源、质量分析器、检测器、计算机处理系统组成。其原理是用电离装置将样品分子离子化后,质量分析器把不同质荷比的离子分开,经检测器检测之后进入计算机处理系统可得到样品的质谱图,然后对质谱图进行分析。进样系统和计算机系统比较容易理解,进样系统就是进样,既可以直接进样,也可以与其他仪器连用进样,比如前面提到的液质联用分析,计算机处理系统就是后续的数据输出整理等。下面分别介绍一下离子源、质量分析器和检测器。

离子源(Ion source)是使中性原子或分子电离,并从中引出离子束流的装置。它是各种类型的离子加速器、质谱仪、电磁同位素分离器、离子注入机、离子束刻蚀装置、离子推进器以及受控聚变装置中的中性束注入器等设备的不可缺少的部件。(源于百度百科)所以它的作用也很明了了,就是将要被分析的样品电离,形成离子束流,然后进入质量分析器被分离。检测器作用是收集离子、采集放大信号,现在最常用的是电子倍增器和微通道板。质量分析器是质谱仪的核心,常用的有以下几种四级杆-Quadrupole、离子阱-Ion trap、飞行时间-TOF,下面分别具体介绍一下。

四级杆-Quadrupole:由图可见,四级杆-Quadrupole由四根电极组成,两根电极形成一组.....好吧,原理太难了,上视频吧质谱原理之四极杆_好看视频

      这是介绍四级杆常用的一张图,个人理解为当扫描的电压和频率一定的时候,只有特定质荷比的离子才能穿过四级杆。通过改变四级杆上的电压,我们可以让不同质荷比的离子依次穿过质谱仪,到达检测器。其他的就被淘汰掉,打到四级杆上或者从四极杆的缝隙飞出。

离子阱-Ion trap:

      原理和四极杆相似。但是离子阱质谱仪中,离子不会飞出质谱仪,而是一直在阱里面。当扫描电压达到一定的数值以后,离子会被射出来。

飞行时间-TOF:

      该质量分析器技术原理较为简单。各离子经加速电压加速后,在飞行管中匀速运动,根据各离子到达检测器的飞行时间不同,进行区分。m/z越小的离子越先到达检测器。

      下图是几项主流的高分辨质谱的对比分析:

      AB公司的飞行时间质谱,扫描速度快,但分辨率低;Thermo 公司的Q Exactive是轨道离子阱质量分析器,扫描速度慢,分辨率高;Q Exactive是主流的分析仪器,应用较广

下面介绍一下质谱中常见的术语

质荷比:离子质量(相对原子质量)与其所带电荷(电子电量)之间的比值,m/z。

峰:质谱图中的离子信号

基峰:指定质荷比范围内强度最大的峰

离子丰度:检测器检测到的离子信号强度

离子相对丰度:以质谱图中指定质荷比范围内基峰强度为100%,然后以此为基础其他离子峰对其归一化所得的强度。

质谱图:以离子的质荷比为横坐标,以质量峰的(相对)强度或离子的(相对)丰度为纵坐标绘制的谱图。质谱图有轮廓图和棒图两种形式,二者在数据采集前设定的采集模式不同,分别为轮廓图模式和质心模式。轮廓图可以理解为对信号的真实反映,可以清楚地展示峰形和峰宽,棒图它相当于只取了轮廓图中每个峰的最中间部分也称为峰质心,此部分的m/z和峰高。因此可以很明显地得出两点结论,轮廓图的数据量更大,适用于峰形和峰宽比较重要的一些分析;棒图的数据量更小,更加地简便直观,适用于不同质谱图之间的比较分析。轮廓图可以变为棒图但是棒图不能转变为轮廓图。LC-MS多采用轮廓图,GC-MS多采用棒图。

上图!

总离子流色谱图

各组分从色谱流出后进入质谱进行分析。以保留时间为横坐标,然后以离子强度为纵坐标,绘制谱图。此处的离子强度指的是所有离子或特定范围内离子强度的和,即在质谱内进行扫描时,每次扫描都会产生一张质谱图,将每一张质谱图中所有离子强度相加,得到一个总的离子流强度。

上图!

有没有觉得质谱挺靠谱的,好像可以直接解决问题,为什么前面要加一个色谱呢?

下面让我们简单了解下色谱(参考书目夏之宁主编,色谱分析法,重庆大学出版社,2012.09)。

色谱 

      色谱可以理解为不同颜色的谱带。

起源:色谱最早是由俄国植物学家Tswett提出的,从此打开了科学研究新世界的大门,由此可见各行各业细心琢磨都能出人才。(喂!开始拉踩植物学了是吗?)言归正传,色谱们的祖先是什么样子的呢?Tswett是这样操作的。取一根装有碳酸钙吸附剂的玻璃柱竖直放置,然后将含有植物叶色素的石油醚倒入玻璃柱并用纯净的石油醚不断向下冲洗,一段时间后会在玻璃柱内形成间隔清晰的不同颜色的谱带,这就是最初的色谱。

原理:色谱简单说是利用两相之间的吸附或分配系数不同进行分离。哪两相呢?一相是固定不动的,称为固定相。一相是流动的,为携带混合物流过固定相的流体,称为流动相。被测物质在两相之间进行多次分配(1000~1000000次),把原来这种微小的分配差异放大了,进而就能把两相很好地分离了。更简单的理解就是利用各组分在固定相中“跑得快慢不同”,类似于一场跑步比赛,有人加速冲刺,有人慢慢走,到达终点的速度及时间不同,下面用一则动画加深一下理解。https://haokan.baidu.com/v?vid=10678291371203851217&pd=bjh&fr=bjhauthor&type=video

构成:色谱由构成如下。

流动相由1进入2净化器后进行净化以去除干扰组分(如水分等),然后进入3色谱柱进行分离,然后各组分依次进入4检测器进行检测,产生的检测器信号进入5记录仪进行记录就可以得到相应的色谱图。

      简单分析一下色谱的优缺点。

优缺点:色谱的优点是分离效率高,它可以一次分离上百种组分;分离速度快,最快几分钟完成一个样品的检测;样品用量少,一次进样只需要几纳升或者几微升;自动化程度较高,目前的色谱仪器已经实现了从进样到数据处理的全自动化。色谱的缺点是定性能力差。

对其进行基本了解后,下面就解答上面的问题,答案很简单,就是“优势互补”。将色谱对复杂样品的高分离能力与质谱优良的定性和定量能力结合起来。更简单一点,色谱相当于预处理,让要处理的组分排队站好,便于质谱分辨,提高处理质量和处理效率。

    目前最常用的液质联用技术,也就是说液相色谱与质谱联用技术。

    装备介绍完了,可以介绍一下技能了。

(二)蛋白质组学的两大策略

Bottom-up,自底向下:此处的Bottom指的是肽段,up指的是由肽段到蛋白质的推理过程。首先将蛋白质酶切产生肽段,然后肽段的混合物进入液相色谱分离后进入质谱进行碎裂,通过谱图中离子峰信息进行数据库搜索比对来鉴定肽段,最后将鉴定到的肽段进行组装推理以获得样品中所有的蛋白质。此策略又被称为鸟枪法蛋白质组学(Shotgun Proteomics)。bottom-up分析策略更灵敏,分析通量更高,因此应用更广,是一种主流的策略。本文介绍的也是按照bottom-up分析策略进行的。

Top-down,自顶向下:此处的Top指的是对完整蛋白质分子量的准确测定,down指的是通过串联质谱技术对完整蛋白质碎裂。通过完整的蛋白质的质量及碎裂谱的信息来鉴定蛋白。

两种策略最主要的区别是一个需要酶切,一个不需要酶切。

(三)蛋白质鉴定原理

      样品前处理(对蛋白进行提取,提取后的蛋白经还原烷基化酶解成肽段),进入HPLC,肽段在离子源内被离子化生成气态的带电离子通过一级质量分析器进入检测器,根据其运行轨迹记录下每个母离子肽段的质荷比信息及峰强度,得到一级质谱图(全扫描),然后从一级质谱中选出丰度前20/30的母离子进入二级质量分析器,进行机械碎裂形成子离子进入检测器,根据其运行轨迹得到二级质谱图。将采集到的数据导入搜库软件进行搜库,常用的数据库是Uniprot(信息全),没有的去NCBI下载,最后进行生信分析(GO等)。实际的谱图信息和软件模拟的谱图信息进行对比,通过打分值判断样品。

离子与一二级质谱关系如下:

放张图方便理解:

      那如何根据质谱的数据得知氨基酸的排列顺序呢?

      通过一级质谱只能知道母离子的分子量,但无法得知具体的氨基酸及其排布顺序。在二级质谱中肽段会按照一定的规律断裂成离子碎片,重点来了,是“按照规律断裂”而不是随意断裂,只在特定位置断裂。下面需要引入一组概念——y离子与b离子。我们都知道任何一个氨基酸都有一个N端-NH2和C端-COOH,在结合成多肽的时候,会脱掉一个水分子。所以肽段都有C端和N端。不同的碎裂方式得到的离子模式不同, 如a/x, b/y, c/z。我们一般称N端碎片离子为b离子和C端碎片离子为y离子。根据碎片离子的质量推测氨基酸排布

b离子质量 = ∑ (残基质量) + 1 (H+)

y离子质量 = ∑ (残基质量) + 19 (H2O+H+)

(四)蛋白质常用的定量技术

Label free(来源:https://www.biomart.cn/v3/webinars/detail/419)

      相较于其他定量技术,它的一个重要区别就是不需要对蛋白质/肽段进行标记。标记在后面的技术中会提及。比如有A、B、C三个样品,就对他们三个分别进行酶解,然后在LC-MS/MS条件一致的情况下,分开鉴定即可,个人理解为相当于一组组得平息实验,其基本流程如下。

      SDS-PAGE电泳质检判断是否可以进行质谱分析。流程跟前面提及的定性分析流程差别不大。

Label free由于不需要标记,因此相较于其他技术来说,操作相对简单,而且该技术可以进行无限个样品的分析,实现了高通量。同时该技术可以区分蛋白质的“有”“无”,可以根据零值判断该蛋白质在各样本中是否表达,筛选出特异性蛋白。放张图搭配食用。

​      上面的0代表的就是没有样品中没有该蛋白。该技术的缺点为对LC-MS/MS的稳定性要求较高,又由于LC-MS/MS的稳定性较差,因此其定量准确度比较差,每个样品必须做重复,一般做3次生物学重复或3次上机重复以提高准确性。讲到这里,它的适应类型也很明显了。这项技术比较适合研究差异较大的样本或者研究不同样本间蛋白种类的差别的情况。

TMT(基于二级质谱的定量)

      TMT是一种标记定量技术,首先了解下等量异位标签(isobaric tag)。如图所示,该标签包括报告基团、平衡基团、反应基团。

打颗栗子:

报告基团:质量为114Da、115 Da、116 Da、117 Da......

肽反应基团:将报告基团与肽N端及赖氨酸侧链连接,几乎可以标记样本中所有蛋白质。

平衡基团:质量为31 Da、30 Da、29 Da、28 Da.......

不同的报告基团分别与相应的平衡基团相配后,相对分子质量均为145,也就是它们都是等量的。

流程如下:

      相较于Label free,增加了TMT标记和C18反向柱。C18反向柱的作用是进行一维色谱预分级后再上机,因为样本太多,分级后分离效果好,鉴定结果更好。将标记后的样本全部混合成一管上机,得到一级谱图,一级谱图中不同样本中的同一肽段会表现出相同的质荷比,因此会出现同一个峰,在二级谱图中失去平衡基团,不同样本中的肽段会表现出不同的报告基团,根据报告基团表达的峰强度值推测肽段的峰强度值,通过搜库得到蛋白的信息。该技术的优点是系统误差小、通量高(可达16标)缺点是对仪器分辨率和质量精度要求高、不能区分“有”“无”差异,无零值出现。该技术使用时至少进行三个生物学重复。

iTRAQ技术此技术原理和TMT原理完全一致,但一次上机最多标记8个样本。

      那TMT与iTRAQ技术选择哪种呢?

      这两种技术的原理是一样的,TMT最高可做16标,iTRAQ8标。超过8标就可以考虑用TMT,不过10标及以上标记的TMT要在质谱仪分辨率至少高于3万才能分辨出来不同的标签。iTRAQ是AB公司的,主打飞行时间质谱仪。TMT是Thermo的,Obitrap仪器的分辨特别高,所以要做10标及以上的TMT必须用Obitrap仪器。此外,查阅了几个生物公司的答案为TMT定量鉴定会得到更多的蛋白质数量,并且TMT标记更敏感,噪音信号水平更低,准确度更好。不知道这是否是一个有偏向性的答案,毕竟TMT更贵。当然也有人提出iTRAQ技术成熟稳定应用多,之前阅读的文献中也有采用iTRAQ技术。具体选择还需进一步查阅相关资料判断。

DIA技术(非标记技术):数据非依赖型采集技术,是一种新技术。传统的技术如TMT/iTARQ,label free 都是数据依赖型采集模式DDA。DDA一级全部采集,二级选择前20/30的母离子进行碎裂,其优点是子离子碎片和母离子肽段对应关系明确,定性更容易;缺点是只有一部分肽段采集到二级信息,很大一部分信息丢失。如果把DDA比作机枪扫射的话,DIA就是炮弹轰炸。DIA一级采集采用全扫描采集模式,采集全部母离子,二级会设置不同的连续的的窗口,只要满足窗口大小的母离子就会通过窗口进入二级进行碎裂,因为窗口是连续的,因此可以采集到全部母离子的信息。其优点是采集非常全面。缺点是母离子和子离子对应关系不明确。当然作为一项新技术,目前还不是很成熟稳定。

      ​那DIA和TMT/iTRAQ之间该怎么选择呢?

      小样本量采用TMT/iTRAQ,大样本量的项目采用DIA。

      两项不常用技术:

SILAC:是体内标记技术,在培养过程中就要标记,成本高、价格贵,应用较少

PRM(平行反应监测反应):可对复杂样本中目标蛋白质/肽段进行准确地进行特异性分析,但是子离子碎片与母离子对应关系难以确认

      上一张偷的图比对一下以上几种技术,目前应用最多的是TMT和iTRAQ技术,

本次分享结束,不足之处,请批评指正。PO一篇蛋白质组的综述Mass-spectrometic exploration ofproteome structure and function.pdf

在查阅资料时,总会一次次被前人对科学的不断探索精神震撼,不同领域的融合、每次发现背后无数人的努力.....当然更多的是感到幸运,能在前人披荆斩棘开拓的坦途上继续探索。所以哪怕能做出微微小的贡献,都是幸福且酷的。总还是需要一点理想主义。

你可能感兴趣的:(蛋白质组学基础知识12-20)