基于shotgun蛋白质组学的MaxQuant质谱计算平台

基于shotgun蛋白质组学的MaxQuant质谱计算平台

MaxQuant是基于质谱(Ms)的蛋白质组学数据分析最常用的平台之一。自2008年首次发布以来,它在功能上有了很大的发展,可以与更多的Ms平台结合使用。在这里,我们提出了一个更新的协议,涵盖了最重要的基本计算工作流程,包括那些设计用于定量无标记蛋白质组学,Ms1水平标记和等压标记技术。该协议提供了MaxQuant中使用的参数的完整描述,以及其集成搜索引擎andromeda的配置选项。该协议更新描述了对实质上修改了该技术的现有协议的适配。简要回顾了shotgun蛋白质组学的重要概念及其在MaxQuant中的应用,包括不同的量化策略、错误发现率的控制以及翻译后修饰的分析。MaxQuant输出表包含了蛋白质和ptm的定量信息。此外,我们提供了一个简短版本的工作流程,适用于数据集与简单和标准的实验设计。MaxQuant算法在多个处理器上有效地并行化,并且可以很好地从桌面计算机扩展到多核服务器。该软件是用c++编写的,在http://www.maxquant.org。

介绍

数据分析是现代基于质谱的鸟枪蛋白质组学实验的主要挑战之一。原始数据吞吐量类似于基因组科学中的数据吞吐量,例如RNA-seq实验中的数据吞吐量。MaxQuant软件自2008年首次发表以来,已经帮助许多蛋白质组学实验室克服了这一计算障碍。从那时起,MaxQuant一直在不断发展,已经成熟为一个全面的蛋白质组学平台,支持大多数供应商的MS系统生成的MS数据分析,包括Thermo
Fisher Scientific、Bruker Daltonics、AB Sciex和Agilent
Technologies。它集成了多种算法,实现了从原始液相色谱(LC)-MS运行开始的MS数据的完整分析,并提供了用于光谱和3D
LC-MS数据可视化的附加模块(图1)。MaxQuant的主要优点之一是,通过应用先进的算法,它大大提高了质量精度和质量精度。

自最初的协议以来,MaxQuant最显著的变化是它现在有了自己的肽数据库搜索引擎,称为Andromeda。它一直与高分辨率仪器的最新进展和碎片技术的发展保持同步。由碰撞诱导离解(CID)、高能碰撞离解(HCD)和电子转移离解(ETD)产生的串联光谱可以很容易地用MaxQuant进行分析。对于每一种方法,都采用了一种定制的多级评分方案来优化每一种特定裂解技术的肽鉴定。杂交技术,如电子转移/高能碰撞解离(EThCD)也支持Andromeda的评分函数。此外,MaxQuant可以从每个MS/MS光谱中识别出一个以上的肽,因为它执行“第二肽”搜索,专门寻找由其他前体的共裂解产生的信号。

MaxQuant采用目标诱饵搜索策略(框1)来估计和控制假阳性识别的程度。由于鸟枪蛋白质组学分析是基于肽,然后必须组装成蛋白质,假阳性需要控制在不同的复杂程度。因此,我们提供了一个完整的工作流程来支持肽、蛋白质和PTM位点的可靠鉴定。在目标诱饵策略中,我们使用后验错误概率(PEP)的概念,将多个肽的性质,如长度、电荷和修饰次数,连同Andromeda评分,整合成一个单一的数量,反映肽谱匹配(PSM)的质量。这类似于基于机器学习的替代方法。尽管PEP提供了单个PSM的统计证据,但进一步的工作流程在几个层次上控制全局FDR,包括PSM、蛋白质组(框2)和PTM位点水平。

MaxQuant可用于分析来自所有主要相对量化技术的数据。常用技术包括无标记定量(LFQ)、MS1水平标记和等压MS2水平标记读数(方框3;图2)。MaxLFQ16工作流程是MaxQuant的一个组成部分,它可以在没有标记的情况下实现蛋白质组范围内的精确定量,即使是在质谱分析之前进行肽或蛋白质预分离的样品。代谢或化学标记(例如,分别用细胞培养中的氨基酸(SILAC)和二甲基标记的稳定同位素标记)方法在调查扫描级别得到支持;MaxQuant能够配置这些类型的标记。此外,我们还为串联质量标签(TMT)和用于相对和绝对定量(iTRAQ)标记的等压标签的所有常见形式提供了量化算法,包括每个标称质量具有一个以上报告者的更高复合物TMT
和多切迹MS3定量。

使用现场级FDR(见方框1中的“现场诱饵分数”)识别PTM,并对无标签和所有标签工作流程进行量化。在含PTM肽的评分中,考虑了修饰特异性中性损失和诊断峰。修饰肽,例如磷酸肽,通常在MS分析之前通过使用TiO2珠富集。通过严格的FDR控制,可以计算位点占用率。这个算法还没有被添加到PTM富集的样品中,完整的蛋白质组已经发表,但是基于‘修饰omb’和‘质量耐受性’也已经被测量了。

MaxQuant提供了一个无偏的额外工作流程,这里,在搜索非PTM富集样品中蛋白质修饰时未确定的所有MS/MS光谱集Andromeda搜索被提交到另一个搜索级别

高分肽。肽只能贡献这个蛋白质组的得分,确保每个光谱证据实例不被用作多个蛋白质组的确认。

位点诱饵分数.
这是可以应用FDR的另一个级别。从用户数据中标识的PTM位点的MaxQuant输出表将包含这部分反向命中。这一步将过滤后的psm作为输入,但与蛋白质水平FDR无关。这就产生了这样一个结果,即可以接受蛋白质不会达到FDR阈值的位点。这些蛋白质仍然包含在proteinGroups.txt文件表中,它们在“仅由位点标识”列中用“+”标记。如果要报告在指定的蛋白质组FDR阈值确定的蛋白质组数,则不应计算这些蛋白质组。

蛋白质组.
有一组蛋白质非常相似,以至于不能根据它们的肽含量来区分单个蛋白质。在MaxQuant中,鉴定和定量是在组水平上报告的。这样做是为了避免蛋白质水平上的过度计数鉴定,并使定量信息明确无误。这些蛋白质组通常含有特定蛋白质的异构体,但也可能是来自不同基因座的同源蛋白质。

多数蛋白质ID. 在最后的MaxQuant protein
groups输出表中报告了两个带有标识符的列:“protein id”和“maist protein
id”“蛋白质ID”包含所有通过鉴定标准的蛋白质,而“大多数蛋白质ID”包含经过过滤的蛋白质,使其至少包含分配给该蛋白质组的一半肽。这两个ID列表也根据已识别肽的总数进行排序。建议使用“多数蛋白质ID”列中的蛋白质进行后续功能或富集分析,因为它们可以防止意外击中蛋白质组。

已经确定的MS/MS光谱作为数据库。对于该目的,已经开发了一个特别设计的匹配分数,该分数基于已识别和未识别的MS/MS光谱之间的前体质量差异,尝试在每个残基上定位一个假设的修饰。然后,该算法检查未识别的MS/MS光谱是否可以解释为已经识别的光谱的修改形式。这样,所述改变不限于几个预定质量,而是可以原则上以无偏的方式检测任何质量或成分的改变。

方框4 . 简单标准数据集的最小工作流程

对于大多数项目,不必执行该过程的所有步骤并调整所有参数设置。此外,很少需要有多个参数组。在对一组样品进行定量的均匀实验设计的情况下,仅执行以下步骤即可:

16说明实验设计。19设置“Type”参数。22选择消化酶。默认情况下选择胰蛋白酶。

25选择“变量修改”。27启用LFQ(如果适用)。37选择.fasta文件。

39选择“固定修改”。默认情况下会选择甲酰胺(C)。80设置“线程数”参数。81按“开始”。

方框5 . PTM的识别和量化

PTM肽比率和强度.
所有携带修饰(例如磷酸化)的肽的肽水平定量可在输出文件modifica中找到特殊肽.txt.

PTM位点比率和强度.
对于修饰的位点水平定量(例如,磷酸化位点),所有比率和强度有三种版本,它们以后缀“_1”、“_2”和“_3”区分,这意味着只有单修饰的肽,只有双修饰的肽和只有三(或更多)修饰的肽,分别用于每个量化。用户可以更改最大数字(这里是“\u
3”)(步骤79)。

场地占用率.
给定样本中在该位点修饰的蛋白质比例是基于三个比率计算的:两个样本中修饰肽量的比率、未修饰对应物比率和蛋白质比率。蛋白质组应在适当的深度进行测量,以确保也能检测到未修饰的对应物,因此可以对占用进行量化。在SILAC实验中,两种标记态的比率是46,而在无标记实验中,两种条件的比率是25。一般而言,与基于标记的方法相比,无标记实验中的量化精度较低。随着不同条件下样本数量的增加,这种精确度会提高,因为有更多的样本可以用作彼此的参考。在计算占有率时,样本与其参考值之间的关系必须适当:要获得准确的值,它们不能太不同或太相似。因此,时间序列数据对于无标签占用率量化非常有用。

占有率. 占有率与位点占有率相似,不同之处在于蛋白质的占空比。

占用误差估计.
计算并报告每个占用估计值的误差估计值。这是源自占用率公式属性的结构误差,独立于数据,基于误差传播,假设单个比率误差相同且独立。可靠的占用率估计的特点是误差远小于1。有问题的情况包括用于比较的不同状态之间不存在较大变化的情况,这会导致较大的错误。

分数.
这是改良PSM的最佳Andromeda评分,考虑了CID和HCD碎片情况下的中性损失和诊断峰值。此分数可作为位点PSM质量的附加过滤器。CID、HCD、ETD和EThcD支持作为分段方法。

修饰肽的Delta评分.
最佳匹配肽和具有不同序列的下一个最佳匹配肽的得分之间的差异是δ得分;它也可以用于过滤以获得更可靠的识别。

局部化概率.
考虑在肽中分布所测定的磷酸化残基数目的所有可能性(即,在所有S、T和Y残基之间),并且计算相应的Andromeda分数。然后,将位点的定位概率计算为该位点被指定为修改的所有概率的归一化组合。

示例数据集

我们用MaxQuant处理了三份公开发表的原始数据的子集,以便为主要类型的定量蛋白质组学数据提供预期输出的例子。这是一个无HeLa标记的数据集,包括磷酸蛋白质组测定(http://proteomecentral.proteomexchange.org,标识符:PXD000612),小鼠SILAC蛋白质组数据集(http://www.protocols.maxquant.org,SILAC\u
RawFiles文件夹)和10plex
TMT数据集,标识符:MSV000079033)。有关更多信息,请参阅“预期结果”部分。

程序

在这里,我们描述了MaxQuant中的一整套参数和配置选项。对于简单的项目,通常只修改一小部分参数就足够了(方框4)。

andromeda搜索引擎配置

  1. 双击MaxQuant.exe文件。
  2. 转到“配置”选项卡。
  3. 修改现有和/或添加新的修改(步骤3–10)。在“修改”页面上,修改现有修改或添加新修改。要定义新的修改,请单击顶部命令功能区中的“添加”按钮。带有默认参数的新修改将出现在修改表中。
  4. 在右侧显示的窗口中设置新修改的所有属性。要定义修改的组成,请单击“更改”按钮,然后选择元素及其相应的编号。关键的一步是确保修改的“类型”设置正确,因为MaxQuant根据类型以特定于上下文的方式提供修改选项。
  5. 如果您的方法使用重同位素,如13C、2H和15N,请通过在下拉菜单中分别选择“Cx”、“Hx”和/或“Nx”来指定它们。
  6. 如果要查找末端特异性反应,请使用New terminus参数指定修改是否向可参与末端特异性反应的肽添加额外的C-或N-末端样基团。一个例子是赖氨酸上的Gly-Gly泛素化残基,它增加了一个N末端。按下“+”按钮并从下拉菜单中选择氨基酸以定义修饰特异性。
  7. 通过使用“+”按钮添加新条目,使用“N”、“S”和“C”按钮设置相应的参数(“名称”、“短名称”和“组成”),定义中性损耗和诊断峰值。
  8. 为每次修改提供一个“短名称”。这定义了如何在MaxQuant5的图形用户界面(Viewer)中表示标签(http://www.coxdocs.org/doku.php?身份证=最大数量:查看器:开始)。所有关于修改属性的信息,特别是修改特定的中性损耗和诊断峰值,都存储在本地文件中修改.xml文件,它位于MaxQuant的“conf”文件夹中。
  9. 如果你的实验涉及到等压标记,比如iTRAQ和TMT,可以指定校正因子来解释通道之间的混合。这些分别被定义为总量的百分比或iTRAQ和TMT标记的主要同位素的百分比。这些校正因子的具体值可能因批次而异,并由标记试剂的供应商提供。
  10. 设置完所有参数后,单击“修改表”按钮以介绍表中的更改。单击“保存更改”按钮并重新启动MaxQuant,以便能够在MaxQuant参数界面中查看所有更改。
  11. 在“蛋白酶”页面上,检查预定义消化酶的列表及其特性。要添加新的蛋白酶,请单击“添加”按钮。填写“名称”和“描述”字段。要修改特异性矩阵,请使用带“+”和“-”符号的按钮。例如,要定义一种酶,它能将C末端切割成赖氨酸,但如果残基后面紧跟着脯氨酸,则不能,单击“K+”行按钮,然后单击“P-”列按钮取消选择“KP”特异性。单击“修改表”按钮,使用“保存更改”按钮保存更改,然后重新启动MaxQuant以使所有更改在界面中可用。
  12. 在“序列数据库”页面上,检查数据库列表。要配置新的搜索数据库,请单击“添加”按钮。使用右侧表单中的“搜索”按钮导航到所需的.fasta文件。设置“数据库源”(例如UniProt)和“分类法”(提供有机体名称时自动填写id,反之亦然)。
  13. 由于.fasta头可以包含多种类型的信息,因此可以在中定义多个解析规则Andromeda提取那些。目前,支持以下选项:identifier要在MaxQuant输出表中报告的蛋白质名称;description任何附加信息;以及分类法。使用正则表达式定义解析规则(http://msdn.microsoft.com/en-us/library/az24scfc.aspx).
    要测试解析规则,请单击“测试规则”按钮。设置完所有参数后,按“修改表”按钮,使用“保存更改”按钮保存更改,然后重新启动MaxQuant。

数据上传

  1. 转到“原始文件”选项卡。
  2. 通过单击“加载”按钮手动选择文件或单击“加载文件夹”按钮导入整个文件夹来加载原始文件。关键步骤:或者,对于所有的原始文件,相应的实验设计和所有的参数值可以通过加载一个先前创建的文件来设置mqpar.xml文件文件。要执行此操作,请转到MaxQuant主窗口左上角的下拉菜单(用白色箭头标记),然后选择“加载参数”。请注意,如果原始文件的位置自上次处理后发生了更改,则mqpar.xml文件文件已生成,这些文件将在“Exists”列中标记为“false”。要解决此问题,请选择位置错误的原始文件的表行,单击“更改文件夹”并导航到正确的文件夹位置。这个mqpar.xml文件文件位于http://www.protocols.com。maxquant.org网站.
  3. 原始文件列在一个表中,表中的列可以填充,以指定每次LC–MS运行的“参数组”、“实验”和“分数”。
    “参数组”允许用户拥有不同的“组特定参数”集合,用于LC–MS运行的子集。在这种情况下,将在子集中使用不同的搜索和/或量化标准(例如,蛋白质组和相应的磷酸化蛋白质组应标记不同的参数组,因为后者将通过其他变量修改进行搜索)。
    “实验”参数表示哪个LC–MS运行属于哪个样本(例如,如果一个样本被分馏,所有的分馏部分都应该用相同的实验名称进行标记,以便量化结果可以合并到输出表中的一个条目中)。如果采用预分馏,则相应的分数应正确表示为整数。这对于“运行间匹配”功能特别重要,它只匹配相同或相邻部分中的功能。
    填表说明实验设计。要手动填充表格,请使用“设置实验”、“设置分数”或“设置参数组”按钮为每个原始文件指定参数。
    也可以从制表符分隔的文本文件填充此表。您可以使用屏幕上显示的列标题自己创建文件,也可以单击“编写模板”按钮,这将生成一个以制表符分隔的文本文件,最好在Excel中进行编辑。如果您自己创建文件,显然要注意确保每个原始文件的“路径”是准确的。创建文件后,单击“从文件读取”按钮以在MaxQuant中填充表。
    对于一系列计算步骤,如“运行间匹配”和LFQ算法,指定分馏的关键步骤是很重要的。如果每次LC–MS运行都是不同的样本(即未进行预分馏),使用“无分馏”按钮可以方便地用原始文件名派生值填充实验列。

组特定参数

  1. 导航到“组特定参数”选项卡。
  2. 在“参数组”字段中单击以选择所需的参数组。选定的组将被标记为红色。
  3. 根据“类型”页面中的量化策略设置分析类型(图3)。三个主要选项区分产生量化信号的MS水平,其可以在MS1光谱中,例如,使用无标记或基于硅烷的量化;在MS/MS光谱中,使用常规TMT标记;或在MS3光谱中,使用多陷波方法22。第四种情况是一种专门的选择,仅用于定量标记的交联肽,如Chen等人39所述。

(A) Ms水平的定量(例如,无标记、硅烷或二甲基标记)

(i)选择“标准”。

(ii)如果未使用标签,则根据标签数量“1”设置“多重性”。在这种情况下,仅当使用LFQ算法时才提供量化(步骤27);在两次或三次SILAC标记的情况下分别提供“2”或“3”。

(iii)如果您选择了'Multiplicity'>1,则设置每个肽允许的最大标记氨基酸数。例如,在标准硅烷标记法中,蛋白酶与标记的氨基酸相匹配(例如,胰蛋白酶与精氨酸和赖氨酸的标记相结合),绝大多数肽比它们错过的裂解多了一个标记的氨基酸。应相应地选择此参数。

(iv)通过勾选所需的框来指定每个频道的标签。

(B) Ms/Ms水平的定量(如itraQ和tMt标记)

(i) 选择“MS2”。

(ii)选择所需的等压标签并将其转移到右侧区域。或者单击其中一个预定义按钮(例如,10plex
TMT;)。

(iii)为用于等压定量的MS/MS光谱设置控制过滤b标准的参数记者马索尔。[Da]'设置用于将光谱中的报告离子与其理论质量值进行匹配的质量窗口。如果两个或多个报告器具有相同的标称质量,并且指定的值将导致窗口重叠,则用于分配报告器离子的质量窗口将自动收缩,以便它们不会重叠。

(iv)勾选“通过PIF过滤”(前体强度分数)框,以根据源于拟碎片化肽的前体离子分数(与碰巧在隔离窗口中的非自愿共碎片化前体相反)40获得用于c定量的MS/MS光谱选择。在非常复杂的样品中,这种过滤可能是必要的,并且很可能在分离窗口中有额外的前体用于碎片。

(v)
(可选)“最小基峰比”参数设置MS1扫描中前体强度与基峰强度之比的阈值。“最小报告分数”是应用于MS/MS光谱中总报告强度与总强度之比的滤波器。通常不需要这两个过滤器;请选择这些过滤器

(C) 多切迹法在Ms3水平上的定量

(i)
选择“MS3”。适用的子参数具有与选项B中详细说明的相同的含义。关键步骤批次特定校正因子应用于原始通道强度。校正系数的值可以在“修改”页面的“配置”选项卡中指定(步骤3)。

  1. 转到“组特定参数”部分的“消化”页。

  2. 设置“消化模式”“特异性”是指严格遵循特定酶的裂解模式,可能考虑到许多缺失的裂解。对于“半特异性”搜索,肽的一侧必须遵循裂解模式,而另一侧可以在蛋白质序列中的任何位置裂解,遵守最小和最大肽长度的限制。在“非特异性”消化中,蛋白质序列上的所有肽都被认为是从某个最小长度到最大长度“不消化”意味着假定每个.fasta条目已经是肽,不需要消化。

  3. 选择消化酶。(这不适用于“非特异性”和“无消化”模式。)请注意,只能在“配置”选项卡中指定与Andromeda预配置的酶(步骤11)。

  4. 指定肽鉴定步骤中使用的最大缺失切割数。在不完全消化的情况下,样品中可能存在含有缺失裂解的较长肽。这种情况需要一个适当的数据库,包含较长的理论肽,除了预期的完全消化。因此,如果指示更多的潜在缺失切割,搜索空间将大大增加,导致更长的处理时间,因此应仅在必要时进行。

  5. 导航到“组特定参数”部分中的“修改”页。有关PTMs分析的定量输出和参数含义的一般说明,请参见方框5。

  6. 选择要在搜索中使用的“可变修饰”(即肽上可能存在或不存在的修饰),并将它们转移到字段的右侧。这里提供了与Andromeda预先配置的修改。例如,ptm例如丝氨酸、苏氨酸和酪氨酸(S、T和Y)的磷酸化必须在这里设置。

  7. 设置每个肽允许的最大修改数。请注意,不建议指定大量修改。允许大量修饰增加了肽序列上那些修饰的可能组合的数量。这导致了一个组合爆炸,导致搜索变得非常耗时。当应用FDR控制时,假阳性识别率不受影响。

  8. 要启用LFQ,请转到“无标签量化”页面并选择“LFQ”选项。

  9. 设置用于蛋白质定量的肽特征所需的最小比率计数(框3)。
    “肽特征”指MS1数据中的3D同位素模式,该模式通过相关MS/MS谱鉴定或通过“运行间匹配”分配给肽(图5)。

  10. 对于大型实验(数百个原始文件),“Fast LFQ”选项通过减少成对样本比较的数量来确保合理的计算时间。设置邻居的最小数和平均数,然后定义用于计算归一化因子的样本间比较数。

  11. (可选)如果不应执行规范化步骤,请勾选“跳过规范化”选项。 !注意:通常不建议这样做。该选项允许进行探索性数据分析,并量化规范化对数据的影响。

  12. 转到“仪器”页。设置“仪器类型”。支持大量供应商。这些子参数主要决定峰值检测和搜索的细节。默认值是根据经验确定的,很少需要更改。

  13. 转到“第一次搜索”页。在搜索空间较大的情况下(例如,由于非特定酶搜索、六帧翻译或大量修改),可以通过减小第一轮肽鉴定搜索的数据库大小来大大缩短计算时间,这仅用于确定质量和时间重新校准曲线。由于第一次搜索的标识在MaxQuant输出表中包含的实际结果中没有使用,因此在执行第一次搜索时,可以潜在地使用较小的可变修改列表或其他设置来将蛋白质电子消化成肽。这些参数只能应用于第一次搜索,可以在此页上指定。对于具有物种特异性蛋白质.fasta文件且没有非特异性切割的标准搜索,不建议使用不同的第一个搜索参数,因为速度上的增益将是微乎其微的。

  14. 转到“杂项”页。图5. “运行间匹配”算法。(a)“运行间匹配”算法的主要步骤。理想情况下,对于每次运行,都有足够的信息可用于从测量的MS/MS谱中检索肽序列,如第1次运行。然而,有时可用的信息不足以识别(第2次运行)。或者测量的MS/MS光谱不足以识别序列,或者甚至没有测量。为了仍然得到一个已识别的特征,MS/MS和序列信息可以通过在紧质量和保留时间窗口内的匹配从另一次运行中获得。为此,首先按保留时间对齐运行,然后将标识从包含必要信息的运行(此处:运行1)传输到信息不足的运行(此处:运行2)。(b)匹配库。不同的来源可以用来转移肽鉴定到新的测量。一种选择是使用一个完整的组织库,它非常深,包含许多识别,通常在一个专门的实验中,在新的测量之前进行测量,以改进新测量的识别和量化。另一种方法是使用同一实验的其他样品或复制品。

  15. 启用“重新量化”选项,以挽救不完整的同位素模式对或三胞胎,以便在MS1水平标记实验中进行量化,例如,使用SILAC的实验。丢失的同位素模式从已识别的同位素模式的形状恢复过来,该模式在m/z保留时间平面上因预期的质量差而移动。通过积分在移动的峰区域上重建强度。当SILAC伙伴之一接近噪声级时,该选项适用于小比率或大比率的重构。

  16. 匹配类型。要将标识从所选组转移到其他组,并从其他组转移到所选组,请选择“匹配发件人和收件人”选项。如果所选组应改为用作库,请选择“匹配自”选项,而如果标识应仅添加到所选组,则应选择“匹配至”选项。

全局参数

  1. 转到“全局参数”选项卡。这些参数适用于所有参数组。
  2. 转到“序列”页。使用“添加文件”按钮选择.fasta文件,这些文件已经用Andromeda进行了预配置,将用于生成搜索空间。
  3. 选择“包含污染物”添加来自fasta'文件在MaxQuant'conf'文件夹中添加到搜索数据库。该文件包含已知的实验室源污染物,可以很容易地修改,以包括更多或更少的条目。如果发现任何污染物,它将在MaxQuant输出表中标记为前缀“CON”。污染蛋白质仅标记供用户检查,不接受任何自动过滤或算法中的差异处理。
  4. 通过将条目从左侧的框移动到右侧的框,选择“固定修改”。这些通常是特定于样品制备的修饰,在数据库搜索期间应用于指定残基或末端的每次出现(例如,氨基甲基(C))。
  5. 设置待鉴定肽的最小长度以及最大肽质量。
  6. 如果适用,设置非特定搜索(即不使用消化酶)时的最小和最大肽长度。
  7. 转到“身份”页。
  8. 设置应接受搜索数据库PSM的最小FDR(框1)。
  9. 设置蛋白质组应接受的最小FDR。将此参数设置为1将导致接受所有标识,而不控制蛋白质FDR。在这种情况下,报告中的q值proteinGroups.txt文件输出表可用于在后期过滤数据。
  10. “位点诱饵分数”是反向转发条目的分数。此参数的作用与位点表中的FDR相同,用于筛选已报告的位点标识列表。
  11. 指定蛋白质鉴定所需的最小肽数。这也可以设置为所需数量的剃须刀+独特或独特的肽(框1)。
  12. 设置未修饰和修饰肽的最小分数和增量分数阈值。delta得分是最佳得分肽和具有不同序列的次优命中之间的得分差(方框5)。除了fdr施加的滤波之外,还应用了按分数滤波,因此不必控制误报率。对于修饰肽,建议在Andromeda评分水平上进行额外的非连续过滤,以确保最低的光谱质量。
  13. 设置在主搜索期间要测试的最大修改组合数。如果有许多方法可以将一个肽上的修饰数目分配到氨基酸上,而氨基酸可能会以这种方式被修饰,那么这个数目就减少了一个肽上的位置损伤数目。请注意,增加此数字可能会导致更长的计算时间。
  14. 如果在估计后验错误概率和FDR时应使用增量分数而不是主要分数,请勾选“基于增量分数的基本FDR计算”复选框。FDR计算的delta
    score选项仅用于探索性数据分析,一般不建议使用。
  15. 勾选“剃刀蛋白FDR”,如果需要额外水平的FDR控制共享肽(框1)。
  16. 转到“Adv。识别页面。
  17. 如果一个以上的肽物种被共碎片化,MaxQuant可以从一个MS/MS光谱中识别出多个肽。勾选“第二肽”框,以便在每个MS/MS光谱中识别和量化第二个共洗脱和共片段肽。通过第二肽方法鉴定的特征如图所示证据.txt'按条目'MULTI-SECPEP'归档。
  18. 在数据相关采集模式下,通常使用top N方法选择肽进行二级质谱扫描,随后进行肽鉴定。由于这种方法的部分随机性,在不同的原始文件中,选择用于片段化的肽种类并不总是完全相同的。“两次运行之间的匹配”选项利用了这个特性,并且使用了一个采用保留时间对齐的复杂算法,允许将肽标识从一个文件传输到另一个文件(图5)。这是一个特别有用的选择低丰度肽。选择'Match between runs'选项,将肽鉴定从一个LC–MS运行转移到另一个LC–MS运行,在LC–MS运行中,肽已通过MS/MS进行鉴定,在另一个LC–MS运行中,该肽未获得MS/MS数据或未分配肽(图5)。鉴定的转移基于保留时间、准确的质量计算和肽特性的单个质量公差41。此选项大大增加了许多可用特征的量化数量。仅通过匹配识别的肽和蛋白质在最大数量中被标记肽.txt以及proteinGroups.txt文件“标识类型”列中的输出表。“按匹配”选项表示仅由传输的标识标识标识的条目。在'证据.txt'表中,通过匹配识别的特征在'Type'列中用'MULTI-MATCH'表示。如果指定了分数,则在相同的分数和相邻的分数之间进行关键步匹配。为避免子数据集之间的匹配,对应独立处理的原始文件子集中的分数使用不同的数字范围。
  19. 启用“依赖肽”选项,以便识别具有未知修饰、包含突变或由在常规数据库搜索期间未识别的未知蛋白酶的作用产生的肽。此类肽的鉴定取决于其未修饰对应物的鉴定,并考虑MS1水平特征之间的特定质量差异,并检查MS/MS光谱是否可解释为已鉴定肽的修饰版本。由此产生的肽鉴定可以在msmsScans.txt文件'文件。标题以“DP”开头的所有列都引用依赖肽标识。
  20. 转到“蛋白质定量”页面。
  21. “最小比率计数”是指在基于标签的定量中,蛋白质定量所需的肽特征的最小数量。具有较低数量的量化特征比率(例如SILAC对)的蛋白质的量化结果将不被报告。
  22. 选择蛋白质定量中应使用的肽。两个极端选项是“全部”和“唯一”,分别用于蛋白质组中的所有肽或仅唯一肽用于定量。“独特+剃须刀”选项使用独特和剃须刀肽,剃须刀肽仅对肽鉴定数量较多的蛋白质组起作用。有关MaxQuant中蛋白质组定义的更多信息,请参见方框2。
  23. 定义用于蛋白质定量的修饰肽版本。这些通常是由特定样品制备方法引起的修饰,而不是起调节作用的修饰,例如PTMs。例如,磷酸化肽不应用于蛋白质定量。
  24. 如果选择了“丢弃未修饰的对应肽”选项,则在量化中也应丢弃排除在蛋白质量化之外的修饰肽的未修饰版本。
  25. “高级比率估计”选项是指基于MS1水平标签的量化。要确定蛋白质比率作为肽特征比率的中位数,请取消选中此选项。选择此选项可使用回归模型确定给定蛋白质组的比率是否存在强度依赖性。(对数)比率和强度之间的统计显著相关性表明蛋白质比率太大,无法在不太丰富的特征的动态范围内捕获。在这种情况下,所有肽特征的中位数会低估这些特征。如果选中该选项,软件将根据拟合优度自动决定是否报告中值或回归结果。如果使用LFQ,请转到“无标签量化”页面。
  26. 如果要对每个参数组分别执行LFQ计算,请勾选“参数组中的单独LFQ”选项。当数据集由两个或两个以上性质不同的部分组成时,或者当不同部分之间的许多蛋白质丰度可能非常不同时,此选项非常有用。
  27. 使用“稳定大LFQ比率”选项确定计算两个样本之间蛋白质比率的方式16。如果样本有许多共同的特征,则计算肽水平比率并取这些比率的中位数是有利的。如果在其中一个样本中,由于丰度低,肽的特征非常少,那么最好使用蛋白质的总强度。“稳定大LFQ比率”功能在这些极端情况之间使用插值。
  28. 勾选“LFQ比较需要MS/MS”仅在成对样本比较中使用至少一个样本中MS/MS识别的特征比率,而不是仅通过运行之间的匹配识别两个特征。
  29. 勾选“iBAQ”复选框以在中报告iBAQ值proteinGroups.txt文件输出表(方框2)。
  30. “高级位点强度”选项适用于修改位点的LFQ。要合计某个部位的所有肽特征强度,请关闭此选项。如果每个样品中只应使用一种具有特定序列和电荷的代表性肽类型,则选中此选项,以获得更一致的定量曲线。如果用户选择了这个选项,MaxQuant将使用出现在最大样本数中的肽序列和电荷的组合。此策略确保在所有样本中使用相同的特征类型进行量化,从而实现更一致和精确的相对量化。
  31. 转到“表格”页。取消选择任何不需要由MaxQuant写出的表。如果省略任何表,这将减少计算时间。此选项仅适用于非常大的数据集。
  32. 转到“文件夹位置”页。
  33. “临时文件夹”存储由MaxQuant生成的临时文件,其中一些文件还需要频繁访问。(可选)要减少计算时间,请将此文件夹放在快速磁盘(例如固态驱动器)上。这使得一个非常大的项目的原始文件能够驻留在相对较慢的存储介质上,并且仍然具有良好的性能。
  34. 设置“组合文件夹”的位置,该文件夹将存储所有MaxQuant输出文件。此文件夹的默认位置位于存储原始文件的文件夹中。它将包含一个名为“txt”的文件夹,在该文件夹中可以找到所有标签分隔的输出表,包括蛋白质组、肽和位点水平的所有识别结果。
  35. andromeda搜索引擎将使用“Fixed andromeda index”文件夹存储索引文件。如果没有指定文件夹,MaxQuant将为此在“组合”文件夹中生成一个“搜索”文件夹。考虑创建一个专用文件夹,以便索引文件可以在使用相同搜索引擎参数的项目之间重用。这可以节省大量的计算资源,特别是对于大的肽搜索空间,索引生成可能非常耗时。
  36. 要修改有关MS/MS采集的参数,请转到相应页面。例如,对于在基于傅里叶变换的质谱仪(包括Orbitrap)中测量的MS/MS光谱,请转到“MS/MS-FTMS”页面。默认设置是根据经验确定的,不需要更改标准实验设置。
  37. 转到“高级”页。
  38. 选中“计算峰值特性”框,计算并报告3D峰值和同位素模式的高级特性。其中包括PIF,表示源自MS/MS光谱中用于碎裂的前体的MS1级强度的百分比。
  39. 设置“诱饵模式”以定义如何生成诱饵数据库。默认设置“Revert”生成反向序列,而“Randomize”则在消化前对蛋白质序列中的氨基酸进行置乱。一般来说,建议使用“还原”,因为随机化的缺点是氨基酸使用之间的局部相关性被完全置乱,这意味着诱饵和原始序列是可区分的。
  40. 选择在计算占用率时应使用“标准化”还是“非标准化”比率。如果预期实验中使用的不同条件之间的整体磷酸化状态会发生较大变化,则可以更改默认设置(“标准化”)。
  41. “Top x mass window[Da]”选项设置与MS/MS光谱一起使用的窗口大小,以确定哪些是局部最丰富的峰;然后将这些峰用于基于强度的峰过滤。默认值为100,通常不需要调整。
  42. 指示是否应在第一次数据库搜索中使用单独的较小.fasta文件以节省计算时间。
  43. 在“fastsums”参数上选择“skip MD5”以禁用MD5的计算。计算“MD5
    sums”是为了确定自从Andromeda搜索的索引生成以来.fasta文件是否被编辑。对于非常大的.fasta文件,校验和的计算可能需要很长时间。因此,建议对大型(如多物种、蛋白质基因组学)fasta文件禁用MD5计算。
  44. 使用'Max mods in site table'参数指定在位点表中为其创建单独比率或强度列的最大修改次数。(见方框5,PTM场地比率和强度。)
  45. 使用'Number of threads'参数设置MaxQuant要使用的线程数。确保每个线程至少有2GB的RAM可用。MaxQuant使用的线程数不应超过计算机上可用的逻辑核数。违反此建议可能会导致软件内存不足,导致MaxQuant运行完全失败。
  46. 按“开始”按钮开始计算。“部分处理”选项允许用户从中间步骤重新启动MaxQuant分析,从而节省大量时间。在每次分析期间,MaxQuant为每个原始文件生成一个索引文件和一个峰值列表文件夹。然后,只要这些文件与原始文件保存在同一目录中,MaxQuant就可以重用这些数据,用于随后的数据重新分析。如果参数发生变化,有必要重新分析数据。在这种情况下,可以省略特征检测步骤,因为之前生成了所有必要的文件;更改所需的参数(例如,添加修改)并从“部分处理”窗口开始,从“准备搜索”开始。
  47. 如果要测试不同的识别标准(例如FDR截止值),还需要重新分析数据;在这种情况下,请更改参数并从“应用FDR”开始。
  48. 另一种情况是,如果您想启用“重新量化”选项,以便在未使用重新量化时与结果进行比较,则需要重新分析数据;为此,请勾选参数并从“重新量化”开始。
  49. 导航到“性能”选项卡以监视分析的进度。这里可以看到当前分析步骤、以前的步骤和计算时间等信息。

故障排除

可以从MaxQuant帮助论坛获得故障排除建议,该论坛位于http://groups.google.com/论坛/#!论坛/最大数量列表。如果您遇到可复制的软件错误,请在MaxQuant错误跟踪系统中提交报告,网址为http://maxquant.myjetbrains.com/youtrack。表1总结了一些常见问题及其解决方法。

表1. 故障排除表。

问题 可能的原因 解决方案
在MaxQuant输出表中将所有样本分组在一起 错误的实验设计 必须用不同的实验名称指定不同的实验
在MaxQuant中,对Andromeda配置所做的更改是不可见的(步骤3-13) Andromeda没有正确配置 确保总是先单击“修改表”,然后保存更改;在某些情况下,可能需要重新启动MaxQuant
MaxQuant非常慢 使用单线程。临时文件夹的位置不是最佳的 增加线程数或指定fast(如固态)磁盘上临时文件夹的位置
磷(STY)表中未报告占用情况 错误的实验设计 确保相应的proteome和phosphoproteome文件具有相同的实验名称,但参数组不同:分别为未经phosphoro(STY)变量修改和经phosphoro(STY)变量修改
MaxQuant输出表中出现错误的蛋白质组标识符 解析规则不正确 使用MaxQuant中的“Test rules”选项以确保提取正确

要考虑的事情。使用MaxQuant生成的文件可能超过列数或每个条目的字符数,这些字符数由Microsoft
Excel等软件工具支持。这是与非常大的数据集相关的常见问题。这可能导致文件加载不完整或文件损坏。

建议.
因此,我们强烈建议用户使用我们的内部软件平台Perseus进行下游分析,或者确保满足第三方软件的要求和限制,例如,在将文件加载到另一个软件之前,删除分析不需要的列。

要考虑的事情.
用户可能注意到,MaxQuant结果根据是在一个联合程序运行中搜索原始文件还是单独搜索相同的原始文件而有所不同。造成这种影响的因素是多方面的。造成这种差异的主要原因在于蛋白质FDR的应用,这在MaxQuant中是默认的。这是一个非常关键的步骤,因为如果将单独原始文件的搜索结果收集到一个更大的数据集中,而不进行任何更高级别的FDR控制,假阳性蛋白质鉴定将聚集在一起42,43。除此之外,在一次运行中分析所有文件会产生大量的特性,MaxQuant可以在统计过程中使用这些特性,从而提高结果的准确性和可靠性。

建议.
由于MaxQuant的计算性能可以很好地随原始文件的数量扩展,因此我们建议始终在单个MaxQuant运行原始文件中进行分析,稍后将以比较的方式使用这些原始文件。这还有一个额外的优点,即蛋白质组是为整个数据集共同定义的,这简化了蛋白质比率和强度的定量比较分析。

要考虑的事情.
对于计算PTM位点占用的情况,用户可能发现占用之间的缺失值的百分比高于强度或比率之间的缺失值的百分比。最常见的原因是伴随着修饰(例如磷酸化)蛋白质组的蛋白质组深度不足。

建议.
为了实现检测到所测修饰肽的大多数未修饰对应肽的高可能性,需要对蛋白质组进行深入测量,可能需要进行广泛的预分离。例如,见Sharma等人25。

●计时

复杂度取决于样品的梯度和时间,丰富度取决于其他事物。设备设置部分中描述的所有数据集都使用8个线程进行处理,计算时间从~10到67小时不等。通过并行使用更多内核,可以缩短计算时间。MaxQuant已经过测试,在多达120个逻辑核的模块上表现良好。

预期结果

MaxQuant创建了几个制表符分隔的.txt输出文件,其中包含有关已识别和量化的肽和蛋白质及其修改形式的信息。有关不同输出表的说明,请参见表2,并转到ftp服务器以获取每个数据集的结果文件(http://protocols.maxquant.org).
如果需要完整的搜索结果,可以在“combined\andromeda”文件夹中找到。峰值列表文件以“.apl”结尾,而搜索结果文件以“.res”结尾。表3给出了三个示例数据集的已鉴定和量化的蛋白质、肽和磷酸肽的数量的概述。它还显示了质谱/质谱、同位素模式和硅烷对的识别率。表4包含有关MaxQuant子工作流的计算性能的详细信息。

表2. 输出表列表。

名称 描述
proteinGroups.txt 有关已识别蛋白质组的详细信息. 该文件包含在指定FDR截止点确定的所有蛋白质组及其量化的列表。分别给出了SILAC实验、无标记实验和TMT/iTRAQ实验的归一化比值、LFQ强度和报告强度。标记与反向数据库匹配的蛋白质组和潜在污染物。还可以根据q值对列表进行过滤,以指定更严格/更不严格的FDR截止。额外的信息,如鉴定得分(用于鉴定的所有肽PEPs的产物)、肽的数量、序列覆盖率和最佳MS/MS等,都提供给每种蛋白质。每个蛋白质组被分配一个唯一的标识符(id),并可用于将蛋白质组文件与其他MaxQuant输出文件相匹配。此外,每个蛋白质组通过各自的id连接到肽、修饰特异性肽、MSM和证据表(例如,肽id对应于表中的“id”列)肽.txt表)在Perseus软件中可以方便地进行匹配
peptides.txt 识别肽的详细信息. 肽表包含符合所需FDR标准的已鉴定肽的非冗余列表,以及有关其定量的信息。每个肽都给出了Andromeda评分和相应的PEP。该文件包括关于肽序列、质量和长度、电荷状态、检测到的修饰、缺失裂解的数量和用于鉴定的MS/MS光谱的数量的信息。每个肽都分配了一个唯一的id,可用于匹配其他MaxQuant输出表(到它们的肽id列)。还提供了定义给定肽和发现该肽的蛋白质组之间联系的蛋白质组
evidence.txt 具有确定肽特征的表**.** 包含所有已识别肽特征的组合信息。识别信息包括肽序列和修饰序列、长度和修饰状态。分数、PEP、质量偏差、MS/MS匹配数、未校准和校准/和质量误差以及重新校准的保留时间可用于检查鉴定质量。与所有其他表类似,每个条目都分配了一个唯一的id,可用于与其他表匹配
…Sites.txt 特定类型的所有PTM位点的详细信息. 该表包含有关检测到的所有符合给定FDR和分数及增量分数标准的修饰位点的信息。例如,在磷酸化实验中,所有磷酸化事件将作为单独的条目报告,例如(报告者/LFQ)强度和标准化比率以及占用率(启用时)为每个事件提供定量信息。定性信息,包括分数,政治公众人物,定位概率和占用误差,可以用来过滤表。例如,为了将下游分析限制在I类位点,可以应用>0.75的定位概率滤波器关于发现修饰的蛋白质的附加信息,它们在序列中的位置,以及围绕该位点的序列窗口在此表中提供
modificationSpecificPeptides.txt 具有特定修饰内容的已鉴定肽序列列表. 修饰特异性肽表包括一个非冗余的肽列表,也通过修饰内容来区分它们。除了定量信息外,还提供肽序列、质量、MS/MS计数、评分、delta评分和PEP。每种肽的修饰类型和修饰数量都显示出来。每个肽形式都分配了一个唯一的id,可用于与包含调节肽身份证
allPeptides.txt 所有肽特征列表. MaxQuant检测到的所有特征(同位素模式或标记对,取决于参数设置)的列表,无论它们是否已排序或已识别。包括质量和保留时间、质量和保留时间、电荷和保留时间等信息。
parameters.txt 所有使用参数的摘要. 参数文件包含所有使用参数的信息,包括软件的版本号、识别和量化的阈值、使用哪个fasta文件作为搜索数据库等
summary.txt 整个MaxQuant分析的总结 它包含所有原始文件的主要摘要信息,因此可以用于收集数据质量的快速概述
msms.txt 所有确定的MS/MS光谱列表。包含所有已识别MS/MS光谱的序列、缺失裂解、修饰、荷电状态质量误差
msmsScans.txt 所有MS/MS光谱列表. msmsScans表包含有关扫描所有MS/MS光谱的技术详细信息
msScans.txt 所有MS1光谱列表 msScans表包含所有MS1光谱扫描的技术细节
mzRange.txt 显示密度信息作为m/z函数所需的表格. mzRange表保存了所有分析原始文件的检测和识别峰密度、同位素模式和MS/MS的信息

你可能感兴趣的:(Mol,Bio,生物信息学)