PDBx/mmCIF 文件格式(二)

原文传送门:PDB-101: Learn: Guide to Understanding PDB Data: Dealing with Coordinates (rcsb.org)

Atomic-level Data

一个典型的PDB条目将包含蛋白质、小分子、离子和水的不同集合的原子坐标。
坐标部分的每个原子都由条目文件中的顺序号、具体的原子名称、所属残基的名称和编号、指定链的单字母代码、其X、Y和Z坐标以及占用和温度系数来识别。
在PDBx/mmCIF格式中,这些信息被存储在_atom_site类别中。下面显示的是条目4HHB的这一部分的前几行。

loop_
_atom_site.group_PDB    # ATOM记录用于识别蛋白质或核酸原子,HETATM记录用于识别小分子的原子
_atom_site.id
_atom_site.type_symbol    # 原子类型
_atom_site.label_atom_id    # 原子标签
_atom_site.label_alt_id   # 异构体
_atom_site.label_comp_id    # 所属残基
_atom_site.label_asym_id    # 不同链
_atom_site.label_entity_id    # 链编号
_atom_site.label_seq_id    # 残基序号
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x    # X坐标
_atom_site.Cartn_y    # Y坐标
_atom_site.Cartn_z    # Z坐标
_atom_site.occupancy    # 晶体中(包含了多个单个的相同分子)不同构象的比例
_atom_site.B_iso_or_equiv    # 表示电子密度拖尾的情况,越大拖尾越严重,表明原子运动得越厉害
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id    # 残基序号
_atom_site.auth_comp_id    # 残基种类
_atom_site.auth_asym_id    # 不同链
_atom_site.auth_atom_id    # 原子类型
_atom_site.pdbx_PDB_model_num    # 模型编号(NMR可能产生多种不同的模型)
ATOM   1    N N   . LYS A 1 7   ? 12.364  -13.639 8.445   1.00 54.67  ? 527 LYS A N   1
ATOM   2    C CA  . LYS A 1 7   ? 11.119  -12.888 8.550   1.00 49.59  ? 527 LYS A CA  1
ATOM   3    C C   . LYS A 1 7   ? 9.961   -13.651 7.926   1.00 44.77  ? 527 LYS A C   1
ATOM   4    O O   . LYS A 1 7   ? 9.055   -14.126 8.617   1.00 49.39  ? 527 LYS A O   1
ATOM   5    C CB  . LYS A 1 7   ? 11.255  -11.538 7.841   1.00 49.41  ? 527 LYS A CB  1
ATOM   6    C CG  . LYS A 1 7   ? 10.169  -10.531 8.174   1.00 53.16  ? 527 LYS A CG  1
ATOM   7    C CD  . LYS A 1 7   ? 10.523  -9.771  9.432   1.00 59.71  ? 527 LYS A CD  1
ATOM   8    C CE  . LYS A 1 7   ? 11.779  -8.947  9.195   1.00 63.60  ? 527 LYS A CE  1
ATOM   9    N NZ  . LYS A 1 7   ? 12.353  -8.381  10.443  1.00 64.85  ? 527 LYS A NZ  1
ATOM   10   N N   . ARG A 1 8   ? 10.011  -13.762 6.603   1.00 40.03  ? 528 ARG A N   1

在PDB文件格式中,ATOM记录用于识别蛋白质或核酸原子,HETATM记录用于识别小分子的原子。下面显示的是4HHB条目这一部分的前几行。

ATOM      1  N   LYS A 527      12.364 -13.639   8.445  1.00 54.67           N 
ATOM      2  CA  LYS A 527      11.119 -12.888   8.550  1.00 49.59           C 
ATOM      3  C   LYS A 527       9.961 -13.651   7.926  1.00 44.77           C 
ATOM      4  O   LYS A 527       9.055 -14.126   8.617  1.00 49.39           O 
ATOM      5  CB  LYS A 527      11.255 -11.538   7.841  1.00 49.41           C 
ATOM      7  CD  LYS A 527      10.523  -9.771   9.432  1.00 59.71           C 
ATOM      8  CE  LYS A 527      11.779  -8.947   9.195  1.00 63.60           C 
ATOM      9  NZ  LYS A 527      12.353  -8.381  10.443  1.00 64.85           N 
ATOM     10  N   ARG A 528      10.011 -13.762   6.603  1.00 40.03           N 

这些信息让你在探索结构时有很多控制权。例如,大多数分子图形程序使您能够有选择地给分子的确定部分着色--例如,挑选出所有的碳原子并将其染成绿色,或者挑选一个特定的氨基酸并将其突出显示。

Chains and Models

生物分子是有层次的,从原子到残基到链到组合体。坐标文件包含组织和指定所有这些层次的分子的方法。如上所述,原子名称和残基信息都包含在每个原子记录中。
在PDBx/mmCIF格式中,记录的循环性质使得它很容易代表不同的链和多个分子。
下面显示的是条目4hhb的一个片段,显示了从链A到链B的过渡,其中链在_atom_site.label_asym_id记录中被指定,并在_atom_site.label_entity_id记录中被进一步识别。请参阅《PDB结构和PDBx/mmCIF格式初学者指南》以了解对实体的介绍。

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM   1    N  N   . VAL A 1 1   ? 6.204   16.869  4.854   1.00 49.05 ? 1   VAL A N   1
ATOM   2    C  CA  . VAL A 1 1   ? 6.913   17.759  4.607   1.00 43.14 ? 1   VAL A CA  1
ATOM   3    C  C   . VAL A 1 1   ? 8.504   17.378  4.797   1.00 24.80 ? 1   VAL A C   1

ATOM   1067 N  NH1 . ARG A 1 141 ? -10.147 7.455   -6.079  1.00 23.24 ? 141 ARG A NH1 1
ATOM   1068 N  NH2 . ARG A 1 141 ? -8.672  8.328   -4.506  1.00 33.34 ? 141 ARG A NH2 1
ATOM   1069 O  OXT . ARG A 1 141 ? -9.474  13.682  -9.742  1.00 31.52 ? 141 ARG A OXT 1
ATOM   1070 N  N   . VAL B 2 1   ? 9.223   -20.614 1.365   1.00 46.08 ? 1   VAL B N   1
ATOM   1071 C  CA  . VAL B 2 1   ? 8.694   -20.026 -0.123  1.00 70.96 ? 1   VAL B CA  1
ATOM   1072 C  C   . VAL B 2 1   ? 9.668   -21.068 -1.645  1.00 69.74 ? 1   VAL B C   1
ATOM   1073 O  O   . VAL B 2 1   ? 9.370   -22.612 -0.994  1.00 71.82 ? 1   VAL B O   1

在这里,对于解NMR集合结构条目1vre,_atom_site.pdbx_PDB_model_num记录被用来表示文件中代表的29种不同的模型:

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM   1     N  N    . GLY A 1 1   ? 13.878  9.721   9.134   1.00 0.00 ? 1   GLY A N    1
ATOM   2     C  CA   . GLY A 1 1   ? 12.761  8.747   8.973   1.00 0.00 ? 1   GLY A CA   1
ATOM   3     C  C    . GLY A 1 1   ? 13.273  7.506   8.239   1.00 0.00 ? 1   GLY A C    1

HETATM 2175  H  HBD2 . HEM B 2 .   ? -8.871  3.884   -8.248  1.00 0.00 ? 148 HEM A HBD2 1
HETATM 2176  C  C    . CMO C 3 .   ? -7.184  0.894   -1.865  1.00 0.00 ? 149 CMO A C    1
HETATM 2177  O  O    . CMO C 3 .   ? -7.008  -0.217  -1.956  1.00 0.00 ? 149 CMO A O    1
ATOM   2178  N  N    . GLY A 1 1   ? 11.063  9.378   8.937   1.00 0.00 ? 1   GLY A N    2
ATOM   2179  C  CA   . GLY A 1 1   ? 10.504  8.078   8.473   1.00 0.00 ? 1   GLY A CA   2
ATOM   2180  C  C    . GLY A 1 1   ? 11.648  7.196   7.970   1.00 0.00 ? 1   GLY A C    2

HETATM 63131 H  HBD2 . HEM B 2 .   ? -8.603  4.604   -7.315  1.00 0.00 ? 148 HEM A HBD2 29
HETATM 63132 C  C    . CMO C 3 .   ? -7.211  0.912   -1.966  1.00 0.00 ? 149 CMO A C    29
HETATM 63133 O  O    . CMO C 3 .   ? -7.058  -0.203  -2.022  1.00 0.00 ? 149 CMO A O    29
#

在PDB文件格式中,TER记录被用来分离蛋白质和核酸不同的链。这些链一个接一个地包含在文件中,用TER记录隔开,表示这些链之间没有物理连接。大多数分子图形程序会寻找这个TER记录,这样他们就不会画出连接不同链的键。下图是条目4HHB的部分,其中TER记录被用来分隔α链的第一份(A链)和β链的第一份(B链)。

ATOM   1067  NH1 ARG A 141     -10.147   7.455  -6.079  1.00 23.24           N 
ATOM   1068  NH2 ARG A 141      -8.672   8.328  -4.506  1.00 33.34           N 
ATOM   1069  OXT ARG A 141      -9.474  13.682  -9.742  1.00 31.52           O 
TER    1070      ARG A 141                             
ATOM   1071  N   VAL B   1       9.223 -20.614   1.365  1.00 46.08           N 
ATOM   1072  CA  VAL B   1       8.694 -20.026  -0.123  1.00 70.96           C 
ATOM   1073  C   VAL B   1       9.668 -21.068  -1.645  1.00 69.74           C 
ATOM   1074  O   VAL B   1       9.370 -22.612  -0.994  1.00 71.82           O 
ATOM   1075  CB  VAL B   1       9.283 -18.281  -0.381  1.00 59.18           C 
ATOM   1076  CG1 VAL B   1       7.449 -17.518  -0.791  1.00 57.89           C 

B链和C链将被类似地分开,C链和D链也是如此。

PDB格式文件使用MODEL/ENDMDL关键字来表示一个文件中的多个分子。这最初是为了存档包括同一结构的几个不同模型的坐标集,如核磁共振分析中获得的结构组合。当你查看这些文件时,你会看到几十个类似的分子全部叠加在一起。现在,MODEL关键词也被用于生物组装文件中,以分离从不对称单元中生成的许多对称的分子拷贝(更多信息请参见生物组装教程)。
下面显示的是条目1out的生物组装文件的一个部分,它包含不对称单元中血红蛋白模型的一半(A链和B链)。完整的4链分子在生物组装文件中可以找到,其中的两组两链被MODEL记录分开。


MODEL        1
HETATM    1  C   ACE A   0      40.573  27.347  55.464  1.00 42.49           C 
HETATM    2  O   ACE A   0      41.130  27.445  56.567  1.00 50.27           O 
HETATM    3  CH3 ACE A   0      39.709  28.526  55.115  1.00 49.32           C 

HETATM 2475  O   HOH B 238       8.440  58.387  54.230  1.00 67.86           O 
HETATM 2476  O   HOH B 239      23.699  54.828  72.752  1.00 71.63           O 
HETATM 2477  O   HOH B 240      30.823  46.229  47.604  1.00 71.95           O 
ENDMDL                                                                         
MODEL       2                                                                  
HETATM    1  C   ACE A   0      50.950  33.338  48.783  1.00 42.49           C 
HETATM    2  O   ACE A   0      50.587  32.905  47.680  1.00 50.27           O 
HETATM    3  CH3 ACE A   0      50.361  34.676  49.132  1.00 49.32           C 

HETATM 2475  O   HOH B 238      40.135  76.686  50.017  1.00 67.86           O 
HETATM 2476  O   HOH B 239      35.588  61.692  31.495  1.00 71.63           O 
HETATM 2477  O   HOH B 240      39.473  51.223  56.643  1.00 71.95           O 
ENDMDL                                                                         
MASTER        0    0    0   16    0    0    8    6 2475    2    0   23         
END      

Temperature Factors

如果我们能够将一个原子僵硬地固定在一个地方,我们可以在理想的情况下观察它的电子分布。图像中的电子会向中心密集,距离原子核越远密度越小。然而,当你观察实验中的电子密度分布时,电子的分布通常比这种理想情况更宽。这可能是由于原子的振动,或者晶格中许多不同分子之间的差异。观察到的电子密度将包括所有这些小的运动的平均值,产生一个略微模糊的分子图像。
这些运动,以及由此产生的电子密度拖尾,通过 B 值或温度因子结合到原子模型中。拖尾量与 B 值的大小成正比。低于 10 的值会创建一个非常锐利的原子模型,这表明原子移动不大,并且在晶体中的所有分子中处于相同位置。大于 50 左右的值表明原子移动得太快以至于几乎看不到它。蛋白质表面的原子通常是这种情况,其中长侧链可以在周围的水中自由摆动。
在 PDBx/mmCIF 格式中,_atom_site.B_iso_or_equiv 记录用于存储温度因子值。再次来自条目 4hhb:


loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv    # B值
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM   1    N  N   . VAL A 1 1   ? 6.204   16.869  4.854   1.00 49.05 ? 1   VAL A N   1
ATOM   2    C  CA  . VAL A 1 1   ? 6.913   17.759  4.607   1.00 43.14 ? 1   VAL A CA  1
ATOM   3    C  C   . VAL A 1 1   ? 8.504   17.378  4.797   1.00 24.80 ? 1   VAL A C   1

在PDB文件格式中,温度系数在第61-66列中给出。从条目4hhb:


ATOM      1  N   VAL A   1       6.204  16.869   4.854  1.00 49.05           N 
ATOM      2  CA  VAL A   1       6.913  17.759   4.607  1.00 43.14           C 
ATOM      3  C   VAL A   1       8.504  17.378   4.797  1.00 24.80           C 

image.png

所示示例来自以 2.0 Å 分辨率解析的肌红蛋白结构(PDB 条目 1mbi)。显示了两个组氨酸氨基酸。左边是 HIS93,它与铁原子配位,因此被牢牢固定在适当的位置。它的 B 值在 15-20 范围内——注意轮廓如何很好地围绕整个氨基酸,显示出尖锐的电子密度。右边是HIS81,暴露在蛋白质表面,B值较高,在22-74范围内。还要注意轮廓如何包围更小的空间,显示该氨基酸具有高电子密度的较小区域,因为整体电子密度在轮廓周围的空间中被微弱地涂抹。

image.png

上图显示的是整个分子,原子的颜色由温度因素决定。表示大量运动的高值为红色和黄色,而低值为蓝色。请注意,蛋白质内部的B值较低,而表面的氨基酸的B值较高。
提示:温度系数是衡量我们对每个原子位置的信心。如果你在一个蛋白质的表面发现了一个温度系数很高的原子,请记住,这个原子可能是经常移动的,在PDB文件中指定的坐标只是其位置的一个可能快照。

Occupancy and Multiple Conformations

大分子晶体由许多单独的分子组成,排列成对称排列。在某些晶体中,这些分子中的每一个之间都有细微的差异。例如,表面上的侧链可能在几个构象之间来回摆动,或者底物可能在活性位点中以两个方向结合,或者金属离子可能仅与少数分子结合。当研究人员建立这些部分的原子模型时,他们可以使用占用率来估计在晶体中观察到的每种构象的数量。对于大多数原子,占有率为 1,表明该原子存在于晶体中同一位置的所有分子中。但是,如果金属离子仅与晶体中一半的分子结合,研究人员将在电子密度图中看到该离子的弱图像,并且可以在 PDB 结构文件中为该原子分配 0.5 的占用率。占用也常用于识别在多种构象中观察到的侧链或配体。占有率值用于指示具有每种构象的分子的分数。每个原子包含两个(或更多)原子记录,占用率如 0.5 和 0.5,或 0.4 和 0.6,或其他总和为 1 的分数占用率。

image.png

肌红蛋白中的交替构象:图中的两幅图像取自条目1a6m中肌红蛋白的高分辨率结构:左边是谷氨酰胺8,右边是酪氨酸151。在这两种情况下,保存人将实验数据解释为显示了氨基酸的两种构象,谷氨酰胺的占据率为0.57和0.43,而酪氨酸构象的占据率为0.5。蓝色的轮廓线围绕着高电子密度的区域,原子模型用棍子表示。

提示:在处理具有多个坐标的 PDB 条目时,您通常需要密切注意。并不总是可以只选择“A”构象并丢弃“B”构象。您需要仔细查看每种情况,并确保移动侧链之间没有任何不良接触。

在 PDBx/mmCIF 格式中,_atom_site.label_alt_id 类别中指示替代构象,_atom_site.occupancy 类别中指示占用。下面显示的是条目 1a6m 中的残基 8。

loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id    # Multiple Conformations
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy    # Occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num

ATOM   63   N  N   . GLN A 1 8   ? 5.404  13.203 22.532  1.00 8.42  ? 8    GLN A N   1
ATOM   64   C  CA  . GLN A 1 8   ? 6.475  12.812 23.418  1.00 8.84  ? 8    GLN A CA  1
ATOM   65   C  C   . GLN A 1 8   ? 7.602  12.149 22.631  1.00 8.08  ? 8    GLN A C   1
ATOM   66   O  O   . GLN A 1 8   ? 8.769  12.399 22.918  1.00 8.39  ? 8    GLN A O   1
ATOM   67   C  CB  A GLN A 1 8   ? 5.987  11.822 24.520  0.57 13.03 ? 8    GLN A CB  1
ATOM   68   C  CB  B GLN A 1 8   ? 5.948  11.968 24.580  0.43 9.68  ? 8    GLN A CB  1
ATOM   69   C  CG  A GLN A 1 8   ? 7.030  11.303 25.506  0.57 16.30 ? 8    GLN A CG  1
ATOM   70   C  CG  B GLN A 1 8   ? 6.967  12.094 25.688  0.43 12.07 ? 8    GLN A CG  1
ATOM   71   C  CD  A GLN A 1 8   ? 7.981  10.227 25.063  0.57 15.61 ? 8    GLN A CD  1
ATOM   72   C  CD  B GLN A 1 8   ? 6.439  11.470 26.952  0.43 14.43 ? 8    GLN A CD  1
ATOM   73   O  OE1 A GLN A 1 8   ? 7.688  9.392  24.214  0.57 19.54 ? 8    GLN A OE1 1
ATOM   74   O  OE1 B GLN A 1 8   ? 5.419  10.767 26.918  0.43 17.46 ? 8    GLN A OE1 1
ATOM   75   N  NE2 A GLN A 1 8   ? 9.219  10.114 25.607  0.57 21.38 ? 8    GLN A NE2 1
ATOM   76   N  NE2 B GLN A 1 8   ? 7.067  11.762 28.084  0.43 14.03 ? 8    GLN A NE2 1

在 PDB 文件格式中,使用替代位置指示符在第 17 列中给出了替代构象,在第 55 - 60 列中给出了占用率。下面从条目 1a6m 显示的是以两种不同构象 A 和 B 建模的谷氨酰胺残基 8,其中构象 A给定 57% 的占用率,而构象 B 给定 43% 的占用率:

ATOM     63  N   GLN A   8       5.404  13.203  22.532  1.00  8.42           N 
ATOM     64  CA  GLN A   8       6.475  12.812  23.418  1.00  8.84           C 
ATOM     65  C   GLN A   8       7.602  12.149  22.631  1.00  8.08           C 
ATOM     66  O   GLN A   8       8.769  12.399  22.918  1.00  8.39           O 
ATOM     67  CB AGLN A   8       5.987  11.822  24.520  0.57 13.03           C 
ATOM     68  CB BGLN A   8       5.948  11.968  24.580  0.43  9.68           C 
ATOM     69  CG AGLN A   8       7.030  11.303  25.506  0.57 16.30           C 
ATOM     70  CG BGLN A   8       6.967  12.094  25.688  0.43 12.07           C 
ATOM     71  CD AGLN A   8       7.981  10.227  25.063  0.57 15.61           C 
ATOM     72  CD BGLN A   8       6.439  11.470  26.952  0.43 14.43           C 
ATOM     73  OE1AGLN A   8       7.688   9.392  24.214  0.57 19.54           O 
ATOM     74  OE1BGLN A   8       5.419  10.767  26.918  0.43 17.46           O 
ATOM     75  NE2AGLN A   8       9.219  10.114  25.607  0.57 21.38           N 
ATOM     76  NE2BGLN A   8       7.067  11.762  28.084  0.43 14.03           N 

你可能感兴趣的:(PDBx/mmCIF 文件格式(二))