原文传送门:PDB-101: Learn: Guide to Understanding PDB Data: Dealing with Coordinates (rcsb.org)
Atomic-level Data
一个典型的PDB条目将包含蛋白质、小分子、离子和水的不同集合的原子坐标。
坐标部分的每个原子都由条目文件中的顺序号、具体的原子名称、所属残基的名称和编号、指定链的单字母代码、其X、Y和Z坐标以及占用和温度系数来识别。
在PDBx/mmCIF格式中,这些信息被存储在_atom_site类别中。下面显示的是条目4HHB的这一部分的前几行。
loop_
_atom_site.group_PDB # ATOM记录用于识别蛋白质或核酸原子,HETATM记录用于识别小分子的原子
_atom_site.id
_atom_site.type_symbol # 原子类型
_atom_site.label_atom_id # 原子标签
_atom_site.label_alt_id # 异构体
_atom_site.label_comp_id # 所属残基
_atom_site.label_asym_id # 不同链
_atom_site.label_entity_id # 链编号
_atom_site.label_seq_id # 残基序号
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x # X坐标
_atom_site.Cartn_y # Y坐标
_atom_site.Cartn_z # Z坐标
_atom_site.occupancy # 晶体中(包含了多个单个的相同分子)不同构象的比例
_atom_site.B_iso_or_equiv # 表示电子密度拖尾的情况,越大拖尾越严重,表明原子运动得越厉害
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id # 残基序号
_atom_site.auth_comp_id # 残基种类
_atom_site.auth_asym_id # 不同链
_atom_site.auth_atom_id # 原子类型
_atom_site.pdbx_PDB_model_num # 模型编号(NMR可能产生多种不同的模型)
ATOM 1 N N . LYS A 1 7 ? 12.364 -13.639 8.445 1.00 54.67 ? 527 LYS A N 1
ATOM 2 C CA . LYS A 1 7 ? 11.119 -12.888 8.550 1.00 49.59 ? 527 LYS A CA 1
ATOM 3 C C . LYS A 1 7 ? 9.961 -13.651 7.926 1.00 44.77 ? 527 LYS A C 1
ATOM 4 O O . LYS A 1 7 ? 9.055 -14.126 8.617 1.00 49.39 ? 527 LYS A O 1
ATOM 5 C CB . LYS A 1 7 ? 11.255 -11.538 7.841 1.00 49.41 ? 527 LYS A CB 1
ATOM 6 C CG . LYS A 1 7 ? 10.169 -10.531 8.174 1.00 53.16 ? 527 LYS A CG 1
ATOM 7 C CD . LYS A 1 7 ? 10.523 -9.771 9.432 1.00 59.71 ? 527 LYS A CD 1
ATOM 8 C CE . LYS A 1 7 ? 11.779 -8.947 9.195 1.00 63.60 ? 527 LYS A CE 1
ATOM 9 N NZ . LYS A 1 7 ? 12.353 -8.381 10.443 1.00 64.85 ? 527 LYS A NZ 1
ATOM 10 N N . ARG A 1 8 ? 10.011 -13.762 6.603 1.00 40.03 ? 528 ARG A N 1
在PDB文件格式中,ATOM记录用于识别蛋白质或核酸原子,HETATM记录用于识别小分子的原子。下面显示的是4HHB条目这一部分的前几行。
ATOM 1 N LYS A 527 12.364 -13.639 8.445 1.00 54.67 N
ATOM 2 CA LYS A 527 11.119 -12.888 8.550 1.00 49.59 C
ATOM 3 C LYS A 527 9.961 -13.651 7.926 1.00 44.77 C
ATOM 4 O LYS A 527 9.055 -14.126 8.617 1.00 49.39 O
ATOM 5 CB LYS A 527 11.255 -11.538 7.841 1.00 49.41 C
ATOM 7 CD LYS A 527 10.523 -9.771 9.432 1.00 59.71 C
ATOM 8 CE LYS A 527 11.779 -8.947 9.195 1.00 63.60 C
ATOM 9 NZ LYS A 527 12.353 -8.381 10.443 1.00 64.85 N
ATOM 10 N ARG A 528 10.011 -13.762 6.603 1.00 40.03 N
这些信息让你在探索结构时有很多控制权。例如,大多数分子图形程序使您能够有选择地给分子的确定部分着色--例如,挑选出所有的碳原子并将其染成绿色,或者挑选一个特定的氨基酸并将其突出显示。
Chains and Models
生物分子是有层次的,从原子到残基到链到组合体。坐标文件包含组织和指定所有这些层次的分子的方法。如上所述,原子名称和残基信息都包含在每个原子记录中。
在PDBx/mmCIF格式中,记录的循环性质使得它很容易代表不同的链和多个分子。
下面显示的是条目4hhb的一个片段,显示了从链A到链B的过渡,其中链在_atom_site.label_asym_id记录中被指定,并在_atom_site.label_entity_id记录中被进一步识别。请参阅《PDB结构和PDBx/mmCIF格式初学者指南》以了解对实体的介绍。
loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM 1 N N . VAL A 1 1 ? 6.204 16.869 4.854 1.00 49.05 ? 1 VAL A N 1
ATOM 2 C CA . VAL A 1 1 ? 6.913 17.759 4.607 1.00 43.14 ? 1 VAL A CA 1
ATOM 3 C C . VAL A 1 1 ? 8.504 17.378 4.797 1.00 24.80 ? 1 VAL A C 1
ATOM 1067 N NH1 . ARG A 1 141 ? -10.147 7.455 -6.079 1.00 23.24 ? 141 ARG A NH1 1
ATOM 1068 N NH2 . ARG A 1 141 ? -8.672 8.328 -4.506 1.00 33.34 ? 141 ARG A NH2 1
ATOM 1069 O OXT . ARG A 1 141 ? -9.474 13.682 -9.742 1.00 31.52 ? 141 ARG A OXT 1
ATOM 1070 N N . VAL B 2 1 ? 9.223 -20.614 1.365 1.00 46.08 ? 1 VAL B N 1
ATOM 1071 C CA . VAL B 2 1 ? 8.694 -20.026 -0.123 1.00 70.96 ? 1 VAL B CA 1
ATOM 1072 C C . VAL B 2 1 ? 9.668 -21.068 -1.645 1.00 69.74 ? 1 VAL B C 1
ATOM 1073 O O . VAL B 2 1 ? 9.370 -22.612 -0.994 1.00 71.82 ? 1 VAL B O 1
在这里,对于解NMR集合结构条目1vre,_atom_site.pdbx_PDB_model_num记录被用来表示文件中代表的29种不同的模型:
loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM 1 N N . GLY A 1 1 ? 13.878 9.721 9.134 1.00 0.00 ? 1 GLY A N 1
ATOM 2 C CA . GLY A 1 1 ? 12.761 8.747 8.973 1.00 0.00 ? 1 GLY A CA 1
ATOM 3 C C . GLY A 1 1 ? 13.273 7.506 8.239 1.00 0.00 ? 1 GLY A C 1
HETATM 2175 H HBD2 . HEM B 2 . ? -8.871 3.884 -8.248 1.00 0.00 ? 148 HEM A HBD2 1
HETATM 2176 C C . CMO C 3 . ? -7.184 0.894 -1.865 1.00 0.00 ? 149 CMO A C 1
HETATM 2177 O O . CMO C 3 . ? -7.008 -0.217 -1.956 1.00 0.00 ? 149 CMO A O 1
ATOM 2178 N N . GLY A 1 1 ? 11.063 9.378 8.937 1.00 0.00 ? 1 GLY A N 2
ATOM 2179 C CA . GLY A 1 1 ? 10.504 8.078 8.473 1.00 0.00 ? 1 GLY A CA 2
ATOM 2180 C C . GLY A 1 1 ? 11.648 7.196 7.970 1.00 0.00 ? 1 GLY A C 2
HETATM 63131 H HBD2 . HEM B 2 . ? -8.603 4.604 -7.315 1.00 0.00 ? 148 HEM A HBD2 29
HETATM 63132 C C . CMO C 3 . ? -7.211 0.912 -1.966 1.00 0.00 ? 149 CMO A C 29
HETATM 63133 O O . CMO C 3 . ? -7.058 -0.203 -2.022 1.00 0.00 ? 149 CMO A O 29
#
在PDB文件格式中,TER
记录被用来分离蛋白质和核酸不同的链。这些链一个接一个地包含在文件中,用TER
记录隔开,表示这些链之间没有物理连接。大多数分子图形程序会寻找这个TER
记录,这样他们就不会画出连接不同链的键。下图是条目4HHB的部分,其中TER
记录被用来分隔α链的第一份(A链)和β链的第一份(B链)。
ATOM 1067 NH1 ARG A 141 -10.147 7.455 -6.079 1.00 23.24 N
ATOM 1068 NH2 ARG A 141 -8.672 8.328 -4.506 1.00 33.34 N
ATOM 1069 OXT ARG A 141 -9.474 13.682 -9.742 1.00 31.52 O
TER 1070 ARG A 141
ATOM 1071 N VAL B 1 9.223 -20.614 1.365 1.00 46.08 N
ATOM 1072 CA VAL B 1 8.694 -20.026 -0.123 1.00 70.96 C
ATOM 1073 C VAL B 1 9.668 -21.068 -1.645 1.00 69.74 C
ATOM 1074 O VAL B 1 9.370 -22.612 -0.994 1.00 71.82 O
ATOM 1075 CB VAL B 1 9.283 -18.281 -0.381 1.00 59.18 C
ATOM 1076 CG1 VAL B 1 7.449 -17.518 -0.791 1.00 57.89 C
B链和C链将被类似地分开,C链和D链也是如此。
PDB格式文件使用MODEL/ENDMDL关键字来表示一个文件中的多个分子。这最初是为了存档包括同一结构的几个不同模型的坐标集,如核磁共振分析中获得的结构组合。当你查看这些文件时,你会看到几十个类似的分子全部叠加在一起。现在,MODEL关键词也被用于生物组装文件中,以分离从不对称单元中生成的许多对称的分子拷贝(更多信息请参见生物组装教程)。
下面显示的是条目1out的生物组装文件的一个部分,它包含不对称单元中血红蛋白模型的一半(A链和B链)。完整的4链分子在生物组装文件中可以找到,其中的两组两链被MODEL记录分开。
MODEL 1
HETATM 1 C ACE A 0 40.573 27.347 55.464 1.00 42.49 C
HETATM 2 O ACE A 0 41.130 27.445 56.567 1.00 50.27 O
HETATM 3 CH3 ACE A 0 39.709 28.526 55.115 1.00 49.32 C
HETATM 2475 O HOH B 238 8.440 58.387 54.230 1.00 67.86 O
HETATM 2476 O HOH B 239 23.699 54.828 72.752 1.00 71.63 O
HETATM 2477 O HOH B 240 30.823 46.229 47.604 1.00 71.95 O
ENDMDL
MODEL 2
HETATM 1 C ACE A 0 50.950 33.338 48.783 1.00 42.49 C
HETATM 2 O ACE A 0 50.587 32.905 47.680 1.00 50.27 O
HETATM 3 CH3 ACE A 0 50.361 34.676 49.132 1.00 49.32 C
HETATM 2475 O HOH B 238 40.135 76.686 50.017 1.00 67.86 O
HETATM 2476 O HOH B 239 35.588 61.692 31.495 1.00 71.63 O
HETATM 2477 O HOH B 240 39.473 51.223 56.643 1.00 71.95 O
ENDMDL
MASTER 0 0 0 16 0 0 8 6 2475 2 0 23
END
Temperature Factors
如果我们能够将一个原子僵硬地固定在一个地方,我们可以在理想的情况下观察它的电子分布。图像中的电子会向中心密集,距离原子核越远密度越小。然而,当你观察实验中的电子密度分布时,电子的分布通常比这种理想情况更宽。这可能是由于原子的振动,或者晶格中许多不同分子之间的差异。观察到的电子密度将包括所有这些小的运动的平均值,产生一个略微模糊的分子图像。
这些运动,以及由此产生的电子密度拖尾,通过 B 值或温度因子结合到原子模型中。拖尾量与 B 值的大小成正比。低于 10 的值会创建一个非常锐利的原子模型,这表明原子移动不大,并且在晶体中的所有分子中处于相同位置。大于 50 左右的值表明原子移动得太快以至于几乎看不到它。蛋白质表面的原子通常是这种情况,其中长侧链可以在周围的水中自由摆动。
在 PDBx/mmCIF 格式中,_atom_site.B_iso_or_equiv 记录用于存储温度因子值。再次来自条目 4hhb:
loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv # B值
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM 1 N N . VAL A 1 1 ? 6.204 16.869 4.854 1.00 49.05 ? 1 VAL A N 1
ATOM 2 C CA . VAL A 1 1 ? 6.913 17.759 4.607 1.00 43.14 ? 1 VAL A CA 1
ATOM 3 C C . VAL A 1 1 ? 8.504 17.378 4.797 1.00 24.80 ? 1 VAL A C 1
在PDB文件格式中,温度系数在第61-66列中给出。从条目4hhb:
ATOM 1 N VAL A 1 6.204 16.869 4.854 1.00 49.05 N
ATOM 2 CA VAL A 1 6.913 17.759 4.607 1.00 43.14 C
ATOM 3 C VAL A 1 8.504 17.378 4.797 1.00 24.80 C
所示示例来自以 2.0 Å 分辨率解析的肌红蛋白结构(PDB 条目 1mbi)。显示了两个组氨酸氨基酸。左边是 HIS93,它与铁原子配位,因此被牢牢固定在适当的位置。它的 B 值在 15-20 范围内——注意轮廓如何很好地围绕整个氨基酸,显示出尖锐的电子密度。右边是HIS81,暴露在蛋白质表面,B值较高,在22-74范围内。还要注意轮廓如何包围更小的空间,显示该氨基酸具有高电子密度的较小区域,因为整体电子密度在轮廓周围的空间中被微弱地涂抹。
上图显示的是整个分子,原子的颜色由温度因素决定。表示大量运动的高值为红色和黄色,而低值为蓝色。请注意,蛋白质内部的B值较低,而表面的氨基酸的B值较高。
提示:温度系数是衡量我们对每个原子位置的信心。如果你在一个蛋白质的表面发现了一个温度系数很高的原子,请记住,这个原子可能是经常移动的,在PDB文件中指定的坐标只是其位置的一个可能快照。
Occupancy and Multiple Conformations
大分子晶体由许多单独的分子组成,排列成对称排列。在某些晶体中,这些分子中的每一个之间都有细微的差异。例如,表面上的侧链可能在几个构象之间来回摆动,或者底物可能在活性位点中以两个方向结合,或者金属离子可能仅与少数分子结合。当研究人员建立这些部分的原子模型时,他们可以使用占用率来估计在晶体中观察到的每种构象的数量。对于大多数原子,占有率为 1,表明该原子存在于晶体中同一位置的所有分子中。但是,如果金属离子仅与晶体中一半的分子结合,研究人员将在电子密度图中看到该离子的弱图像,并且可以在 PDB 结构文件中为该原子分配 0.5 的占用率。占用也常用于识别在多种构象中观察到的侧链或配体。占有率值用于指示具有每种构象的分子的分数。每个原子包含两个(或更多)原子记录,占用率如 0.5 和 0.5,或 0.4 和 0.6,或其他总和为 1 的分数占用率。
肌红蛋白中的交替构象:图中的两幅图像取自条目1a6m中肌红蛋白的高分辨率结构:左边是谷氨酰胺8,右边是酪氨酸151。在这两种情况下,保存人将实验数据解释为显示了氨基酸的两种构象,谷氨酰胺的占据率为0.57和0.43,而酪氨酸构象的占据率为0.5。蓝色的轮廓线围绕着高电子密度的区域,原子模型用棍子表示。
提示:在处理具有多个坐标的 PDB 条目时,您通常需要密切注意。并不总是可以只选择“A”构象并丢弃“B”构象。您需要仔细查看每种情况,并确保移动侧链之间没有任何不良接触。
在 PDBx/mmCIF 格式中,_atom_site.label_alt_id
类别中指示替代构象,_atom_site.occupancy
类别中指示占用。下面显示的是条目 1a6m 中的残基 8。
loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id # Multiple Conformations
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy # Occupancy
_atom_site.B_iso_or_equiv
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM 63 N N . GLN A 1 8 ? 5.404 13.203 22.532 1.00 8.42 ? 8 GLN A N 1
ATOM 64 C CA . GLN A 1 8 ? 6.475 12.812 23.418 1.00 8.84 ? 8 GLN A CA 1
ATOM 65 C C . GLN A 1 8 ? 7.602 12.149 22.631 1.00 8.08 ? 8 GLN A C 1
ATOM 66 O O . GLN A 1 8 ? 8.769 12.399 22.918 1.00 8.39 ? 8 GLN A O 1
ATOM 67 C CB A GLN A 1 8 ? 5.987 11.822 24.520 0.57 13.03 ? 8 GLN A CB 1
ATOM 68 C CB B GLN A 1 8 ? 5.948 11.968 24.580 0.43 9.68 ? 8 GLN A CB 1
ATOM 69 C CG A GLN A 1 8 ? 7.030 11.303 25.506 0.57 16.30 ? 8 GLN A CG 1
ATOM 70 C CG B GLN A 1 8 ? 6.967 12.094 25.688 0.43 12.07 ? 8 GLN A CG 1
ATOM 71 C CD A GLN A 1 8 ? 7.981 10.227 25.063 0.57 15.61 ? 8 GLN A CD 1
ATOM 72 C CD B GLN A 1 8 ? 6.439 11.470 26.952 0.43 14.43 ? 8 GLN A CD 1
ATOM 73 O OE1 A GLN A 1 8 ? 7.688 9.392 24.214 0.57 19.54 ? 8 GLN A OE1 1
ATOM 74 O OE1 B GLN A 1 8 ? 5.419 10.767 26.918 0.43 17.46 ? 8 GLN A OE1 1
ATOM 75 N NE2 A GLN A 1 8 ? 9.219 10.114 25.607 0.57 21.38 ? 8 GLN A NE2 1
ATOM 76 N NE2 B GLN A 1 8 ? 7.067 11.762 28.084 0.43 14.03 ? 8 GLN A NE2 1
在 PDB 文件格式中,使用替代位置指示符在第 17 列中给出了替代构象,在第 55 - 60 列中给出了占用率。下面从条目 1a6m 显示的是以两种不同构象 A 和 B 建模的谷氨酰胺残基 8,其中构象 A给定 57% 的占用率,而构象 B 给定 43% 的占用率:
ATOM 63 N GLN A 8 5.404 13.203 22.532 1.00 8.42 N
ATOM 64 CA GLN A 8 6.475 12.812 23.418 1.00 8.84 C
ATOM 65 C GLN A 8 7.602 12.149 22.631 1.00 8.08 C
ATOM 66 O GLN A 8 8.769 12.399 22.918 1.00 8.39 O
ATOM 67 CB AGLN A 8 5.987 11.822 24.520 0.57 13.03 C
ATOM 68 CB BGLN A 8 5.948 11.968 24.580 0.43 9.68 C
ATOM 69 CG AGLN A 8 7.030 11.303 25.506 0.57 16.30 C
ATOM 70 CG BGLN A 8 6.967 12.094 25.688 0.43 12.07 C
ATOM 71 CD AGLN A 8 7.981 10.227 25.063 0.57 15.61 C
ATOM 72 CD BGLN A 8 6.439 11.470 26.952 0.43 14.43 C
ATOM 73 OE1AGLN A 8 7.688 9.392 24.214 0.57 19.54 O
ATOM 74 OE1BGLN A 8 5.419 10.767 26.918 0.43 17.46 O
ATOM 75 NE2AGLN A 8 9.219 10.114 25.607 0.57 21.38 N
ATOM 76 NE2BGLN A 8 7.067 11.762 28.084 0.43 14.03 N