生物数据库之一级蛋白质数据库

参考：山东大学基础医学院

之前的博客我们讲了生物数据库之核酸数据库。这次我们来讲蛋白质数据库。蛋白质数据库的种类比核酸数据库要多，但它的注释要比核酸数据库直白得多。像核酸数据库一样，蛋白质数据库也分为一级和二级。

一级蛋白质数据库又分为蛋白质序列数据库和蛋白质结构数据库。这两种数据库里存放的都是通过实验方法直接获得的基础数据。而二级蛋白质数据库都是在一级数据库的基础上分析加工出来的。

一、UniProt 数据库(序列)

我们首先来看一级蛋白质序列数据库。

一级蛋白质序列数据库包含三大蛋白质序列数据库，Swiss-Prot，TrEMBL 和 PIR，这三个数据库共同构成 UniProt 数据库。

1.Swiss-Prot

Swiss-Prot 是一个人工注释的蛋白质序列数据库。它拥有注释可信度高，冗余度小的优点。它是由欧洲生物信息学研究所 EBI 与瑞士生物信息学研究所 SIB 共同管理的。

2.TrEMBL

TrEMBL 也是 EBI 和 SIB 共同管理的一个数据库，他与 Swiss-Prot 的区别是：

TrEMBL 里的蛋白质序列注释是由计算机完成的，它包含了 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。换言之，TrEMBL 是通过计算机，把核酸序列数据库里能编码蛋白的核酸序列都翻译成了蛋白质序列，然后把这些计算机翻译出来的蛋白质序列存入其中。

可想而知，这样的数据库一定是可信度低而冗余度大的。好在 TrEMBL 把已经包含在 Swiss-Prot 数据库中的序列剔除掉了。也就是在 Swiss-Prot 里已经有人工注释的蛋白质序列在 TrEMBL 里就不再出现了。

3.PIR

PIR 数据库是蛋白质信息资源数据库，他设在美国 Georgetown 大学医学中心。是一个支持基因组学，蛋白质组学和系统生物学研究的综合公共生物信息学资源。

2002 年，Swiss-Prot 和 TrEMBL 的数据库管理组与 PIR 的数据库管理组成立联合蛋白质数据库协作组，管理联合蛋白质序列数据库，也就是 UniProt 数据库。

❤UniProt 数据库有三个层次:

第一层叫 UniParc，收录了所有 UniProt 数据库子库中的蛋白质序列，量大，粗糙。
第二层是 UniRef，他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。
第三层是 UniProtKB，他有详细注释并与其他数据库有链接，分为:
- UniProtKB 下的 Swiss-Prot
- UniProtKB 下的 TrEMBL 数据库。
  
  关系稍有点复杂，但实际上我们最常用的就是 UniProtKB 下的 Swiss-Prot 数据库。

二、UniProtKB注释解读

我们从 UniProt 数据库查看一条蛋白质序列

在 UniProt 数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到，TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot 中的。

统计表里清楚的写着：TrEMBL 是自动注释的，没有经过检查，而 Swiss-Prot 是人工注释的，并且经过检查。这是 Swiss-Prot 和 TrEMBL 最大的区别，一定要记住。

UniProt 数据库的首页

跟 NCBI 的网站一样，UniProt 数据库的首页上也有一个搜索条，选择 UniprotKB 数据库，然后输入“human dutpase”。

上条博客我们一直在研究 dUTPase，从 PubMed 查文献到 GenBank 查看编码这一蛋白的 DUT基因。这次我们继续研究它。

我们直接查看 dUTPase 的蛋白质序列。通过关键词搜索我们找到了很多条蛋白质序列。从蛋白质的名字来看，第一条应该是我们想要的。

image-20200421194325544

Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号。
Entry_Name 是检索名，检索号与检索名平行运行，都是一条序列在数据库中的唯一标识，两者作用相同，只是写法不同。

从检索名可以更直观的知道是哪个物种的什么蛋白质。从加星文档图标我们可以获知序列是被人工检查过的还是没有。也就是说，有加星文档图标的是 Swiss-Prot 中的数据，没有的是 TrEMBL 里的。

后面这几列，依次是蛋白质的名字，编码这一蛋白质的基因的名字，所属物种以及序列长度。

点击第一条序列的检索号，打开这条数据库记录。

image-20200421195016398

UniProtKB 中的数据库记录分成几个部分:

左侧是注释标签，点击其中某一个标签可以直接跳转到该部分注释。
上方是工具标签，可以用于和其他序列进行比较，格式转换，存等。
工具标签下方是这条蛋白质序列的基本信息，蛋白质的名字，基因的名字，所属物种，以及状态。
- 这里有加星文档图标，是被人工检查过的，应该属于 Swiss-Prot 数据库。注释打分 5 星，说明注释得很全面，并且这些注释在蛋白质水平上有实验依据。
再往下就是具体的注释内容了。

①Function：功能这部分注释很详细的说明了这个蛋白质的功能。

image-20200421195608887

从这里可以得知 dUTPase 是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代谢途径等。每条注释信息都提供出处来源，让你有据可查。

②Names & Taxomomy ：给出了蛋白质的各种名字，包括全称、缩写以及别名。还列出了所属物种以及该物种的分类学谱系等。

image-20200421200204641

③Subcellular location：提供蛋白质亚细胞定位（subcellular localization）的信息。

image-20200421201050829

注意：成熟蛋白质必须在特定的细胞部位才能发挥其生物学功能。蛋白质在细胞内不同组分中的定位即为蛋白质的亚细胞定位。亚细胞定位对蛋白质的生理功能有着直接的影响。处于合适的亚细胞定位的蛋白质才能行使其正常的功能。目前，研究亚细胞定位的数据来源基本都是 Swiss-Prot 数据库。

上次博客我们从 GenBank 里查看人的 DUT 基因时得知，DUT 基因有两种剪切方式，其中一种会保留前端的一段信号肽，这个信号肽会将蛋白质定位于线粒体。而没有这段信号肽的留在了细胞核。这与 Swiss-Prot 中关于亚细胞定位的注释是一致的。我们看到，这个蛋白有两种异构体（isofrom），一个亚细胞定位在细胞核，另一个在线粒体。

④Pathology & Biotechnology：提供蛋白质突变或缺失导致的疾病及表型信息。

image-20200421201806910

比如 99 位的丝氨酸会突变成丙氨酸从而导致磷酸化的缺失，相关具体研究可参考注释来源文献。

⑤PTM/Processing：提供蛋白质翻译后修饰或翻译后加工的相关信息。比如信号肽在蛋白质到达指定位置之后要被剪切掉，有些氨基酸位点上会发生乙酰化、甲基化、磷酸化等翻译后修饰。

image-20200422201130176

⑥Expression：提供了基因在 mRNA 水平上的表达信息，或者在细胞中蛋白质水平上的表达信息，或者在不同器官组织中的表达信息。

image-20200422201414643

⑦Interaction：提供了蛋白质之间相互作用的信息。

image-20200422201609932

包括 UniProtKB 中直接与这个蛋白质有两两相互作用的蛋白质序列的链接，以及这个蛋白质在各种蛋白质相互作用数据库或蛋白质网络数据库中涉及的数据库记录链接。

⑧Structure：提供蛋白质二级结构和三级结构信息。

这里请注意，只有那些已通过实验方法测定三级结构并且已提交到蛋白质结构数据库 PDB 的蛋白质才有结构注释。

image-20200422202054798

二级结构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库 PDB 中涉及的数据库记录链接。这些结构经常只对应蛋白质的部分序列。

⑨Family & Domains：提供蛋白质家族及结构域信息。

image-20200422202426011

这个蛋白质是属于 dUTPase 家族的。它有三个重要的区域用于和其他分子结合。此外还有与系统发生学数据库以及结构域数据库之间的链接。

⑩Sequence：提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。

image-20200422202624122

这个蛋白质有两个异构体，一个线粒体型的，一个细胞核型的。所以会显示两条序列。FASTA 按钮提供 FASTA 格式序列。

⑪ Similar Proteins：在 UniRef 数据库里找到与该蛋白质在序列水平上相似的其他蛋白质，并按相似度高低分组。凡是名字里有 ref 的数据库都是非冗余数据库， UniRef 亦是如此，它属于 UniProt 数据库的第二个层次。

image-20200422205720085

⑫ Cross-references：列出了所有通往其他含有该蛋白质信息的数据库的链接。

image-20200422203021709

⑬Entry information：提供有关这条数据库记录的录入信息，外加一个免责声明。

⑭Miscellaneous：杂项，包含任何无法归入前几项的内容。

网页版的数据库记录也可以像 GenBank 一样保存成纯文本格式的本地文件。

image-20200422210628969

这种文本格式的数据库记录每一行都有一个两个字母组成的条目索引，用以说明这一行记录的是什么内容。条目索引所代表的具体内容可以参见下表。

表 1. UniProtKB 纯文本（Flat File）格式数据库记录条目索引含义表

Line code	Content	Occurrence in an entry
ID	Identification	Once; starts the entry
AC	Accession number(s)	Once or more
DT	Date	Three times
DE	Description	Once or more
GN	Gene name(s)	Optional
OS	Organism species	Once or more
OG	Organelle	Optional
OC	Organism classification	Once or more
OX	Taxonomy cross-reference	Once
OH	Organism host	Optional
RN	Reference number	Once or more
RP	Reference position	Once or more
RC	Reference comment(s)	Optional
RX	Reference cross-reference(s)	Optional
RG	Reference group	Once or more (Optional if RA line)
RA	Reference authors	Once or more (Optional if RG line)
RT	Reference title	Optional
RL	Reference location	Once or more
CC	Comments or notes	Optional

DR	Database cross-references	Optional
PE	Protein existence	Once
KW	Keywords	Optional
FT	Feature table data	Once or more
SQ	Sequence header	Once
blanks	Sequence data	Once or more
//	Termination line	Once; ends the entry

三、PDB数据库（结构）

在介绍一级蛋白质数据库中的蛋白质结构数据库 PDB 之前，我们先来复习一下蛋白质的结构。

蛋白质的结构可以分为四级：

一级结构也就是所谓的氨基酸序列。

二级结构是我们熟悉的α螺旋和β折叠等。

三级结构是蛋白质的三维空间结构。

四级结构是几个蛋白质分子的复合体结构。

蛋白质结构数据库 PDB 是全世界唯一存储生物大分子3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。

PDB 最早是于 1971 年由美国 Brookhaven 国家实验室创建的，当时只存储了 7 个结构。1998 年，结构生物信息学合作研究协会 RCSB 成立。之后 PDB 的维护工作主要由 RCSB 负责。现在，PDB 数据库每周更新一次。至今，PDB 收录的结构已超过十万个，其中 90%以上是蛋白质结构。

下面我们就来看看 PDB 数据库中的一个蛋白质结构。

在进入数据库之前请大家先回忆一下，我们在讲 PubMed 数据库时，从 PubMed 数据库找到了一位北京大学的 Su 教授，Su 教授专门研究 dUTPase 的结构。我们找到的那篇文章就是 Su 教授发表的一种革兰氏阳性菌的 dUTPase 蛋白晶体结构。那么我们接下来，就从 PDB 里查找一下 Su 教授解析的这个结构。

在 PDB 网站的搜索条中输入 “Su X D dutpase”，也就是把作者的名字和蛋白质的名字同时输入搜索条，然后点 go。

image-20200423132346793

通过关键词搜索，一共找到两个结构。其中第一个是一种革兰氏阳性菌的 dUTPase 蛋白晶体结构。

点击结构图片，打开关于这个结构的数据库记录。

image-20200423132846985

PDB 数据库的检索号，俗称 PDB ID，是由字母和数字组成的四位编号。一个结构对应一个 PDB ID，而不是一个蛋白质对应一个 PDB ID，因为同一个蛋白质在 PDB 数据库中可以有很多个结构。他们可以是不同作者提交的，也可以是一个蛋白的不同结构形态。当前这个结构的 PDB ID 是 3H6X。

接下来我们看看一个 3D 结构是怎么存储在数据库里的？网页上的信息都是关于这个结构的基本描述以及解析结构所用的实验参数。真正的结构信息要从 Download files 里面下载。结构信息存储在 PDB 格式的一个纯文本文件里，这种文件叫做 PDB 文件。PDB 文件都是以 PDB ID 命名，以“.PDB”为后缀，可以用记事本打开。

image-20200423133317323

四、PDB文件注释解读

PDB 文件和我们之前见过的 GenBank 还有 UniProtKB 的纯文本数据库记录差不多。也是每行有条目索引词，后面是具体内容。

image-20200423134614273

我们通过浏览 3H6X 的 PDB 文件，看看这样的文本记录如何呈现 3D 结构。

第一部分：头信息

image

HEADER：蛋白质结构的基本信息描述，包括分子类别，存储日期，PDB ID

TITLE：结构的标题

COMPND：对结构中各个分子的描述。从这里可以看出 3H6X 这个结构是由三条链形成的三聚体结构。

SOURCE：结构中所包括的每一个分子的实验来源。

KEYWDS：用于数据库搜索的关键词

EXPDTA：测定结构所采用的实验方法。PDB 中绝大部分结构都是通过 X 射线衍射法测定的，少数是核磁共振法，极少数是使用包括电子显微镜在内的其他方法测定的。

image

AUTHOR：作者信息

REVDAT：历史上曾经对该数据库记录进行过的修改。

JRNL：发表结构的文献信息。

REMARK：无法归入其他部分的注释。

第二部分：一级结构信息（也就是氨基酸序列）

image-20200423140908658

DBREF：该蛋白质在蛋白质序列数据库里的检索号等信息。

SEQRES：氨基酸序列。

MODRES：对标准残基上的修饰，比如第 56 号位置的蛋氨酸被硒代蛋氨酸所取代。

第三部分：非标准残基信息

image-20200423161703182

HET：非标准残基及位置。

HETNAM：非标准残基的化学名称。

FORMUL：非标准残基的化学式。

第四部分：二级结构信息

image-20200423161821372

HELIX：位于螺旋结构上的氨基酸所在位置及所属链。

SHEET：位于折片结构上的氨基酸所在位置及所属链。

TURN：位于转角结构上的氨基酸所在位置及所属链。

image-20200423162009838

Link：残基间的化学键。比如 106 号氨基酸上的 C 与 107 号氨基酸上的 N 之间的化学键是肽键！键长 1.32 埃。除了肽键还可能有氢键，二硫键等等。

第五部分：实验参数信息

image-20200423162140919

CRYST1：晶胞参数。

ORIGXn：直角-PDB 坐标。

SCALE*：直角部分结晶学坐标。

第六部分：3D 坐标信息

ATOM：PDB 文件中最重要的，也是篇幅最长的就是 3D 坐标部分。每一行是一个原子（图 1）。包括原子号，原子名，这个原子所在氨基酸的名字，属于哪条分子链以及所在氨基酸的编号。后面这三个数就是这个原子在三维空间里的坐标，X 轴 Y 轴和 Z 轴。通过这个 3D 坐标，蛋白质的每一个氨基酸上的每一个原子都能找到自己的空间位置。所有原子按照各自的空间位置站好，就构成了整个蛋白质的空间结构。至此，我们终于知道了 PDB 是如何存储 3D 结构了。它存储的实际上是原子的 3D 坐标。

image-20200422235431849

CONECT：原子间化学键连接信息。

MASTER：版权拥有者信息。

END：结束符。

五、PDB文件3D展示

纯文本的 PDB 文件虽然很清楚的交代了有关这个结构的全部信息，但是对于 3D 结构还是没有直观的呈现。我们很难凭原子的 3D 坐标想象出一个结构到底长什么样子。不用着急，目前已经有很多软件可以实现 3D 坐标的可视化。这些软件会创建一个三维空间，然后根据原子坐标以及原子的大小把原子展示在空间内，并根据原子间的距离给他们连上化学键。这样一个立体的蛋白质结构就呈现在眼前了。

3H6X

打开这个网页http://www.rcsb.org/3d-view/3h6x，网页加载完成之后，页面上会出现一个图片。这个图片貌似是当前这个蛋白质的结构图。没错，是 3H6X 的结构，但他不是图。因为你可以把鼠标移到黑色窗口里，按住鼠标左键，同时左右移动鼠标，就会看到蛋白质动起来了。通过设置右边的参数，可以改变 3D 结构的显示方式。

在线可以方便快捷的查看结构，但是功能不够全，特别是缺少分析功能。在之后的博客中，我将为你详细讲解功能更为强大的 3D 可视化软件的使用，并且在这一章里还将涉及 PDB 数据库的更多内容。