NCBI Gene数据库中检索基因结构

变异包含很多种:单核苷酸多态性(SNP)、插入缺失突变(INDEL)、拷贝数变异(CNV)以及结构变异(SV)等。不过本篇并不是讲变异的,在进入本周系列主题之前,需要对基因结构做一下回顾,以作为后续篇章的基础知识。

原核生物基因结构

img

原核细胞的基因组相对较小,一切以“精简实用”为核心原则,因此原核细胞的基因是连续的,基因与基因之间不存在冗余序列。有的编码区的序列还可以同时编码多个蛋白质。并且存在重叠基因,一个基因部分或全部位于另一个基因序列之内。

如上图所示,原核生物基因由编码区和非编码区组成。在上游非编码区含有启动子,启动子是RNA聚合酶的结合位点,是转录的起始处;在下游非编码区含有终止子,终止子具有终止转录的功能。启动子和转录起始位点(TSS)也会有操纵子序列。

真核生物基因结构

img

真核细胞的基因和原核生物一样都有编码区、非编码区,在非编码区都有调控遗传信息表达的核苷酸序列。但是其与原核细胞的基因结构已经有了很大的差异,真核生物的基因存在的很多的冗余序列和复杂的调控序列。

DNA水平

如上图所示,真核细胞的基因是间隔的,相邻基因之间有一段冗余序列。

除了基因是间隔的,基因编码区也是间隔的,可分为外显子(exon)和内含子(intron)。

每个外显子和内含子接头区都有一段高度保守的序列,即内含子5’末端大多数是 GT 开始,3’末端大多是 AG 结束,称为 GT-AG 法则,是普遍存在于真核基因中 RNA 剪接的识别信号。

第一个外显子首端和最后一个外显子末端,分别为翻译蛋白的起始密码子和终止密码子。

RNA水平

初始转录的RNA,需要经过RNA剪接、修饰及编辑等步骤才会形成成熟的mRNA。mRNA是翻译蛋白质的模板,但是并非mRNA的全长用于翻译蛋白质。mRNA两端是存在一定长度的非翻译区(UTR),5’端的叫做5‘UTR,3’端的叫做3‘UTR,而翻译蛋白质的区域叫做蛋白质编码序列(CDS)。

5’UTR是mRNA帽子结构与起始密码子之间的区域,3‘UTR是mRNA的3’端 polyA 和终止密码子(polyA更靠近3’)之间区域。

在NCBI Gene数据库中检索基因结构

基因结构可以在NCBI Gene数据库中查询,这个数据库在以前的章节也讲过(浅谈Entrez ID),不过当时主要是讲不同版本的基因ID的。在这里会继续使用这个数据库,来搜索查看基因结构,仍以人源TP53基因为例。

第一步 打开NCBI gene,键入搜索词

打开NCBI(https://www.ncbi.nlm.nih.gov/),选择Gene数据库,输入基因名词检索时,需要键入或者筛选物种信息,在这里选择人源的。

img

第二步 查看Genomic regions, transcripts, and products

点击链接后,会有总结(Summary)、该基因在基因组上下游的基因位置信息(Genomic context)、各组织器官的表达谱(Expression)和生物学功能(Bibliography)等信息,而我们需要注意的是Genomic regions, transcripts, and products一栏。

img

基因结构如图所示。

实际上第一个方框并不算传统意义上的外显子,因为其并不被翻译为蛋白质,最后一个方框也并非全部是外显子,因为只有部分翻译蛋白质。

方框的更确切的意义应该是成熟mRNA序列。不过在查一些参考文时(参考3),他们还是把方框标记为外显子了,因此这里做一下说明。

第三步 查看具体序列信息

点击在上图中右上的Tools的Sequence Text View里面可以直观的看到基因的序列与结构。

图中蓝色代表非翻译区(UTR),粉红代表蛋白质编码区。绿色代表内含子,蓝色和粉红色共同代表了上图中的方框区域(也就是成熟mRNA序列)。

img

注意:

  1. 本图左上角标识的两个红框,第一个红框是“前一页”和“后一页”,在Sequence Text View里面,TP53基因共有3页序列内容,默认先显示第2页,也就是第一个蛋白编码区(CDS,图中粉红色)出现的一页开始显示,如果需要查看其它的序列,请点击“前一页”和“后一页”按钮。
  2. 第二个红框代表搜索出来的不同TP53记录,本次演示默认只查看第一条记录,也就是NM001126112.2/NP0011195841.1,如需要查看其它记录,点击图中红框位置的下拉框即可选择。

参考资料来源-- 生信菜鸟团

  1. 再一次,翻看真核生物基因结构! http://t.cn/RlJ589T
  2. 疑难解析:基因结构 http://t.cn/RlJ5D7s
  3. 如何查询基因结构 http://t.cn/RlJt24w

你可能感兴趣的:(NCBI Gene数据库中检索基因结构)