NCBI基因及启动子序列查找

当已知基因名或ID时,可通过NCBI搜索基因序列。首先登陆NCBI官网,在下拉菜单选择gene,搜索基因名或ID。
NCBI:https://www.ncbi.nlm.nih.gov/
这里选取一个调节根系发育的基因AT5G61350进行示例。


搜索结果共有159个,分别在不同的物种中,第一列是基因名和基因ID;第二列是简单的功能描述,中括号内为物种名;第三别是基因在基因组中的位置;第四列为其他名称。

点击基因名称进入详情页,summary中是对gene的主要介绍,包括基因名,基因的类型,以及主要的功能。

Genomic context部分,要注意基因的方向,这个基因的方向是从左往右,左侧为起始位置。如果是从右往左,那右侧则是起始位置。

点击fasta获得基因序列。下图所示,左侧为5'UTR,右侧为3'UTR,中间深绿色全部是外显子,也就是CDS编码区,这个基因没有内含子。

FASTA格式

在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

FASTA文件以序列表示和序列作为一个基本单元,各行记录信息如下:
第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性;
从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。

具体字母代表的含义如下:
核苷酸序列:

        A --> adenosine           M --> A C (amino)
        C --> cytidine            S --> G C (strong)
        G --> guanine             W --> A T (weak)
        T --> thymidine           B --> G T C
        U --> uridine             D --> G A T
        R --> G A (purine)        H --> A C T
        Y --> T C (pyrimidine)    V --> G C A
        K --> G T (keto)          N --> A G C T (any)
                                  -  gap of indeterminate length

氨基酸序列:

    A  alanine                         P  proline
    B  aspartate or asparagine         Q  glutamine
    C  cystine                         R  arginine
    D  aspartate                       S  serine
    E  glutamate                       T  threonine
    F  phenylalanine                   U  selenocysteine
    G  glycine                         V  valine
    H  histidine                       W  tryptophan
    I  isoleucine                      Y  tyrosine
    K  lysine                          Z  glutamate or glutamine
    L  leucine                         X  any
    M  methionine                      *  translation stop
    N  asparagine                      -  gap of indeterminate length

查看fasta,左侧为CDS序列,右侧方框内为序列所在范围,24667873——24670749。



通常认为启动子在基因上游2kb范围内,这个基因的方向从左至右,因此启动子范围就在基因左侧起始位置加2kb,24665873——24667872。如果基因方向是从右向左,那么启动子区域就是右侧位置加上2Kb。


FASTA格式参考:
https://www.jianshu.com/p/cd232d34c408

引用请注明出处,如有错误敬请指出。

你可能感兴趣的:(NCBI基因及启动子序列查找)