GenBank数据格式

GenBank数据格式

以酿酒酵母TCP1β基因,部分编码区为例:
GenBank数据格式_第1张图片

关键字表

关键字 说明
LOCUS 【标记(简单描述)】:名称,长度,分子类型,数据分类(见下文),最后一次修订时间
DEFINITION 【定义】:物种/基因/蛋白质名称,编码区or非编码区,全序列or部分序列
ACCESSION 【检索号】
VERSION 【版本号】
DBLINK 【相关资源链接】
KEYWORDS 【关键词】:新的记录基本为”.“
SOURCE 【物种来源】
\qquad\qquad —ORGANISM 【物种分类】
REFERENCE 【参考文献】
\qquad\qquad —AUTHORS 【作者】
\qquad\quad —TITLE 【题目: Direct Submission(直接提交,未经发表)
\qquad\qquad —JOURNAL 【期刊】
\qquad\qquad —PUBMED 【PubMed编号】
\qquad\qquad —REMARK 【评论】
COMMENT 【注释】
FEATURES 【序列特征表】:特性关键字(见下午),特性位置(起始…终止),限定词(/限定词=限定值)
ORIGIN 【注释】

每个关键子体现一个字段,其中“—“开头的关键字表示二级关键字(子字段),在实例中表现为缩进。

LOCUS 中数据分类:

PRI →灵长类
ROD → 啮齿类
LNV → 无脊椎动物
PLN → 植物
BCT → 细菌
VRT → 病毒
PHG →抗菌素
SYN → 合成产物
EST → 表达序列标签
PAT → 专利序号
STS → 序列标记位点
GSS → 基因组勘测序列
HTG → 高通量基因组
HTC → 高通量cDNA
ENV → 环境样品
MAN → 其他哺乳动物
VRT → 其他脊椎动物
UNA → 未注释

FEATURES主要关键字:

attenuator → 与转录终止相关的序列
C_region → C-免疫特征区
CAAT_signal→ 真核心启动子上游的CAAT盒
CDS → 蛋白字编码序列
confict → 同一序列在不同研究中的差异
D_loop → 线粒体中DNA中的取代环
D_segment→D-免疫区
enhancer → 增强子
exon → 外显子
gene → 基因区域
GC_signal → 真核启动子的GC盒
iDNA → 通过重组消除的DNA
intron → 内含子
J_segment→ J-免疫特征区
N_region → N-免疫区特征区
V_region → V-免疫特征区
S_region → 免疫球蛋白重链开关区
LTR → 长末端重复序列
mat_peptide → 编码成熟肽序列
misc_binding → 无法描述的核酸序列结合位点
misc_difference → 序列特性无法用特性表关键字描述的序列
misc_feature → 生物学特性无法用特性表关键字描述的序列
misc_recomb → 无法用重组特性关键字描述的序列
misc_RNA → 无法用RNA特性关键字描述的转录物或RNA产物
misc_signal → 无法用信号关键字描述的信号序列
misc_structure → 无法用结构关键字描述的高级结构或构型
modified_base → 修饰过的核苷酸
mRNA → 信使RNA
rRNA → 核糖体RNA
scRNA → 小细胞质RNA
snRNA → 小核RNA
tRNA → 转运RNA
old_sequence → 该序列对以前的版本进行修订
ployA_signal → RNA转录本的剪切位点
ployA_site → RNA转录本的多聚腺苷酸化位点
precursor_RNA → 前体RNA
prim—transcript → 初始转录本
primer → PCR引物
primer_bind → 引物结合位点
promoter → 转录起始区
protein_bind → 蛋白质结合区
RBS → 核糖体结合位点
rep_origin → 双链DNA复制起始区
repeat_region → 重复序列
repeat_unit → 单个的重复原件
Satellite → 卫星重复序列
sig_peptide → 编码信号肽序列
source → 物种来源
stem_loop → 发夹结构
STS → 测序标签位点
TATA_signal → 真核启动子的TATA盒
terminator → 转录终止序列
transit_peptide → 转运蛋白质编码序列
transposon → 转座子
unsure → 序列不能确定区
variation → 包含稳定突变的序列
-10_signal → 原核启动子的Pribow盒
-35_signal → 原核启动子的-35框
3’ clip → 前提转录本被剪切掉的3’端序列
3’ UTP → 3’非翻译区
5’ clip → 前体转录本被剪切掉的5’端序列
5’ UTP → 5’非翻译区

你可能感兴趣的:(生信分析)