生物学英文缩写

EST是Expressed Sequence Tag的缩写,意思是表达序列标签,指从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列。代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。由于cDNA文库的复杂性和测序的随机性,有时多个EST代表同一基因或基因组,将其归类形成EST簇(EST cluster)

SSR(Simple Sequence Repeats)标记是近年来发展起来的一种以特异引物PCR为基础的分子标记技术,也称为微卫星DNA(MicrosatelliteDNA),是一类由几个核苷酸(一般为1~6个)为重复单位组成的长达几十个核苷酸的串联重复序列。每个SSR两侧的序列一般是相对保守的单拷贝序列。

基因组综述序列(GSS)和未完成的高通量基因组序列(HTG)都代表了按功能划分的一类数据,这些都要求用户以及数据库工作人员用不同的方法来处理。

CDS是Coding sequence,蛋白编码序列.ORF是open reading frame,开放阅读框.⑴开放阅读框是不被终止子打断的一段核酸序列,可能包含编码蛋白的碱基序列;不是所有开放阅读框都能被表达出蛋白产物,或者能表达出占有优势.CDS特指cDNA上面可以编码蛋白质那段序列。ORF是指某一段DNA上面有可能编码蛋白质的序列。

UTR(Untranslated Regions):非翻译区。是信使mRNA分子两端的非编码片段。5‘UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3’UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的末端。

FTASTA:fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。

RPKM是Reads Per Kilobase per Million mapped reads的缩写,代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。

RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列。

你可能感兴趣的:(生物学英文缩写)