序列数据库

Genbank

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库.GenBank与EMBL(欧洲EMBL-DNA数据库)、DDBJ (日本DNA数据库:DNA Data Bank of Japan)建立了相互交换数据的合作关系,所以在其中任何一个数据库检索的结果基本一致。

基本检索功能

限定词检索:限定词是在名词词组中对名词中心词起特指、类指以及表示确定数量和非确定数量等限定作用的词类。

标识符检索:是指用来标识某个实体的一个或一列符号。

范围检索:时间、序列长度、序列号等的范围。

高级检索:各种自带的限定词。

序列比对

Blast,全称 Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具 "。Blast 能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对 比对区域进行打分以确定同源性的高低。

工作流程:

1、利用目标序列(subject)建立数据库

2、待查序列(query)在数据库中进行搜索

3、每一条query和每一条subject进行双序列比对,获取比对结果

Blast是一个集成包,主要包括5个比对模块,实现5种序列比对方式:

blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。

blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列,然后再与蛋白库做比对。

tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。

tblastx:核酸序列对核酸库蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。

UCSC Genome Browser

由University of California Santa Cruz (UCSC) 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。

序列比对

Blat,全称 The BLAST- Like Alignment Tool,可以称为"类 BLAST 比对工具"

Blast与Blat的比较

Blast 相对于Blat有几个缺陷:速度偏慢、结果难于处理、无法表示出包含 intron 的基因定位。Blat 就是在这种形势下应运而生了。Blat 的主要特点就是:速 度快,共线性输出结果简单易读。对于比较小的序列(如 cDNA等)对大基因组的比对,blat 无 疑是首选。Blat 把相关的呈共线性的比对结果连接成为更大的比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,blat 得到了广 泛的应用。

GEO数据库

Geo(Gene Expression Omnibus): is a public functional genomics data repository supporting MIAME-compliant data submissions. Array- and sequence-based data are accepted.。

主数据库中的记录种类:平台、样本、系列、补充文件、数据集、表达谱

GEO有三种供提交者提交数据的平台,分别是Platform、Samples、Series。

Platform用来提交对序列及基于序列的平台的描述。Samples用来提交样本的处理条件、丰度测量方式。一条Series将一组相关Samples连接在一起,并提供了整个研究的描述,包括对数据的描述,总结分析。

Datasets是由GEO工作人员将Series数据整理所得,可以被可视化和分析,代表了生物学和统计学上可以被比较的样本的集合。而Profiles来源于Datasets,由在Datasets中所有样品的单个基因的表达测量结果组成。

你可能感兴趣的:(序列数据库)