unigene

(一)关于RefSeqNCBI参考序列
NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。
范围:目前,RefSeq记录为下列分子类型和基因组提供:

分子  登录格式       基因组
Complete Genome NC_###### Archaea, Bacterial, Organelle, Virus, Viroid
完整基因组 NC_######  原核生物,细菌,细胞器,病毒,疫苗
Complete Chromosome   NC_######   Eukaryote 
完整染色体  NC_######    真核生物
Complete Sequence  NC_######  Plasmid 
完整序列 NC_######   质粒
Genomic Contig      NT_###### Homo sapiens 
基因组Contig     NT_###### 人类
mRNA  NM_######  Limited Vertebrate,Homo sapiens,Musmusculus,Rattus norvegicus
mRNA   NM_######      有限的脊椎动物,人类,小鼠,大鼠。
Protein   NP_######    All of the above 
蛋白  NP_######  所有以上的

 

 

(二)关于UniGene

 

The UniGene System UniGene是从属于GeneBank的一部分,专门收集非冗余性的基因来源的clusters数据。每一个UniGene Cluster包含代表单一基因的序列和相关的信息,例如基因表达的组织类型和图谱定位信息。

除了这些具有具有特征的序列以外,成千上万的EST也被收录在内。因此,相应的,这些收集的资源可以作为基因发现的来源。现在,许多实验室研究人员已经利用UniGene进行大规模的基因表达图谱分析,并且所有这些序列并没有被用来尝试产生Contigs或Consensus。这里存在一些原因解释为什麽同属于某一基因的序列不用来产生一个单一的Contig. 所有属于同一基因的剪切变异被放在同一聚类中。 来从同一cDNA克隆的EST序列,通常都有5’和3’端的序列,但这些序列并不都具有重叠部分。

当前,Unigene已收录了Human 、Rat、Mouse和Cow、Zebrafish的序列。选择这些物种是因为它们有大量的EST可用数据,其它物种的序列将在今后陆续被加入。

UniGene的数据可通过FTP下载 UniGene Build Procedure:
聚类是一个发现同属于一个大类中的小的亚序列的过程,可通过转换离散相似值为序列之间的布尔数学体系联系。也就是说,如果序列间的相似性超过某一阈值,则认为它们具有相关性。UniGene clustering 对于这种相关性分析提供更多的生物学意义上的考虑,聚类过程大致如下:

1.对序列中的载体、寡核苷酸、重复片段以及线粒体、核糖体等污染序列进行过滤。去除污染序列之后的序列至少要含有100bp的带有信息的序列才可作为候选序列。

2.Gene links
从属于同一基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之间要进行比较,足够相似的序列被放在一起,形成初始的clusters。

3.EST to Gene links and EST to EST
通过megablast,EST与属于同一基因的序列进行比较,足够相似的序列 被加入到这些clusters。如果某一个序列,表现为可同时放在2个不同clusters,但不能把2个clusters联成一个cluster,这样的序列必须被剔除。另外,如果在clusters有2个以上的带有 3’末端标记EST或在Cluster中没有带有poly(A)信号的序列,这样的Clusters必须被抛弃。
经过这些标准筛选得到的clusters,称为锚定clusters 。因为这些clusters具有3’ 末端序列,并被假定为已知的。

4 根据克隆信息设定Cluster的边界。

这样可以确保如果同属于一个Cluster的5’末端和3’末端ESTs即使中间没有重叠的片段将它们联系起来,也能认定它们属于同一个cluster。如果在一个Cluster中有两个3’末端ESTs,那么就可在相同的克隆中找到两个5’末端EST,并将其放到同一个Cluster中。并且可以提供Clusters之间合并的信息。

由于新的序列数据的加入和每星期的不断更新,因此在UniGene中的resulting Cluster每星期也随之重新整理,不断更新。Clusters之间会发生融合,因此使用Cluster的ID作为标识,是不明智之举,最好利用GB accession numbers比较安全。
目前,在UniGene中包括有48,000clustes,Clusters 大部分依据EST序列形成,每一个Cluster代表一个human gene 的转录子,当前估计人类基因组约有80,000到100,000基因。利用UniGene Clusters的一个重要的目的是识别新的,非冗余的候选b表达图谱,为产生一个转录子图谱-识别基因组所有的编码序列。

你可能感兴趣的:(bioinformatics,生物,numbers,system,build)