11月 6日 本地blast (一)

这几日学习比较忙,都没有做笔记,想整理的时候发现还没有整理好,就从6号开始吧

先来理解几个基础概念

摘自中山大学生科院

生物序列的相似性

是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较

生物序列的同源性

指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。

相似性和同源性关系

序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。
正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。

序列相似性比较:

就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;

序列同源性分析:

是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;

直系同源和旁系同源

摘自樊龙江《生物信息学札记》

直系同源

直系同源的定义是:
(1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因;
(2)分布于两种或两种以上物种的基因组;
(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;
(4)结构相似;
(5)组织特异性与亚细胞分布相似。

在这些条件中,垂直传递和功能相同是最重要的。如多种抗药性基因,在细菌、果蝇、河豚鱼、小鼠、人类的基因组中都存在,其结构相似,功能都与多种药物的抗性有关。直系同源基因的鉴定是比较基因组的研究线索和内容,直系同源的存在是基因组进化的重要证据, 因此对直系同源的定义与条件的掌握甚为严格。鉴定直系同源的实际操作标准(practical criteria)为:
如基因组Ⅰ中的A基因与基因组Ⅱ中的A‘基因被认为是直系同源,则要求:
(1)A‘的产物比任何在基因组Ⅱ中所发现的其它基因产物都更相似于A产物;
(2)A‘与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;
(3)A编码的蛋白与A‘编码的蛋白要从头到尾都能并排比较, 即含有相似以至于相同的模序(motif)。

旁系同源

旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。
直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能, 其功能相似也许只是机械式的相关(mechanistically related),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。在真细菌与古细菌的基因组中,30%~50%的基因属旁系同源,在真核基因组的比例更高(Koonin EV and Galperin MY,1997)。

相似与同源,直系与旁系需要在定义上加以明确,但实际应用中很难截然分开。 与别的常用术语也很难明确界定。 但基因家族或多基因家族(gene family, multigene family)的原来的定义较侧重于结构,因而一个直系基因可以与几个旁系基因同属于一个基因家族。在这一定义上,旁系同源可以说是一个基因家族中的其他成员(Huynen et al, 1997)。
随着不同物种全基因组序列的阐明,上述概念愈见重要并更明确。从已知的 7 个物种的全基因组序列比较,如所有的保守基因都据同源关系而加以分类(Tatusov RL et al.,1997),可归纳出 720 个直系同源簇(clusters of orthologous groups,COG),每一 COG 由一个直系同源蛋白或存在于至少 3 个种系(lineage)的直系的旁系同源组(orthologous sets of paralogs)组成。而基因家族又因大批基因及产物序列而赋予新的内容, 这对于扩大对生物过程的认识与操作基因的能力有很大的意义(Henikoff et al.,1997)。

做blast就是从相似入手去找同源的一个工具。
明天记录怎么安装本地blast

你可能感兴趣的:(11月 6日 本地blast (一))