生信笔记:序列同源性、相似性

这是一篇阅读笔记。
原文 An Introduction to Sequence Similarity (“Homology”) Searching by William R. Pearson( 原文地址),作者是FASTA格式的发明者之一。

同源 Homology

定义

In biology, homology is similarity due to shared ancestry between a pair of structures or genes in different taxa (wikipedia).

同源 (Homology) = 共同进化祖先(Common evolutionary ancestry)
只要有共同祖先,无论基因序列、其编码蛋白质的结构、功能是什么,都可看作是同源的。

为什么要寻找同源基因

一旦发现同源序列,就可以通过多序列比对建立更准确的比对,为后续的表型预测和进化分析奠定基础。

识别同源序列的策略

相似性搜索 (similarity searching)
序列相似性搜索可以通过检测过高的相似性来识别同源蛋白质或基因:当两个序列的相似性超过偶然的预期时,我们推断这两个序列存在同源性。 当观察到过高的相似性时,最简单的解释是,这两个序列不是独立出现的,它们起源于一个共同的祖先。
所以这是统计学意义上的同源性,显著的相似性一定程度上反映了同源性。

需要注意的是同源性与相似性是两个不同的概念!
两条高度相似的序列可能不存在同源性;同样的,同源序列的相似性也可能很低。例如两条同源序列的相似性比对结果不显著,但如果它们在结构上相似性上显著,或者它们都与第三条序列的相似性显著,那么它们显然是同源序列。 因此,当相似性搜索发现统计学上显着的匹配时,我们可以放心地推断出这两个序列是同源的。 但是,如果在数据库中找不到统计上显着的匹配项,则不能确定没有同源物。

常见的序列比对工具,如BLAST, FASTA,HMMER等在算法上尽量减少假阳性(false positives, non-homologs with significant scores; Type I errors)的发生,但对假阴性(false negatives, homologs with non-significant scores; Type II errors)没有约束。

如果在InterPro和Pfam等域注释库中没有找到注释的蛋白质域,那是因为查询序列与已知的同源序列的同源关系太远。

期望( E E E)的计算公式:
E = k m n e − λ S E = kmne^{-\lambda S} E=kmneλS
E E E:期望值,即分数为S时,期望的高分序列(HSP)出现的数量 ;
λ , k \lambda ,k λ,k:常数(Karlin Altschul statistics);
m m m:查询序列长度;
n n n:数据库序列的长度。

期望值取决于数据库的大小,通过对比拥有10,000,000个序列数据库得到的e值比只有100,000个序列的数据库中找到相同分数时的e值低100倍。但并不是说在大的数据库中找到的序列是同源的,而小的数据库中找到的序列不是同源的。

蛋白质/蛋白质比对相比,DNA/DNA序列比对比可能更不容易发现同源性。蛋白质(或者翻译后的DNA)相似性搜索要比DNA/DNA搜索敏感得多。 经过200-400亿年的演化后,DNA:DNA比对比对很少能检测到同源性,而对于蛋白质/蛋白质比对能检测到25亿年前的共同祖先。
此外,DNA/DNA比对不如蛋白质/蛋白质准确。E值<0.001的蛋白质/蛋白质比对可以可靠地推断同源性,DNA/DNA期望值<10e-6经常是偶然发生的,一般阈值设为10e-10。提高DNA序列搜索灵敏度的最有效方法是使用翻译的DNA/蛋白质比对,例如BLASTx和FASTX产生的比对,​​而不是DNA/DNA比对。

你可能感兴趣的:(生物信息)