序列比对算法

一.生物数据库

序列比对算法_第1张图片
1.文献数据库:PubMed(主要是生物医学文献)
2.一级核酸数据库:NCBI,ENA,DDBJ
INSDC:由GenBank(美国)、ENA(欧洲)、DDBJ (日本)三大核苷酸数据库组成的联合核苷酸数据库。
序列的FASTA格式:第一行——大于号加名称或其他注释
第二行以后——序列,每行60个字母
3.一级蛋白质数据库(都是通过实验直接测定的)
序列比对算法_第2张图片
序列比对算法_第3张图片
蛋白质序列数据库:swissport,TrEMBL,PIR,UniPort(前三个数据库的合成)
蛋白质结构数据库:PDB

4.二级蛋白质数据库
Pfam(蛋白质结构域家族的集合)
PS:结构域——蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称为结构域。Like胞外域、跨膜区、胞内域。通过探明未知功能蛋白质上的结构域,可以大致推测出蛋白质的功能。
CATH
SCOP2

二.序列比较及相似性

1.序列表示
序列比对算法_第4张图片
2.序列的相似性
数据库中的序列相似性搜索——相似的序列可以推测出相似的结构,相似的结构可以推测出相似的功能。
用两个指标来描述序列的相似性——一致度和相似度。
序列比对算法_第5张图片

引出问题:残基的相似如何量化?
残基两两相似的量化关系由替换记分矩阵所定义。
序列比对算法_第6张图片
序列比对算法_第7张图片
注:密码子——密码子(codon)是指信使RNA分子中每相邻的三个核苷酸编成一组,在蛋白质合成时,代表某一种氨基酸的规律。信使RNA在细胞中能决定蛋白质分子中的氨基酸种类和排列次序。信使RNA分子中的四种核苷酸(碱基)的序列能决定蛋白质分子中的20种氨基酸的序列。而在信使RNA分子上的三个碱基能决定一个氨基酸。
序列比对算法_第8张图片
在这里插入图片描述
序列比对算法_第9张图片

3.比对两个序列的方法
(1)打点法
序列比对算法_第10张图片
序列比对算法_第11张图片
(2)序列比对法
序列比对算法_第12张图片
A)双序列序列全局比对算法(用于比较两个长度近似的序列)
序列比对算法_第13张图片
序列比对算法_第14张图片
B)双序列局部对比算法(用于比较一长一短两条序列或者是非同源序列)
序列比对算法_第15张图片
序列比对算法_第16张图片

**

*序列比对算法总结:

序列比对算法_第17张图片
*在线序列比对工具: EMBL、PIR 等
序列比对算法_第18张图片
4.BLAST搜索
数据库中的序列相似性搜索方法——BLAST搜索

(1)工作原理
序列比对算法_第19张图片
(2)BLAST分类
序列比对算法_第20张图片
(3)PSI-BLAST
序列比对算法_第21张图片
(4)PHI-BLAST
序列比对算法_第22张图片

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

三.多序列比对

多序列比对——对两条以上的生物序列进行全局比对
注:蛋白质家族(英语:Protein family)是一组与进化相关的蛋白质。家族中的蛋白质来自共同的祖先(见同源),通常具有相似的三维结构,功能和显着的序列相似性。

1.多序列比对的主要用途及算法
序列比对算法_第23张图片
多序列比对的算法:
目前所有的多序列比对工具都不是完美的,它们都是使用一种近似的算法

2.多序列比对工具
序列比对算法_第24张图片

注:1.保守序列在生物学中是指在核酸序列(如RNA及DNA序列)、蛋白质序列、蛋白质结构或多聚糖序列内相似或相同的序列,这种情况可以发生在各物种间(种间同源序列)或由相同生物产生的不同分子(种内同源序列)间。
2. 系统发生树又称演化树或进化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树状图。是一种亲缘分支分类方法(cladogram)。在图中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。

3.寻找保守区域
(1)序列标识图Weblogo

序列比对算法_第25张图片
(2)序列基序MEME
序列比对算法_第26张图片
(3)蛋白质指纹PRINTS
序列比对算法_第27张图片

四.补充

1.分子进化理论(未被证实正确)
序列比对算法_第28张图片
2.同源
同源序列——来源于共同祖先的相似的序列,分为直系同源、旁系同源、异同源

注意:相似序列不一定是同源序列。
相似度可以量化,同源性不可量化,它只是对性质的一种判定。

3.系统发生树

系统发生树又称演化树或进化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树状图。是一种亲缘分支分类方法(cladogram)。在图中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。

构建系统发生树的意义:
对于一个位置的基因或蛋白质序列,确定其亲缘关系最近的物种;
预测一个新发现的基因或蛋白质的功能;
有助于预测一个分子功能的走势。
序列比对算法_第29张图片

注意:根、内节点都理论上曾经存在过的共同祖先,现在已经没有了。

你可能感兴趣的:(生物信息学)