课程地址:山东大学生物信息学
sequence 就是个字符串 string。
FASTA 格式:
第一行:大于号加名称或其他注释
第二行以后:每行 60 个字母(也有 80 的,不一定)
相似的序列 → 相似的结构 → 相似的功能
可预测未知结构和功能的蛋白质的结构和功能
序列一致度与相似度:
◆ 一致度(identity):如果两个序列长度相同,那么它们的一致度定义为它们对应位置上相同的残基的数目占总长度的百分比。
◆ 相似度(similarity):如果两个序列长度相同,那么它们的相似度定义为它们对应位置上相似的残基与相同的残基的数目和占总长度的百分比。
残基两两相似的量化关系被替换记分矩阵所定义。
● 替换记分矩阵(substitution matrix):反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。分为 DNA 替换记分矩阵和蛋白质替换记分矩阵。
★ 3 种常见 DNA 序列的替换记分矩阵
1
,不同核苷酸间的替换得分为 0
。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。-1
,而颠换的得分为-5
。+5
,反之为-4
,则比对效果较好。这个矩阵广泛地被 DNA 序列比较所采用。★ 3 种常见蛋白质序列的替换记分矩阵
等价矩阵(unitary matrix):与 DNA 等价矩阵道理相同,相同氨基酸之间的匹配得分为 1。不同氨基酸间的替换得分为 0。在实际的序列比对中较少使用。
PAM 矩阵(Dayhoff 突变数据矩阵):PAM 矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM 矩阵是目前蛋白质序列比较中最广泛使用记分方法之一,基础的 PAM-1 矩阵反映的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1 自乘 n 次,可以得到 PAM-n,即发生了更多次突变。(根据要比较的序列之间亲缘关系远近来选择适合的 PAM 矩阵,如果亲缘关系远,即有很多突变,n 就越大,反之 n 越小。)
◆ PAM-250 矩阵:对角线上的数值为匹配氨基酸的得分;其他位置上,≥0 的得分代表对应氨基酸对为相似氨基酸。
BLOSUM 矩阵(blocks substitution matrix):BLOSUM 矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1 矩阵是基于相似度较高(>85%)的序列比对计算产生的,那些进化距离较远的矩阵,如 PAM-250 是通过 PAM-1 自乘得到的。即,BLOSUM 矩阵的相似度是根据真实数据产生的,而 PAM 矩阵是通过矩阵自乘外推来的。和 PAM 矩阵一样,BLOSUM 矩阵也有不同编号,如 BLOSUM-80
代表该矩阵是由一致度≥80% 的序列计算而来。同理,BLOSUM-62
指该矩阵由 一致度≥62% 的序列计算而来。
◆ BLOSUM-62:对角线上的数值为匹配氨基酸的得分;其他位置上,≥0 的得分代表对应氨基酸对为相似氨基酸。
Q1: 选 PAM-1 还是 PAM-250?
Q2: 选 PAM-? 还是 BLOSUM-?
★ 其他 2 种蛋白质序列比对的替换记分矩阵
遗传密码矩阵 (genetic code matrix, GCM
) : 遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。
◆ 如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子,则这两个氨基酸的替换代价为 1
;
◆ 如果需要 2 个碱基的改变,则替换代价为 2
;
◆ 再比如从 Met 到 Tyr 三个密码子都要变,则代价为 3
。
◆ 遗传密码矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对(尤其是相似程度很低的蛋白质序列比对)中,很少被使用。
疏水矩阵: 根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。
tandem repeat
):STR
) 也叫做微卫星 DNA, 是一类广泛存在于真核生物基因组中的 DNA 串联重复序列。它由 2-6bp 的核心序列组成,重复次数通常在 15-30 次。STR 具有高度多态性,即存在重复次数的个体间差异,而且这种差异在基因遗传过程中一般遵循孟德尔共显性遗传规律,所以它被广泛用于法医学个体识别、亲子鉴定等领域。alignment
),也叫对位排列、联配、对齐等。运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。gap
),然后依次比较它们在每一个位置上字符的匹配情况,从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。双序列比对及算法
EMBL 全局双序列比对工具
详见视频:在线双序列比对工具-01 P40
详见视频:在线双序列比对工具-02 Gap 的类型及分值设置 P41
参数设置 More options:
EMBL 局部双序列比对工具
软件名 | 比对类型 |
---|---|
EMBL | Global/Local |
PIR | Global |
Lalign | Global/Local |
LAGAN | Global |
AlignMe | Alignment of Membrane Proteins |
MCALIGN | Alignment of non-coding DNA sequences |
Biotools | Global/Local |
BLAST 的种类
Blastp
: 用蛋白质序列搜索蛋白质序列数据库(常用)Blastn
: 用核酸序列搜索核酸序列数据库(常用)Blastx
: 将核酸序列按 6 条链翻译成蛋白质序列后搜索蛋白质序列数据库tblastn:
用蛋白质序列搜索核酸序列数据库,数据库中的核酸序列要按 6 条链翻译成蛋白质序列后再搜索。tblastx
: 将核酸序列按 6 条链翻译成蛋白质序列后搜索核酸序列数据库,数据库中的核酸序列要按 6 条链翻译成的蛋白质序列后再搜索。(针对新发现的序列)标准 BLAST
,PSI-BLAST
, PHI-BLAST
等。标准 BLAST
Total score
(匹配得分) 和 Query cover
(覆盖度) 分别决定匹配序列的颜色和长短。E value
(期望值):E 值越接近零,说明输入序列与当前这条序列为同一条序列的可能性越大。Total score
成反比逐渐降低,但 Ident
一致度与 E 值并非完全成反比(因为 BLAST 为了提高速度,没有做双序列比对,牺牲了一定准确度。表中的一致度是 BLAST 搜索完成后,针对搜索到的 50 条序列做双序列比对后得到的)。PSI-BLAST (撒大网搜索)
PSI-BLAST
(Position-Specific Iterated BLAST, 位点特异性迭代 BLAST)PSSM
) 搜索数据库后再利用搜索的结果重新构建 PSSM,然后用新的 PSSM 再次搜索数据库,如此反复 (iteration) 直至没有新的结果产生为止。(找到朋友的朋友)PHI-BLAST (精准搜索)
详见视频:BLAST 搜索-05 PHI-BLAST P48
PHI-BLAST
(Pattern-Hit Initiated BLAST, 模式识别 BLAST): 能找到与输入序列相似的并符合某种特定模式 (pattern) 的序列。
例如,N-糖基化位点基序 (N-glycosylation site motif) 总是符合以下特定模式:以 Asn(N) 开始,然后紧跟除了 Pro§ 之外的任何一个氨基酸,再紧跟 Ser(S) 或者 Thr(T), 再紧跟除 Pro 外的任何一个氨基酸。
{}
代表匹配除大括号内以外的任意内容(除…以外)[]
代表匹配中括号中的任意内容(其中之一)x
代表任意字符x(3,7)
代表 3-7 个 x 字符其他 BLAST
位置 | 服务器 | 网址链接 |
---|---|---|
USA | NCBI | http://www.ncbi.nlm.nih.gov/BLAST |
Europe | ExPASy | http://web.expasy.org/blast |
Europe | Uniprot | http://www.uniprot.org/blast/ |
Japan | DDBJ | http://blast.ddbj.nig.ac.jp |
WU-BLAST
WU 代表 Washington University。比 NCBI-BLAST 更灵敏,在插入空位的算法上更灵活。SSEARCH
): 有点儿慢,但是比 BLAST 更准确。FASTA
: 有点儿慢,但是对于 DNA 序列的比较比 BLAST 更准确。BLAT
: 用于小的序列(如 cDNA 等)在大基因组中的搜索。多序列比对-用途及算法
多序列比对 (multiplealignment),对两条以上的生物序列进行全局比对。
多序列比对的主要用途:
多序列比对的算法:目前所有的多序列比对工具都不是完美的,它们都使用一种近似的算法。(通过多序列比对看趋势,大体位置,牺牲准确度)
多序列比对注意事项:
序列的名字有几点建议:
Clustal 最常用的多序列比对工具
TCOFFEE 最新的多序列比对工具之一
MUSCLE 最快的多序列比对工具之一
部分提供多序列比对在线使用的网站
网站名称 | 服务器位置 | 网址链接 |
---|---|---|
EBI | Clustal-Omega | http://www.ebi.ac.uk/Tools/msa/clustalo/ |
Expasy | Clustal W | http://www.ch.embnet.org/software/ClustalW.html |
Sf-Clustal | Clustal O/W2 | http://www.clustal.org/ (仅下载) |
EBI | Tcoffee | http://www.ebi.ac.uk/Tools/msa/toffee |
TCC FFEE | Tcoffee | http://www.fofee.org/ |
EBI | Muscle | http://www.ebi.ac.uk/Tools/msa/muscle/ |
MUSCLE | Muscle | http://www.drive5.com/muscle/ (仅下载) |
EMBL
详见视频:在线多序列比对工具-01 EMBL P52
Show Colors
Red:疏水的(红色)
Blue: 酸性的(蓝色)
Magenta: 碱性的(品红)
Green: 羟基+胺+碱性(绿色)
Gray: 其他(灰色)
每行比对结果最后都有星星点点的标记,标记密集的区域也就是这些序列间的保守区域。
符号 | 含义 |
---|---|
* | 完全保守的一列,即,这一列的残基完全相同。 |
: | 这一列的残基有大致相似的分子大小及相同亲疏水性,即这一列残基或相同或相似。 |
· | 在进化过程中,残基的分子大小及亲疏水性被一定程度上保留了,但是有替换发生在不相似的残基间。(有相似的也有不相似的) |
(空白) | 完全不保守的一列(完全不相似)。 |
Result Summary
Phylogenetic Tree
注意:这个不是真正的系统发生树。Alignments
中将比对结果发送给专门做系统发生树的软件 Send to ClustalW2_Phylogeny
。Tcoffee
详见视频:在线多序列比对工具-02 Tcoffee P53
Tcoffee http://tcoffee.crg.cat
多序列比对工具,算法上与 Clustal 系列类似,准确度上比 Clustal 系列略高,但计算耗时也比 Clustal 系列略高。
许多网站都提供 Tcoffee 的在线使用
SIB http://tcoffee.vital-it.ch
EBI http://www.ebi.ac.uk/Tools/msa/tcoffee
CNRS http://www.igs.cnrs-mrs.fr/Tcoffec/tcoffee_cgi/index.cgi
Max-Planck http://toolkit.tucebingen.mpg.dc/t_coffec
CBSU http://cbsuapps.tc.cornell.edu/t_coffec.aspx
EMBnet http://www.es.embnet.org/Scrvices/MolBio/t-coffee
Protein
Structural alignments (Expresso) :给序列加入结构信息的多序列比对。
Combine popular aligners (M-Coffee):把多个比对工具的结果整合成一个。
Transmembrane proteins (PSI/TM-Coffee):专为穿膜蛋白打造的多序列比对。
Homology extension (PSI-Coffee):专为远源序列打造的多序列比对。
Expresso:给序列加入结构信息的多序列比对。
提供的信息越少,比对时间越长,有必要留个邮箱等结果。
比对结果的颜色代表比对结果的好坏,红黄绿蓝,逐渐变差。
多序列比对的保存格式
基本分析功能
名称 | 网址 | 特点 |
---|---|---|
JalView | http://www.jalview.org | JAVA,可嵌入网页 |
Boxshade | http://www.ch.embnet.org/software/BoX_form.html | 擅长黑白作图 |
ESPript | http://lespript.ibcp.fr/ESPript/ESPript | 功能强大,很牛 |
MView | http://bio-mview.sourceforge.net | 擅长转换成 HTML 源码 |
序列标识图
WebLogo 3
序列基序:MEME
motif
)。序列基序与生物功能密切相关。more
下的箭头 ↓
可以看到放大的 sequence logo 获得具体的基序信息→
可以提交基序给其他软件或数据库,针对该基序进行序列相似性搜索。PRINTS 指纹图谱数据库
详见视频:寻找保守区域-03 PRINTS P59
一个蛋白质的指纹 (Prints)就是一组保守的序列基序,用于刻画蛋白质家族的特征。这些基序由多序列比对结果获得,且他们在氨基酸序列上是不相邻的,但是在三维结构中,他们可能紧密结合在一起。
PRINTS http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ 是蛋白质序列指纹图谱数据库,存储了目前已发现的绝大多数蛋白质家族的指纹图谱。对于一个陌生的蛋白质,只要看看它的序列是否符合某个家族的图谱就可以对它进行分类并预测它的功能。
Direct PRINTS access
: 查找的蛋白质指纹图谱有多种方式
TRANSFERRIN
指纹图谱信息
View alignment
查看创建指纹图谱所使用的多序列比对
View Structure
以家族中某一蛋白质的结构为例,在线显示基序在三维结构中的位置![在这里插入图片描述](https://img-blog.csdnimg.cn/382c942eed77489e85d7994241b2d8c7.png#pic_center =600x)
PRINTS search