【陪你学·生信】十、编辑对多序列比对结果

​一般多序列比对的结果都需要进行编辑再进行下一步分析。

这个推送中用于举例操作的比对结果可以在网站下载:

http://www.tcoffee.org/dummy_aln.html

Fig.1 ClustalW / ALN格式的数据

一、MSA的数据格式

1. MSA结果的主要格式

一般多序列比对工具输出的数据格式为MSF(Multiple Sequence Format)或者不同工具有自己偏好的格式,但分析结果的软件有可能只读取FASTA格式的比对结果。这时需要重新组织数据格式,或者在MSA时选择合适的格式输出。

Fig. 2 EMBL-Clustal Omege可输出的数据格式

常见的数据文本类型的格式有Clustal/ALN(Clustal默认输出格式),FASTA(易于机器操作的格式,不包含额外的注释信息,几乎所有软件支持的格式), MSF(MSA的常见格式,易于人理解,包含额外的注释信息,很多软件支持但是可能导入时有部分信息丢失), Phylip(适合进一步系统发育分析)。图形类型的格式有post-script,PDF,HTML主要用于发表和打印。

这个网页有更详细的关于文件格式的介绍。

emboss.sourceforge.net/docs/themes/SequenceFormats.html

2. 格式转换

有的网站可以实现一些格式间的转换。

https://www.ebi.ac.uk/Tools/sfc/emboss_seqret/

不过需要注意格式转换可能丢失或者搞错的信息,比如序列的名字,序列的大小写,以及一些特殊氨基酸残基(X:表示不确定的氨基酸残基)、核苷酸残基(N:表示很多种核苷酸)可能在转换中丢失或弄错。需要留意一下。

二、用Geneious prime等软件编辑MSA

1. 操作

首先下载数据,将Clustal W格式转换为FASTA格式,导入Geneious,结果如下。

之后就可以进行编辑,操作上很简便。其他的编辑工具的操作也是类似的,可以对多序列中的某一条序列增减gap或者对MSA整体结果两端进行编辑等。

2. 其他的编辑工具(部分列举)

(1)Jalview

http://www.jalview.org/

(2)CINEMA

http://130.88.97.239/CINEMA/

(3)Seaview

http://pbil.univ-lyon1.fr/software/seaview3

三、结果分析和美化

1. Logos分析

http://weblogo.berkeley.edu/

图中坐标轴X上每个位置都是MSA的一栏,Y轴bits值越大的区域越保守。字母是该位置的氨基酸残基,字母越大表示该位置出现它的频率越高,并且它的logo显示位置也是最高的。

2. Boxshade美化(黑白灰)

https://embnet.vital-it.ch/software/BOX_form.html

output format选择RTF_new,最后美化结果是word document的格式;Fraction of sequences=0.5的意思是一半的残基要上色;黑色表示一致,灰色表示相似。

3. 其他美化工具

(1)MView

https://www.ebi.ac.uk/Tools/msa/mview/

(2)ESPrint

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

往期相关内容:

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

【陪你学·生信】三、核苷酸序列数据库的使用

【陪你学·生信】四、蛋白质相关的数据库

【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)

【陪你学·生信】六、当你有一段待分析的氨基酸序列(基础操作介绍)

【陪你学·生信】七、在数据库中检索相似的序列

【陪你学·生信】八、序列两两比对

【陪你学·生信】九、多序列比对-Multiple Sequence Alignment(MSA)

你可能感兴趣的:(【陪你学·生信】十、编辑对多序列比对结果)