2019-03-01 进化树构建-序列的筛选原则,利用进化树确定蛋白分类(为下一步想做的gene family准备)

http://blog.sina.com.cn/s/blog_e6c5efde0101lgfi.html
进化树以图像的形式反映序列比对的结果,但是有的时候,序列比对没有办法确定的问题,通过构建进化树却能一目了然。
构建进化树,也是对一段核酸或蛋白序列进行的常规分析,通过构建进化树,可以了解某段序列究竟属于哪个亚型或者哪个基因家族的蛋白,还可以了解该序列所属的物种的进化分类情况。
但是,并不是每棵进化树反映的问题都是正确的,构建能正确反映问题的进化树,物种的选择非常重要。

如果是用来了解这个蛋白是属于哪个蛋白亚型,或者哪个基因家族或超家族的,那么选取的序列一定要包括该蛋白的所有类型或者是基因家族的所有成员。如果构建进化树的目的是为了了解该序列所在物种在进化和分类上的地位,那么在选择序列时就一定注意,尽可能包涵多的物种的该蛋白。

对于进化树的构建,影响最大的莫过于增减序列,特别是增减一个有问题的序列,可能出现两个完全不同的进化树。
要判断某个序列是否属于有问题的序列,一方面需要通过现有的进化学知识进行判断,另一方面,要回到序列比对结果中仔细查看,有问题的序列在比对过程中就会显现中很特别的地方,比如被打碎。
遇到这种有问题的序列,一定要毫不留情地去除。

http://blog.sina.com.cn/s/blog_e6c5efde0101lgxc.html
利用进化树确定蛋白分类
当拿到一段未知的序列,通常会通过与已知序列比较来了解该序列是什么。最常用的方法是将未知序列放入NCBI中进行BLAST,看该序列与哪些已知序列有相似度,来综合判断该序列是什么。
如果与该序列有相似度的,特别是相似度较高的都是同一种,那么就可以判定该未知序列也是这种物质,但有的时候,比对结果显示为多种物质,比如基因家族或超家族的成员,而且在相似度最高的几种中分属不同的基因家族成员,这种情况下就很难通过简单的比对判断这个未知片段属于基因家族中具体的哪支。

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655758339&idx=1&sn=0330fb03504e413471a9bf16173032f4&chksm=8088743db7fffd2bab8b06d208765aa8c450068585340be575227fef540b95be62fe90823f40&mpshare=1&scene=23&srcid=0301wfooZGZo16EmichJbiae#rd
如何获取蛋白序列并进行序列比对?
很多情况下,我们为了研究一个蛋白的重要性,需要查看这个蛋白在多个物种,以及与这个蛋白家族中其它蛋白的相似性,并构建进化树。今天我们就来说一下具体的方法,先介绍蛋白序列的获取和序列比对。
以Sox家族的蛋白为例,我们首先通过Uniprot数据库(http://www.uniprot.org/)获取蛋白序列:

你可能感兴趣的:(2019-03-01 进化树构建-序列的筛选原则,利用进化树确定蛋白分类(为下一步想做的gene family准备))