基因家族分析4 || 多序列比对和进化树分析

基因家族流程:基因家族分析(一)
基因家族流程:基因家族分析(二)
基因家族流程:基因家族分析(三)

====================================================================================================================================

多序列比对和进化树分析(Multiple sequences aligment and phylogenetic analysis)(有时间更新)

1.多序列比对分析

(1)DNAMAN(目前最新version10)

  • 下载地址:DNAMAN http://www.lynnon.com/dnaman.html
  • 使用:Sequence-Align Multiple-File(All files)-protein-使用默认参数到最后一步

(2)ClustalW2&ClustalX2 (ClustalX2命令行版本)

  • 下载地址: http://www.clustal.org/
  • 使用: File- Load Sequence-Alignment- Alignment Parameters-Multiple Alignment Parameters- Alignment菜单,选择Output Format Options-击Aliglnment菜单,选择Do Complete Alignment.

(3)命令行:

  • musle
  • clustalw
  • mattf

2.进化树分析

  • MEGA网址:https://www.megasoftware.net/ #填简单信息下载
  • 目前最新版到MEGAX(支持codon aliginment),7以上只提供64位。
  • 使用:File-Align-Alignment-Align By Muscle-Export Alignment-MEGA Format -Phylogeny-Construct/Test Neighbor-Joining Tree.
  • 注意:
    (1) 多序列比对:Muscle or clustalw
    (2) Model选择.分别针对蛋白序列和核酸序列的模型选择程序
    (3) 算法选择。三种: NJ, ML and BI. 文献中一般都是NJ(bootstrap1000)进化树。一般ML(超级慢)树比较准确,但应结合方法,如NJ树,相互验证。

意义:

a.聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为MEKK,Raf和ZIK三个亚家族。
b.亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近。
c.基因家族复制分析。研究基因家族复制事件(duplication events):两种复制事件类型(tandem duplication and segmental dulication)

3.其他建树软件

phyML
Mrbayes
...

4进化树修饰

  1. MEGA:view->options and subtree-> draw options.

  2. AI美化,可以添加任何元素。(强烈推荐)

  3. iTOL美化:可成以下效果,但是树形较MEGA会变化,不推荐。
    iTOL: Interactive Tree Of Life: http://itol2.embl.de/
    iTOL: Upload a new tree:http://itol.embl.de/upload.cgi

文件准备:
从MEGA导出的nwk树文件,上传到iTOL,修改option
color ranges(基因背景色)
Datssets—color strip (即外围条带)

4)FigTree v1.4.3 http://tree.bio.ed.ac.uk/software/figtree/

绘制基因的染色体位置图(Chromosomal Location)

1.准备文件

基因id
基因组的注释文件
基因组染色体的长度
在线绘制工具:MapGene2Chrom:http://mg2c.iask.in/mg2c_v2.0/

2.获取染色体长度

  1. samtools和awk提取所有染色体长度
    Athaliana_167_TAIR9.fa.fai文件中前两列为染色体名字和长度文件
pengzw@super-server:~$ samtools faidx Athaliana_167_TAIR9.fa
pengzw@super-server:~$ awk '{print $1"\t"$2}' Athaliana_167_TAIR9.fa.fai >chr_length.txt 
pengzw@super-server:~$ cat chr_length.txt  #查看genome.fa.fai 文件,前两列为染色体位置和长度
Chr1    30427671
Chr2    19698289
Chr3    23459830
Chr4    18585056
Chr5    26975502
ChrM    366924
ChrC    154478

3.获取基因位置

awk初步提取位置和其他信息(可适当添加)

pengzw@super-server:~/reference/At$ awk -F "[= \t]" '$3 == "gene" {print$11"\t"$4"\t"$5}' Athaliana_167_TAIR10.gene.gff3|head -n 5
AT1G01010   3631    5899
AT1G01020   5928    8737
AT1G01030   11649   13714
AT1G01040   23146   31227
AT1G01050   31170   33153

awk对两个文件处理:按照名字筛选

awk 'NR==FNR{a[\$1]}NR!=FNR{if (\$1 in a) print $0}' id id.all > out 

命令解释:NR==FNR和ARGIND==1和FILENAME=ARGV[1]表示第一个文件,NR!=FNR和NR>FNR以及ARGIND==1和FILENAME=ARGV[2]都表示第二个文件

pengzw@super-server:~/reference/phytozome/at$ cat id
AT1G01010
AT1G01020
pengzw@super-server:~/reference/phytozome/at$ cat id.all
AT1G01010   3631    5899
AT1G01020   5928    8737
AT1G01030   11649   13714
AT1G01040   23146   31227
AT1G01050   31170   33153
pengzw@super-server:~/reference/phytozome/at$ awk 'NR==FNR{a[$1]}NR!=FNR{if ($1 in a) print $0}' id id.all > out 
pengzw@super-server:~/reference/phytozome/at$ cat out
AT1G01010   3631    5899
AT1G01020   5928    8737

4.绘制工具:

1)在线绘制工具:MapGene2Chrom:http://mg2c.iask.in/mg2c_v2.0/(推荐)
2)Mapchart&Mapdraw(没试过,文献中出现)
3)MapInspect (超级烦琐坑爹,出图效果还不好,不更新了还)

你可能感兴趣的:(基因家族分析4 || 多序列比对和进化树分析)