进化树的可视化软件非常多,其中R包 ggtree 功能非常强大,非常灵活,简单记录自己的学习笔记
第一步:使用 mafft 比对氨基酸序列
mafft --auto ggtree_pra_2.fasta > ggtree_pra_aligned.fasta
第二步:使用 FastTree 构建最大似然树
./FastTree ggtree_pra_aligned.fasta > ggtree_pra.tree
(以最简单的方式完成建树过程,因为主要目的是获得树文件来进行ggtree的学习,实际的建树过程应该比这个复杂的多,自己还有好多地方需要进一步的学习)
getwd()#查看当前工作路径
setwd("../Python_practice/a_kind_of/")#更改至树文件所在路径
library(ggtree)#加载ggtree
tree<-read.tree("ggtree_pra.tree")#读入树文件
ggtree(tree)#绘制进化树
(以上就是最基本的步骤)
接下来就是美化进化树需要用到的参数,比如用color,size,linetype调整线的颜色,粗细,线型等(和ggplot2很像或者说一样),可以加上branch.length="none"让枝的末端齐平,用layout=""参数更改树的形状,最常用的应该是layout="circular",更多地参数可用通过help(package="ggtree")命令来查看帮助文档,帮助文档非常详细;可以通过 geom_tiplab() 函数添加用于构树序列的名称(应该有专业名词,但自己想不起来叫啥了),geom_tiplab()函数可以用size参数来调节字体的大小,用hjust参数调节文字与枝末端的距离;绘制圆形树的时候需要加上aes(angle=angle)参数改变文字的角度。大家可能会发现还有一个函数是 geom_tiplab2(), 它和geom_tiplab()的主要区别就是绘制圆形的进化树时文字的方向; 有时用Rstudio查看绘图结果时可能会显示不完全,这时可以用 xlim() 函数来调节图片右边的空白区域大小。可以比较一下以下命令出图的差别:
ggtree(tree)+geom_tiplab()
ggtree(tree,branch.length="none")+geom_tiplab()
ggtree(tree,branch.length="none")+geom_tiplab(hjust=-0.05)
ggtree(tree,branch.length="none")+geom_tiplab()+xlim(NA,18)#xlim()函数里数值的大小可能得根据自己的树文件来确定
ggtree(tree,layout="circular")
ggtree(tree,layout="circular")+geom_tiplab()
ggtree(tree,layout="circular")+geom_tiplab(aes(angle=angle))
ggtree(tree,layout="circular",branch.length="none")+geom_tiplab(aes(angle=angle))
ggtree(tree,layout="circular",branch.length="none")+geom_tiplab2(aes(angle=angle))
接下来是给按不同的分组添加不同的颜色
首先是在树上显示出节点的位置
p1<-ggtree(tree,branch.length="none")+geom_tiplab(hjust=-0.1)+xlim(NA,18)
p1+geom_text2(aes(label=node))
p1+geom_text2(aes(subset=!isTip,label=node))#注意结果图的区别
使用geom_text2()函数添加 bootstrap values
p1+geom_text2(aes(subset=!isTip,label=support))#添加bootstrap values在最开始读入树文件的时候可能得该用read.newick()函数;tree<-read.newick("input.tree",node.label="support")
p1+geom_hilight(node=51,fill="red")+geom_hilight(node=43,fill="blue")#geom_hilight()函数添加色块
p1+geom_cladelabel(node=51,label="label one")#geom_cladelabel()函数在枝的末端添加线段和文字,node参数设置线段的位置,label参数设置的是添加文字的内容,color参数改变线和字的颜色,barsize参数改变线的粗细,angle参数改变文字的角度,offset参数改变线段和枝末端的距离,hjust参数改变添加的label和线段的距离,fontsize改变label的大小
p1+geom_strip(39,49,barsize=4,color="red")#geom_strip()函数在节点之间添加线段,参数和geom_cladelabel()很多一样的地方,alpha参数用来设置线段的透明度
p1+geom_point2(aes(subset=!isTip))#geom_point2()函数可以在节点上添加点,可以通过shape和color等参数改变点的形状和颜色;subset=!isTip这个参数设置的是只在内部节点打点,而枝的末端不添加点
接下来重复 ggtree 的作者写的一个教程 bootstrap value 分段标记
原教程贴出了完整的代码,但是没有给出树文件,贴出自己用到的树文件百度云链接密码:vs4p
(本次用到的文件与原教程的bootstrap value范围不一样,本次用到的树文件的bootstrap value在0:1所以用cut函数分割的时候需要注意)
(遇到的问题,在一些论文中,进化树树上只添加bootstrap value大于75或者80的节点,这一点用ggtree如何实现暂时还没有找到解决方案)
(问题:图例上不知为什么会有NA存在)
原文的教程将点的颜色设置成了灰白黑,看起来可能更美观!
还有在枝顶点根据物种不同添加不同的形状,今天有点困了,明天补充上!