生信教程|最大似然系统发育推断

动动发财的小手,点个赞吧!

简介

顾名思义,最大似然系统发育推断旨在找到进化模型的参数,以最大化观察手头数据集的可能性。模型参数包括树的拓扑结构及其分支长度,还包括推理中假设的替代模型(例如HKY或GTR)的所有参数。由于当数据集包含多个类群时,这些参数的搜索空间是巨大的,因此所有用于最大似然系统发育推断的现代程序都应用启发式方法来达到最大似然参数组合。

本教程[1]中,我将介绍最大似然系统发育推断,该程序是为此类分析开发的最快程序之一,即程序 IQ-TREE。我将演示如何通过 bootstrapping 评估系统发育中节点的可靠性,如何将未链接的替换模型应用于单独的分区,以及如何将多个基因的对齐连接起来用于相同的系统发育分析。

IQ-TREE

在本教程的这一部分中,我们将为过滤后的 16S 序列比对生成一个简单的最大似然系统发育。

  • 要了解 IQ-TREE 中可用的许多选项,请查看该程序的长帮助文本:
iqtree --help
  • 向上滚动到 IQ-TREE 帮助文本的开头。接近顶部时,您会发现 IQ-TREE 可以像这样轻松启动:
iqtree -s ALIGNMENT

# 这里,“ALIGNMENT”需要替换为比对的实际文件名。
  • 因此,让我们尝试使用对齐文件 16s_filtered.nex 运行最大似然搜索,首先针对 16S 序列数据:
iqtree -s 16s_filtered.nex 

正如您将看到的,这种简约的选项选择实际上似乎已经足够了。 IQ-TREE 应在 10-30 秒内完成分析并显示输出,如下面的屏幕截图所示。

生信教程|最大似然系统发育推断_第1张图片

如果您阅读输出的顶部部分,您将看到 IQ-TREE 显然已自动确定您计算机上可用的 CPU 数量,并指示您可以通过指定 -nt AUTO 来使用它们。您还将看到 IQ-TREE 已正确识别序列比对的 Nexus 格式,并且它报告每个序列中缺失数据的比例。

然后,向下滚动一点到此部分:

生信教程|最大似然系统发育推断_第2张图片

在这里,您将看到 IQ-TREE 显然已经自动执行了最适合序列比对的替换模型的测试。这意味着 IQ-TREE 的默认设置相当于帮助文本中描述的 -m MFP 选项(扩展模型选择后进行树推理)。或者,可以指定其他替代模型,例如使用 -m GTR,但没有必要这样做; IQ-TREE为我们做模型选择非常方便。

滚动到 IQ-TREE 输出的末尾。在那里,您将找到所选替代模型的参数估计、最大似然值(在“找到的最佳分数”后以对数形式给出)、有关运行时间的信息以及输出文件的名称。写下最大似然值。

  • 根据 IQ-TREE 屏幕输出,最佳得分最大似然树被写入文件 16s_filtered.nex.treefile:
生信教程|最大似然系统发育推断_第3张图片

显然,所有输出文件名都是根据输入文件的名称自动选择的。

Reference

[1]

Source: https://github.com/mmatschiner/tutorials/blob/master/ml_phylogeny_inference/README.md

本文由 mdnice 多平台发布

你可能感兴趣的:(程序人生)