我们知道,宏基因组中krona图来展示某个样品的详细信息,最近有点好奇16S的进化树可视化问题,这不,在qiime2官方视频教程里发现了一个方法,很不错,分享下!
官方视频教程我搬到B站啦,在AI的加持下加了字幕,并精校了错误。18 Phylogenetic tree construction
先欣赏下图的效果啦,还不错吧,进化树+丰度的展示,有点circos那个味了呢。
下面,就看下怎样做出这个图(以下来自官方教程biocore/empress):
介绍
一个快速且可扩展的系统发育树查看器。
Empress帮助用户探索数据集中特征之间的层次结构关系。任何类型的“特征”都可以通过这种方式查看:从历史上看,这些特征通常代表群落调查中物种的进化关系,但您可以通过分层组织查看几乎任何类型的信息。例如,我们可以查看从 16S rRNA 标记基因测序数据生成的扩增子序列变异 (ASV) 或操作分类单元 (OTU) 树、从鸟枪法宏基因组学测序数据生成的树或使用 Qemistree 生成的代谢组学数据树(仅举几个选项)。
Empress支持绝对新的功能,例如与命令图的集成和同步动画,以及已建立的树查看器通用的功能(例如元数据着色,分支折叠和条形图)。
截图
“empire”可视化了Empress扩增子序列变异(ASV)的系统发育树(左),以及empire的PCoA双标图(右)。作为集成这些显示器的方式之一,在树中选择一个尖端(代表 ASV)会放大 Emperor 中含有该 ASV 的样本——从而提供比单独使用任何显示器提供的信息更多的信息。
安装和基本用法
Empress可以作为独立程序或QIIME 2插件使用。独立版本将生成一个文件夹,其中包含查看绘图所需的 HTML/JS/CSS 文件,而 QIIME 2 版本将生成一个可视化,可以在 https://view.qiime2.org/ 或使用 ..qzv``qiime tools view
如果您在尝试安装 Empress 时遇到问题,请查看文档中的“安装疑难解答”部分。(如果这些信息还不够,请随时在此存储库中提出问题或在QIIME 2论坛上发布问题!
独立版本
Empress可通过PyPI获得。我们建议使用至少 3.6 的 Python 版本将 Empress 安装到环境(例如 conda 环境)中。
运行以下命令以安装皇后:
pip install cython "numpy >= 1.12.0"
pip install empress
尝试运行empress --help
命令以确保已正确安装Empress。如果您看到不同Empress命令的详细信息,则安装已成功,您已准备好开始使用Empress!
可用命令
Empress提供两个命令:empress tree-plot
和empress community-plot
。这两个命令都会生成 Empress 可视化,但community-plot
需要您传入特征表和示例元数据,而tree-plot
只需要一个树文件。有关更多详细信息,请参阅文档的此部分。
输入文件
Empress的独立版本采用以下文件类型作为输入。(请注意,除树之外的所有这些都是可选的,对于empress tree-plot
除树之外的所有内容是可选的,对于empress community-plot
是除了树,特征表和示例元数据都是可选的。
输入 | 文件类型 |
---|---|
树 | Newick |
Feature Table | BIOM |
Sample Metadata | TSV |
Feature Metadata | TSV |
PCoA | scikit-bio orddinationResults |
独立用法示例
empress tree-plot
# Option 1: Using "long" parameter names
empress tree-plot \
--tree tree.nwk \
--feature-metadata feature-metadata.tsv \
--output-dir tree-viz
# Option 2: Using "short" parameter names
empress tree-plot -t tree.nwk -fm feature-metadata.tsv -o tree-viz
empress community-plot
# Option 1: Using "long" parameter names
empress community-plot \
--tree tree.nwk \
--table feature-table.biom \
--sample-metadata sample-metadata.tsv \
--feature-metadata feature-metadata.tsv \
--pcoa ordination.txt \
--filter-extra-samples \
--output-dir community-tree-viz
# Option 2: Using "short" parameter names
empress community-plot \
-t tree.nwk \
-tbl feature-table.biom \
-sm sample-metadata.tsv \
-fm feature-metadata.tsv \
-p ordination.txt \
--filter-extra-samples \
-o community-tree-viz
您可以使用empress tree-plot --help
和empress community-plot --help
查看命令行参数的详细信息。请注意,提供给 -o/--output-dir
的路径不得存在,因为它将在成功执行命令后由 Empress 创建。还值得注意的是,Empress 命令的独立版本不支持提供多个样本/特征元数据文件。例如,如果您有多个要素元数据文件,则应将它们全部合并到一个传递给 Empress 的文件中。
输出将是一个包含empress.html
文件的目录和一个包含在浏览器中查看绘图所需的 JS/CSS 文件的support_files
目录。如果您为community-plot
命令提供了 PCoA,则还将有一个emperor-resources
子目录,其中包含在树旁边查看皇帝情节所需的文件。您可以在任何现代浏览器中查看empress.html
文件,以与QIIME 2可视化相同的方式与之交互。
Qiime2版
有关如何安装 QIIME 2 的说明,请参阅 QIIME 2 安装页面。安装 QIIME 2 后,请确保通过运行以下命令激活 conda 环境:
conda activate qiime2-2020.8
您可以将上述内容替换为您当前安装的任何版本的QIIME 2。qiime2-2020.8
现在,运行以下命令以使用 PyPI 安装 Emqueen:
pip install empress
安装empress,运行以下命令以确保empress安装正确。如果您看到有关Empress的QIIME 2插件的信息,则安装成功!
qiime dev refresh-cache
qiime empress --help
QIIME 2 用法示例
qiime empress tree-plot
qiime empress tree-plot \
--i-tree tree.qza \
--m-feature-metadata-file taxonomy.qza \
--o-visualization tree-viz.qzv
qiime empress community-plot
qiime empress community-plot \
--i-tree tree.qza \
--i-feature-table feature-table.qza \
--m-sample-metadata-file sample-metadata.tsv \
--m-feature-metadata-file taxonomy.qza \
--i-pcoa ordination.qza \
--p-filter-extra-samples \
--o-visualization community-tree-viz.qzv
安装故障排除
这不是安装过程中可能发生的问题的完整列表 - 这只是我们到目前为止看到的问题。如果您在安装Empress时遇到其他问题,请告诉我们,以便我们在此处添加解决方案!
适用于 Linux 的 Windows 子系统 (WSL) 用户的疑难解答
问题:Emqueen的安装过程取决于已经安装的binutils
软件包。尽管大多数 Unix 操作系统默认都已安装,但我们注意到某些 Linux 发行版/安装程序(包括 WSL)没有安装。binutils``binutils
解决方案:如果在安装 Empress 时遇到包含 的长错误,请尝试安装(例如 ),然后再次尝试安装 Empress。
ld: cannot find -lbitarr``binutils``sudo apt-get install binutils
更多信息:请参阅此问题。
面向 macOS 用户的故障排除
问题:在macOS系统上,我们发现没有安装Xcode可能会导致Empress的安装过程出现问题。
溶液:如果您使用的是macOS,并且遇到包含类似,请尝试安装Xcode(例如通过应用商店),然后再次尝试安装Empress。
command 'x86_64-apple-darwin13.4.0-clang' failed with exit status 1
更多信息:请参阅此问题。
教程:在QIIME 2中使用皇后
在本教程中,我们将通过 QIIME 2 使用 Empress,并通过动态图像教程数据集演示其基本用法。该数据集包含来自五个时间点四个身体部位的两个个体的人类微生物组样本。
首先,关于皇后的命令的说明
皇后目前有两个可用的命令:
$ qiime empress --help
Usage: qiime empress [OPTIONS] COMMAND [ARGS]...
Description: This QIIME 2 plugin wraps Empress and supports interactive
visualization of phylogenetic trees.
Plugin website: http://github.com/biocore/empress
Getting user support: Please post to the QIIME 2 forum for help with this
plugin: https://forum.qiime2.org
Options:
--version Show the version and exit.
--citations Show citations and exit.
--help Show this message and exit.
Commands:
community-plot Visualize phylogenies and community data with Empress (and,
optionally, Emperor)
tree-plot Visualize phylogenies with Empress
这两个命令生成类似的可视化效果。如果您没有表,而只想可视化树(可选地使用要素元数据),则 创建的可视化效果中可用的功能是 创建的可视化效果中可用功能的超集。在这里,我们将使用 ,但本教程的大部分内容也适用于 。qiime empress community-plot``qiime empress tree-plot``tree-plot``community-plot``tree-plot
下载输入工件和元数据
在开始之前,我们需要下载运行所需的输入工件。这些工件中的前四个是在动态图像教程期间生成的,最后一个工件是在之后使用教程中的数据生成的。这些工件是:qiime empress community-plot
- 特征表(类型的 QIIME 2 工件)
FeatureTable[Frequency]
) - 示例元数据文件(制表符分隔值文件)
- 有根树(QIIME 2 类型的工件)
Phylogeny[Rooted]
) - 我们功能的分类分配(类型的 QIIME 2 工件
FeatureData[Taxonomy]
) - PCoA 双标结果文件(类型的 QIIME 2 工件)
PCoAResults % Properties('biplot')
)- 特别是这个工件是由
qiime多样性pcoa
插件产生的,但是由其他工具(例如DEICODE)创建的命令/双标图也可以很好地与Empress配合使用。
- 特别是这个工件是由
仅当将皇后树情节与皇帝 PCoA 情节/双图(又名帝国情节!
您可以通过单击下面的链接或直接从终端下载这些文件来单独下载这些文件。wget
-
table.qza
查看|下载 -
sample_metadata.tsv
下载 -
rooted-tree.qza
查看|下载 -
taxonomy.qza
查看|下载 -
biplot.qza
查看|下载
首先,我们将创建一个目录,我们将文件下载到该目录并移入其中:
mkdir empress-tutorial
cd empress-tutorial
现在我们将使用以下方法下载文件:wget
wget https://docs.qiime2.org/2019.10/data/tutorials/moving-pictures/table.qza
wget https://data.qiime2.org/2019.10/tutorials/moving-pictures/sample_metadata.tsv
wget https://docs.qiime2.org/2019.10/data/tutorials/moving-pictures/rooted-tree.qza
wget https://docs.qiime2.org/2019.10/data/tutorials/moving-pictures/taxonomy.qza
wget https://raw.githubusercontent.com/biocore/empress/master/docs/moving-pictures/biplot.qza
我们现在已准备好使用 Empress 可视化这些数据。
皇后剧情
我们将首先创建一个简单的独立树可视化工件,这将使我们能够使用 Empress 中提供的各种功能来探索树和相关数据。
qiime empress community-plot \
--i-tree rooted-tree.qza \
--i-feature-table table.qza \
--m-sample-metadata-file sample_metadata.tsv \
--m-feature-metadata-file taxonomy.qza \
--o-visualization empress-tree.qzv
-
empress-tree.qzv
查看|下载
要查看新制作的工件,您可以将文件拖放到 https://view.qiime2.org/ 或通过运行以下命令在本地加载它:empress-tree.qzv
qiime tools view empress-tree.qzv
[图片上传失败...(image-6fe010-1666941423922)]
起始图是一棵简单的无根树,具有系统发育树的所有正常属性。树的最外层“尖端”也称为“叶子”、“终端节点”或“外部节点”,这里代表独特的 ASV。连接到尖端的线称为“分支”。分支连接两个或多个节点,或者在本例中连接内部节点的提示。这些内部节点表示节点之间的发散点,分支长度表示发散点之间的进化距离。您可以使用鼠标的滚轮放大和缩小,然后单击并拖动绘图上的任意位置以移动显示以仔细查看各种树组件。在右上角,我们看到一个显示菜单,其中包含多个子类别,允许我们自定义绘图。我们将在下面更详细地探讨这些选项。
探索各个要素
在这个图中,您可能注意到的第一件事是存在几个相对于其他分支突出的非常长的分支。让我们进一步研究这些。使用计算机鼠标,移动显示屏以聚焦在最长分支的尖端,然后单击节点。
[图片上传失败...(image-d89482-1666941423922)]
此时将显示一个新菜单,其中包含有关所选节点的详细信息,包括其名称和分类分配。您会注意到,此功能仅在王国级别进行了分类,这意味着我们的要素类无法在用于分配这些分类分类的参考数据库中找到合适的匹配项(在本例中为 Greengenes)。通常,这些特征对应于非生物读数,例如嵌合体,污染物或从其他样品中跳出索引的读数。稍后我们将进一步探讨这些可能性。
我们还应该注意,本教程中使用的树是使用常见的从头树构建方法构建的,并且之前已经表明,从头树中这些异常分支的存在会导致样本的人工聚类(Janssen 等人,2018 年)。
在此窗口中,我们还可以查看与此功能相关的示例元数据的详细信息。从下拉菜单中选择并单击添加按钮。此时将显示一个新的样品存在信息汇总表,其中显示包含所选要素的样本数。body-site
[图片上传失败...(image-bbbdb6-1666941423922)]
我们可以看到我们的 ASV 仅存在于 1 个左手掌样本中。您可以选择多个元数据列。虽然这里的表格没有为我们提供有关此功能丰富性的信息,但我们可以轻松地在之前在QIIME 2运动图片教程中创建的特征表摘要可视化工件中搜索功能名称。从那里我们看到这个特殊特征的总丰度为2,这是非生物读取的另一个有力指标。尝试单击其他几个异常分支中的提示。你看到类似的模式了吗?现在尝试单击其中一个较短分支的尖端。请注意分类的改进!
我们还可以使用主菜单顶部的搜索栏找到感兴趣的特定功能。例如,在我们的特征表中,最丰富的 ASV 是 。将此名称粘贴到搜索栏中,然后单击搜索。4b5eeb300368260019c1fbc7a3c718fc
[图片上传失败...(image-2c78b0-1666941423922)]
树中此功能的尖端现在以亮绿色圆圈突出显示。看起来这种ASV是属于拟杆菌属的物种,并且存在于该数据中包含的所有四个“身体部位”中(尽管它仅存在于一个舌头样本中)。
探索要素组
探索特征分类的另一种方法是根据分支的分类学名称为分支着色。从主菜单中,单击要素元数据着色,选中颜色依据...框,选择级别 2(此处对应于门级别),然后单击更新。
[图片上传失败...(image-833a9e-1666941423922)]
该图现已更新,因此每个分支现在都按其门级分类着色。我们可以看到,许多超长分支现在大多是相同的洋红色。查看屏幕左侧的图例 - 事实证明洋红色对应于门级分类,表明这些ASV仅被归类为细菌。您可能还注意到,这些异常值分支主要出现在 2 个不同的集群中。虽然我们没有关于这些特征分类的更多信息,但也许我们可以通过查看它们最接近的共同祖先来获得更多关于它们分类的见解,这些祖先确实有分类学信息。k__Bacteria; Unspecified
探索要素最接近的共同祖先
到目前为止,我们已经使用默认的无根树视图查看了数据。为了直观地定位这些要素最接近的共同祖先,切换到不同的布局可能更容易。从主菜单中,单击布局,然后选择圆形(或矩形)。我们的情节会自动切换到根布局。
[图片上传失败...(image-e610f7-1666941423922)]
现在,让我们放大底部节点集群的最长分支,然后单击具有不同门分类(浅蓝色)的关闭提示之一。k__Bacteria; Unspecified
有趣的是,我们看到这个节点被归类为巴勒斯坦棘阿米巴,它实际上不是细菌,而是一种原生动物。某些真核生物出现在细菌/古菌参考数据库中并不少见,因为它们可能具有相似的遗传谱系。请记住,线粒体和叶绿体可能是从原核生物本身进化而来的。探索来自不同异常值分支的其他一些常见祖先节点。我们可以看到Cucurbita pepo(各种南瓜或南瓜),Raphanus sativus(萝卜)和链植物(植物的一种)的其他令人惊讶的外观。基于这些结果,人们可能会推测我们的未指定特征也可能属于植物或原生动物群体,而不是细菌。此外,由于这些特征只出现在手掌样本上,因此这些特征的来源实际上可能是环境污染物,而不是常见的人类微生物。
总结这些未指定门特征的事情:一般来说,鉴于它们的分支长度相对较长,在某些情况下它们在研究中的少量样本中存在相对较低的丰度,它们在参考数据库中缺乏紧密匹配,以及它们被认为与非微生物特征相关,将它们作为非生物学相关的读物从我们的表中过滤可能是安全的。(该结论仅基于此探索性分析的结果,而不是严格的指南。
识别特定于组的要素
肠道、舌头和手掌的微生物群落组成彼此非常不同。假设我们有兴趣确定每个身体部位的哪些特征是独特的,以及它们的进化关系。我们可以在 Empress 中通过根据示例元数据文件中的列为树着色来做到这一点。从主菜单中,单击“示例元数据着色”,选中“颜色依据...”框,然后从下拉菜单中选择 。单击更新按钮。body-site
[图片上传失败...(image-9e5d4-1666941423922)]
在此图中,彩色分支表示相应身体部位独有的谱系,而未着色的分支是至少在 2 个身体部位共享的谱系,因此不能用单一颜色显示。虽然与手掌样本(蓝色和橙色)相比,在肠道样本(红色)中看到大量独特特征并不奇怪,但有趣的是,在左右手掌之间看到大量独特的特征。你能想到任何生物学原因,为什么左手掌和右手掌可能含有如此不同的独特微生物吗?尽管左手掌和右手掌确实具有独特的特征,但代表性的分支似乎更加融合,这表明它们的系统发育仍然比肠道分类群更相似,肠道分类群似乎主要聚集在它们之间。
在条形图中可视化特征/示例元数据
与iTOL等其他树木可视化工具类似,Emqueen可以绘制条形图,以便用各种类型的信息注释树的尖端。条形图对于执行此操作很有用(有时比节点着色更有用),因为可以同时显示多个条形图“层”——这允许我们同时查看同一笔尖的多种类型的数据。查看 Song 和 Sanders 等人 2020 年的图 1,仅查看使用多层条形图获得漂亮而有效的图形的树可视化示例。
第一:关于条形图的小警告
尽管条形图对于识别模式非常有用,但要小心不要过多地阅读它们!矩形和圆形布局的工作方式意味着看起来“紧挨着”另一个尖端的尖端实际上可能离该尖端有些远(例如,在矩形布局中,如果一个尖端位于其分支的顶部,而另一个尖端位于其分支的底部)。下面用芥末和薰衣草分支展示了一个例子:
[图片上传失败...(image-de39-1666941423922)]
这可能会影响条形图的外观,而这些方式可能不会立即明显。引用“推断系统发育”(Felsenstein 2004),第573-574页:
值得注意的是,通过重新排序提示,您可以改变观众对关系亲密度的印象。[...]稍微明智的翻转可能会创造出一条沿着名字序列很好地前进的宇宙链,即使树不支持这样的东西。
深入了解条形图:分类要素元数据
皇后中的条形图与矩形或圆形布局兼容。在这里,我们将使用矩形布局,但如果您愿意,请随意遵循圆形布局!
首先,将布局更改为矩形(使用主菜单的布局部分),然后打开主菜单的条形图部分并选中复选框。单击出现的更新按钮。默认情况下,将为树中的每个尖端绘制一个长度均匀的红色条:Draw Barplots?
[图片上传失败...(image-3545a4-1666941423922)]
尽管这些条形在默认情况下不是很有用,但我们可以根据您在生成可视化时传递给 Empress 的功能或示例元数据使用信息对它们进行编码。让我们尝试按其特征元数据字段(也称为此数据集中提示的门级分类分配)为每个笔尖的条形着色:在第 1 层标题下,选中颜色依据...框,然后从下拉菜单中选择 。单击更新按钮。Level 2``Level 2
[图片上传失败...(image-cf8153-1666941423922)]
这些模式应该看起来很熟悉 - 这与我们之前在为树的节点着色时看到的信息相同。我们可以通过使用相同的颜色映射再次尝试特征元数据着色来确认这一点(有关如何执行此操作的复习,请参阅上面的“探索特征组”部分):Level 2``Level 2``Classic QIIME Colors
[图片上传失败...(image-afa944-1666941423922)]
由于节点着色和条形图图层现在显示相同的信息 (),因此此显示有点多余(尽管它:)令人放心。让我们尝试将内容降低一个级别,并调整条形图图层以显示特征元数据字段(也称为类级分类分配)。为此,请将“着色依据...”框旁边的下拉菜单(在条形图部分的图层 1 标题下,而不是在要素元数据着色部分中)调整为从 转到 ,然后再次单击更新按钮。Level 2``Level 3``Level 2``Level 3
[图片上传失败...(image-c4a705-1666941423922)]
事情看起来仍然和以前基本一样,但一些大型门群现在已经被分成不同类别的集合。请注意洋红色的类如何存在于树中的多个“集群”中:所有这些类都是同一个类吗?我们可以从该图层的图例(在标题下)看出,这里只有一个类彩色洋红色,。Level 3``k__Bacteria; p__Firmicutes; c__Clostridia
所以,这些洋红色类都是梭状芽胞杆菌。这个阶级的代表如此分散在树上有意义吗?不幸的是,是的,因为梭状芽胞杆菌 - 引用维基百科 - “一个高度多系的类。(作为练习,我们建议尝试为较低级别的分类(目、科、属等)添加额外的条形图图层,并观察情况如何变化。
样本存在信息的条形图
到目前为止,我们只是使用单个“条形图图层”。如果需要,我们可以添加更多图层 - 这将使我们能够在当前显示信息的图层旁边可视化其他提示信息。要添加新图层,请单击按钮(带有标签添加另一个图层)。现在,再次单击更新以查看此新图层的外观。Level 3``+
[图片上传失败...(image-3c9383-1666941423922)]
我们有一个新的层可以使用!
我们可能有兴趣做的一件事是查看哪些类型的样品包含每个尖端。使用上述示例元数据着色功能可以实现这一点,但这只能让我们查看有关给定示例元数据类别特有的提示的信息 - 并且在实践中,许多提示通常在多个元数据类别之间共享,使事情复杂化。
让我们重新审视一下上面的分析,哪些提示是这个数据集中哪些身体部位所独有的——现在,我们将问一个相关的问题,即“这个数据集中的哪个身体部位最常出现在哪个身体部位?为了对此进行调查,我们将使用新的条形图图层来显示此信息。
为此,我们需要将新图层(图层 2)从要素元数据图层更改为示例元数据图层。您可以通过单击文本图层 2 下方的示例元数据按钮来执行此操作。可用于此条形图图层的控件应更改;要显示正文部位的样本状态信息,请将显示以下示例信息...下拉菜单更改为。尝试单击更新以查看我们的新第 2 层的外观。body-site
[图片上传失败...(image-43b95-1666941423922)]
第 2 层现在根据包含给定针尖的样本组的比例显示每个针尖的堆叠条形图。与图层 1 一样,颜色在此图层的图例中进行了描述。当我们放大时,我们可以详细看到事情:
[图片上传失败...(image-e422ed-1666941423922)]
最上面的尖端仅存在于右手掌样本中(橙色),顶部的第二个尖端仅存在于左手掌样品中(蓝色),依此类推。给定吸头的“块”所占用的长度与该类型的样品包含吸头的数量成正比(相对于包含吸头的样品总数;它不是绝对的)。
这些示例元数据条形图应与 -- 尝试单击最上面的提示 .我们从条形图中知道,这个尖端只存在于右手掌样本中,这个尖端的摘要证实了这一点:这个特定的尖端只存在于一个右手掌样本中。Sample Presence Information``35bfc371d940cffdc527b7b4dc954456``Sample Presence Information``body-site
连续要素元数据的条形图
尽管绘制“分类”特征元数据(如分类注释)的条形图可能很有用,但我们通常希望显示连续特征元数据的条形图。这对于许多类型的信息都很有用,例如,重要性分数、Songbird/ALDEx2/等样式的特征差异以及分类注释置信度。
在这里,我们将添加另一个层,描述此数据集中分类注释的 s。(有关解释这些值的详细信息,请参阅此线程。Confidence
此数据集中的所有置信度值都是数字,但我们不必将它们解释为数字。让我们看看如果我们尝试为此字段使用“分类”(又名“离散”)颜色图会是什么样子。单击按钮添加新图层,选中“颜色依据...”框,然后选择 。单击更新按钮。+``Confidence
[图片上传失败...(image-6291f6-1666941423922)]
尝试滚动浏览此图层的图例。应该清楚的是,此颜色映射表 () 对此字段没有意义 - 尽管置信度值按升序正确排序,但实际的颜色分配毫无意义。Classic QIIME Colors
让我们尝试从这种离散的颜色图更改为“顺序”颜色图。从下拉菜单中选择 Viridis
,然后单击更新。Color Map
[图片上传失败...(image-27259f-1666941423922)]
立即尝试滚动浏览图例。事情应该更清楚一点 - 从紫色到黄色的渐变似乎与值一致。但是,此颜色图仍然没有考虑这些值的实际数值:仅考虑这些值的相对位置。请注意,有这么多值大于 0.99 的值,尽管如此,分配给这些值的颜色变化很大(即使最小值约为 0.68)!Confidence``Confidence``Confidence``Confidence
我们可以通过选中该框来解决此问题(当选择顺序或发散颜色图时,它会显示)。请尝试执行此操作,然后立即单击“更新”:Continuous values?
[图片上传失败...(image-7f06e6-1666941423922)]
Now, colors are assigned based on s as we might expect, using linear interpolation.Confidence
这是对皇后中可用的一些条形图功能的简要介绍。这里还有很多没有记录的内容 - 通过连续要素元数据字段缩放条的长度,调整条形的默认颜色或长度,等等。我们鼓励您尝试一下;如果您有任何问题,请随时与我们联系!
导出绘图
完成自定义树后,您可以通过转到主菜单中的“导出”部分并单击 或 将树的当前可视化导出为 SVG 或 PNG 文件。您还可以使用按钮导出用于树和/或条形图着色的图例(如果适用)。Export tree as SVG``Export tree as PNG``Export legends as SVG
请注意,SVG 导出将始终包括整个树显示,而 PNG 导出的内容将随着您缩放/平移树而更改。
帝国阴谋!树和 PCoA 图的并排集成
现在您已经熟悉了基础知识,让我们尝试一些更高级的东西。皇后的独特功能之一是它能够将树形图与皇帝的任命图整合在一起,并将它们并排可视化(我们称之为帝国图)。
为了实现这一点,我们可以提供 的 QIIME 2 工件类型为 。(请注意,虽然类型是,但可以是任何排序矩阵;完全可以在这里可视化PCA的结果,甚至是双标图。PCoAResults``qiime empress community-plot``PCoAResults
双标图包括由箭头表示的要素载荷,用于描述数据集中的解释变量(在本例中为 ASV)。在这里,我们将可视化使用qiime分集pcoa-biplot
插件制作的PCoA双标图。该二标图是使用未加权的UniFrac距离计算的。(当然,此功能也与 DEICODE
双标图兼容。
若要可视化帝国图(树和此 PCoA 双标图一起),请运行以下命令:
qiime empress community-plot \
--i-tree rooted-tree.qza \
--i-pcoa biplot.qza \
--i-feature-table table.qza \
--m-sample-metadata-file sample_metadata.tsv \
--m-feature-metadata-file taxonomy.qza \
--p-filter-extra-samples \
--p-number-of-features 10 \
--o-visualization empire-biplot.qzv
-
empire-biplot.qzv
查看|下载
加载新的帝国剧情。在这里,我们看到左边是像以前一样的皇后情节,右边是皇帝PCoA双图。如果你不熟悉皇帝的情节,你可以在这里了解更多关于它们的信息。简而言之,每个单独的圆圈代表单个样品的微生物群落,这些圆圈之间的距离对应于它们在缩小维度空间中的未加权UniFrac距离。前 10 个解释性要素在其要素 ID 旁边显示为箭头。双标图上显示的要素数由参数确定。--p-number-of-features
起初,剧情可能看起来有点乱。为清楚起见,让我们删除长功能 ID 标签。右键单击皇帝图上的任意位置,然后选择切换标签可见性。接下来,在 Emperor 中,从主菜单中单击选择颜色类别并在散点副标题下选择。现在,我们的样品根据其身体部位来源进行颜色编码。请注意这些样本类型的清晰聚类。接下来,单击相同的下拉菜单,这次在双标图副标题下选择 .现在我们可以看到顶部解释性特征(箭头)按其门级分类着色。切换到皇后,将打印布局更改为圆形,并将要素元数据着色设置为“也”。最小化菜单栏以充分欣赏情节!body-site``Level 2``Level 2
[图片上传失败...(image-d47b3c-1666941423922)]
(请注意,皇后和皇帝之间的树和箭头颜色不一定匹配 - 例如,在上面的屏幕截图中,放线菌门箭头在皇帝中显示为红色,但放线菌门节点在皇后中显示为深绿色。如果您愿意,可以更改皇帝中的箭头颜色以匹配皇后分配的颜色。让这更容易在我们的雷达上。
与帝国阴谋互动
查看我们的皇帝受戒图(右侧),我们看到与手掌样本相关的放线菌门(红色小箭头)中分类的单个特征。它指向命令的右下角,当在默认相机位置查看它时。
单击此箭头(您可能需要在 Emperor 中放大一点才能这样做)。将自动发生两个更改:
- 在皇后中,绘图将放大与此功能对应的节点并打开菜单。从这里,您可以进一步探索此功能的详细信息(事实证明它被归类为棒状杆菌属),就像我们之前所做的那样。
- 在 Emperor 图上,包含此功能的样本将被放大,与其他不包含此功能的样本相比,它们将清晰地突出显示。
[图片上传失败...(image-c7c565-1666941423922)]
皇后和皇帝之间的这种互动可以走向另一个方向。在皇后图上选择一个节点将放大皇帝中存在该特征的样本。
探索我们数据的另一种方法是选择皇帝的样本,并在皇后中寻找这些样本中存在的相应特征。在 Emperor 中,按住移位按钮并在样本周围绘制一个框。皇后图现在将暂时突出显示与该样本对应的分支。如果您从不同的身体部位选择多个样本,Empress 将只突出显示这些样本类型独有的分支/节点。共享分支保持未着色。让我们看看如何在数据集中利用这个函数。
您可能已经注意到,在皇帝图中,其中一个右手掌样本奇怪地聚集在靠近肠道样本而不是其他棕榈样本的地方。在 Emperor 上,从右侧选择一些肠道样本以及一些手掌样本,注意不要在左侧包含异常手掌样本。在皇后图上,您将看到几个分支亮起为红色、橙色或蓝色。这些颜色代表仅在该身体部位发现的独特特征;共享要素将保持不着色状态。
取消选择样本后(在几秒钟内),选择异常手掌样本 + 其中一个肠道样本。你注意到了什么?您会看到相对较少的独特红色或橙色分支亮起,这表明该样本与其他棕榈样本相比,与肠道样本共享更多的特征。
这是一个很好的示例,说明您的数据可以告诉您一些您可能错过的元数据。实际上,在这个实验中,这个手掌样本实际上是偶然贴错标签的。
- 请注意,这种直觉部分依赖于 Empress 中的
“忽略缺失提示?”
设置,这会影响所选样本中不存在的提示如何影响树木着色。默认情况下,如果所选样本中实际存在这些提示的另一个后代提示,则允许对这些提示的父节点进行着色;但如果忽略缺席提示?被禁用,那么这些“缺席”提示
将迫使他们的父母保持不着色。
皇后和皇帝之间的融合可以走得更远。与其手动选择一组样本,我们可能只想选择某一组中的所有样本(例如,对于此数据集,一次选择所有肠道样本),以显示这些样本中存在哪些特征。这可以通过双击 Emperor 中的示例着色类别来完成,如下所示:
这使得快速浏览树的哪些部分在特定的样本组中“使用”变得容易。(如果您很难查看树上的某些颜色(例如,区分左掌样本的蓝色和默认的深灰色节点颜色),您可能需要在 Emperor 中调整样本组颜色。
其他注意事项
提供多个元数据文件
QIIME 2 允许您通过重复(或)一次指定多个元数据文件。例如,除了分类学注释之外,我们可能还希望可视化树上的特征重要性:--m-feature-metadata-file``--m-sample-metadata-file
qiime empress community-plot \
--i-tree rooted-tree.qza \
--i-feature-table table.qza \
--m-sample-metadata-file sample_metadata.tsv \
--m-feature-metadata-file taxonomy.qza \
--m-feature-metadata-file feature_importance.qza \
--o-visualization empress-tree.qzv
但是,QIIME 2 将在内部(在撰写本文时)将元数据过滤为仅包含所有输入元数据文件中的条目。因此,在上面的示例中,如果文件只有几个特征的条目(与文件相比),那么 Empress 接收的特征元数据将仅限于特征重要性和分类元数据文件中包含的特征——这意味着 Empress 界面中可用的分类信息将更少!feature_importance.qza``taxonomy.qza
在此期间,解决此问题(并在 Empress 中包含多个功能或示例元数据源)的方法是在创建 Empress 可视化之前自行合并元数据。当然,您需要确定要分配的值以指示给定条目“缺失”;对于定量元数据或空值都是合理的选择。NaN
合并元数据文件应该可以在许多不同的编程语言或电子表格工具中实现;有关执行此操作的一些示例 Python 代码,请参阅此 GitHub 问题。
过滤与.raw表?
当您的受戒是从原始数据集的子集创建的(例如,特征表被稀疏,或者某些低频特征或样本被过滤掉),我们建议您仔细考虑要在Empress中可视化哪个特征表。您可以使用以下任一方法:
- 与排序相匹配的过滤表(例如,完成稀疏,和/或去除低丰度特征/样品),或
- 原始表 -- 即在对命令执行稀疏/筛选之前的原始表。
这两种选择都有其优点和缺点。如果使用筛选表,则 Empress 可视化包含的数据将少于原始数据集中的数据:这将影响示例存在信息、示例元数据着色和可视化的其他部分。如果选择原始表,您可能会发现树中的某些节点不会由排序中的任何样本表示(如果排序是使用筛选表进行的,并且已使用)。如果您想阅读有关此内容的更多信息,请在拉取请求 237 中进行一些非正式讨论。--p-no-shear-to-table
本自述文件中的命令使用原始数据集。帝国绘图命令使用标志删除未在命令中表示的额外样本。--p-filter-extra-samples
其他问题?
如果您有任何未在此处涵盖的问题、意见、疑虑等,请随时在此存储库中提出问题或在 QIIME 2 论坛上发布问题!
出版和引用
描述Emqueen的开放获取出版物可在mSystems中找到。如果你在作品中使用皇后,请引用它!本出版物的BibTeX是:
@article {CantrellFedarko2021empress,
author = {Cantrell, Kalen and Fedarko, Marcus W. and Rahman, Gibraan and McDonald, Daniel and Yang, Yimeng and Zaw, Thant and Gonzalez, Antonio and Janssen, Stefan and Estaki, Mehrbod and Haiminen, Niina and Beck, Kristen L. and Zhu, Qiyun and Sayyari, Erfan and Morton, James T. and Armstrong, George and Tripathi, Anupriya and Gauglitz, Julia M. and Marotz, Clarisse and Matteson, Nathaniel L. and Martino, Cameron and Sanders, Jon G. and Carrieri, Anna Paola and Song, Se Jin and Swafford, Austin D. and Dorrestein, Pieter C. and Andersen, Kristian G. and Parida, Laxmi and Kim, Ho-Cheol and V{\'a}zquez-Baeza, Yoshiki and Knight, Rob},
editor = {Hug, Laura A.},
title = {EMPress Enables Tree-Guided, Interactive, and Exploratory Analyses of Multi-omic Data Sets},
volume = {6},
number = {2},
elocation-id = {e01216-20},
year = {2021},
doi = {10.1128/mSystems.01216-20},
publisher = {American Society for Microbiology Journals},
URL = {https://msystems.asm.org/content/6/2/e01216-20},
eprint = {https://msystems.asm.org/content/6/2/e01216-20.full.pdf},
journal = {mSystems}
}
确认
这项工作由IBM Research AI通过AI Horizons Network提供支持。有关更多信息,请访问 IBM AI Horizons Network 网站。
Emqueen的JavaScript代码与各种第三方依赖项的源代码一起分发(在目录中)。请参阅 DEPENDENCY_LICENSES.md 以获取这些依赖项许可证的副本。empress/support_files/vendor/