系列回顾:
ArchR官网教程学习笔记1:Getting Started with ArchR
ArchR官网教程学习笔记2:基于ArchR推测Doublet
ArchR官网教程学习笔记3:创建ArchRProject
ArchR官网教程学习笔记4:ArchR的降维
ArchR官网教程学习笔记5:ArchR的聚类
在ArchR中,使用UMAP或t-SNE等嵌入方法在降维空间中可实现单细胞的可视化。这些嵌入方法各有其独特的优点和缺点。我们称这些为“嵌入”,是因为它们严格用于可视化clusters,而不是用于识别clusters(LSI子空间中完成)。UMAP和t-SNE的主要区别在于对细胞或clusters间距离的解释。t-SNE被设计用来保存数据中的局部结构,而UMAP被设计用来保存数据中的局部结构和大部分全局结构。理论上,这意味着两个clusters之间的距离在t-SNE中不具有信息性,而在UMAP中具有信息性。例如,在t-SNE上,如果观察到cluster A比cluster C更靠近cluster B,那么t-SNE就不允许你下结论说A比C更接近B。相反,UMAP的设计是为了允许这种类型的比较,但值得注意的是,UMAP是一种新的方法,很多研究者仍然使用t-SNE。
需要注意的是,t-SNE和UMAP都不是自然确定的(相同的输入总是给出完全相同的输出)。然而,与UMAP相比,t-SNE在多次相同输入的结果中显示出了更多的随机性。此外,当使用相同的随机种子(seed
)时,uwot
包中实现的UMAP是确定性的。使用UMAP还是t-SNE的选择是有细微差别的,但在我们的经验中,UMAP非常适合多种数据集,这是我们对scATAC-seq数据的标准选择。UMAP的运行速度也比t-SNE快。最重要的是,使用UMAP,你可以创建一个嵌入并将新样本投射到嵌入中,而使用t-SNE是不可能的,因为t-SNE中数据的拟合和预测是同时发生的。
无论选择哪种方法,输入参数都可能对结果的嵌入产生巨大影响。因此,理解各种输入参数并调整它们以最佳地满足数据的需要是很重要的。ArchR实现了一组默认的输入参数,这些参数适用于大多数数据集,但实际上并没有一组参数能够为细胞数、复杂性和质量差异很大的数据集生成理想的结果。
(一)UMAP
在ArchR里运行UMAP,使用addUMAP()
:
> projHeme2 <- addUMAP(
ArchRProj = projHeme2,
reducedDims = "IterativeLSI",
name = "UMAP",
nNeighbors = 30,
minDist = 0.5,
metric = "cosine"
)
你还可以查看你现在的这个ArchRProject里有哪些嵌入:
> projHeme2@embeddings
List of length 1
names(1): UMAP
要绘制UMAP结果,我们使用plotEmbedding()
函数,并传递我们刚刚生成的UMAP嵌入的名称(“UMAP”)。我们可以通过使用颜色组合colorBy
告诉ArchR如何为细胞上色,它会告诉ArchR使用哪个矩阵来查找指定的metadata列来命名:
> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "UMAP")
> p1
上面是使用的“样品”来给细胞上色,我们也可以使用clusters来给细胞上色:
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "UMAP")
> p2
我们还可以把两张图并排同时显示,参数type = "h"表示水平放置:
> ggAlignPlots(p1, p2, type = "h")
保存图片:
> plotPDF(p1,p2, name = "Plot-UMAP-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)
上一章我们还用了scran方法进行了聚类,现在也可以使用plotEmbedding()对其进行可视化:
> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "UMAP")
> p1
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "ScranClusters", embedding = "UMAP")
> p2
> ggAlignPlots(p1, p2, type = "h") #并排展示图片
> plotPDF(p1,p2, name = "Plot-UMAP-Sample-ScranClusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)
(二)t-SNE
我们使用addTSNE()
函数在ArchR里运行t-SNE:
> projHeme2 <- addTSNE(
ArchRProj = projHeme2,
reducedDims = "IterativeLSI",
name = "TSNE",
perplexity = 30
)
> projHeme2@embeddings
List of length 2
names(2): UMAP TSNE
t-SNE的可视化:
> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "TSNE")
> p1
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "TSNE")
> p2
> ggAlignPlots(p1, p2, type = "h")
> plotPDF(p1,p2, name = "Plot-TSNE-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)
同样的,我们也可以使用t-SNE来可视化scran聚类结果:
> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "TSNE")
> p1
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "ScranClusters", embedding = "TSNE")
> p2
> ggAlignPlots(p1, p2, type = "h")
> plotPDF(p1,p2, name = "Plot-tSNE-Sample-ScranClusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)
(三)在Harmony之后降维
在前一章中,我们通过addHarmony()
函数使用Harmony
执行批次效应修正,创建了一个名为“Harmony”的reducedDims
对象。我们可以通过使用UMAP或t-SNE可视化嵌入来评估Harmony的效果。
用相同的参数重复UMAP嵌入,只不过是用“Harmony” reducedDims 对象(前面我们用的对象都是迭代LSI对象):
> projHeme2 <- addUMAP(
ArchRProj = projHeme2,
reducedDims = "Harmony",
name = "UMAPHarmony",
nNeighbors = 30,
minDist = 0.5,
metric = "cosine"
)
> projHeme2@embeddings
List of length 3
names(3): UMAP TSNE UMAPHarmony
可视化:
> p3 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "UMAPHarmony")
> p3
> p4 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "UMAPHarmony")
> p4
> ggAlignPlots(p3, p4, type = "h")
> plotPDF(p1,p2,p3,p4, name = "Plot-UMAP2Harmony-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)
用t-SNE对Harmony对象进行分析:
> projHeme2 <- addTSNE(
ArchRProj = projHeme2,
reducedDims = "Harmony",
name = "TSNEHarmony",
perplexity = 30
)
> projHeme2@embeddings
List of length 4
names(4): UMAP TSNE UMAPHarmony TSNEHarmony
可视化:
> p3 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "TSNEHarmony")
> p3
> p4 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "TSNEHarmony")
> p4
> ggAlignPlots(p3, p4, type = "h")
> plotPDF(p1,p2,p3,p4, name = "Plot-TSNE2Harmony-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)