Seurat4.0系列教程15:映射和注释查询数据集

单细胞参考映射简介

在此教程中,我们首先构建一个整合的参考集,然后演示如何利用此参考集来注释新的查询数据集。生成参考集可以参考该文中详细流程。生成后,此参考集可用于通过细胞类型标签转移和将查询细胞投影到参考集 UMAP 等任务来分析其他查询数据集。值得注意的是,这不需要校正基础原始查询数据,因此,如果提供高质量的参考集,则可以成为高效的策略。

数据集预处理

为了演示,我们选择了通过四种技术(CelSeq (GSE81076)、 CelSeq2 (GSE85241)、 Fluidigm C1 (GSE86469) 和 SMART-Seq2 (E-MTAB-5061) 产生的人类胰岛细胞数据集。为了方便起见,我们通过SeuratData包分发此数据集。元数据包含四个数据集中每个细胞的技术(列)和细胞类型注释(列)。

library(Seurat)
library(SeuratData)
InstallData("panc8")

为了构建参考集,我们将在各个数据集之间识别"锚点"。首先,我们将合并后的对象拆分为一个列表,每个数据集都作为元素。

data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]

在找到锚点之前,我们执行标准的预处理,并单独识别每个变异基因。

for (i in 1:length(pancreas.list)) {
    pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
    pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, 
        verbose = FALSE)
}

整合 3个 胰岛细胞数据集

接下来,我们使用FindIntegrationAnchors()识别锚点。在这里,我们将其中三个对象整合到到参考集中(使用第四个对象作为查询数据集来演示映射)。

  • 我们使用所有默认参数来识别锚点。
reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然后,我们将这些锚点传递到函数IntegrateData()中,该函数返回 Seurat 对象。

  • 返回的对象将包含一个新的Assay,它包含一个整合所有细胞的(或"批次校正后")表达矩阵,使他们能够共同分析。
pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

运行IntegrateData()后,Seurat对象将包含一个新的Assay,具有整合表达矩阵。请注意,原始值(未校正值)仍存储在"RNA"Assay,因此您可以来回切换。

然后,我们可以使用这种新的整合矩阵进行下游分析和可视化。在这里,我们对整合数据进行归一化,运行 PCA,并使用 UMAP 可视化结果。可以看出,整合数据集按细胞类型而不是按技术进行聚类。

library(ggplot2)
library(cowplot)
library(patchwork)
# switch to integrated assay. The variable features of this assay are automatically set during
# IntegrateData
DefaultAssay(pancreas.integrated) <- "integrated"
# Run the standard workflow for visualization and clustering
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) + 
    NoLegend()
p1 + p2
image

使用整合的参考集的对细胞类型注释

Seurat 还支持将参考数据集(或元数据)投影到查询对象上。虽然许多方法都是保守的(这两个程序都是从识别锚点开始),但数据转移和整合之间有两个重要区别:

  1. 在数据转移中,Seurat 不会校正或修改查询数据。
  2. 在数据转移中,Seurat 有一个选项(默认设置),将参考的 PCA 结构投影到查询集上,而不是学习与CCA 的共有结构。我们通常建议在 scRNA-seq 数据集之间投影数据时使用此选项。

找到锚点后,我们使用TransferData()根据参考数据对查询数据进行注释。 TransferData()返回带有预测 ID 和预测分数的矩阵,我们可以将其添加到查询数据中。

pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, 
    dims = 1:30)
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, 
    dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因为我们有完整的整合分析的原始标签注释,因此我们可以评估预测的细胞类型注释与参考集的匹配程度。在此示例中,我们发现细胞类型分类存在高度一致性,超过 96% 的细胞被正确标记。

pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)

## 
## FALSE  TRUE 
##    21   617

为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些传统细胞类型标记。请注意,即使其中一些细胞类型仅由一个或两个细胞(如 epsilon 细胞)表示,我们仍然能够正确地对它们进行分类。

table(pancreas.query$predicted.id)

## 
##             acinar activated_stellate              alpha               beta 
##                 22                 17                253                256 
##              delta             ductal        endothelial              gamma 
##                 22                 30                 12                 18 
##         macrophage               mast            schwann 
##                  1                  2                  5
VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")
image

统一模式 UMAP 投影

在 Seurat v4 中,我们还能够将查询集投影到参考集 UMAP 结构上。这可以通过计算参考UMAP模型,然后调用MapQuery()。

pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query, 
    refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")

现在,我们可以同时可视化参考组和查询组细胞。

p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3, 
    repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, 
    label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2
image.png

你可能感兴趣的:(Seurat4.0系列教程15:映射和注释查询数据集)