单细胞参考映射简介
在此教程中,我们首先构建一个整合的参考集,然后演示如何利用此参考集来注释新的查询数据集。生成参考集可以参考该文中详细流程。生成后,此参考集可用于通过细胞类型标签转移和将查询细胞投影到参考集 UMAP 等任务来分析其他查询数据集。值得注意的是,这不需要校正基础原始查询数据,因此,如果提供高质量的参考集,则可以成为高效的策略。
数据集预处理
为了演示,我们选择了通过四种技术(CelSeq (GSE81076)、 CelSeq2 (GSE85241)、 Fluidigm C1 (GSE86469) 和 SMART-Seq2 (E-MTAB-5061) 产生的人类胰岛细胞数据集。为了方便起见,我们通过SeuratData包分发此数据集。元数据包含四个数据集中每个细胞的技术(列)和细胞类型注释(列)。
library(Seurat)
library(SeuratData)
InstallData("panc8")
为了构建参考集,我们将在各个数据集之间识别"锚点"。首先,我们将合并后的对象拆分为一个列表,每个数据集都作为元素。
data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]
在找到锚点之前,我们执行标准的预处理,并单独识别每个变异基因。
for (i in 1:length(pancreas.list)) {
pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000,
verbose = FALSE)
}
整合 3个 胰岛细胞数据集
接下来,我们使用FindIntegrationAnchors()识别锚点。在这里,我们将其中三个对象整合到到参考集中(使用第四个对象作为查询数据集来演示映射)。
- 我们使用所有默认参数来识别锚点。
reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)
然后,我们将这些锚点传递到函数IntegrateData()中,该函数返回 Seurat 对象。
- 返回的对象将包含一个新的
Assay
,它包含一个整合所有细胞的(或"批次校正后")表达矩阵,使他们能够共同分析。
pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)
运行IntegrateData()后,Seurat
对象将包含一个新的Assay
,具有整合表达矩阵。请注意,原始值(未校正值)仍存储在"RNA"Assay
,因此您可以来回切换。
然后,我们可以使用这种新的整合矩阵进行下游分析和可视化。在这里,我们对整合数据进行归一化,运行 PCA,并使用 UMAP 可视化结果。可以看出,整合数据集按细胞类型而不是按技术进行聚类。
library(ggplot2)
library(cowplot)
library(patchwork)
# switch to integrated assay. The variable features of this assay are automatically set during
# IntegrateData
DefaultAssay(pancreas.integrated) <- "integrated"
# Run the standard workflow for visualization and clustering
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) +
NoLegend()
p1 + p2
使用整合的参考集的对细胞类型注释
Seurat 还支持将参考数据集(或元数据)投影到查询对象上。虽然许多方法都是保守的(这两个程序都是从识别锚点开始),但数据转移和整合之间有两个重要区别:
- 在数据转移中,Seurat 不会校正或修改查询数据。
- 在数据转移中,Seurat 有一个选项(默认设置),将参考的 PCA 结构投影到查询集上,而不是学习与CCA 的共有结构。我们通常建议在 scRNA-seq 数据集之间投影数据时使用此选项。
找到锚点后,我们使用TransferData()根据参考数据对查询数据进行注释。 TransferData()返回带有预测 ID 和预测分数的矩阵,我们可以将其添加到查询数据中。
pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query,
dims = 1:30)
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype,
dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)
因为我们有完整的整合分析的原始标签注释,因此我们可以评估预测的细胞类型注释与参考集的匹配程度。在此示例中,我们发现细胞类型分类存在高度一致性,超过 96% 的细胞被正确标记。
pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)
##
## FALSE TRUE
## 21 617
为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些传统细胞类型标记。请注意,即使其中一些细胞类型仅由一个或两个细胞(如 epsilon 细胞)表示,我们仍然能够正确地对它们进行分类。
table(pancreas.query$predicted.id)
##
## acinar activated_stellate alpha beta
## 22 17 253 256
## delta ductal endothelial gamma
## 22 30 12 18
## macrophage mast schwann
## 1 2 5
VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")
统一模式 UMAP 投影
在 Seurat v4 中,我们还能够将查询集投影到参考集 UMAP 结构上。这可以通过计算参考UMAP模型,然后调用MapQuery()。
pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")
现在,我们可以同时可视化参考组和查询组细胞。
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3,
repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE,
label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2