跟着Cell学单细胞转录组分析(三):单细胞转录组数据质控（QC）及合并去除批次效应

更多内容请访问个人公众号---KS科研分享与服务---

接上节（跟着Cell学单细胞转录组分析(二):单细胞转录组测序文件的读入及Seurat对象构建）。

构建完Seurat对象之后，我们还需对数据进行一些列的质控，参能进行降维聚类分析，QC对于后续的分析影响还是比较大的，所以要重视。

一般下游分析QC包含：

细胞基因检出数，低质量细胞基因检出数通常较低，双细胞或者同时捕获多个细胞会有很高的基因数。所以要去除低质量的，和过高的细胞。
细胞检测出的分子数
线粒体基因比例，一般低质量细胞或者死细胞线粒体基因检出数很高。但是特殊情况特殊对待，有些细胞功能活跃，线粒体活跃，检出数自然也会很高。所以不能一刀切。

先计算下线粒体基因比例，用小提琴图展示指控前指标。

GM[["percent.mt"]] <- PercentageFeatureSet(GM,pattern = "^MT-")
BM[["percent.mt"]] <- PercentageFeatureSet(BM,pattern = "^MT-")
preQC_GM <- VlnPlot(GM, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), 
                        ncol = 3, 
                        group.by = "orig.ident", 
                        pt.size = 0)
preQC_BM <- VlnPlot(BM, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), 
                        ncol = 3, 
                        group.by = "orig.ident", 
                        pt.size = 0)

preQC_GM：

image.png

preQC_BM：

图片

接下来，按照《Cell》原文章中的标准进行质控。

GM <- subset(GM, subset = nFeature_RNA > 200 & nFeature_RNA < 5000 & percent.mt < 15)
BM <- subset(BM, subset = nFeature_RNA > 200 & nFeature_RNA < 5000 & percent.mt < 15)
postQC_GM <- VlnPlot(GM, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), 
                         ncol = 3, 
                         group.by = "orig.ident", 
                         pt.size = 0)
postQC_BM <- VlnPlot(BM, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), 
                         ncol = 3, 
                         group.by = "orig.ident", 
                         pt.size = 0)

postQC_GM：

图片

postQC_BM：

图片

文章中还对质控前后的细胞数进行了对比，这里不再演示，没啥意义。接下来就是将两个数据合并，去除批次效应，整合成一个seurat对象进行下游降维。

BM <- NormalizeData(BM)
BM <- FindVariableFeatures(BM, nfeatures = 4000)
GM <- NormalizeData(GM)
GM <- FindVariableFeatures(GM, nfeatures = 4000)
#数据标准化及计算高变基因

使用FindIntegrationAnchors合并数据，IntegrateData去除批次效应，当然还有其他的函数可以选择，原文作者使用了这种。最后将得到的数据保存。

sampleList <- list(GM, BM)
scedata <- FindIntegrationAnchors(object.list = sampleList, dims = 1:50)
scedata <- IntegrateData(anchorset = scedata, dims = 1:50)
save(scedata, file = "scedata.RData")

这个质控还是比较简单的，但是要控制数据质量要从细胞收集开始，上机测序也要质控，各个环节都做好，才能最大程度保证数据的可靠性。下节开始，单细胞数据的降维聚类！

跟着Cell学单细胞转录组分析(三):单细胞转录组数据质控（QC）及合并去除批次效应

你可能感兴趣的:(跟着Cell学单细胞转录组分析(三):单细胞转录组数据质控（QC）及合并去除批次效应)