单细胞 RNA-seq 聚类工作流程

现在我们有了高质量的细胞，我们可以继续后续流程。最终，我们希望对细胞进行聚类并识别潜在的不同细胞类型，但是还有几个步骤需要完成。下面的工作流程示意图中的绿色框对应于 QC 后采取的步骤，共同构成了聚类工作流程。

image

聚类流程

对于具有信息性的事物，它需要表现出变化，但并非所有变化都具有信息性。我们聚类分析的目标是在我们的数据集中保留主要的变异来源，同时限制由于无意义的变异来源（测序深度、细胞周期差异、线粒体表达、批次效应等）引起的变异。）。然后，为了确定存在的细胞类型，我们将使用高度可变的基因进行聚类分析，以确定数据集中变异的主要来源。

此分析的工作流程改编自以下来源：

Satija Lab：Seurat v3 指导教程
Paul Hoffman：细胞周期评分和回归

通过以下步骤识别亚群：

1. 探索不需要的变异的来源

第一步是查看我们的数据是否有未知的可变性因素。在单细胞 RNA-seq 数据中，最常见的评估生物学效应是细胞周期对转录组的影响。另一种已知的生物学效应是线粒体基因表达，这被解释为细胞压力的指示。这一步是探索我们的数据以确定我们想要回归的协变量。

2. 归一化和回归未知变化来源

Seurat 最近引入了一种新方法，sctransform对 scRNA-seq 数据执行多个处理步骤。需要标准化以缩放原始计数数据以获得细胞之间正确的相对基因表达丰度。该sctransform函数实现了数据的高级归一化和方差稳定性。该sctransform函数还回归了我们数据中不需要的变化的来源。在上一步中，我们已经确定了这些可变性来源，在这一步中我们需要指定了这些协变量是什么。

3. 整合

通常使用单细胞 RNA-seq，我们处理多个样本，这些样本对应于不同的样本组、多个实验或不同的模式。如果我们想最终比较组之间的细胞类型表达，建议整合数据。整合是一种强大的方法，它使用这些最大变异的共享源，识别跨条件或数据集的共享亚群 [Stuart and Butler et al. (2018)]。在 Seurat 中进行整合涉及几个步骤。完成后，我们使用可视化方法来确保在我们继续对细胞进行聚类之前进行良好的整合。

注意：整合是可选的。如果你的数据不需要整合，则不需要执行该步骤。

4. 聚类细胞

通过对基因表达值的相似性对细胞进行分组来获得细胞簇。表达谱相似性是通过距离度量确定的，通常将降维表示作为输入。Seurat 根据细胞的 PCA 分数将细胞分配到集群中，这些 PCA 分数源自整合的最大变化基因的表达。

5.亚群质量评估

在我们的数据中识别的亚群代表可能属于类似细胞类型的细胞组。在我们确定一组成员细胞的细胞类型之前，可采取以下步骤：

a.检查亚群是否受到无趣变化来源的影响。
b.检查主要的主成分是否驱动不同的亚群。
c.通过观察整个集群中已知标记的表达来探索细胞类型。

5.单细胞 RNA-seq：质控后相关流程