单细胞大样本量数据处理新方法||Simpler single cell RNAseq data clustering

聚类是分析单细胞RNA序列(scrna-seq)数据的一种常用分析方法,但数据量的快速增长会使这一过程在计算上具有挑战性。准确高效聚类的新方法是迫切需要的。本文提出了一种基于随机投影和特征构造的大规模scrna-seq数据聚类新框架——spearman次抽样聚类分类(Spearman subsampling-clustering-classification,SSCC)。SSCC大大提高了以多个真实数据集为基准的各种最先进算法的聚类精度、鲁棒性和计算效率。在一个拥有68578个人类血细胞的数据集上,与广泛使用的软件包SC3相比,SSCC在聚类准确性和50倍加速方面实现了20%的改进,但只消耗了66%的内存使用。与K均值相比,SSCC的精度提高了3倍。SSCC的R实现可在https://github.com/japrin/ssclus上获得

单细胞RNA测序(scrna-seq)通过揭示高分辨率单个细胞的异质性,彻底改变了转录组学研究。聚类已成为识别细胞类型、描述其功能状态和推断潜在细胞动力学的常规分析手段[4-10]。已经开发了多种聚类算法,包括Seurat[11]、SC3[12]、Simlr[13]、Zifa[14]、CIDR[15]、SNN-Cliq[16]和Corr[17]。这些算法大大提高了scrna-seq数据的聚类精度,但往往具有较高的计算复杂度,阻碍了这些优雅算法向大规模scrna-seq数据集的扩展。随着scrna-seq技术的快速发展,吞吐量已从最初的数百个细胞增加到现在的数万个细胞。对来自多个运行甚至跨多个研究的scrna-seq数据集的综合分析进一步加剧了计算困难。因此,需要能够高效、准确地对单个单元进行聚类的算法。

为了处理多个大规模scrna-seq数据集,通过将大数据集降采样或卷积为小数据集或通过使用新的软件实现加速计算,提出了特殊的计算策略。这些战略已经达到了不同的成功水平,但还没有充分解决这些挑战。考虑到高效、准确的聚类工具对大规模scrna-seq数据分析的重要性,本文提出了一种新的计算框架,即基于机器学习技术的Spearman次抽样聚类分类(SSCC),包括特征工程和随机投影,以提高聚类的准确性和有效性。对各种scrna-seq数据集进行基准测试表明,与目前的解决方案相比,SSCC可以在保持高聚类精度的同时,将计算复杂度从O(n2)降低到O(n)。此外,新的计算框架的灵活性允许我们的方法进一步扩展和适应于scrna-seq数据分析的广泛应用。

框架概述

在处理大型scrna-seq数据集的可用解决方案中,具有次采样和分类的集群[12,19]具有线性复杂性,即O(N)。这种框架一般由四个步骤组成(图1a)。(1)利用基因和细胞过滤、归一化等数据预处理技术构建基因表达矩阵;(2)将细胞分为两个子集,分别进行亚采样聚类和分类;(3)将用于聚类的子集细胞分为多个聚类。ng k-means[23]、层次聚类[24]、密度聚类[25]或专门为scrna seq开发的算法;以及(4)监督算法,如k-nearest neighbors[26]、支持向量机(SVMS)[27]或随机森林[28]用于根据第三步是聚类结果。为了简单起见,我们将这个现有框架称为子抽样聚类分类(scc)。由于聚类是一个耗时且内存耗尽的过程,因此通过子采样将这一步骤限制在一个小的单元子集上,可以利用有监督机器学习算法的效率,大大降低从O(n2)到O(n)的计算成本。然而,建立在一小部分细胞原始基因表达数据基础上的分类器,由于原始数据的噪声和细胞的数量少,可能存在缺陷和偏差,从而影响了整个细胞标签分配的准确性。

单细胞大样本量数据处理新方法||Simpler single cell RNAseq data clustering_第1张图片

图1。快速聚类大规模scrna-seq数据集的两个计算框架a.sc3中提出的原始计算框架(简称scc)包括四个主要步骤:
(1)构建基因表达矩阵;
(2)通过细胞亚扩增将矩阵分为两部分。
(3)将子样本细胞聚类;
(4)将未完成的细胞分类为聚类。

b.本研究中提出的新计算框架(参考SFCC)。在聚类和分类之前添加一个特征构造步骤。整个框架包括五个步骤:
(1)构建基因表达矩阵;
(2)通过细胞子采样将矩阵分为两部分;
(3)将子采样/未采样的细胞投影到特征空间;
(4)将子采样的细胞聚集到特征空间;
(5)对uns进行分类。在特征空间中将单元格合并为簇。
scrna-seq,单细胞RNA测序;sc3,单细胞共识聚类;scc,亚采样聚类;sfcc,亚采样特征聚类。

在这里,我们提出了一个新的计算框架,通过在SCC中添加一个特征工程/投影步骤来集群大型scrna-seq数据(图1b)。与SCC相似,基因表达矩阵首先通过基因和细胞过滤和归一化构建(步骤1,图1b),然后随机分为两个子集,分别进行聚类和分类(步骤2;图1b)。与直接使用基因表达原始数据的scc不同,我们的新框架将细胞投影到特征空间(步骤3;图1b)中进行聚类(步骤4;图1b)和分类(步骤5;图1b)。

由于新框架的特点是具有聚类分类策略的二次抽样,因此我们将其命名为sfcc。具体来说,我们将特征构造分为两个步骤:

  • (1)将特征提取技术应用于需要聚类的单元;
  • (2)根据特征提取方法的选择,将分类单元投影到构建的特征空间中。

机器学习领域的许多成熟技术可以通过这两个步骤加以利用。例如,主成分分析(PCA)[29]可用于首先为正在进行聚类的单元构造特征,而合成的加载向量可用于线性变换,以投影单元,以便分类到特征空间。在sfcc框架的每个步骤中选择不同的算法将形成不同的管道,用于集群大规模scrna-seq数据集。为了减少算法组合的总数,本文重点比较了各种特征工程算法的性能。我们将基因和细胞过滤、归一化、亚采样和分类算法作为实践中常用的算法。现有的SCC策略可以看作是SFCC的一个特例,其中原始数据空间是特征空间。

本研究所涉及的特征工程技术包括基于距离的方法(欧几里得和余弦)、基于相关性的方法(皮尔逊[30]和斯皮尔曼[31]相关性)和基于神经网络的方法(自动编码器)[32]。对于基于距离和相关的方法,直接使用聚类的细胞的距离/相关矩阵作为其特征,使用分类和聚类的细胞之间的距离/相关矩阵来构建分类的细胞特征子集。对于自动编码器,首先利用待聚类细胞的基因表达数据训练神经网络模型,然后通过训练后的模型的编码函数将所有细胞投射到特征空间中。为了获得独立于聚类算法的评估结果,我们使用轮廓值(silhouette values)[33]来检查这些特征工程方法的全局性能。在全局评价的基础上,选择最有效的方法SSCC和具有斯皮尔曼相关的SFCC作为特征构建方法,进行进一步评价。

scRNA-seq datasets used in this study

我们使用七个scrna-seq数据集来评估特征空间中的聚类性能。这些数据包括Kolodziejczyk数据集[34]、花粉数据集[8]、Usoskin数据集[9]、Zeisel数据集[10]、郑数据集[5]、PBMC 68 K数据集[18]和Macosko数据集[19]。

大规模scrna-seq数据的可用性迫切需要高效和准确的集群工具。目前,一些scrna-seq数据分析包已被提议解决这一挑战。在这些工具中,sc3[12]、seurat[11]和dropclust[20]采用了scc策略,bigscale[21]采用卷积策略,通过贪婪的搜索算法将相似的单个单元合并为巨型单元,scanpy[22]使用python作为编程语言来加速集群过程。虽然这些策略大大提高了大型scrna-seq数据分析的效率,但仍有很大的改进空间。特别是SCC策略存在着子采样带来的偏差,尽管它可以将计算复杂度从O(n2)降低到O(n),但这可能会大大降低聚类的准确性和鲁棒性。在这里,我们将特性工程和投影技术引入到SCC框架中,并提出SFCC作为替代方案。特别是,以斯皮尔曼关联作为特征工程和投影方法,我们建立了一个称为SSCC的框架,它可以显著提高许多通用和特殊设计的聚类算法的聚类精度和一致性。对真正的scrna-seq数据集的评估,包括各种scrnaseq技术、测序深度和生物体,证明了SSCC优越性能的稳健性。因此,SSCC有望成为一个有用的计算框架,进一步释放scrna-seq未来的强大功能。

简单单小区RNAseq数据聚类(sscClust)是一个实现简单使用聚类管道的包。单细胞RNAseq数据聚类通常由变量基因选择、降维、降维数据聚类等组成。目前,该包还封装了针对单细胞RNAseq数据设计的其他聚类方法,包括SC3、ZinbWave等。


Simpler single cell RNAseq data clustering

你可能感兴趣的:(单细胞大样本量数据处理新方法||Simpler single cell RNAseq data clustering)