【珍藏版】热点综述 | 单细胞多组学研究怎么做？

大量的多组学分析，如多维基因组学和蛋白质基因组学分析，已被证明有利于获得对细胞事件的全面了解。这一优势促进了单细胞多组学分析的发展，使细胞类型特异性基因调控得以检测。

单细胞多组学研究怎么做？

来自韩国的研究团队在《Experimental & Molecular Medicine》发表综述，介绍了单细胞多组学分析技术（mRNA-基因组、mRNA-DNA甲基化、mRNA-染色质可及性、mRNA-蛋白质）以及单细胞多组学数据的综合分析方法。

单细胞多组学测序技术概述

单细胞多组学技术

单细胞分离和条形码化

对于单细胞多组学分析，必须从同一细胞中分离出多种类型的分子，这包括（1）单细胞的分离和（2）随后对多种类型的分子进行条形码化。单细胞的分离首先通过机械或酶法分离活细胞，然后从分离的细胞悬浮液中捕获单细胞。单细胞多组学分析中常用的几种单细胞单组学分析捕获方法包括：（1）捕获几十个或几百个细胞的低通量方法，例如激光捕获显微解剖和机器人显微操作等；（2）捕获几万个细胞的高通量方法，包括荧光活化细胞分选（FACS），然后是基于平板的分离，以及使用带有微流控通道和反应室或纳米孔的微流体平台。低通量方法保留了隔离细胞的空间信息，而这种信息在高通量方法下会丢失。

然后从被捕获的单个细胞中分离出多种类型的分子。基因组DNA（gDNA）位于细胞核中，而大多数mRNAs包含在细胞质中。用质膜选择性裂解缓冲液处理后，通过离心将细胞核与细胞质分离。gDNA从细胞核中分离出来，而mRNA从细胞质中分离出来，结果是位于细胞核中的mRNA丢失。在另一种方法中，使用oligo-dT涂层的磁珠来选择性地捕获mRNAs，用磁铁拉下这些磁珠可以将mRNAs与gDNA分离。在这些方法下，不同的条码（细胞和分子识别条码）被用于区分分离的gDNA和mRNA。然而，分离过程会导致样品丢失。为了解决这个问题，研究人员开发了一种不需要分离的替代策略。在这种方法下，mRNA在细胞裂解后使用poly-dT引物进行反转录（RT），不需要分离，产生单链cDNA。gDNA和cDNA通过拟线性全基因组扩增同时扩增，引物类似于多重退火和MALBAC的适配器。在产物被分成两部分后，通过PCR从一半的产物中扩增gDNA，并通过体外转录从另一半产物中扩增cDNA。

必须采取足够的额外预防措施来测量同一细胞中多种类型的分子。临床标本通常是速冻或石蜡包埋，冷冻过程扰乱了细胞质膜而不是核膜。对于这些样本，分离单个细胞核后对gDNA和细胞核mRNA进行单细胞多组学分析仍然是可能的，但对胞浆mRNAs的分析可能会导致错误的结论。然而，对于新鲜组织，长时间暴露于解离酶或广泛的机械切割可分别导致mRNAs和蛋白质的降解或扰动。

基因组和转录组数据的综合分析

基因组和转录组整合分析的单细胞多组测序方案

单细胞全基因组测序（scWGS）方法包括MDA、MALBAC和PicoPLEX（Rubicon Genomics PicoPLEX Kit）。单细胞转录组测序（scRNA-seq）方法包括Quartz-seq、Smart-seq和CEL-seq。这些方法涉及不同的策略以达到不同的目的。

目前已经开发了几种对基因组和转录组进行单细胞多组学分析的方法，包括scTrio-seq、G&T-seq、DR-seq、SIDR以及TARGET-seq。

> scTrio-seq包括通过离心法将细胞质（mRNAs）和细胞核（gDNA）从同一个单细胞中物理分离出来。然后分别使用scWGS流程（如MDA或PicoPLEX）和Smart-seq2对分离的gDNA和mRNAs进行独立扩增和测序。

> G&T-seq使用oligo-dT包被的磁珠将poly-A尾的mRNAs与gDNA分离。然后分别使用Smart-seq2和scWGS对分离的mRNAs和gDNA进行测序。

> DR-seq包括上述同时对gDNA和cDNA进行类似MALBAC的准线性预扩增，不对gDNA和mRNA进行分离。预扩增后的gDNA和cDNA被分成两部分，分别使用CEL-seq和MALBAC对这两部分进行scRNA-seq和scWGS。

>在SIDR方法下，细胞与抗体连接的磁性微珠一起孵化，并将微珠标记的单细胞分选到48孔板中。然后用低渗裂解法从捕获的单细胞中释放细胞核RNA，同时保留核层的完整性，接着从含核细胞裂解液中分离出含RNA的上清液。

> TARGET-seq使用温和的蛋白酶消化以改善细胞裂解过程中gDNA和mRNA的释放；对蛋白酶进行热灭活以避免对RT和PCR的抑制；RT和PCR扩增后分别进行scRNA和靶向scDNA-seq。

一些使用这些方法的研究报告表明，基因组的改变与基因组改变区域的基因转录水平密切相关。例如，Macaulay等人使用G&T-seq，确定了HCC38-BL细胞的一个亚群，表现为11号染色体的三体化。在这个亚群中，11号染色体上的基因表达比二倍体细胞高。16号染色体上的基因组不平衡也被发现与不平衡区域的基因表达变化一致。此外，在对SK-BR-3乳腺癌细胞应用DR-seq后，Dey等人比较了拷贝数变异（CNVs）和mRNA表达水平，并观察到在单细胞中拷贝数增加的区域内基因的平均表达量呈单调增长。利用TARGET-seq，Rodriguez-Meira等人还发现在骨髓增生性肿瘤患者的JAK2V617F突变的造血干细胞和祖细胞中，致癌基因（如MYCN、TP53和PPP2R5A）、与Hedgehog和Wnt信号相关的基因或干扰素相关的基因表达失常。所有这些数据证明了基因组改变（如CNVs或突变）与单细胞中基因组水平的基因表达的相关性。

转录组与表观基因组数据的整合分析

转录组和表观基因组整合分析的单细胞多组测序方案

DNA甲基化、组蛋白修饰（如甲基化和乙酰化）和染色质可及性共同促进了基因表达，并已被证明可在单细胞分辨率下测量。单细胞亚硫酸氢盐测序（scBS-seq）用于测量单细胞DNA甲基化的方法包括scRRBS、scWGBS、snmC-seq和sci-MET。

DNA甲基化和转录组的第一个单细胞多组学分析是通过scM&T-seq方法进行的，其中G&T-seq流程用于从同一个单细胞中分离和扩增gDNA和RNA，将scBS-seq应用于扩增的gDNA以产生DNA甲基化数据。scMT-seq使用微量移液从单细胞裂解物中分离细胞核，并执行scRRBS和改良的Smart-seq2流程分别生成DNA甲基组和转录组数据。此外，scTrio-seq分析基因组、甲基化和转录组，使用scRRBS生成DNA甲基化数据。然而，这些方法的一个局限性是由于亚硫酸氢盐处理引起的DNA降解造成的信息丢失。

Drop-ChIP可以在单细胞分辨率下测量组蛋白的修饰。在这种方法下，微流控设备被用来将单个细胞封装在带有裂解洗涤剂和微球蛋白酶的液滴中，产生单核、双核或三核体。然后将这些核糖体液滴与含有细胞特异性条形码的液滴逐一合并，生成有条形码的染色质片段。最后对这些汇集的片段进行ChIP-seq，以确定组蛋白修饰位点。

单细胞染色质可及性方法包括scDNase-seq、sci-ATAC-seq、scATAC-seq、scATAC-seq、NOMe-seq以及scMNase-seq。在这些方法的基础上，开发了几种染色质可及性和转录组的多组学分析策略，包括sci-CAR，SNARE-seq以及scNMT-seq。

sci-CAR使用基于平板的单核分离和组合索引，对同一单核的开放染色质位点和mRNA水平进行测量。这种方法使用索引RT对核mRNA进行条码化，并通过带有条码的转座酶进行索引转座对开放染色质位点进行条码化。然后，所有的核被集中起来，重新分配，并进行裂解。在核裂解液被分成两部分后，在一半的核裂解液中加入第二个条形码，用于RNA-seq，在另一半的核裂解液中加入索引PCR，用于ATAC-seq。组合条码使来自单个核的mRNA和开放染色质得以区分。

SNARE-seq是另一种使用微滴平台和条形码珠对同一单个细胞核的开放染色质和mRNA进行分析的方法。这种方法的流程首先是分离单核，并使用转座酶在分离的核中进行开放染色质标记。然后将被标记的核包裹在一个液滴中，其中包括一个含有oligo-dT的条码珠和一个连接寡核苷酸，它将被标记的gDNA片段连接到珠子上，使珠子能够捕获mRNAs和开放染色质片段。mRNAs和gDNA片段通过加热从珠子上释放出来后，进行RT和PCR扩增，生成cDNA和开放染色质gDNA片段库。此外，scNMT-seq被开发出来，通过结合scM&T-seq和NOME-seq，对同一单细胞的核糖体、DNA甲基组和转录组进行分析。

一些使用这些方法的研究报告表明，DNA甲基化的差异与整个单细胞的基因转录的变化相关联。例如，Angermueller等人使用scM&T-seq发现，低甲基化的区域显示出甲基化水平的高差异，这与它们作为控制基因表达的远端调控元件的作用相一致。Hernando-Herraez等人利用scM&T-seq，也发现了与组织特异性小鼠干细胞老化有关的表观遗传和转录特征之间的联系。此外，Hu等人利用scMT-seq发现，非CpG岛启动子显示出不同的CpG 富集，促成了背根神经节单细胞之间的甲基化异质性。进一步研究发现，转录物水平与基因组甲基化呈正相关，但与启动子甲基化呈负相关，并发现单细胞中的等位基因体甲基化与等位基因表达之间存在相关性。此外，利用scNMT-seq，Clark等人发现在小鼠胚胎干细胞分化过程中，单细胞的核小体、DNA甲基组和转录组的动态耦合。所有这些数据证明了表观基因组和基因表达在单细胞的基因组水平上的联系。

转录组和蛋白质组数据综合分析

转录组和蛋白质组整合分析的单细胞多组测序方案

目前已经开发了几种可以同时测量单细胞转录组和蛋白质组的方法，包括PEA/STA、PLAYR、CITE-seq以及REAP-seq。

> 在PEA/STA方法下，PEA标记的抗体对用于连接到抗体对的DNA寡核苷酸的邻近依赖性杂交，其将蛋白质转化为DNA寡核苷酸，并且使用随机RT引物对mRNAs进行RT以产生cDNA。DNA寡核苷酸和cDNAs随后通过PCR扩增并通过定量PCR或测序进行定量。

> PLAYR方法用含有元素同位素的抗体标记蛋白质，并使用与mRNAs结合的PLAYR探针。相邻的PLAYR探针对为RNA特异性插入骨架寡核苷酸提供了一个对接点，然后它们通过滚动循环扩增与同位素标记的探针连接，将mRNA水平转换为同位素标记水平。随后，同位素标记的mRNA和蛋白质的水平通过质谱仪进行测量。

> 最近，CITE-seq和REAP-seq已经被开发出来，使用寡核苷酸标记的抗体检测细胞表面蛋白和mRNAs。例如，在单细胞悬浮液中，CITE-seq首先使用与含有PCR手柄、抗体识别条码和poly-A尾的DNA寡核苷酸连接的目标特异性抗体来标记在表面表达目标蛋白的细胞。然后将细胞封装在含有oligo-dT引物的珠子上，形成一个液滴。细胞在液滴内裂解后，珠子通过与oligo-dT引物和poly-A尾的结合捕获mRNAs和与抗体连接的DNA条形码。利用RT和PCR扩增生成mRNAs和蛋白质的文库，进行测序以量化mRNAs和蛋白质。REAP-seq是一种类似的技术，其条形码连接到珠子上的结构不同。

> 与针对细胞表面蛋白的CITE-和REAP-seq方法不同，另一种方法RAID，可与mRNAs一起检测细胞内蛋白或磷酸化蛋白。在交联和透化之后，使用与RNA条形码共轭的抗体对单细胞内的目标蛋白进行免疫染色，将蛋白质转化为RNA。在细胞被分拣到含有CEL-seq2兼容引物的板中后，RNA通过反向交联被释放出来，并通过RT转化为cDNAs。

许多使用这些方法的研究已经在不同的细胞系统中进行，以检查单细胞水平的转录组和蛋白质组之间的联系。例如，Darmanis等人使用PEA方法，通过测量82种mRNAs和75种蛋白质（61种是共同的）的水平，研究了BMP4对早期阶段胶质母细胞瘤细胞（U3035MG细胞系）的影响。他们发现胶质母细胞瘤细胞的亚群在BMP4治疗后显示出明显的mRNA和蛋白质丰度的变化，表明对BMP4的反应具有明显的异质性。研究人员还进一步观察到单个细胞的蛋白质和mRNA表达水平之间的相关性很差，蛋白质能更准确地定义对BMP4的反应。

单细胞组学数据分析方法

单细胞单组学分析提供了不同类型的信息，包括单细胞水平上的基因组改变（突变和CNVs）、DNA甲基化位点、开放染色质位点和mRNA或蛋白质丰度等数据。对于每一种类型的数据都有不同的方法，以实现基于相应信息的不同目标。

> 对于scRNA-seq数据，已经开发了各种方法来识别细胞群、调节网络和细胞轨迹。首先，对于细胞群的特征，这些方法根据表达谱的相似性对细胞进行聚类，并确定每个细胞群中主要表达的标记基因。常用方法包括Seurat、pcaReduce、SC3、BackSPIN和SNN-cliq。其次，另一套方法是推断调控网络，划定标记基因（如转录因子和它们的靶点）之间的调控关系，显示在细胞群中不同细胞之间的共同表达。经常用于网络推断的方法包括SCNS工具箱、inferenceSnapshot、SCODE和SCENIC方法。最后，还有一套推断描述细胞时间演变的细胞轨迹（如分化轨迹）的方法，它是通过表达谱的过渡分析来估计的。经常用于细胞轨迹推断的方法包括Monocle、DPT、Wish-bone和Waddington-OT。

> 对于scWGS数据，主要目标是在单细胞水平上识别CNVs和单核苷酸变异（SNVs）。已经开发了各种从scWGS数据中识别CNV的方法，包括Ginkgo、baseqCNV、SCNV、SCCNV和SCOPE。此外，一些方法，如SCcaller、baseqSNV、MonoVar和SCAN-SNV，已经被开发出来，可以从scWGS数据中有效地识别SNV。

> 对于单细胞表观基因组数据，主要目标是确定单细胞中的开放染色质和DNA甲基化位点。与大量分析相比，单细胞表观基因组分析产生的DNA序列深度较低，因此难以识别对应于开放染色质或DNA甲基化位点的峰值。解决这个问题的一个策略是汇总来自约100个单细胞的数据，用为大量数据开发的算法识别峰值，然后用单细胞的数据确定这些峰值是否存在于每个单细胞中。scABC使用这个策略从scATAC-seq数据中识别开放染色质位点。另一个策略是聚集来自相邻区域或具有类似调控元素的区域的信号。在这些方法中，chromVAR使用这种策略从scATAC-seq数据中识别开放染色质位点，而cisTopic和SCALE结合细胞和区域水平聚集的结果进行峰值识别。

单细胞多组学数据综合分析

单细胞多组学数据的综合分析策略

为了对单细胞多组学数据进行综合分析，相关研究人员对单细胞单组学数据的分析方法进行了扩展和组合。这些策略可以分为：（1）单细胞单组学数据之间的相关性分析；(2）分析一种类型的单细胞数据（例如scRNA序列），然后整合另一种单细胞数据类型（例如来自scWGS的SNV或来自scATAC序列的开放染色质位点）；以及（3）对所有类型的单细胞组学数据进行综合分析，以生成整体单细胞图谱。

一些研究使用第一种策略来研究CNVs或DNA甲基化水平与mRNA表达水平在单细胞水平的相关性。例如，Angermueller等人将scM&T-seq应用于小鼠胚胎干细胞，并计算了几个基因组背景（启动子、远端调控元件和基因体）中DNA甲基化水平与单个基因的mRNA表达水平的加权Pearson相关性：发现DNA甲基化和mRNA表达水平的负相关在非CpG岛启动子中占主导地位，而在远端调控元件中则同时观察到正/负相关。相关性分析还被应用于研究mRNA和蛋白质表达水平之间的关系。例如，Peterson等人将REAP-seq应用于PBMCs，并计算了免疫细胞标志物的mRNA和蛋白质表达水平在单个细胞中的Pearson相关性：发现mRNA和蛋白质的水平相关性很差，对于mRNA低表达的标志物，蛋白质定量比mRNA定量更敏感。

在第二种策略下，scRNA-seq是最常见的单细胞单组学数据类型，其他数据被整合进去。这是因为与其他单细胞数据类型相比，scRNA-seq对转录组的覆盖率更高。例如，Cao等人将sci-CAR应用于小鼠肾脏细胞，利用scRNA-seq数据将10,727个细胞分为14个亚群。随后进一步确定了14个亚群中每个亚群特有的开放染色质位点（共22,026个位点），并确定了可能有助于几个标记基因的群体特异性表达的顺式调控元件（如转录因子结合位点）。此外，Stoeckius等人将CITE-seq应用于CBMCs，并基于556个显示群体特异性表达的基因，利用scRNA-seq数据鉴定了8005个细胞中的15个群体。利用抗体的标记计数对每对抗体进行散点图分析表明，蛋白表达水平可用于进一步细分从scRNA-seq鉴定的细胞群，这些细胞群具有微小的mRNA表达差异，例如NK细胞群。

当被整合的不同单细胞多组学数据呈现可比的覆盖率时，通常采用第三种策略。否则，整合可能会导致对具有较高覆盖率数据的偏倚。对于第三种策略，最近开发了几种基于矩阵因子化的方法，包括基因组实验关系关联推理（LIGER）和多组学因子分析（MOFA）。LIGER根据（1）同时具有mRNA表达和DNA甲基化水平的基因或（2）仅具有mRNA表达或DNA甲基化数据的基因来定义细胞群。对于前一种细胞群，mRNA表达和DNA甲基化之间的关系可以揭示DNA甲基化对定义这些细胞群的基因mRNA表达的潜在调节作用。MOFA采用了一种多向矩阵分解方法，该方法为每种数据类型生成一个因子（细胞群）加载矩阵和一个权重矩阵。在对单个数据集的缺失值进行插补后，MOFA被应用于先前报道的由scM&T-seq产生的小鼠胚胎干细胞的mRNA表达和DNA甲基化数据。MOFA提供了其mRNA表达和/或DNA甲基化水平对每个细胞群有很大贡献的基因，从而能够推断出定义细胞群的mRNA和DNA甲基化之间的调节关系。研究人员进一步确定了小鼠胚胎干细胞在因子空间中的分化轨迹，然后根据定义权重矩阵中因子的分子特征，确定了与沿着该轨迹转变相关的mRNA表达和DNA甲基化模式的基因。

单细胞多组学分析的应用仍处于早期阶段。仍有许多途径需要探索，并有相当多的机会可以扩展。此外，仍有一些技术和计算方面的限制应该被克服，以提高从单细胞多组学分析获得信息的内容和质量。例如，亚硫酸氢盐处理会导致DNA损伤，从而影响所测DNA甲基组的准确性；细胞固定容易降低信息的产量，从而在测量中引入偏差等。为了提高单细胞多组学测量的灵敏度（突变、CNVs和蛋白质组）、准确性（DNA甲基化和磷蛋白组）和覆盖率（突变、CNVs和蛋白质组），还需要优化现有的单细胞实验方案或开发新方案。另外，还需要对不同的分子多通道进行新的组合（如单细胞基因组和蛋白质组的综合分析），以推断出前所未有的调节关联（如信号分子的突变和磷酸化）。

尽管单细胞组学分析的实验方案资源丰富，但单细胞多组学数据综合分析的计算方法才刚刚出现。在数据整合过程中，需要有能有效处理转录组和其他类型的单细胞全向性数据之间信息覆盖率差异的方法，以建立更复杂的多组学统计模型。此外，鉴于这种缺失值、系统性噪声和覆盖率差异，有必要改进现有的数据分析方法或开发新的数据分析方法，以通过单细胞多组学数据的整合分析来优化提取信息。另外，目前用于单细胞多组学分析的大多数方法都局限于同时整合两个组学层。随着用于测量更多组学层的单细胞多组学技术的出现，需要能够整合三种或更多类型组学数据的方法来有效表征不同组学层之间的调控关系。

单细胞多组学分析的实验技术和数据分析方法的进步对于确保疾病发病机制中重要分子在不同组学层次间更准确的调控关系至关重要。这些调控关系可以在单细胞水平上为疾病相关过程的分子机制提供新的见解，这一点通过综合分析多组学数据得到了证明。这些分子机制可以揭示新的诊断标志物和治疗靶点，从而改变目前疾病诊断和治疗的策略。

首发公号：国家基因库大数据平台

参考文献

Lee J, Hwang D. Single-cell multiomics: technologies and data analysis methods[J]. Experimental & Molecular Medicine, 2020, 52(9): 1428-1442.

图片均来源于参考文献，如有侵权请联系删除。