单细胞转录组测序(scRNA-seq)能够解释细胞的转录状态,而单细胞染色质可及性测序(scATAC-seq)能够揭示相关的调控景观。二者的同时应用能够将基因表达与调控元件的可及性联系起来,更准确地重建细胞生理学基础的分子过程。虽然已有大量研究将这两种数据进行整合分析,但这一策略并不能真正在细胞水平揭示细胞内转录调控的联系。近年,同一细胞内转录组+染色质可及性研究技术的发展,特别是10x Genomics单细胞ATAC+基因表达商业化解决方案的出现,使得基因表达及其调控机制研究进入新的高度。
一、为什么要同时研究基因表达和染色质可及性
指导生物体发育和维持的程序是在其基因组中编码的。对这些信息的解码始于基因组DNA向RNA的调节转录。虽然单个生物体的每个细胞都包含几乎相同的基因组,但基因表达的调控决定了哪些RNA和蛋白质以什么水平被合成,以建立不同类型的细胞并执行不同生理功能。因此,转录的全基因组调控是细胞分化、对内外信号的反应和生物功能的基础。
基因转录是RNA聚合酶从DNA模板合成RNA分子的过程。在真核生物主要通过RNA聚合酶II(Pol II)产生蛋白质编码的mRNAs、长非编码RNA、初级微小RNA和增强子RNA等。基因的转录由基因组中基因近端(启动子)和远端(增强子)调控元件控制。这些调节元件包含启动子特异性和增强子特异性转录因子(TFs)的结合位点,它们定义了基因何时是活性的以及转录的频率。而基因组中这些调节元件的可及性对相关基因转录具有很大影响。
二、如何同时研究单细胞基因表达和染色质可及性
目前,大多数同时进行单细胞基因表达和染色质可及性研究的研究采用的方法是对统一样本分别进行scRNA-seq和scATAC-seq,然后通过算法实现两种组学信息的整合,将两个数据集联系起来,并通过“锚定”找到两个数据集之间的同类细胞。在参考数据集和查询数据集之间建立细胞匹配关系后,可以将参考数据集细胞的类型、等信息迁移给配对的查询数据集细胞。例如,用已注释细胞类型的scRNA数据集作为参考数据集,通过上述信息迁移的方法就可以识别scATAC数据集的细胞类型。
虽然利用数据整合的方法能够实现单细胞基因表达和染色质可及性分析,但是这种方法无法在两种数据间找到细胞的具体对应关系。为了解决这一问题,目前已经开发了多种可同时捕获同一个单细胞内染色质可及性和转录组的方法,如scNMT-Seq、scCATSeq、ASTAR-Seq、sci-CAR、Paired-Seq和SHARE-seq等。其中,基于平板的组合索引(sci-CAR、Paired-Seq和SHARE-seq)和基于微滴的微流控(SNARE-Seq)方法具有较高的细胞通量。2020年8月,10x Genomics公司发布了首个商业化的单细胞ATAC+基因表达解决方案,这使得同一细胞的ATAC+基因表达研究的大规模应用成为可能。
直接获得同一细胞内两种组学信息将使转录和调控环节直接匹配,从而能够更准确地重建细胞生理学基础的分子过程。例如,Ma等人利用SHARE-seq获得了小鼠皮肤和大脑的单细胞转录组和染色质可及性图谱,然后基于典型相关分析(CCA)的方法将ATAC-seq和RNA-seq数据进行整合,并与每个细胞两种数据的真实配对进行比较,发现来自小鼠皮肤和大脑的图谱被正确地分配的准确性分别只有74.9%和36.7%。
三、10x Genomics单细胞ATAC+基因表达解决方案的原理是什么
作为商业化的单细胞多组学ATAC+基因表达解决方案,10x Genomics单细胞ATAC+基因表达技术为同时分析同一细胞的基因表达和染色质可及性研究的广泛应用提供了可能,能够加强发现表征细胞类型和状态和揭示基因调控程序的能力。
10x Genomics单细胞ATAC+基因表达技术首先将细胞核悬液在含有转座酶的混合物中孵育,转座酶进入细胞核,优先将染色质开放区域的DNA片段化。然后利用Chromium平台进行单细胞捕获和文库构建,用于单细胞捕获的单细胞ATAC +基因表达的凝胶珠上同时连有与单细胞转录组凝胶珠相同的poly(dT) 序列和与单细胞ATAC凝胶珠上相同的Spacer序列,二者具有相同的10x Barcode序列,分别用于生成基因表达文库和ATAC文库。分别对来自相同细胞的两种文库进行测序和分析,即可实现对相同细胞进行基因表达和染色质可及性两种数据的解读和联合分析。
四、与单一组学相比,同一细胞的单细胞ATAC+基因表达分析有哪些优势
1. 精细的分类能够识别稀有细胞类型
基于多组学数据的聚类在细胞类型之间产生更明显的边界,并识别在单一组学中很大程度上未被检测到的稀有群体。例如,利用SNARE-Seq对小鼠新生大脑皮层的研究表明,利用其相关转录谱的细胞类型身份的先验知识,可以灵敏地检测内的周细胞和小胶质细胞(分别占总细胞的1%和0.7%)。这两种细胞类型的标记物Vtn和Cd45的启动子可及性仅存在于用转录组数据重新鉴定的细胞类型染色质图谱中。在不使用任何表达信息的情况下产生的染色质图谱的聚类产生了不太清晰的细胞类型边界,并且许多低丰度细胞类型在很大程度上未被检测到。
2. 进一步区分相似的细胞类型
基于两种组学数据的细胞类型聚类不仅可以区分不同谱系的细胞类型,还可以区分密切相关类型的细胞。例如,对小鼠皮肤进行利用SHARE-seq,根据聚类特征对簇进行分组揭示了毛囊永久部分和再生部分之间更明显的染色质可及性差异。相反,对应颗粒层的细胞在基因表达水平上作为一个独特的簇更容易区分。此外,活跃增殖的基底细胞的一个子集强烈表达细胞周期基因,它通过RNA形成一个单一的组,但通过染色质可及性没有。另一方面,也强烈表达细胞周期基因的TAC细胞群,通过染色质可及性被鉴定为异染色质簇。
3. 完善细胞类型注释完善细胞类型注释
多组学的数据中,一种组学数据的细胞簇也可以通过另一种数据进一步确认身份。例如,在上述对小鼠皮肤进行利用SHARE-seq研究中,根据谱系决定因子的活性对聚类进行了注释,以及它们与TF RNA表达水平的相关性,揭示了转录激活因子Dlx3和Sox9以及阻遏物Zeb1和Sox5。
4. 准确的推定靶基因注释
由于复杂的调控网络,对靶基因的注释仍然是一个挑战。例如,顺式调控元件(CRE)对基因的调节可以是一对一、一对多和多对一,每个目标的CRE在不同的细胞类型中有所不同。此外,CREs的假定靶标并不是绝对由它们之间的基因组距离决定的。使用多组学单细胞数据,CRE与基因的相互作用可以基于它们的共同可及性来推断,这可以进一步与基因表达重叠。Chao等利用其开发的scNMT-Seq的研究表明,单细胞多组学数据集将假定靶基因的预测精度提高了4-5倍。
5. 同时进行转录组调控动态分析
基于单细胞转录组和ATAC数据可以分别研究基因转录和调控元件的动态变化。但是单一组学无法将两者的变化联系起来。单细胞多组学方法可以同时对染色质可及性和表达的动态时间顺序进行研究。例如,利用SNARE-seq对小鼠新生大脑皮层的研究中,103个差异可及性位点位于启动子区,这些基因中的大多数在启动子可及性和表达水平上呈现相似的方向变化。例如,编码维持神经前体细胞所需转录因子的Sox6和编码膜蛋白的Mlc1显示出随着神经元分化而下降,而编码参与选择性剪接的RNA结合蛋白的Khdrbs2 (SLM1)及其调节靶点Nrxn1 显示了沿着神经发生类似的方向上升。
五、单细胞ATAC+基因表达可以应用在哪些方面
目前,同时进行单细胞转录组和ATAC测序的单细胞多组学研究已经为器官发育、疾病和癌症发生机制研究提供了深入的见解。
单细胞转录组和ATAC联合分析经典案例,见下表:
案例1:单细胞分辨率下发育中的人大脑皮层的染色质和基因调控
大脑皮层发育的遗传扰动会导致神经发育疾病。为了绘制人类皮质生成的基因调控逻辑,2021年1月斯坦福大学等单位从妊娠中期8周的人类胎儿皮质样本中产生了独立和联合的单细胞基因表达和染色质可及性的单细胞图谱,揭示了关键转录因子在几乎连续的分化轨迹中对谷氨酸能神经元的基因调控波,区分了神经胶质谱系的表达程序,并鉴定了谱系决定的TFs,其在链接的一般调节元件和表达水平之间表现出强相关性。这些高度连接的基因在早期分化细胞中采用了活跃的染色质状态,与谱系承诺一致。碱基对分辨率神经网络模型在一组自闭症谱系障碍受试者中发现了强细胞类型特异性富集的非编码突变,这些突变被预测为具有破坏性,并发现了经常被破坏的TF结合位点。
案例2:单细胞多组学揭示eDNA中枢驱动分子间协同癌基因表达
染色体外DNA(ecDNAs)在人类癌症中普遍存在,通过增加拷贝数和改变基因调控介导癌基因的高表达。2020年11月,美国斯坦福大学医学院等单位利用单分子测序、单细胞多组学和3D增强子连接体揭示了缺少增强子的MYC-PVT1 ecDNA的亚种,这些增强子在ecDNA中枢中参与分子间和异位增强子-启动子的相互作用。通过10x Genomics单细胞多组学ATAC+基因表达方法从总共72,049个细胞中获得了配对的转录组和染色质可及性谱。单细胞ATAC-seq或单细胞RNA-seq数据的UMAPs显示了COLO320-DM和COLO320-HSR细胞系的独立聚类。通过整合了每个细胞的转录组和染色质可及性谱检索染色质可及性如何与基因表达相关。MYC的可及性分数随着RNA表达的增加而增加。相对于染色体HSRMYC扩增的COLO320-HSR群体,在ecDNA MYC扩增的COLO320-DM细胞群体中,RNA表达以及MYC的可及性评分是高度异质性的。这些观察表明,调控元件的可变活性可以解释细胞间致癌基因表达的差异。
案例3:单细胞多组学揭示高可塑性和干细胞样母细胞与KMT2A重排白血病的不良预后相关
小儿急性淋巴细胞白血病是一种毁灭性的恶性肿瘤,由约70%的患者的KMT2A基因(KMT2A-r)重排引起。2020年12月,费城儿童医院等单位利用scRNA-Seq、scATAC-Seq和单细胞全长转录组等技术对不同年龄患者的KMT2A-r白血病和正常造血细胞进行研究,发现与年龄较大的婴儿相比,6个月以下婴儿的白血病细胞具有显著增加的谱系可塑性,并且包含造血干细胞和祖细胞样群体;在年轻患者的HSPC样母细胞和细胞毒性淋巴细胞之间发现了免疫抑制信号通路;在B-ALL的初始诊断中,预先存在的淋巴髓系祖细胞和髓系母细胞。
案例4:单细胞多组学揭示了COVID-19中天然免疫和造血的广泛失调
对SARS-CoV-2(导致2019年冠状病毒疾病的病毒)的保护性免疫反应和病理免疫反应的理解受到了疾病严重程度谱极端患者特征描述不足的限制。2020年12月,斯坦福大学医学院等单位对64例COVID-19患者进行了单细胞转录、表观基因组和蛋白质组学分析揭示了严重和致命的COVID-19中外周固有免疫的广泛功能障碍,其中最严重的障碍包括显著的中性粒细胞过度激活特征和具有抗炎特征的单核细胞。该研究进一步证明紧急骨髓生成是致命COVID-19的一个突出特征。
参考文献:
1. Wissink Erin M,VihervaaraAnniina,Tippens Nathaniel D et al. Nascent RNA analyses: tracking transcriptionand its regulation.[J] .Nat Rev Genet, 2019, 20: 705-723.
2. Stuart Tim,ButlerAndrew,Hoffman Paul et al. Comprehensive Integration of Single-Cell Data.[J].Cell, 2019, 177: 1888-1902.e21.
3. Xing Qiao Rui,Cipta NadiaOmega,Hamashima Kiyofumi et al. Unraveling Heterogeneity in Transcriptome andIts Regulation Through Single-Cell Multi-Omics Technologies.[J] .Front Genet,2020, 11: 662.
4. Ma Sai,Zhang Bing,LaFaveLindsay M et al. Chromatin Potential Identified by Shared Single-Cell Profilingof RNA and Chromatin.[J] .Cell, 2020, 183: 1103-1116.e20.
5. Chen Song,Lake Blue B,ZhangKun,High-throughput sequencing of the transcriptome and chromatin accessibilityin the same cell.[J] .Nat Biotechnol, 2019, 37: 1452-1457.
6. Alexandro E. Trevino, Fabian Müller, Jimena Andersen et al.Chromatin and gene-regulatory dynamics of the developing human cerebral cortexat single-cell resolution.[J].bioRxiv 2020.12.29.424636.
7. King L. Hung, Kathryn E. Yost,Liangqi Xie, et al. EcDNA hubs drive cooperative intermolecular oncogeneexpression.[J].bioRxiv, 2020.11.19.390278.
8. Changya Chen, Wenbao Yu,Fatemeh Alikarami, Qi Qiu et al. Single-cell multi-omics reveals elevatedplasticity and stem-cell-like blasts relevant to the poor prognosis ofKMT2A-rearranged leukemia.[J].bioRxiv 2020.12.06.413930.
9. Aaron J. Wilk, Madeline J. Lee,Bei Wei et al. Multi-omic profiling reveals widespread dysregulation of innateimmunity and hematopoiesis in COVID-19.[J].bioRxiv 2020.12.18.423363.