A cis-regulatory atlas in maize at single-cell resolution
关键词:chromatin;single-cell;epigenomics;maize;gene regulation;ATAC-seq;plant development;pseudotime;transcription factor;cis-regulatory elements
原文链接:https://www.sciencedirect.com/science/article/pii/S0092867421004931
背景:
- 什么是顺式作用元件(cis-regulatory elements, CREs):
一段与结构基因串联的非编码DNA序列,一般位于转录点上游,作用是调节邻近基因的转录。CREs是遗传调控网络的重要组成部分,进而控制形态发生、解剖学的发展以及胚胎发育的其他方面。 - CREs、TF与染色质可及性之间的关系:
(1) CRE 活性受核小体占有率的影响;大多数 TF 需要核小体耗尽的可接近染色质来结合其靶序列;
(2) 转录结果由核心启动子与特定 TF 在 CREs上 组装的二级蛋白之间的相互作用决定;
(3) 不同的 TF 表达和染色质可及性模式建立了细胞类型特异性的基因表达调控模式。
因此,不同细胞类型中 CREs 和 TF 的详细图谱对于了解细胞功能和个体发育具有重要价值。 - 植物学领域TF和CREs研究的局限性:
(1) 细胞壁施加的技术限制
(2)无法培养细胞系
植物中单个细胞的表观组学分析仅局限于拟南芥根部的研究。(Dorrity et al., 2020; Farmer et al., 2020). - CREs的遗传变异可能是新表型产生的主要来源,能够为现在育种提供重要参考。
在这篇文章中,作者通过scATAC-seq分析,绘制了遗传模型和作物物种玉米的单细胞分辨率的Cis调节图谱,分析了6个玉米组织中92种单细胞染色质可及性模式,揭示了协调染色质相互作用的 TF和非细胞自主活性TF,并比较了玉米与拟南芥发育过程中顺式调控动力学的演变。
主要结果
一、 玉米中Cis调控图谱的组装
作者使用包括腋芽、雄蕊、雌花序、幼苗、胚根尖和胚后冠根在内的6个主要器官,进行流式分选单细胞,提取细胞核之后进行scATAC-seq生成了单细胞染色质可及性图谱。总共包括56575个细胞核,31660个Tn5整合位点,产生了165913个ACR(accessible chromatin regions)。通过与Bulk ATAC-seq数据比较、转录起始位点富集、片段大小分布和基因分型混合,反映了高质量的scATAC-seq数据。因为大多数 scATAC-seq 分析工具都是针对人类和小鼠基因组量身定制的,所以作者开发了一种灵活的、基于物种未知模型的方法,利用准二项式逻辑回归框架将不需要的技术变异来源删除的R 包,Socrates 。
二、 细胞类型注释和原位杂交
为了识别和注释每个簇代表的细胞类型,作者进行了广泛的文献调研,手动确定了221个标记基因,同时也评估了Clusters之间的差异染色质可及性。已知markergene与背景基因组相比具有显著的细胞类型特异性,图1 E展示了6种不同细胞类型相关的Marker gene的细胞类型特异性的染色质可及性。 图1 F中展示了花原基、木质部前体、L1表皮细胞中已知标记基因周围的簇特异性染色质可及性。
为了证实预测的细胞类型注释,我们对一部分差异可及的基因进行了 RNA原位杂交,没有细胞类型特异性的先前证据。在所有情况下(五分之五),原位表达模式与基于基因可及性的预测定位相匹配。
三、单核染色质可及性和基因表达的整合
为了评估核转录和染色质可及性之间的关系,作者对15515个玉米幼苗核的进行了scRNA-seq并与scATAC-seq幼苗数据进行整合。 scATAC-seq (n = 11,882) 和 snRNA-seq (n = 15,515) 揭示了 19 个具有相似全基因组图谱的簇(图 2 B 和 2C)。基因变异性的比较突出了染色质可及性和跨簇核转录的一致模式,例如具有公认细胞类型特异性的标记基因(图 2D, E)。这些分析表明,染色质可及性相对于RNA表达的变化更大,说明染色质结构能为剖析细胞类型异质性提供额外的信息(图2 G)。
尽管基因可访问性和表达之间存在关联,但作者观察到一部分可访问基因缺乏转录证据(图2H),而无可及性基因几乎完全与DNA甲基化相关。而另外对于染色质可及/沉默基因中ACR的基序分析,富集到了CNN重复序列,CNN重复基序与BPC1基因识别的序列之间存在显著的重叠,在拟南芥中,BPC1转录因子家族与使用PREs(多梳响应元件)和甲基化进行基因沉默相关。表明某些PRC(多梳抑制复合物)的基因沉默活动需要具有可及性的PREs(响应元件)。
四、CRE的基因组特征
为了探索定义细胞身份的 CRE,我们对具有跨细胞类型的染色质可及性的离散模式的 ACR 进行了分类,确定了总共 52,520 个 ACR(31%)。首先通过分析ACR两侧 2-kb 区域的相对DNA甲基化水平(图 3A),发现ACR 相对于周围区域显着低甲基化。通过自转录活性调节区测序发现,相对于对照和非特异性 ACR,簇特异性 ACR 与显著更强的增强子活性相关(图 3B)。 ACR与基因距离的分布图显示(图 3C),大量的ACR位于基因远端,并且远端ACR与LTR(长末端重复)反转录转座子存在大量重叠。同时与不可及的LTR相比,与ACR一致的LTR展示出了显著降低的DNA甲基化水平和更早的插入时间,并且也具有更高的细胞类型特异性(图 D,E,F)。因此提示我们,LTR在玉米调控景观中发挥了重要的进化作用。
为了查询表型变异和细胞类型特异性之间的关系,我们量化了 ACR 中现存的遗传变异。与非特异性 ACR 相比,细胞类型特异性 ACR 的多态性密度较低(图 3 G),然而,嵌入在细胞类型特异性 ACR 中的遗传变异更常与全基因组关联研究确定的表型变异相关(图 3 H),因此,细胞类型特异性 CRE 的遗传扰动可能占表型变异的很大一部分。
五、TF活性的变化定义了不同的细胞身份
为了建立不同细胞的 TF 特征,我们鉴定了玉米基因组中的 TF 基序。相对于对照(n = 165,913)和侧翼区域(图4A),ACR 富含 TF 基序。TF 基序在 ACR 峰内被强烈耗尽,与 TF 结合序列阻断 Tn5 整合一致(图 4A )。为了定义每种细胞类型的 TF组合,我们评估了每种细胞类型的前 2,000 个差异 ACR 中 TF 基序的相对富集。每种细胞类型富集了约 43 个 TF 基序组合。我们假设 TF 基序和同源 TF 基因的染色质可及性状态可用于阐明控制细胞状态的调控规则。将 TF 基因可及性与其序列特异性结合位点的全局富集进行比较,揭示了跨细胞类型和单个细胞核的惊人相似的模式,反映了假定活性 TF 的多样化组合景观。对富集 TF 及其同源基序的评估确定了已知的细胞特性调节因子,包括根表皮祖细胞和毛细胞中的WRKY家族 TF、实质叶肉中的G2 - like1和AGAMOUS -like和花原基中的SEPALLATA TFs ,以及以前未被认识到的细胞类型调节剂作用的 TFs。
六、可共同访问的ACR反映了体内染色质的相互作用
scATAC-seq另一个重要应用是可以用来预测染色质结构。作者利用scATAC-seq数据计算了380万个邻近ACRs的可及性相关模式,即共可及性ACRs(与基因共表达相类似的概念),例如图A中展示了tb1基因附近在不同细胞类型中存在的共可及性ACRs。为了评估共可及性ACRs和体内相互作用的一致性,作者将幼苗时期的共可及性ACRs与同时期Hi-C数据进行了比较,发现在包括种子,穗等组织中,共可及性ACR附近有着很强的Hi-C信号,说明共可及性ACR可以用来很好的代表染色质环。
此外作者假设与H3K4me3和H3K27me3-HiChip染色质环一致的共可及性ACR可能与不同的转录结果相关。因此,他们比较分析了与这两种染色质环相关的基因之间的RNA表达水平,发现尽管ACR的覆盖率相似,但与H3K27me3共可及性ACR相关基因的表达表达显著降低,这与两侧为H3K27me3的基因远端的CRE的沉默功能一致(CRE通常为沉默子)。
七、动态染色质可及性是发育轨迹的基础
在这部分中,作者着重分析与发育轨迹调控相关的动态染色质可及性变化。玉米顶端区域包围着一组未分化的分生细胞,这些细胞到分化细胞是一个连续的发育过程。首先他们沿着伪时间轨迹的对18个发育连续体进行了排序,然后再分析每个伪时间轨迹上显著变化的ACR、TF基因座和TF基序。图B中以根韧皮部伴随细胞 (PCC) 的发育轨迹,展示了他们的分析过程。他们鉴定了与PCC发育相关的440个TF基序,402个TF位点和8004个ACR,其中包括了几个已知的分生组织和韧皮部发育相关基因,例如ARID8,ZmSMXL3,SUT1等等。
八、根系发育的进化
为了探索根发育过程中的调控保守程度,我们分析了来自 7 天的拟南芥根组织的 4,655 个细胞核的染色质可及性,将单核染色质图谱与已发表的拟南芥根单细胞 RNA-seq整合在一起。并构建了 8 条顺式调节伪时间发育轨迹。为了进行比较分析,他们对拟南芥的PCC进行了类似于玉米的分析,例如图B中展示的与PCC发育相关的440个TF基序,265TF位点和3989个ACR,图D,E展示几个Marker基因表达和染色质可及性情况,验证了数据分析的可靠性。
通过对比玉米和拟南芥的PCC发育过程,作者发现在这两个物种中,10,976 个推定的直系同源基因中只有 206 个与 PCC 假时间相关(FDR < 0.01),表明大多数 PCC 轨迹相关基因是谱系特异性的。通过动态时间扭曲算法来对齐这206个与PCC发育轨迹相关的直系同源基因后,进行聚类分析发现,约50%(102/206)在伪时间中表现出相似的可及性变化模式,而剩余的直系同源基因则分别在两个物种中发生了不同程度的偏移(图F,G)。图H中分别展示了保守的直系同源基因,在玉米中提前开放的基因以及在拟南芥中提前开放的基因,这些结果反映了玉米和拟南芥的PCC发育过程中调控功能的进化和新颖性。
讨论
- 文章通过对6个玉米器官的92种单细胞染色质可及性模式分析,绘制了顺式作用元件(CRE)编码时空基因表达程序的基因组蓝图。
- 通过分析TF组合和TF活性和结合,揭示了大量与细胞身份建立相关的顺式和反式调节因子。
- 发现细胞类型特异性 CRE 在增强子活性和未甲基化的长末端重复反转录转座子内富集,还是表型相关遗传变异的热点,并且在现代玉米育种中被选择,突出了CRE图谱的生物学意义。
- 此外,还通过比较玉米和拟南芥的发育轨迹,确定了具有保守和发散染色质动力学的TF和CRE,展示了基因调控网络的广泛进化。
- 除了这个丰富的数据集,作者还开发了单细胞分析软件Socrates,可用于了解任何物种的顺式调节变异。