Cell | 人类基因组中染色质可及性的单细胞图谱
原创 huacishu 图灵基因 今天
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=41.581
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者展示的单细胞数据资源规模庞大,整合了来自成人/胎儿人体组织的超过130万个单细胞染色质图谱,对人类发育的不同阶段进行了较为全面的组织分析,为更好地理解人类发育中罕见和常见疾病提供信息资源,同时也可为寻找具有细胞类型特异性的致病基因提供支持;
2、后续研究团队计划建立体外模型用于验证顺式作用元件在不同条件的生物活性,进一步揭示其在转录调控以及疾病发生发展中的重要作用。
美国加州大学圣地亚哥分校任兵教授课题组在国际知名期刊Cell在线发表题为“A single-cell atlas of chromatin accessibility in the human genome”的论文。目前人类基因组中的调控序列目录仍然不完整,分析人体不同细胞类型和组织中基因调控元件的活性具有重要意义。该研究对来自多个供体的30种成人组织类型应用了单细胞染色质可及性分析。将这些数据集与来自15种胎儿组织类型的先前单细胞染色质可及性数据相结合,揭示了在222个不同的细胞类型中约120万候选顺式调节元件(CCRE)的开放染色质状态。使用这些染色质可及性图谱来描绘胎儿和成人CCRE的细胞类型特异性,并系统地解释与复杂人类特征和疾病相关的非编码变体。这种丰富的资源为分析组织、生命阶段和器官系统中的人类细胞类型的基因调控程序提供了基础。
为了生成成人体内cCREs的细胞图谱,对从死后成人供体30个不同解剖部位采集的原始组织样本进行了sci ATAC-seq(图1A)。在筛选出低质量的细胞核后,最终获得了615998个细胞核的高质量开放染色质图谱,每个细胞核的平均转录起始位点(TSS)富集分数为12.8(±3.2)(图1B)。分析大型单细胞染色质可及性数据集一直是一个挑战。在SnapATAC的最新开发中,作者进一步改进了其可扩展性以处理数百万个单元。使用该算法,首先确定了30个主要细胞组(图1B),其中22个(73%)在第二轮聚类分析中被发现由多个子聚类组成。总共发现了111个不同的细胞簇(图1B-1E)。为了对产生的细胞簇进行注释,首先从PanglaoDB标记基因数据库中整理出一组与预期人类细胞类型相对应的标记基因。利用启动子处的染色质可及性作为基因活性的代理,并计算111个簇中每个簇的细胞类型富集分数,以创建初始细胞簇注释。接下来,基于对标记基因可及性的重点考虑,手动回顾了这些分配。总之,用细胞类型标签对30个主要细胞组和所有111个不同的簇进行了注释(图1E)。例如,在胃肠道上皮细胞的主要细胞群中,更高分辨率的亚聚类和注释显示了三簇结肠上皮细胞,一簇来自小肠的肠上皮细胞,两簇分别来自结肠和小肠的杯状细胞,以及三个具有不同染色质可及性特征的罕见群体,包括肠嗜铬细胞(占总细胞核的0.060%)、簇状细胞(占总细胞核的0.050%)和Paneth细胞(占总细胞核的0.045%)(图1B和1C)。令人鼓舞的是,在大多数组织样本中检测到的几种常见细胞类型,如内皮细胞和髓样细胞,根据细胞类型而不是来源组织或个体进行聚类(图1E)。另一方面,存在于组织中的成纤维细胞聚集成七个亚型,每个亚型具有不同的起源组织(图1E)。值得注意的是,111种细胞类型中的大多数表现出高度的组织特异性。例如,高度特化的细胞类型,如滤泡细胞、肺细胞和肝细胞,仅限于一种组织类型,反映其组织特异性功能(图1E)。最后,观察到sci ATAC-seq鉴定的细胞类型与相应组织的单细胞RNA测序(RNA-seq)实验鉴定的细胞类型高度一致。
为了确定111种细胞类型中每种细胞的可访问染色质区域,作者聚集了组成每个细胞簇的所有细胞核的染色质可访问性图谱,并应用了针对单细胞数据优化的峰值调用程序。然后,合并这些可访问的染色质区域,获得890130个非重叠CCRE的列表(图2A)。为了评估这些CCRE的潜在功能,接下来将其与转基因报告验证的哺乳动物增强子目录进行比较,发现验证的组织特异性增强子在包含相应组织中确定的大部分细胞核的细胞类型中表现出更高的染色质可及性(图2B)。例如,经验证的心脏增强子显示,与其他细胞相比,心房肌细胞和心室肌细胞的平均染色质可及性更高类型(图2B),表明细胞类型特异性染色质可及性和组织特异性增强子活性之间存在良好的相关性。当前目录中的大多数CCRE(80.94%)与注释TSS的距离超过2000 bp。直接位于TSS上方或启动子区域附近的CCRE显示出较高的序列保守性和染色质可及性(图2C和2D)。相比之下,基因远端CCRE的可及性较低,并且相对于其可及性表现出较大的差异(图2D),这表明存在高度可及启动子近端CCRE的共享程序以及跨细胞类型和物种的基因远端CCRE的可变程序。为了进一步剖析细胞类型特异性染色质特征和调控程序,应用基于熵的策略揭示了435142个CCRE,这些CCRE在一种或几种细胞类型中显示出有限的可访问性(图2E)。接下来,对细胞类型受限的CCRE进行了大量的本体富集分析和基序富集分析,以揭示假定的生物过程和每种细胞类型的TF,这在很大程度上与预期的细胞类型特定功能相关。例如,局限于肝细胞的CCRE产生了类固醇代谢过程(图2F),并富集了肝细胞核因子TF家族成员HNF1A/B、HNF4A/G和ONECUT1/2的结合位点(图2G)。
为了比较两个染色质可及性图谱中222个胎儿和成人细胞类型,利用SnapATAC,然后进行批量校正,以获得胎儿和成人组织中1323041个细胞核的低维数据(图3A和3B)。接下来,进行了系统发育分析,根据低维空间中定义的距离将胎儿和成人细胞类型分为不同的组。一般来说,属于不同谱系的细胞类型分为独立的组,并含有特定的cCREs,这些cCREs因先前所描述的谱系特异性TF基序而富集。为了更系统地量化成人和胎儿细胞类型之间染色质可及性的差异,比较了每对胎儿和成人细胞类型的1154611个CCRE列表中的标准化可及性(图3C,3D)。结果发现,与其他细胞类型(如神经元、胶质细胞和骨骼肌细胞)相比,胎儿细胞类型(如免疫细胞和内皮细胞)与其成年对应细胞的相关性相对较高(图3D),这与系统发育分析结果相一致。总之,这些分析表明,cCREs重塑以实现发育阶段特定功能的程度在人类细胞类型之间差异很大。
为了揭示可能是胎儿或成人特异性调节程序基础的特定因素,作者计算了包含相应成人和胎儿细胞类型的主要细胞组的生命阶段特异性CCRE(图4A)。这些元素的特征揭示了生命阶段特定监管计划(图4B和4C)。例如,骨骼肌细胞在出生前和出生后的发育过程中发生了实质性的分化,并且与大多数其他主要细胞类型相比,在生命阶段之间表现出较低的整体相似性(图3C和3D)。总共确定了72648个胎儿和成人之间的差异可及性CCRE骨骼肌细胞(图4D)。胎儿心肌细胞中的DA cCREs与胚胎发育和创伤反应等生物学过程相关,并富含协调正常肌生成的肌源性调节TF(MRF)基序(图4E和4F),突出了这些元素在调节胎儿心肌细胞肌源性特性中的作用。另一方面,成年骨骼肌细胞DA cCREs与肌肉对收缩活动的适应以及胰岛素和类固醇激素反应相关的生物学过程相关,并且富含MEF家族成员和AP-1复合物成员,包括FOSL1(图4D和4E),提示这些元素在调节成年骨骼肌对激素暴露的转录反应中的作用。根据这些结果和人类寿命中肌球蛋白亚型表达的既定模式,在编码产前心肌细胞标记基因的位点上发现了DA cCREs,包括MYH3和MYH8,分别是胚胎和新生儿肌球蛋白的重链,以及I型(慢)和II型(快)标记的成人心肌细胞,分别包括MYH6/MYH7和MYH1/MYH2(图4F)。综上所述,这些发现分别揭示了胎儿和成人骨骼肌细胞增殖能力和成熟功能的调节因素,并强调该数据集以及在生命周期不同时间点收集的人类细胞图谱的价值,以确定细胞类型分辨率的生命阶段特异性基因调控程序。
为了描述胎儿和成人细胞类型中cCREs的细胞类型特异性,根据其在222种细胞类型中的标准化可及性,将1154611个cCREs组织成150个簇,称为顺式调节模块(CRM)。尽管有几个CRM在所有细胞类型中显示出共享的可访问性模式,但大多数CRM仅限于单个胎儿或成人细胞类型或反映共享细胞谱系的细胞类型组(图5A)。为了注释CRM的功能,应用了大量的本体丰富分析。大体上,在特定胎儿和成人细胞类型中显示优先可及性的CRM丰富了与细胞类型和生命阶段特定细胞过程相关的生物学过程(图5B和5C)。为了确定这些标准物质的序列特征,接下来测量了150个标准物质中1565个人类TF基序的富集程度,以揭示胎儿和成人细胞类型的假定主调节因子。该分析揭示了胎儿和成人细胞以及谱系特异性TF基序的目录。例如,通过富集TBR、EOMES和TBX TF家族基序(图5B-5D),可区分成人CD8+T细胞和自然杀伤T细胞中具有强可接近性的模块;通过富集EBF家族TF基序,可区分B细胞中具有强可接近性的模块,成年肥大细胞中可接近性强的模块通过GATA家族成员基序富集来区分(图5B-5D)。此外,在所有已鉴定的细胞类型中具有最强可接近性的模块的特征是SP1基序的富集,这与SP1作为普遍表达的管家基因的调节因子的原始描述一致。除了这些特征明确的关联外,还报告了以前未定义的TF与人类细胞类型的关联,这些细胞类型在其体内组织环境中具有挑战性:例如,ESRR和FOX TF家族的基序最好在胎儿和成人胃上皮细胞中可访问的模块中富集,FOS和JUN家族的基序分别富集在胎儿和成人肾上腺皮质细胞中可获得的模块中(图5A)。
接下来,作者试图利用120万细胞类型分辨cCREs来解释与复杂性状和多基因疾病表型相关的遗传变异。作者下载了NHGRIEBI GWAS目录,并保留了1123个功能良好的GWAS,其中包含10个或更多重要SNP和20000多个病例。然后,使用超几何测试来测量从222个胎儿和成人细胞类型中鉴定的CCRE特征相关变异体的富集程度。发现450个性状/疾病的GWAS变体在至少一种细胞类型的cCREs中富集。此外,对于160个额外的性状,能够识别先前分析中未检测到的富集,突出了细胞类型分辨cCREs图谱的附加值。该分析揭示了胎儿和成人细胞类型与人类特征和疾病表型之间总共3220个显著关联(图6)。这些富集显示了许多预期的细胞类型疾病表型关系,例如,湿疹风险变体在成人T淋巴细胞CCRE中强烈富集,心房颤动风险变体在成人和胎儿心房和心室心肌细胞CCRE中强烈富集,促甲状腺激素变体在卵泡细胞CCRE中富集(图6)。有趣的是,作者检测到成人和胎儿成纤维细胞亚型中疾病和性状相关非编码变异的富集程度存在显著差异。这包括胎儿成纤维细胞中与出生体重相关的变异体显著增加,而成人成纤维细胞中没有。此外,检测到成人成纤维细胞亚型中疾病和性状变异的富集程度存在差异,除了在一组核心成纤维细胞CCRE处可比较的染色质可及性外,每个亚型都显示出独特的调节元件。
根据上述分析,许多在cCREs中富集的非编码基因变体被假设通过破坏TF与顺式调节元件的结合来改变疾病相关基因的表达。为了解释与复杂性状相关的特定遗传变异的分子机制,首先应用接触活性(ABC)模型,使用先前发布的15个成人组织的启动子捕获Hi-C数据,将111种成人细胞类型中鉴定的CCRE与其靶基因相联系。总的来说,作者在111种成人细胞类型(图7A和7B)中检测到3096种可能的因果变异,其中2096种通过ABC模型与假定的靶基因相关(图7A)。应用最近开发的94个TF的deltaSVM模型来识别可能破坏这些调节器结合的变体。该分析揭示了527个TF结合位点,预测可能的因果变异会显著改变(图7A)。这些列表的交叉点优先考虑了361个可能的原因变体,这些变体(1)位于人类细胞类型cCRE内,(2)显著改变了TF结合,(3)与一个或多个靶基因相关(图7A和7B)。例如,溃疡性结肠炎(rs16940186)的一种可能的致病变异体存在于仅限于胃肠道上皮细胞的基因间cCRE中,特别是结肠上皮细胞、肠上皮细胞和杯状细胞(图7C)。据预测,含有rs16940186的cCRE与IRF8的TSS接触(ABC评分>0.015),IRF8编码一种参与调节免疫细胞成熟和调节胃上皮细胞固有免疫的TF。rs16940186风险等位基因是与人类结肠组织中IRF8表达增加相关的eQTL,与这些发现一致,deltaSVM模型预测该风险等位基因为激活TFs的ETS家族创建结合位点(图7C),它们在肠上皮中表达,被认为可以调节肠上皮的成熟。骨关节炎的另一个优先可能原因风险变异体(rs75621460)位于cCRE内,预测其靶向免疫抑制细胞因子基因TGFB1,并破坏锌指TF ERG1的结合位点(图7D)。
详细了解控制人体基因表达的调控程序对于理解人类发育和疾病发病机制具有重要意义。在这里,作者使用单细胞ATAC-seq分析了代表广泛人类器官系统的30个成人组织中615998细胞的染色质可及性,并将该数据集与来自人类胎儿组织的单细胞染色质可及性数据进行了整合。绘制了222个胎儿和成人细胞类型的120万CCRE的活性状态图,填补了人类基因组候选调控元件注释中细胞类型分辨率的关键缺口。这项工作强调了整合来自多个来源和时间点的人类sci ATAC-seq数据集的价值,并在未来将这些数据与新的人类单细胞数据集整合在一起,这将有助于全面了解人类细胞在整个生命周期中的基因调控特征。
教授介绍
任兵教授就职于美国加州大学圣地亚哥分校,研究领域是采取系统生物学的方法,努力理解负责制造各种细胞类型的转录调控程序。任兵教授已经开发了一系列高通量方法和计算算法,用于全面绘制哺乳动物基因组中的转录调控序列和转录因子结合。利用这些工具,现在正在研究人类胚胎干细胞中的基因调控网络,以了解控制这些多能干细胞自我更新和分化的过程。例如,任兵教授已经绘制了人类胚胎干细胞和几种终末分化细胞中的活性启动子、增强子和绝缘体元件。通过对序列的分析,发现增强子是促进细胞类型特异性基因表达的主要驱动力。
参考文献
Cusanovich DA, Hill AJ, Aghamirzaie D, et al. A Single-Cell Atlas of InVivo Mammalian Chromatin Accessibility. Cell. 2018;174(5):1309-1324.e18.doi:10.1016/j.cell.2018.06.052