文献翻译:CoBATCH 一个基于单细胞的ChIP-seq技术
> SUMMARY
缺乏一种有效的,可推广的全基因组方法单细胞组蛋白修饰或染色质结合蛋白的定位方法。在这里,我们开发CoBATCH,组合条形码和目标染色质剪切,用于捕获单细胞全基因组的蛋白结合区域. 融合到Tn5转座酶的ProteinA通过特异性抗体富集到基因组区域,Tn5产生片段加上index,准备进行文库制备和测序。 重要的是,这种方法不仅能在完整的组织中实现低细胞量的表观基因组图谱,而且还能在自然条件和交联条件下,对数万个单细胞的实验. CoBATCH在极低细胞量情况,每个细胞可以测到12000 条reads. 通过CoBATCH,对10个小鼠胚胎器官的内皮细胞谱系进行定位,可以有效地破译细胞群的表观遗传异质性和顺式调控机制。 因此,不依赖专门的设备,CoBATCH可以广泛适用于单细胞水平蛋白质- dna相互作用.
> INTRODUCTION
单细胞测序技术目前被广泛用于研究发育与疾病相关细胞群体异质性和绘制细胞图谱。随着技术的发展,这项技术正逐渐将生命科学研究推进到新的维度。在单细胞表观组领域,虽然DNA甲基化测序、染色质构象捕获技术、染色质开放程度测序已经分别在2013年 (scRRBS)、2013年 (single cell Hi-C)、2015年 (scATAC-seq)实现了单细胞水平测序。研究基因表达调控与细胞命运决定的机制,最直接的证据是特定染色质区域与蛋白的相互作用,然而,高效的单细胞染色质免疫共沉淀测序(scChIP-seq)技术尚未出现。
蛋白质和DNA相互作用的染色质免疫共沉淀技术(ChIP-seq)技术是研究表观遗传调控的一种重要手段,常规ChIP-seq技术需要使用超声打断交联的基因组片段,然后用特异性抗体富集含有目的蛋白结合的基因组片段,并将目的DNA片段纯化后,进行建库测序。这一系列操作使得ChIP-seq需要百万个细胞作为起始材料。为减少ChIP-seq技术对细胞数目的要求,近年来,一些适用于少量细胞起始的ChIP-seq技术被逐渐开发出来,包括MOWChIP,STAR-ChIP和ULI-NChIP等。虽然Drop-ChIP第一次实现了单细胞水平ChIP-seq,然而这一技术依赖特殊的微流控装置,并且每个细胞只能捕获到约800个DNA片段,这极大地限制了这项技术的推广应用。随后开发的scChIC-seq虽然实现了单细胞水平的解析,但是获得的单细胞数据的基因组比对率只有约6.1 %,大大增加了测序成本,且通量较低。另外,Cut&Tag需要依赖Takara ICELL8这一特殊装置。综上,目前还缺乏一种具有普适性,易操作,高质量的单细胞ChIP-seq技术。
本文报道了一种新的具有普适性、易操作、高通量和高质量的单细胞ChIP-seq技术,将单细胞表观组学新技术的研究、普及和应用往前推进了一大步。研究者把这一新型单细胞技术命名为CoBATCH(combinatorial barcoding and targeted chromatinrelease)。这一单细胞技术不仅适用于各种组蛋白修饰,同时也能捕获DNA结合蛋白质在基因组上的结合信息。利用这一单细胞技术,研究者首次解析了小鼠胚胎10个不同器官(心脏、肝脏、肺、左脑、右脑、后脑、肾脏、皮肤、肌肉和小肠)的内皮细胞谱系发育、分化和功能的异质性。
> RESULTS
研究人员首先开发了一种新的适用于少量起始细胞的技术,并命名为in situ ChIP(即不需要消化分离细胞组织)。在这一技术中 ,作者将Protein A蛋白与转座酶Tn5的N端进行融合得到融合蛋白Protein A-Tn5 (PAT)。将目的细胞与特定抗体孵育之后,向细胞中加入PAT融合蛋白并与特定的抗体结合。之后,激活PAT的反应活性,被抗体识别的特定基因组区域能被PAT切割,并带上接头序列。终止反应后,带上接头的目的DNA片段能直接用于PCR和建库 . 我们获得了高质量的ChIP-seq结果,最低100细胞就可以进行(通过和ENCODE bulk IGV track 比较).
值得注意的是,由于低噪音,在非重复read 达到5M 时候,,与重复及其公共数据的peak交集比率就很高。作者发现CoBATHC方法,不仅在激活marker 与ATAC-seq 重叠比例高,而且对于抑制marker 也有很好的效果。实验进一步证实在low-input 时候,表现也很出色.
接下来,我们测试了原位 ChIP方法是否可以直接应用于细胞稀少的组织. 为此,我们进行了剖析
H3K4me3和H3K27ac在发育中的小鼠胚胎中的分布,揭示了从E6.5到E7.75的表观基因组动态变化。 E6.5 (660 cells), E7.0(4,500 cells), E7.75 (15,000 cells ) ,全基因组尺度的散点图表明,在三个发育阶段,样品都具有很高的可重复性 。我们对于不同阶段的H3K27ac 信号进行GO富集分析发现,都和各自发育阶段密切相关( such as ‘‘formation of primary germ layer’’ and ‘‘gastrulation’’ in E6.5, ‘‘mesoderm development’’ in E7.0, and ‘‘mesoderm morphogenesis’’ and ‘‘S-shaped body morphogenesis’’ in E7.75 ). 我们的数据发现在 原肠胚形成过程中,识别出大量高度动态的增强子,为进一步分析功能顺式调控元件和在这个重编程过程中推断关键转录因子提供了资源(图1F)。
(A)说明low-input ChIP的主要步骤。蓝色棒棒糖代表染色质结合蛋白或组蛋白标记,如H3K27ac ,H3K4me3和H3K27me3。PAT表示蛋白A和Tn5融合蛋白。
(B)track 图显示H3K27ac和H3K4me3信号,在特定的位点展示三个时期细胞信号(E6.5、E7.0和E7.75)。
(C和D)散点图显示了H3K4me3 (C)和H3K27ac (D)信号的生物重复之间的相关性。
(E)(左)绘制了阶段特异性增强中心周围±1 kb区域的归一化H3K27ac信号。对每个阶段的两个数据进行合并,使用MACS2来call 全基因组的增强子peak,不包括基因近端启动子的区域。阶段特异性增强峰:只在每个stage 唯一出现的峰。(右)由GREAT(R包)确定的阶段特异性增强子相关的GO术语(生物过程),P值采用二项式检验计算。
(F) H3K27ac在原肠胚形成过程中的peak动态变化。红色柱状图(上)表示H3K27ac峰只出现在更加成熟的Stage,而紫色柱状图(下)表示H3K27ac峰只出现在更加年轻的Stage。
我们通过组合标引设计将该方法扩展到单个细胞的检测(CoBATCH)。 细胞和抗体进行反应后,一起分配到96孔板中,每一个孔200-2000细胞,每一个孔加入不同的T5/T7组合标签. 一起混合后,再分配到一个或者多个96 孔板中,每个孔20-25个细胞,每个孔含有不同的i5/i7 PCR index primers.
pilot 测试中,将等量的mouse ESC和human HEK293T 细胞进行混合, 假设每个条形码组合对应于一个小鼠或人类细胞,其reads应分别比对到到小鼠或人类基因组 .我们发现大约有7% 撞车发生(通过barcode 无法区分细胞的情况),说明绝大多数都可以正常de-barcode.
对于native 和fixed 实验方法,分别获取了2161和2388个单细胞结果,为了结果可靠,过滤掉那些细胞中reads 数目少于3000 的细胞,图中可以看到native 和fixed 情况,结果Spearman相关系数也很高.
图D 展示了特定区域bulk/agg sc/200 signal cell IGV 信号情况,可以看到单细胞信号很少出现在非peak区域. fixed 条件下每个细胞获得9247 个reads; native 条件下每个细胞获得12000个reads.
我们通过FRIP 结果也可以得到相同的结果.
(A) CoBATCH工作流程示意图
(B) 散点图显示每个独特的barcode组合的低撞车率 。小鼠ESCs与HEK293T细胞1:1混合。我们随机选择100个单细胞进行人鼠混合实验。
(C)使用来自小鼠ESCs中native 和fixed 两种条件下H3K27ac CoBATCH数据。统计peak 区域斯皮尔曼相关系数。
(D) IGV track展示来自特定位点的bulk ChIP和CoBATCH数据的H3K27ac信号。总共2,161个单细胞和200个单细胞track进行可视化。bulk的H3K27ac的ChIP数据来自于ENCODE
(E)在去除细胞中reads 数目低于3000个细胞后,小鼠ESCs中2161个单细胞的非重复reads的分布情况。红线表示2161个单细胞的平均非重复reads(每个细胞12,000 reads)
(F)以随机的reads分布为对照的,小鼠ESCs中H3K27ac CoBATCH数据FRiP的小提琴图。小提琴图中的方框表示上四分位数和下四分位数(第25和第75百分位数)
内皮细胞组成了哺乳动物体内的脉管系统,和血液循环、造血、免疫、压力感应以及器官形态建成等生命活动密切相关。研究者应用CoBATCH技术解析了小鼠胚胎期16.5天,来自10个器官的Cdh5+ 谱系的内皮细胞的H3K27ac水平的异质性 . 同时文献报道了很多不同组织的标记基因,比如Gata4 (心脏),Foxf1(肺)等等。通过层次聚类发现, limb muscle,skin, and small intestine 和其他组织不太一样, 有趣的是,虽然来自右脑和后脑的ECs按照预期聚集在一起,但来自左脑的ECs却出奇地远,而且与来自肝和肺的ECs表现出更高的相似性 .
为了评价10个器官的功能异质性,我们采用LSI方法(类似PCA)的降维方法降低矩阵维度。 最后得到单细胞的增强子热图(20112 H3K27ac peak;2,758 cell)
通过聚类产生了4个增强子cluster,3个细胞cluster,其中C3进一步细分为3个小簇(C3a、C3b和C3c),以更好地用 module-specific,enhancer-regulated 解释基因功能.
为了更好的描述不同增强子module 的功能,我们进行了de novo TF 富集,及其用GREAT进行GO富集。
聚类结果显示,由增强子module 4定义的C1与免疫应答和淋巴细胞激活相关,表明有些ECs已经拥有了不同器官的特异性的功能(图4 e),包括很多免疫相关的TF,比如FOS-JUN,IRF4等等. 也可以看到C3c 细胞簇,在module1-3很富集,但是module-4 不富集,说明这个细胞簇不太可能与免疫有关系.
为了更好的展示10个器官的enhancer 表观异质性,我们将所有的ECs细胞,运用MDS方法,降低到两维,和图D结果类似,心脏组织和肾组织细胞重叠到一起了.
(A) 单细胞H3K27ac CoBATCH 实验设计,选取E16.5时期细胞,通过Cdh5 标记进行FACS分选,进行CoBATCH实验。
(B) 展示在ECs 标记基因处,不同类别单细胞分别合并后,在IGV展示信号情况.
(C) 展示了组织特异性marker 处,不同类别单细胞分别合并后,在IGV展示信号情况.
(D) 利用全基因组H3K27ac信号对10个小鼠器官的单细胞聚合,进行5-kb 为windows size 的层次聚类结果
(E) 将H3K27ac 位点及其细胞分别进行了层次聚类,使用HOMER进行每个enhancer module de nove TF, 使用GREAT进行GO富集分析。使用二项分布进行P-Value。
(F/G) 使用多维标度(MDS)对10个小鼠器官的H3K27ac信号进行分层聚类,通过(E)和(F)中识别的聚类(F)显示10个小鼠器官的共2758个单个ECs 细胞(G)。我们使用最commonly的20112个位点,计算每个细胞的count 数目,将计数矩阵转换为二进制矩阵作为降维的输入。
为了证明此方法的广泛适用性,作者进行了cardiac EC的RNA Pol II和H3K36me3 单细胞CoBATCH实验,为了评估异质性,我们使用cisTopic 来降低单细胞调控矩阵的维度及其用UMAP可视化四个细胞簇。通过EC 标记基因,从图A or B, 可以很清楚的区分出EC(C2,C4) 和非EC细胞(C1,C3).
同时我们通过cluster的标记基因可以看出四类细胞的大体位置. 比如Ephb2 标记C3 类,Ephb4 标记C1类。
GO富集也反映出类似结果,和期望一样,C1和免疫过程有关系,暗示着脱离EC 状态的命运。H3K36me3 进行了类似分析.
(A) 通过topic 贡献对852个Cdh5 标记的细胞进行UMAP降维可视化。 使用基于密度的方法对聚类进行了识别。C1-C4的每个簇分别包含159个(19%)、468个(55%)、70个(8%)和155个(18%)细胞。
(B) 通过EC标记基因最近的信号值计算出EC score.
(C) Col1a1, Irf8, Ephb2, and Ephb4 分别是mesenchymal cells, macrophage-like cells, arterial EC, and venous EC的标记基因. 图中点反映出细胞中此信号的强度.
(D) 展示出四类细胞的topic score,通过cisTopic 计算得到.
(E) 展示出每一类细胞中显著富集的5个通路.
这些研究结果证明了CoBATCH可以解析不同器官来源的内皮细胞表观异质性以及顺式作用元件在发育过程中的动态变化,为理解器官功能特异的内皮细胞发育提供了重要线索。
> Conclusion
简而言之,CoBATCH技术是第一个具有普适性、高质量、高通量的单细胞ChIP-seq方法,该技术将在单细胞水平上为解析细胞命运决定和功能异质性的表观遗传调控机制提供强有力的支持,并对研究器官发育和疾病发生过程具有重大的意义。
总结:
-
该方法是一篇关于单细胞ChIP实验的文章,讲述了从原位ChIP,及其衍生出的单细胞ChIP技术--CoBATCH,采用类似smartseq2 一样的,多标签策略。特别是采用了P蛋白-Tn5 技术,可以改善实验效果,比如Cut-tag 技术都采用类似原理。
另外此实验不会基于特殊仪器来完成,减低了实验门槛.
文中出现了不同的降维方法,LSI (类似PCA进行降维,效果稍微好一些) ;MDS 多尺度放缩,明显的特点降维后保留样本间距离信息。U-MAP 降维类似T-SNE降维方法,可以很好展示细胞聚焦和演化变化
聚类方法:采用了基于密度的方法。(区别于层次聚类,KNN聚类)
可能存在不足之处,欢迎评论交流~