Hi-C文献解读

15年3月发表的一篇高引文章
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4542312/

  • Cited by: 371
  • Publish Year: 2015
  • Author: Matteo Vietri Rudan, Christopher Barrington, Stephen Henderson, Christina Ernst, Duncan T. Odom, Amo...
  • Location: 8600 Rockville Pike, Bethesda, MD

2015-3-3 · Comparative Hi-C Reveals that CTCF Underlies Evolution of Chromosomal Domain Architecture.

全文总结

拓扑结构域是染色体的关键结构构建基块,但是它们的功能重要性和进化动力学尚不明确。作者通过四个哺乳动物中高通量的染色体构象捕获(Hi-C)测序进行了比较,表征了染色体接触绝缘子的保守性和divergence以及远距离相关基因组内的结构域结构。本文表明,染色体的模块化组织在相同区域中被稳定地保存下来,并且这与绝缘子蛋白CTCF的结合态的保守性是一致的。具体而言,保守的CTCF位点与cohesin共定位,在庞大的拓扑结构域边界富集,并以定义CTCF远程相互作用的方向性与DNA基序相结合。相反,物种之间不同的CTCF结合与内部域结构的差异相关,这可能是由局部CTCF结合序列变化驱动的,这说明了基因组进化如何与局部构象变化的连续变化联系在一起。本文还表明,大规模域在基因组进化过程中被重组为完整的模块。


全文总结

前言

在染色体中发现一个拓扑域样的三维结构(Sexton et al., 2012; Dixon et al., 2012; Nora et al., 2012; Hou et al., 2012),这一发现重新塑造了我们对基因组结构和功能的理解。大规模基因组的这一新层面的调控元件的解读及相互作用的方式提供了新见解,从而推动了长程(远距离)的转录调控相关研究进展。然而,多尺度域结构促进远程调节或被其调节的程度,以及将染色体组织成域的精确机制尚未得到真正的了解。
当前,最有特色的域组织机制涉及绝缘子蛋白(哺乳动物中的CCCTC结合因子[CTCF])与粘着蛋白复合物之间的长程相互作用(Phillips-Cremins et al., 2013; Sofueva et al., 2013; Zuin et al., 2014)。CTCF是一种DNA结合蛋白,可与11个锌指接合,以较大的,信息丰富的共有基序与DNA结合 (Kim et al., 2007)。CTCF是一种关键的转录调节因子,最初被描述为myc癌基因的阻遏物(Filippova et al., 1996),随后被证明具有增强剂阻滞剂和绝缘子的功能(Bell et al., 1999)。CTCF的绝缘子活性取决于(cohesin)黏附素(Parelho et al., 2008; Wendt et al., 2008),就是有丝分裂期间姐妹染色单体凝聚所需的必需蛋白质复合物(Michaelis et al., 1997; Guacci et al., 1997) ,其在基因调控中也起作用(Rollins et al., 1999; Pauli et al., 2008)。总而言之,CTCF和粘着蛋白主要作用是共同通过形成或稳定长距离染色质环来发挥其对基因调控的作用(Hadjur et al., 2009; Mishiro et al., 2009; Nativio et al., 2009; Seitan et al., 2011)。这样的 CTCF/cohesin-anchored loops分布在整个基因组中,从而形成了跨越多个尺度的远程接触网络,不仅包括定义了大的拓扑域边界的环,而且还包括此类结构域内的环(Phillips-Cremins et al., 2013; Seitan et al., 2013; Sofueva et al., 2013; Zuin et al., 2014)。虽然CTCF的结合特异性在很大程度上取决于特定的DNA序列元件,但CTCF/cohesin long-range contacts的特异性和方向性(Sofueva et al., 2013)以及组装特定位点以定义拓扑结构域的方式并未完全了解。
CTCF募集对DNA序列元素的依赖性以及该绝缘子在介导远程染色体组织中的作用表明,CTCF可能是基因组序列与染色体结构域组织进化之间的重要纽带。事实上,科学家们已经通过线性表观基因组分析(Yaffe et al., 2010)和高通量染色体构象捕获(Hi-C)比较并报道了(Dixon et al., 2012)人和小鼠之间某些染色体结构域的保守性。此外,对几种哺乳动物基因组中CTCF结合的比较分析表明,它的进化动力学是与环境有关的,并且保守性可能因活动元素(mobile element)的活性而中断 (Schmidt et al., 2012)。尽管有了这些观察,但CTCF结合的进化动力学与染色体结构域组织的进化之间的联系尚待探索。
追踪不同转录因子(TF)结合模式进化的研究表明,仅靠序列进化不能完全解释TF结合态的进化动力学(Dermitzakis and Clark, 2001; Birney et al., 2007; Borneman et al., 2007; Schmidt et al., 2010)。TF结合态势和大规模的染色体组织可能协同作用,以驱动基因组调控的发展。 这些观察结果凸显了多物种比较染色体结构分析的重要性及其在整个进化过程中与绝缘子蛋白结合曲线的整合。 如果反式因子(如CTCF)的结合模式确实是域组织的强大驱动力,那么它们的进化动力学将驱动染色体域的进化保守性和发散性。
考虑到这一点,我们在非循环原代肝细胞中进行了比较Hi-C,并分析了数据以及来自相同物种和组织的CTCF结合谱。 对四个哺乳动物Hi-C图的分析使我们能够探索CTCF结合图谱的演变如何关联以及在某些情况下可能驱动染色体拓扑的演变。 我们发现,物种之间的大规模染色体结构域高度保守,与CTCF结合位点及其基序方向的保守性相关,从而导致了划定保守性的定向长距离相互作用域。另一方面,观察到内部域结构更动态,并且我们发现CTCF位点的演化动力学与局部绝缘结构的分布之间存在显著的相关性。 由于CTCF结合谱的演变在顺式元件内的核苷酸水平上受到强烈驱动,因此我们的数据表明,可以通过局部序列演变灵活地调节内部结构域的结构。 相反,我们表明,大规模域结构的中断是罕见的,并且我们建议,不是局部序列导致,而是由涉及重复或重排(例如倒位,插入/缺失和易位)的过程驱动全局染色体拓扑的进化操作。 我们通过绘制鼠和狗中的进化域改组案例来证明这一点。

结果

Sequence-Driven Evolution of CTCF Binding Profiles

CTCF的结合与哺乳动物染色体的拓扑结构密切相关,并参与长距离的染色质环的形成过程,从而成为整体接触绝缘的基础。我们分析了来自小鼠(Mus musculus [Mmus]),狗(Canis familiaris [Cfam])和猕猴(Macaca mulatta [Mmul])原代肝细胞的CTCF染色质(ChIP-seq)测序文件(Schmidt et al., 2012),旨在定义绝缘子结合态的保守性和特异性如何与染色体拓扑共同发展。成对的CTCF ChIP-seq分析确定了同系染色体区域内的保守或不同的CTCF结合位点(图1A,1B和S1)。具有最强CTCF结合强度的位点是高度保守的(位居前0.1个百分位的77%),而具有较低强度的CTCF结合位点则富含divergent结合(57%的小鼠divergent位点)(图1B)。 我们计算了不同类别的结合位点对小鼠经典CTCF共有基序的序列亲和力,发现保守位点的基序亲和力水平总体高于小鼠divergent位点的水平(图S1)。
为了了解序列亲和力与保守或 divergent位点的CTCF结合之间的关系,我们将物种之间CTCF结合的变化与CTCF序列基序亲和力的变化相关联。 在此分析中,我们使用了与其他物种相同的来自小鼠的共有基序 (Schmidt et al., 2012)。 值得注意的是,我们发现序列差异与CTCF结合差异之间存在直接联系。 保守的CTCF结合位点显示总体较高的基序亲和力和高度的亲和力。 相反,divergent位点下面的基序是进化动态的,并且与divergent结合强度密切相关(图1C和S1)。数据显示,当CTCF结合位点中的强基序diverge时,CTCF结合本身会同时获得或丢失。 有趣的是,在狗和老鼠之间保守的位点中也有65%在猕猴中也得到了保守,而猕猴特有和狗特异的位点分别构成了另外两个种群,分别为775和891个位点,它们具有较弱的,更具进化性的plastic motifs。 总而言之,这些数据表明CTCF绝缘子前景landscape正在两种机制下发展:第一个涉及序列和结合位点的严格保守型,第二个显示特定顺式元件的divergence与CTCF结合特性的相应进化之间的动态相互作用。divergence差异对CTCF结合的相对直接影响形成了序列进化与大规模基因组进化之间的潜在联系。


图1,ABC

CTCF Binding Site Evolution Is Correlated with the Mouse Hi-C Domain Structure

为了研究不同类别的CTCF结合保守性与染色体结构之间的关系,我们在小鼠肝细胞上准备了Hi-C数据集(图S2)。 如前所述对Hi-C ligation产物进行过滤和归一化(Sofueva et al., 2013),揭示了这些细胞的染色体结构域结构。 用Hi-C contact maps对CTCF占用组的可视化表明,在大量Hi-C域的边界发现了保守的CTCF结合位点,而物种特有的CTCF位点位于结构域内部(图1D)。 这一观察结果得到了全基因组分析的支持,由此确定了相对于小鼠基因组中所有域的保守和不同CTCF位点的相对位置(图1E)。为了进一步描述conserved和divergent CTCF位点周围的染色体接触,我们分析了这些位点周围全局的平均接触分布,通过量化由CTCF位点分隔的多个元素之间接触概率的降低来测量``接触绝缘''(Sofueva et al., 2013)。 在多个距离范围内对复合体接触绝缘子蛋白进行分析,显示出保守的CTCF位点具有很强的绝缘性,进一步支持了这些保守的高强度CTCF位点与大范围边界共同出现的想法(让人联想到拓扑染色体结构域)(图1F,left panel)。相比之下,较低强度的小鼠divergent位点显示出明显更弱,更局部的绝缘分布(图1F, right panel)。 根据CTCF位点在猕猴中的保守性进行分类时,也观察到了类似的趋势(图S1)。 总而言之,我们发现CTCF结合位点的进化动力学与小鼠染色体拓扑之间有很强的相关性,表明绝缘子位点发散与拓扑结构域结构之间存在直接联系的可能性。


图1,DEF

Comparative Hi-C Reveals the Evolution of Chromosome Topologies

我们使用比较性的Hi-C来检查染色体拓扑的保守性和divergence,并测试CTCF结合位点的进化如何支持这一点。 我们从猕猴,兔(Oryctolagus cuniculus [Ocun])和狗中收集了肝细胞,并使用与小鼠相同的方法对其进行了处理,得出了每种物种的染色体contact maps(图S2和S3)。 对三个新近描述的物种内总体拓扑结构的评估首先表明了它们的参考基因组结构的完整性,并为将来改进此类组装提供了资源。 更重要的是,数据表明,猕猴,狗和兔子的染色体拓扑结构的特征与以前推测的人类和小鼠相似(Dixon et al., 2012)。例如,比较一个9 Mb的syntenic区域可以突出显示所有物种中染色体结构的广泛保守性(图2A)。这些图还揭示了物种之间域内差异的证据(图2B)。我们使用一种计算方法量化了全基因组结构保守的程度,该计算方法使我们能够全面描述多个规模的域结构。这种成对方法揭示了广泛的全基因组种间染色体结构保守性(图2C和S3)。对小鼠和狗中成对结构域的系统分析表明,与其他域相比,保守域的大小较小,并且被分为主动和被动簇(图S4)。总之,这些数据有助于对未经过实质性基因组重排的区域内染色体拓扑结构的演化进行广泛的分析,从而可以检验大规模域边界和域内绝缘结构的演化。


图2 ABC

Divergent CTCF Binding Drives Local Structural Change within Domains

来自不同物种的肝细胞的Hi-C图谱让我们了解CTCF的进化动力学与域结构的保守性或发散性如何相关。 特定基因座的分析表明,保守的CTCF位点通常位于自身在小鼠和狗之间保守的大规模染色体结构域的边界(图3A)。 为了全面测试这些观察结果,我们从保守CTCF位置周围的鼠或狗Hi-C映射计算出了接触绝缘子蛋白的分布,表明这些位置确实在全局范围内充当了保守的绝缘子位点(图3B)。 使用鼠和猕猴进行比较得出了相似的结果(图S5)。 我们还观察到,保守的CTCF位点在小鼠中的Rad21含量非常丰富(79%的保守位点与51%的与Rad21共同定位的小鼠发散位点相比),并且CTCF /cohesin共占位点在所有这三个部位均表现出较强的接触绝缘性(data not shown)。
与这些高度稳定的位点相反,我们的数据表明,不同的CTCF位点主要位于域内,并表现出局部接触绝缘。对不同的CTCF部位的接触绝缘进行比较分析表明,实际上这些部位与不同的接触绝缘子分布有关。例如,狗不同的CTCF位点(Mmus / Cfam +)在狗基因组中特别表现出局部接触绝缘,而在小鼠Hi-C数据中检测时,这些相同的位点显示出接触绝缘的背景水平(图3C和S5)。重要的是,CTCF结合位点进化后的绝缘变化在局部(20-kb)尺度上更强,而在较高(80-kb)尺度上则不显着(图3D),表明大规模的域变化是不受CTCF演化的影响或处于强烈的负选择之下,因此未观察到。当我们检查“部分”保守的CTCF结合位点时,这些观察结果得到了进一步加强。在老鼠和狗中保守但在猕猴中未检出的CTCF位点与猕猴基因组中接触绝缘子的减少有关。因此,数据证明了CTCF结合divergence和局部绝缘结构divergence之间的关系,因此指出了CTCF在驱动基因组中结构改变中的作用。
域内环的连续进化动力学可以在调节域内的启动子-增强子接触中发挥关键作用。 与此相一致,我们观察到不同的CTCF位点与增强子或转录起始位点(TSSs)之间的远程接触(图S6)。 此外,对来自小鼠,犬和猕猴肝脏的转录数据的分析表明,不同的CTCF位点以比非差异表达基因更高的频率接触差异表达基因 (Kolmogorov-Smirnov test, p < 0.05) (图S6)。 总之,这些数据支持以下假设:不同的CTCF结合位点的出现可能有助于基因表达的变化。


图3 ABCD

Conserved CTCF Sites Are Directional and Interact with Other Conserved Sites

虽然已知CTCF的结合特异性在很大程度上取决于其特定的DNA共有序列,但CTCF /cohesin长距离接触的特异性和方向性(Sofueva et al., 2013)以及组装特定位点以定义拓扑结构域的方式尚未完全了解。正如我们的数据表明,保守的CTCF结合位点具有保守的基序亲和力(图1C)一样,并且由于已知CTCF共有基序是不对称的,因此我们想了解保守位点是否也用于CTCF的取向保守的问题上。实际上,在小鼠和狗之间保守的CTCF结合位点的94%(3,265 / 3,483)在其方向上也保守。为了进一步探讨这一点,我们在保守的CTCF结合位点周围进行了接触绝缘分析,根据发现共有基序的链将其分组。我们观察到不对称的绝缘子分步行为,当图案的方向反转时,这种现象得到了反映(图4A)。该分析将“绝缘”(蓝色)与“优先接触”(红色)解耦,并揭示了优先接触是在定向CTCF结合位点的一侧进行的,这表明基序的方向可能会有助于CTCF的远程交互。与此相一致,我们证明了Mmus + / Cfam +保守的CTCF位点的染色体结构域内全基因组范围内的相对位置,根据其结合基序的方向进行了分组。我们观察到,在保守结构域边缘富集的保守CTCF结合位点(图1E)相对于染色体域(图4B)具有特定的基序方向。当我们比较小鼠和猕猴时,重复了这些观察结果。
为了表征进化稳定或灵活的CTCF位点之间的接触关系,并进一步了解它们如何促进染色体域结构的进化,我们进行了高分辨率的高通量环状染色体构象捕获(4C-seq)研究。我们设计了四个4C-seq视点,这些视点是一系列相邻的保守CTCF结合位点,与小鼠和狗中的保守结构域结合,以及小鼠特异性位点结合。结果表明,每个保守的CTCF站点都与相邻的保守的CTCF站点进行非常强烈的定向交互(图4C)。值得注意的是,小鼠基因组中保守位点介导的特异性相互作用本身在狗基因组中被精确确认保守(图4D),并定义了潜在的结构域。在每种情况下,远程相互作用都由一对保守的CTCF位点锚定,其中一个CTCF位点在“ +”链上取向,另一个在“-”链上,可以为观察到的CTCF介导的相互作用的方向性。此外,针对鼠divergent位点设计的观测点在鼠的域内表现出弱相互作用,类似于图3B(图4C)中观察到的局部绝缘行为。重要的是,小鼠divergent的观测点在狗基因组中没有明显的相互作用,从而证实了其相互作用网络的特异性。
根据顺式基因组距离分层的成对CTCF结合位点之间的Hi-C接触的全局分析(Sofueva et al., 2013)系统地确认了4C-seq观测(图4E)。 与高分辨率4C-seq资料一致,Hi-C趋势表明,保守的CTCF站点在同一域内彼此紧密接触。 即使在完全按基因组距离分层时,Divergent的CTCF站点与其他divergent的位点之间的接触也明显较弱。 重要的是,在小鼠基因组中,狗divergent位点之间几乎没有或根本没有接触。 这些结果表明,进化稳定的CTCF位点彼此紧密接触,并表明这样做可以创建一个相互作用的网络,从而支持域结构的保守性。 另一方面,divergent的CTCF位点涉及较弱的相互作用,这可能反映了结合位点本身的进化灵活性。


图4 ABCDE

Domains Maintain Their Integrity during Chromosomal Rearrangements

我们的数据表明,在绝缘子divergence之后,通常不会发生大规模的域重组。那怎么还可以观察到呢?我们的种间比较性Hi-C数据使我们可以了解到,当基因组受到结构重排的挑战时,保守染色体结构域的完整性会发生什么。如果染色体结构域充当模块单元(例如,调节基因表达),那么将预期在结构域边界处发生大规模重排,以保持这些结构的完整性。我们扫描了小鼠和狗的基因组,以了解两个物种中直系同源基因之间的距离差异。我们的分析揭示了小鼠和狗基因组之间的许多复杂的重排,涉及插入,倒位和重复。在每种情况下,我们都发现重排发生在两个染色体结构域之间的边界处。这在狗的15号染色体的Hi-C图中得到了例证(图5)。在这里,我们发现了两个域,一个包含Slc5a9基因,另一个包含Trabd2b基因(以红色圆点突出显示)。该区域与小鼠基因组的比较表明,在包含Skint基因簇的小鼠基因组中发生了2-Mb插入,该簇快速进化且对于小鼠谱系是唯一的(Boyden et al., 2008)。值得注意的是,该插入直接发生在狗的两个相邻结构域之间,从而完美地保持了它们的完整性。在小鼠基因组中的Mrgpr基因簇上发生了类似的重排事件(Dong et al., 2001),再次保留了相邻域的结构(图S7)。在另一个示例中,我们在包含多个域的狗基因组中观察到了5.5 Mb的大规模插入,再次,插入两侧的域都保持完整(图S8)。这些例子表明,结构域起着模块单元的作用,并在基因组重排期间针对破坏而选择。


图5

讨论

在这项研究中,我们检查了来自四个哺乳动物物种的Hi-Ccontact maps和CTCF结合图,以了解CTCF结合位点的进化与染色体结构之间的关系。我们的数据表明,CTCF结合位点在两种情况下得到了发展,其中某些CTCF元素在DNA序列水平及其结合方面受到限制,而其他CTCF元素则表现出更大的灵活性。虽然这两组都可以介导接触绝缘,但保守的CTCF元素在倾向于自身被保守的大规模区域边界处富集。同时,具有进化适应性的CTCF站点倾向于位于大规模域的内部,并在该谱系中唯一地介导局部结构变化。因此,我们的数据指出了CTCF结合的进化与染色体结构之间的强相关性,并扩展了我们对上context-dependent CTCF结合位点及其在染色体结构域结构中的特殊作用的理解(Dixon et al., 2012; Dowen et al., 2014)。重要的是,由于CTCF结合信息是在高特异性的顺式元件中编码的,因此我们观察到的域内绝缘子动力学直接将局部序列进化与染色体架构联系起来。这种直接联系对CTCF和基因组功能的研究以及我们对复杂基因组进化动力学的理解具有重要意义。
广泛假设了CTCF/cohesin在建立域结构中的重要因果作用,但事实证明很难获得直接的实验证据。先前的研究已经观察到绝缘子结合与域边界之间的相关性(Sexton et al., 2012; Dixon et al., 2012; Nora et al., 2012; Hou et al., 2012),并且敲除实验表明染色体环状结构的丧失与CTCF/cohesin结合landscapes的丧失之间的定量联系(Sofueva et al., 2013; Zuin et al., 2014; Seitan et al., 2013)。鉴于CTCF/cohesin对核组织和基因调控的普遍影响,很难通过经典的遗传扰动来确定其作用机理。取而代之的是,这里使用的进化比较为我们提供了数千种自然发生的基因组扰动,可以在序列和染色体拓扑水平上对其进行识别和表征。该策略已得到强有力的证据,证明了CTCF结合位点的增减与局部域绝缘的相应增减之间存在直接联系。因此,我们的对比Hi-C分析强烈支持这一观点即CTCF与染色体looping structures相关。
此处描述的比较染色体结构域分析揭示了一系列进化结果,从保留必需的大规模染色体结构域到连续基因组适应的灵活性。 CTCF和cohesin复合物在进化上是高度保守的,此处的数据显示它们在介导染色体拓扑结构中的作用,甚至更值得注意的是,在此类拓扑结构的大规模构建基团中也高度保守。我们的数据表明,CTCF基序的方向可能是所观察到的CTCF/cohesin-mediated的远距离接触的方向性的基础,并提供了一个特定位点组装起来定义拓扑结构域的原理。鉴于CTCF的结合受到其共有序列的强烈影响,我们的数据表明域结构的组装在基因组中是“hardwired”。这也对进一步理解CTCF和cohesin之间关系的性质具有影响,因为生化研究表明cohesin亚基主要通过其C末端尾巴与CTCF相互作用(Xiao et al., 2011),将cohesin置于特定染色体结构域。
有趣的是,尽管我们能够观察到局部序列进化扰乱CTCF结合并破坏染色体环的情况,但由于这种绝缘子的不同而受影响的结构主要是局部环。 没有观察到由于绝缘子divergence而分裂或融合的大规模拓扑域的情况。 我们假设通过结合关键CTCF结合位点上的局部纯化选择和其他因素对主要拓扑loops的缓冲作用来实现这种稳定性。 令人惊讶的是,我们能够表征的大规模结构域差异情况均与进化基因组重排有关,并揭示了一种可以改组整个结构域的机制,从而使重排的染色体模块与现有结构域边界对齐。 但是,在正式介导强相互作用的CTCF位点之间仍可能发生重排。
除了此处描述的拓扑结构域和绝缘子保护的重要性外,将域内CTCF divergence与局部域结构的变化耦合在一起的进化动力学也成为基因组调控的潜在基础。Loops域中包含的将增强子(及其结合的反式因子)链接到目标基因启动子。尽管仍不清楚如何调控这种靶向作用以及进化如何对其进行调控,但基于我们的数据,我们推测域内的柔性CTCF结合位点也可以通过划分牵连的功能元件来影响启动子或增强子的环。由于CTCF位点具有足够的序列特异性,可以通过局部核苷酸取代直接调节,因此很有趣的推测域内环结构是影响基因调控的关键且可进化的特征。如果确实在数量上很重要,则应在种群和物种之间以及种群内部进行进一步研究。

EXPERIMENTAL PROCEDURES

Liver Homogenization and Fixation

  • Fresh or frozen liver from mouse, rabbit, macaque, and dog were processed for Hi-C or 4C-seq libraries.
  • With the exception of mouse, the samples used for the Hi-C libraries were the same as the material used for CTCF ChIP-seq (Schmidt et al., 2012).
  • Livers were fixed in 10% formalin for 20 min, and ~1 g was cut and processed with a Dounce homogenizer (ten strokes with a loose pestle followed by ten strokes with the tight pestle).
  • After filtration through a 70-mm nylon cell strainer, the sample was washed twice with PBS, spinning down at 852 rcf for 5 min at 4�℃ to collect the cells between washes. 1–5* liver cells were then fixed for a second time in fixation buffer (1% formaldehyde, 750 mg/ml BSA in DMEM/Ham’s F12 [Invitrogen]) for 10– 30 min at room temperature. The fixation reaction was quenched using 0.125 M glycine for 5 min at room temperature. Samples were washed twice with 10 ml PBS, pelleted into 1 * cells aliquots, and stored at �-80℃. Mouse Hi-C libraries were prepared from fresh liver samples of biological replicates (9-week-old C57/BL6 mouse and the pooled livers from 2- to 4-week-old outbred mice. The libraries for the other three organisms were technical replicates.

Propidium Iodide Staining of Hepatocytes

  • Formaldehyde-fixed liver cells were lysed on ice in a hypotonic buffer (10 mM Tris-HCl [pH 8], 10 mM NaCl, 0.2% Igepal CA-640, EDTA-free protease inhib- itors) for 30 min. Nuclei were stained with a propidium iodide (PI) staining buffer (100 mg/ml PI, 50 mg/ml RNase A, 0.05% Triton X-100) for 60 min on ice. Samples were analyzed on a MoFlo cell sorter (Beckman Coulter).

High-Throughput Mapping of Chromatin Interactions via Hi-C

  • The Hi-C method previously used (Sofueva et al., 2013) was modified to accommodate primary liver samples. Hepatocytes were lysed in Hi-C lysis buffer (10 mM Tris-HCl [pH 8], 10 mM NaCl, 0.2% Igepal CA-640, EDTA-free protease inhibitors) for 30 min on ice. The sample was transferred to Protein LoBind tubes (Eppendorf) and the nuclei were permeabilized by incubation with 0.1%–0.6% SDS for 1 hr at 37�C with 800 rpm shaking. The reaction was quenched with 0.67%–4% Triton X-100, 1 hr at 37�C, 800 rpm shaking. Nuclei were digested in 500 ml 1X NEBuffer 2 with 1500 U HindIII (New England Biolabs) and monitored for maximal digestion of the chromatin template, thus digestion times ranged from 24-72 hr. All other parts of the Hi-C protocol, including library preparation were performed as previously described. 75 bp paired-end sequencing was performed for each library according to manufac- turers conditions using the Illumina Hi-seq platform.

Hi-C Interaction Matrix Generation and Domain Calling

  • Sequencing reads were aligned to the mouse (mm10), rabbit (oryCun2), ma- caque (rheMac2), and dog (canFam3) genome assemblies using Bowtie 0.12.8 (Langmead et al., 2009). The parameters used for the alignment allowed a maximum of three mismatches and strictly one alignment per read. Process- ing of the aligned reads and normalization of the interaction matrices were performed as previously described (Yaffe and Tanay, 2011; Sofueva et al., 2013). The pipeline produced normalized matrices of interactions binning the genome at different resolutions. Interaction matrices for each library were generated displaying seven different resolutions simultaneously (12,500, 25,000, 50,000, 100,000, 250,000, 500,000, and 1,000,000 bp). Domains were identified and clustered as described (Sexton et al., 2012) with the modi- fication that scaling factors were inferred using fends 100–400 kb apart, to account for the lower resolution of the mouse map compared to the Drosophila map. Domain borders were called using the 95% percentile of the scaling track. A domain-level map was partitioned into two clusters, and clusters were assigned as passive/active according to Lamin B mouse embryonic fibroblast (MEF) data, as before. For the rabbit, macaque, and dog genome, the Lamin B MEF track for mouse was lifted over to the corresponding genome to label domain clusters. Domain calls in mouse and dog are available in Table S1.

ChIP-Seq Analysis

  • We used previously published ChIP-seq data for CTCF from mouse, macaque, and dog livers (Schmidt et al., 2012) and for Rad21 for mouse liver (Faure et al., 2012). Rad21 ChIP-seq data for macaque and dog was prepared as for CTCF. Mouse, macaque, and dog ChIP-seq reads were mapped using bowtie. Alignment was followed by extension of sequenced tags to 300-bp fragments and pileup into 50-bp bins. We normalized ChIP-seq coverage by computing the distribution of pile-up coverage on 50-bp bins and transforming each coverage value v into �log10 (1-quantile(v)). To define binding sites, we used a simple threshold on the sum of values from two biological replicates for each CTCF dataset and for the macaque Rad21 data. Rad21 ChIP data from mouse and dog were done in single, and the data were thresholded. Thresholds used were as follows: mouse CTCF = 2.2, macaque CTCF = 2.4, dog CTCF = 2.2, mouse Rad21 = 2.3, macaque Rad21 = 2.5, dog Rad21 = 3. Different thresh- olds did not change the results. Binding site width was standardized at 200 bp, and the ChIP-seq intensity for each site was calculated as the maximum value across the 200 bp. The relative distribution of CTCF within topological domains (Figures 1E and S5) was calculated as the distance of each CTCF site from the center of its domain. Half the size of the domain was added to convert it to a measure of distance from the edge of the domain, and this number was then divided by the size of the domain.

Interspecies Comparison of CTCF Sites

  • Macaque and dog CTCF ChIP-seq libraries were converted to mouse genome coordinates using the liftOver tool from UCSC. To reduce the chance of inaccurate liftOver, a number of filters were implemented: sites within low-mappability regions, repeats, or windows of 100 kb with insufficient synteny were excluded. To estimate mappability, each genome was broken into 50-bp reads and the whole-genome sequence was split into artificial reads and then mapped back to the genome. For each 50-bp bin, the mappability score was then defined to be the portion of artificial reads mapped uniquely to that bin. To estimate the level of synteny in the 100 kb around a CTCF site, the mappability tracks for macaque and dog were converted to the mouse genome using lift- Over and all bins for which liftOver was not possible were converted to zeroes. The converted tracks were subsequently smoothed over 100 kb, and CTCF sites falling in regions below the top quartile of such smoothed tracks were excluded from all subsequent analysis. Divergent CTCF sites in mouse and dog are available in Table S1.

CTCF Binding Energy Function

  • A CTCF DNA-binding energy function from the Cortex CTCF binding sites (ENCODE Cortex CTCF mouse, GSM769019; Shen et al., 2012) was used to profile all genomes for their similarity to the CTCF consensus motif. The consensus motif is very highly conserved across all species (Schmidt et al., 2012). Given a set of genomic sites, we compute for each site the maximal energy value within a 200-bp window centered on the point.

Motif Orientation Analysis

  • Orientation of the motifs underneath conserved CTCF peaks was obtained using MEME (http://meme.nbcr.net/meme/), (Bailey and Elkan, 1994) with the parameters -revcomp -dna -nmotifs 1 -w 20 -mod zoops -maxsize 100,000.

Crossover Analysis

  • Crossover analysis was performed as described previously (Sofueva et al., 2013). The bands used were 5–7.5, 7.5–11.25, 10–15, 15–22.5, 20–30, 30– 45, 40–60, 60–90, and 80–120 kb.

Distal Contact Analysis

  • To calculate the average interaction profiles for a group of genomic landmarks, HindIII fragment ends were grouped into classes by associating each end with a genomic element located within 5 kb and then grouping all fragment ends associated with an element of the same class. For the mouse, macaque, and dog genomes, three classes of CTCF sites (conserved, divergent present, divergent absent) and TSS sites were defined. These classes were further divided to sites within active or passive Hi-C domains. The remaining fragment end (not classified given other landmarks) was defined as the background.

4C-Seq

  • Preparation of 4C-seq samples, libraries, sequencing analysis, and normaliza- tion were all performed as previously described (Sofueva et al., 2013). Primer sequences were chosen to viewpoint sites that were as close as possible to CTCF ChIP-seq peaks (Table 1). Mouse primers were designed according to the genome-wide 4C-seq primer database from (van de Werken et al., 2012). For dog primers, a similar database was generated for the regions of interest.

ACCESSION NUMBERS

  • The data analyzed in this study have been deposited in the GEO database with the accession number GSE65126.

SUPPLEMENTAL INFORMATION

  • Supplemental Information includes eight figures and one table and can be found with this article online at http://dx.doi.org/10.1016/j.celrep.2015.02.004.

你可能感兴趣的:(Hi-C文献解读)