DNA甲基化,mRNA可变剪切和多聚腺苷化(polyadenylation, APA)的失调与癌症密切相关。之前研究大多通过孤立分析其与不同生物进程之间的关系。本研究作者通过比较DNA甲基化转移酶正常细胞(HCT116)和双缺陷型细胞(DKO)全基因组甲基化和聚腺苷化位点使用情况,发现了DNA甲基化调控APA的机制。结果表明,去除DNA甲基化可以使CTCF(CCCTC-binding factor)与之结合同时招募黏连蛋白复合体,进而形成染色质环,促使近端聚腺苷化位点的使用。在DNA去甲基化的情况下,CTCF结合位点的缺失或黏连蛋白复合体蛋白质RAD21的缺失都可以恢复远端聚腺苷化位点的使用。使用癌症基因组图谱数据,证实DNA甲基化与mRNA聚腺苷化异构体的体内表达关系。DNA甲基化调控APA的机制展示了DNA甲基化异常如何影响转录组多样性,并暗含了肿瘤全基因组DNA甲基化抑制治疗的潜在风险。
DNA甲基化,选择性剪接和多聚腺苷化(APA)是哺乳动物正常发育的两个重要过程。DNA甲基化是一种高度保守的表观遗传修饰,在基因组组织和转录沉默中起着重要作用。小鼠DNA甲基转移酶的缺失对其胚胎阶段致死。而APA通过调节mRNA 的3’ 端成熟实现微调基因的组织和细胞特异性表达。目前已知约80%的哺乳动物注释RNA聚合酶II转录需要APA参与,其功能包括蛋白质编码序列(内含子和外显子的APA)的改变, mRNA翻译产物、稳定性或定位的改变(3’端非翻译区域APA)。除了在发育过程中的功能外,DNA甲基化和APA的失调,同样会导致癌症的发生。APA介导的mRNA转录本的增长或缩短均在肿瘤细胞中发生,例如内含子APA促成截断蛋白的生成;APA介导的3’ UTR的缩短限制了microRNA或内源性ceRNA的结合,导致抑癌基因表达受到抑制或癌基因激活。而基因组DNA甲基化紊乱是人癌症的显著分子标志,目前研究更多集中在启动子高甲基化沉默抑癌基因和低甲基化激活癌基因。可是异常的DNA甲基化修饰并不局限于基因的启动子,人们对于非启动子DNA甲基化功能的认识极其有限。
与启动子DNA甲基化促进基因表达作用相反,基因区域上的甲基化通常与表达呈现出正相关的关系,并且该基因元件甲基化升高在癌症中也普遍存在。推测基因区域的DNA甲基化参与mRNA转录和加工过程,因此运用HCT116和DKO细胞进行聚腺苷化测序(poly(A)-seq)和DNA甲基化测序(MBD-seq),揭示了DNA甲基化与APA之间的显著关联。在缺失DNA甲基化修饰的情况下,甲基化敏感性绝缘蛋白,CCCTC结合因子(CTCF)结合并募集黏连蛋白复合体到poly(A)位点近端下游区域。该蛋白复合体与基因组DNA的互作促使染色质环的形成,类似于远端增强子与启动子的相互作用,阻碍RNA聚合酶II的延长,抑制转录延长,促进近端poly(A)亚型的表达。通过癌症基因组图谱数据库(TCGA)中RNA-seq和DNA甲基化数据的分析,证实了体外观察结果并为DNA甲基化调节APA机制提供了无可辩驳的理论支持。
1. DNA甲基化与APA之间的联系
DKO是结直肠癌细胞系HCT116敲除DNA甲基转移酶DNMT1和DNMT3b后,进而基因组DNA缺失大于95% 甲基化修饰的细胞系。通过Poly(A)-seq比较两种细胞多聚腺苷化位点的使用情况,分析DNA甲基化对APA的影响。HCT116细胞检测到32245个多聚(A)位点(13369个基因),DKO细胞检测到25905个多聚(A)位点(13359个基因),并且两者间鉴定出718个多聚(A)位点(546个基因)差异(图1A)。虽然大量证据表明,DKO细胞存在广泛的基因组DNA甲基化缺失,导致启动子去甲基化和基因再激活,但546个候选基因中的489个(90%)在两者细胞之间表达差异并不显著(图1B)。两种细胞RNA-seq数据分析发现,观察到的APA与已知的17个调节APA的反式作用因子的表达变化无关(图1C),并且我们数据中多聚(A)位点前的特征性碱基六聚体出现频率与多聚(A)数据库的频率特征并无差异(图1D)。然而,412(75%)个基因在DKO细胞中倾向使用近端poly(A)位点。为阐明为什么DNA甲基化缺失会导致细胞转录优先使用近端poly(A)位点的机制,作者分析了ENCODE数据库161个转录因子与412个基因的近端和远端poly(A)位点基因组DNA相互作用及结合情况(图1E)。在结合前十的转录因子中,CTCF鉴定为具有很好的DNA甲基化敏感性结合特性。这暗示在DNA甲基化与APA之间, CTCF通过DNA甲基化敏感性结合特性将其关联起来。
2. DNA甲基化通过CTCF调控APA
为了关注APA候选基因和CTCF结合位点进一步分析DNA甲基化、CTCF结合和APA之间的相互作用,在候选基因中聚焦HCT116和DKO之间具有相当表达量的新APA候选基因。基于这些标准,选取HEATR2/DNAAF5和核转录因子Y亚型α(NFYA)两个基因。poly(A)-seq分析显示,与HCT116细胞相比,DKO细胞HEATR2基因的最近端内含子poly(A)位点的相对使用量增加了14.6倍(图2A)。DKO细胞这种近端poly(A)使用的增加是以远端3’UTR的poly(A)位点的相对使用为代价的。NFYA基因的所有4个poly(A)位点都位于3’UTR,poly(A)-seq检测DKO细胞使用最远端poly(A)位点比HCT116细胞降低2.6倍(图2B)。有趣的是,这两个基因在两种细胞系中除了poly(A)增加和减少最多位点之间的CpG岛(CGIs)区域外,显示相似的CTCF结合和DNA甲基化修饰,而CpG岛区域,DKO细胞中CTCF结合和DNA甲基化丢失都有增高(图2A和2B)。
作者进一步使用DNA去甲基化药物5-aza-2’-deoxycytidine(DAC)处理HCT116细胞验证DNA甲基化与APA之间的关系(图2C)。在DKO和DAC处理的HCT116细胞中,CTCF特异性结合在基因HEATR2和NFYA差异甲基化的CG岛处,证实CTCF主要与无DNA甲基化修饰的区域结合(图2D)。此外,CTCF结合位点附近观察到RNA聚合酶II(POLR2)的积聚,表明CTCF结合影响转录动力学,并可能阻碍POLR2的穿越(图2D)。蛋白免疫印迹(Western blot)证明CTCF和POLR2在这些位置的富集与CTCF和POLR2蛋白表达水平无关。不同转录本亚型的特异性RT-qPCR结果显示,与DKO细胞类似,DAC处理的HCT116细胞远端poly(A)转录本亚型显著减少,其中HEATR2基因减少5.8倍,NFYA中基因减少2.5倍(图2E)。
为确定CTCF结合是否为APA调节的必要充分条件,作者将NFYA基因的野生型3’UTR(LucNFYA)或缺少CTCF结合基序的突变型3’UTR(LucNFYA*)的荧光素酶报告基因转染HCT116细胞(图2F)。LucNFYA*突变体模拟甲基化的NFYA等位基因,在缺失CTCF结合的情况下,产生不同poly(A)转录本亚型的情况。对荧光素酶的Northern blotting检测显示,LucNFYA*转染细胞中最远端亚型的表达比LucNFYA转细胞高1.44倍,证实CTCF为DNA甲基化介导的APA调节的必需品。
3. 近端poly(A)位点下游未甲基化CGIs形成染色质环
在染色质环和拓扑关联域(TADs)形成过程中,CTCF蛋白承担锚定黏连蛋白复合体的角色。作者因此分析CTCF在DNA甲基化调节APA机制过程中与黏连蛋白复合物协同作用的可能性。黏连蛋白复合物组分RAD21和染色体结构维持蛋白SMC1的染色质免疫共沉淀(ChIP-seq)结果表明,与HCT116细胞相比,DKO细胞这两种蛋白与CTCF蛋白都结合在HEATR2(图3A)和NFYA(图3B)基因未甲基的CGI处。此外,在DKO细胞中,Pol2Ser5p同样在该区域与DNA聚集,HCT116细胞却并未发生。Pol2Ser5p是转录起始复合物的成员之一,通常发现于基因5’末端。转录延伸复合物成员Pol2Ser2p的ChIP数据显示其在DKO细胞相同区域的富集同样增高。因此作者推断,POLR2在CTCF结合位点附近区域的聚集(图2D,3A,3B)是因为同时募集了以Pol2Ser5p为标志的新的起始复合物和以Pol2Ser2p为标志的延伸复合物的中止。组蛋白H3赖氨酸乙酰化修饰(H3K27Ac),一种黏连蛋白介导的增强子和启动子相互作用标记物,在CTCF,RAD21和SMC1结合的非甲基化CGIs区域增强(图3A,3B)
CTCF、黏连蛋白复合物、Pol2Ser5p和H3K27Ac同时聚集在未甲基化CGIs处,作者推测这些位置形成染色质环的可能性。利用染色体构象捕获(3C)技术,作者在HEATR2和NFYA基因远端多处序列检测到CGI(锚定点)的显著相互作用(图3C、3D)。在DKO细胞和DAC处理的HCT116细胞中,只有CGIs未发生甲基化修饰,染色质环才会在锚定点形成或增强。尤其是,HEATR2基因上游30.6kb处描点(图3E)和NFYA基因上游6.0kb处锚点(图3F)的成环接触点显示强烈的CTCF和黏连蛋白复合物的结合。
由于CTCF和黏连蛋白复合物结合在HCT116和DKO细胞的远端接触点,作者推断锚定点和这些远端序列之间接触频率增加是由于这些蛋白在锚定位置的特异性结合。这些远距离DNA相互作用进一步通过3C PCR产物的一代测序证实。这些数据表明,若近端poly(A)下游的CGIs未被甲基化修饰,CTCF和黏连蛋白复合物可与之结合并介导染色体环的形成,这些染色体环触发启动子-增强子相互作用,导致Pol2Ser5p和H3K27Ac募集到这些假定的APA调控区。
4. DNA甲基化在体内调节APA
HEATR2和NFYA基因的实验数据展示了一种DNA甲基化调控APA的模型,在这个模型中,CTCF结合到两个动态poly(A)间的非甲基化APA调控区,进一步通过建立黏连蛋白介导的染色质环以此阻碍转录延伸,促使近端poly(A)位点的使用。相反,APA调控区域DNA的甲基化阻碍CTCF结合,因此妨碍染色质环的形成,促使远端poly(A)位点的使用。
作者推测CTCF、RAD21、SMC1、H3K27Ac和Pol2Ser5p在未甲基化修饰APA调控区的协同富集,可以作为一种信号来判定最初的546个APA候选基因,哪些基因通过该机制调控。基于 CTCF、RAD21、SMC1、H3K27Ac、Pol2Ser2p、Pol2Ser5p和POLR2的富集随DNA甲基化水平的同发偏移,ChIP-seq数据聚类分析检测10个不同的信号聚类(图4A)。另外鉴定出106个可能与HEATR2和NFYA相似调控的基因以供进一步研究。
此外,作者收集癌症基因组图谱(TCGA)中11个癌症队列来研究DNA甲基化对poly(A)位点使用的影响,以及通过11个队列数据组成的合集,分析队列特异性相关性和癌症类型之间的相关性。分析HEATR2和NFYA基因内各胞嘧啶位点甲基化信息。NFYA在2/11队列中呈现统计上的显著但适度相关性, 7号染色体HEATR2基因807,596–809,109区域中所有检测到的CG位点,除肾透明细胞癌外,DNA甲基化和近端poly(A)位点的使用呈强负相关(图4B)。更重要的是,HEATR2基因中这种显著相关性表现在近端poly(A)位点下游并且跟发生差异甲基化的APA调控区域重叠,该区域DNA甲基化的缺失导致体外CTCF、黏连蛋白复合体、Pol2Ser5p和H3K27Ac的富集(图4C)。尽管该区域并非任何注释外显子的一部分,但PhastCon分值显示其在脊椎动物呈现很强的序列保守性。分析所有546个候选基因显示,384个基因至少与一种癌症类型呈现显著相关性(图4D)。7个基因与多种癌症类型呈现出相关性,其中,HEATR2基因相关性最好。