转自:https://blog.csdn.net/u011262253/article/details/111691514
随着基因组学研究的发展,由结构基因组学过渡到功能基因组学,科学家对于基因组各种元件的功能及其调控关系有了进一步的了解,为研究基因组三维结构和基因功能之间的关系提供了坚实的基础,进而诞生了一种新的研究领域,称之为三维基因组学,专注于研究基因组的空间结构和基因表达,调控功能的关系和影响。
一、细胞核 Nucleus
首先看下染色质的主要存储容器——细胞核,主要看与三维基因组密切相关的三个结构:
- 核膜 Nuclear Envelope:用来包裹染色质,控制物质进出
- 核纤层 Nuclear Lamina:位于核膜的内表面的纤维网络,支持核膜,锚定染色质,与核骨架相连,参与细胞周期解离和重建
- 核仁 Nucleolus: 主要存储合成 rRNA,存储装配核糖体
二、染色质疆域 Chromosome Territory,CT
在真核生物的基因组中,细胞核内的染色质分布并不是随机的,而是不同染色体占据不同的空间。为了跨越较大的基因组距离去互相作用,比如增强子和启动子的互作,这些密切接触的染色质会靠的更近,这就是染色质疆域。大概就像这样:
我们可以使用染色体构象捕获技术(3C,4C,Hi-C,HiChIP)来获取到3D基因组。
在二维视角下的染色质疆域
在三维视角下的染色质疆域
目前,发现这些区域有一定的规律:
- 染色体的位置相对不变:这种相对不变会持续到有丝分裂开始。比如大型的,基因贫乏的染色体通常位于核层附近的外围,而较小的,富含基因的染色体则更靠近核中心。
- 染色质的位置会因细胞类型不同而改变:例如,X染色体已显示在肝细胞中比在肾细胞中更频繁地定位在外围
- 同源染色体在细胞间期倾向于彼此分离。
为了更方便的研究,进一步把这些互作部分划分为:
三、染色质区室 A/B compartments
使用 Hi-C 发现,整个基因组被分割为两个空间区室,分布标记为 A,B 染色质区,往往区室内互作频繁,而区室间互作较少。
- A compartments:开放的染色质,表达活跃,基因丰富,具有较高的GC含量,包含用于主动转录的组蛋白标记,通常位于细胞核的内部。
- B compartments:关闭的染色质,表达不活跃,基因缺乏,结构紧凑,含有基因沉默的组蛋白标志物,位于核的外围。它们主要由LAD组成,包含晚期复制起点。
在生物信息分析中,我们通过计算染色体内部互作的相关性来区分两种不同的区室。
四、拓扑结构域 Topologically associating Domains,TAD
在染色质区室中,我们还会发现互相作用相对频繁的基因组区域,这些就是拓扑结构域 TAD。一般这些区域在不同的哺乳动物的不同细胞中都很保守,并且高度富集 CTCF 和 粘附蛋白。
通过计算基因互作矩阵,我们会得到一个类似上图的大三角形,可以看到上面有几个深红色的三角,代表内部高度互作域被定义为拓扑结构域,一般是400-800kb较稳定的复制单元。
TAD 的边界:
- 通过与上下游的互作频率趋近于0的DI值,界定TAD边界
- 边界中富含绝缘子蛋白 CTCF 结合位点、活跃转录标记,如H3K4me3及H3K36me3
- 富含结构蛋白结合位点,与管家基因,转运RNA基因和短间隔核元素(SINEs)相关的表观遗传标记。
目前研究最多的是,TAD通过限制每个TAD的增强子-启动子相互作用来调节基因表达,但是TAD详细功能还有待发现。
尽管许多蛋白质复合物,DNA 元件与TAD边界相关,但TAD形成的基础机制也很复杂,尚未完全阐明。
目前认可的模式是,以CTCF蛋白为核心,在黏附蛋白的帮助下,通过loop extrusion模型挤压形成染色质环,锚定TAD边界,为TAD的形成提供了结构基础。此外,TAD 边界的刚度本身可能会导致 TAD 的形成。
TAD 可细分为 sub TAD, 大约长 100kb,sub TAD之间的边界在不同细胞组织间具有差异,与细胞特异性的增强子-启动子互作有关。
在细菌中,这种互作结构叫做染色质互相作用域(Chromosomal Interacting Domains,CIDs)
拓扑结构域的形成
一些蛋白质目前被认为对拓扑结构域的形成有关,其中包括转录因子CTCF和蛋白质复合体黏连蛋白 (cohesin)。这些蛋白通过染色质免疫共沉淀测序技术被发现富集在拓扑结构域的边界上。由于边界还富集有大量常表达基因 (housekeeping gene) 和转运 RNA (tRNA) 基因,一种理论认为活跃的转录与拓扑结构域的形成有关。
五、层关联域 Lamina Associating Domains,LAD
LAD约占基因组的40%,大小介于40kb至30Mb之间,基因较少。 LAD主要由转录沉默染色质组成,富含组蛋白H3K27me3 ,这是异染色质的常见翻译后组蛋白修饰。
结构性 LAD,constitutive LAD,cLAD:富含AT的异染色质区域,靠近在核纤层上,这些区域对染色体之间的结构形成至关重要。
兼性 LAD, facultative LAD,fLAD:具有不同的核纤层相互作用,在不同细胞中包含不同的被激活或抑制基因,从而导致不同的细胞类型。
六、核仁关联域 Nucleolar Associating Domains,NAD
NAD占基因组的4%,几乎具有与LAD相同的所有物理特征。通过对LAD和NAD的序列分析发现,某些区域可能在核纤层和核仁间切换。
七、染色质环 Chromatin loops
染色质在空间中形成环状结构,因此相距很远的染色质区域也可以在三维空间中聚集在一起。 染色质环(loop)结构与调控因子紧密关联,直接对基因表达进行调控。
据推测大约50%的人类基因通过染色质环化过程参与长距离的染色质相互作用。我们可以基于基因互作矩阵,来查看互作频率相对周围较强的区域,在下图中用蓝色圆圈标记,这些位置就是为染色质环区域。
这种结构可以使在线性距离很远的元件得以相遇,以此来调控生命活动,比如,从空间上拉近启动子和增强子的距离,促使基因的转录起始。
分子生物学一个经典的启动子增强子模型,普遍认为enhancer会募集很多转录因子以及转录辅助因子结合到启动子区域形成一个环状结构(loop)来调控基因的表达。
针对这一挑战,中南大学计算机学院生物信息学团队研发了基于多组学数据集成学习的LoopPredictor方法,采用H3K27ac组蛋白以及YY1因子作为靶向基因的HiChIP数据来训练模型,通过集成不同细胞类型的loop数据集,以及多组学(基因组、转录组、表观遗传组等)特征数据,LoopPredictor能够有效地识别具有细胞特异性的增强子介导的loop结构。与HiChIP实验生成的H3K27ac-HiChIP数据相比,LoopPredictor能够识别更多的具有调控功能的loop。
此外,通过将小鼠的多组学特征输入到基于人类数据训练的模型中,预测出的增强子介导的loop结构高度保守,进一步表明LoopPredictor具有较高的跨物种预测能力。LoopPredictor的提出对进一步解释染色质相互作用对基因表达的影响,以及致病基因的作用机制有着重要意义。