转座子的十件你不得不知的事

转座因子(TEs)是真核基因组的主要组成部分。 然而,它们对基因组进化,功能和疾病的影响程度仍然是一个激烈的问题。 基因组学和大规模功能测定方法的兴起为TEs的多方面活动提供了新的亮点,并暗示它们不应再被边缘化。 在这里,我们介绍了TEs的基本特性以及它们与细胞环境的复杂相互作用,这对于理解它们对生物生物学的影响和多种后果至关重要。 虽然我们主要从哺乳动物系统中提取示例,但此处概述的核心概念与广泛的生物体有关。如下就是十件TE不得不知的 十件事,接下来分别进行描述

主图

1.转座因子有许多不同的形式和形状

转座因子(TEs)是具有改变其在基因组中位置的能力的DNA序列。由于其深厚的进化起源和不断的多样化,TE呈现出各种令人迷惑的形式和形状如图(这里的分类很全面,对于人类中TE的讨论具体请看我之前的文章,:https://www.jianshu.com/p/6273241b26bc)

image.png

每个TE子类进一步分为亚组(或超家族),通常在广泛的生物体中发现,但具有共同的遗传组织和单系起源。但是,就像物种的分类法一样,由于发现了全新的TE类型,在分类中引入了新的粒度级别以及方法和标准的不断发展,TE的分类一直处于不断变化的状态,因此永久需要修订。

TEs在基因组中并不是随机分布的

这里有个有趣的看法,基因组可以被看做是TE的各种群落所居住的生态系统,这些TE试图通过相互以及细胞其他成分的复杂相互作用来繁殖和繁殖[15Venner S, Feschotte C, Biémont C. Dynamics of transposable elements: towards a community ecology of the genome. Trends Genet. 2009;25:317–23]这些相互作用包括生态学家熟悉的过程,例如寄生,合作和竞争[16]。因此,TE很少(如果有的话)随机分布在基因组中也就不足为奇了。 TE在插入基因组某些特征或区室中表现出各种不同程度的偏好(图2)这些通常是由相反的选择力引导的,这是促进未来繁殖同时减轻对宿主细胞功能的有害影响的平衡行为。在位点选择谱的最末端,许多元件已经进化出了针对特定基因座的机制,这些基因座的插入对宿主的危害较小,但对它们的繁殖有利[17]。
自然选择和遗传漂移也是影响TEs分布和积累的强大力量[21]。严重有害的插入内容会迅速从总体中删除。对基因组功能和宿主适应性影响很小或没有影响的插入片段可能会根据从种群中清除这些插入片段的选择和漂移效率而达到固定状态,这在物种之间差异很大[21]。选择力可以解释为什么某些元件比其他元件更有可能保留在某些基因组中[22,23]。例如,人LINE 1(L1)反转录转座子的从头插入很容易在基因外显子内发生(和破坏)[24],但是很少有L1元件被固定在人基因的编码区域内[25]。也许由于这些共享特性中的某些特性,尽管进化枝中TE含量存在特定差异,但发现哺乳动物中TE积累的进化轨迹在整个物种中都是保守的。

TEs是突变和遗传多态性的广泛来源

TE占据了物种基因组的很大一部分,包括该物种独特的大部分DNA。由于TE插入很少能为其宿主提供即时的适应性优势,因此在种群中达到固定状态的插入很大程度上是由于遗传漂移,随后被中性积累的点突变侵蚀了[21]。随着时间的流逝,这些突变导致TE不再能编码转座酶并产生新的整合事件。例如,我们的(单倍体)基因组包含约500,000个L1拷贝,但是由于各种形式的突变和截短,这些L1拷贝中有99.9%是固定的,并且不再活动[39,40]。据估计,每个人携带着一组约100个活跃的L1元素,其中大多数是仍在人群中分隔的年轻插入物[41,42,43]。因此,与其他任何生物一样,“参考”人类基因组序列并不代表人类TE的全面清单。
如果TE不会给宿主带来直接好处,并且一旦插入它们就会在很大程度上中性衰减,那么它们如何继续进化? 这个难题的一个关键是TE不仅在个人和物种之间垂直传播而且在水平方向传播的能力。 现在有大量证据支持这种观点,即水平转座子转移是一种普遍现象,几乎影响到TE的每种主要类型以及生命树的所有分支[45,46]。 尽管水平转座子转移的细胞机制仍然模糊不清,但越来越明显的是,TEs的固有迁移性及其宿主物种(包括具有病原体和寄生虫的宿主物种)之间的生态相互作用,促进了元素之间的广泛传播[47,48, 49]。

TE与基因组重排和独特的染色体特征有关

转座代表了一种有效的基因组扩展机制,随着时间的流逝,通过删除DNA来抵消这种机制。这两个过程之间的平衡是真核生物基因组大小进化的主要驱动力[21,50,51]。除了由于转座的副产物而引起的重排外,TEs在失去动员能力后很长一段时间仍可以促进基因组结构变异[60]。TE也有助于特殊的染色体特征。 一个有趣的例子是在果蝇中,LINE样的反转录转座子形成并维持端粒,以代替在二倍体进化过程中丢失的端粒酶[65]。

TE表达与抑制之间存在内在平衡

为了保持进化,TE必须在表达和抑制之间达到微妙的平衡(图2)。表达应足以促进扩增,但不能过大而导致宿主的适应性劣势,从而抵消增加拷贝数对TE的好处。这种平衡的行为可以解释为什么TE编码的酶自然不适合转座[71,72],以及为什么某些TE已经发展出控制其自身拷贝数的自我调节机制[73,74]。多种宿主因子也可用于控制TE表达,包括多种小RNA,染色质和DNA修饰途径[75,76,77,78]以及序列特异性阻遏物,例如最近鉴定的KRAB锌指蛋白[79,80,81,82]。
内在表达/抑制平衡的另一个重要结果是,TE对宿主的影响在生物体生命周期的组织类型和阶段之间可能有很大差异。从TE的角度来看,理想的情况是在种系中表达和活跃,而在体细胞中则不然,表达不会给TE带来好处,只有缺点[86]。

TEs是种系和体细胞中的插入诱变剂

像其他物种一样,人类与当前活跃的TE竞争,其中表达和抑制之间的内在平衡仍在起作用[89]。对于我们来说,这包括L1和其他依赖于L1编码的蛋白质进行逆转座的移动元件[90,91]。这些元素负责可能导致遗传疾病的新种系插入。已有120多个独立的TE插入物与人类疾病有关[24]。从历史上看,很少有人关注体细胞中的转座及其后果,因为体细胞转座可能被视为TE的进化死胡同,而对宿主物种没有长期影响。然而,有大量证据表明,TEs在许多生物体的体细胞中具有活性[94](图2)。
人类癌症中也观察到了体细胞活性,其中肿瘤可以获得数百个新的L1插入[104,105,106,107,108,109]。 就像人类多态性一样,人类癌症中的体细胞活动是由少量所谓的“热” L1基因座引起的[41,107]。 这些原版拷贝的活性取决于个体[105],肿瘤类型[105]和肿瘤克隆进化的时间框架[106、110]。 尽管绝大多数似乎是“乘客”突变,但其中一些从头插入L1会破坏关键的肿瘤抑制因子和致癌基因,从而驱动癌症形成[107]。 宿主细胞已发展出多种机制来控制TE。 然而,随着自然选择的力量随着年龄的增长开始减弱,并且生殖后生活完全下降,TEs可能变得更加活跃[112]。

TE可能以不涉及换位的方式造成损害

TE以其移动性(即换位到新位置的能力)而闻名。尽管与转座相关的DNA的断裂和插入是细胞损伤的明显来源,但这不是TE可能对其宿主有害的唯一或什至最常见的机制。重新激活的转座子会以多种方式伤害宿主。首先,转座子基因座的抑制,包括其自身的转录,可能通过多种机制干扰宿主mRNA的转录或加工[113,114,115]。
TEs转录(有时是剪接)后,该过程的下一步包括翻译编码的蛋白质,并进行逆转录,将TEs逆转录成适合转座的cDNA底物。一旦与TE编码的逆转录酶蛋白结合,产生的胞质DNA和RNA:DNA杂种就可以提示炎症途径。

许多关键编码和非编码RNA均来自TEs

LTR逆转座子或内源性逆转录病毒(ERV)的gag和env基因也已被驯化许多次,以在胎盘发育中发挥功能,有助于宿主防御外源性逆转录病毒,在脑发育中起作用并发挥其他多种作用[132,136] 。TE可以将自己的基因捐赠给宿主,但是它们也可以添加外显子并重新排列和复制现有的宿主基因。在人类中,内含子Alu元素特别容易通过其序列内的隐蔽剪接位点捕获为替代外显子[142,143]。TE还对细胞的非蛋白质编码功能做出了重要贡献。 它们是人类和小鼠基因组中数千个长非编码RNA的主要组成部分,通常由逆转录病毒LTR转录驱动[149]。 这些TE驱动的lncRNA中的某些似乎在维持干细胞多能性和其他发育过程中起重要作用[150,151,152,153,154]。 许多研究表明,嵌入lncRNA和mRNA中的TE序列可以直接调节RNA的稳定性,加工或定位,并具有重要的调节作用[114,155,156,157,158]。

TEs负责顺式调节DNA元件并修饰转录网络

顺式调节网络可协调多个基因的转录,这些基因协同发挥功能,协调整个途径和复杂的生物过程。 与芭芭拉·麦克林托克(Barbara McClintock)的有见地的预测一致[28],现在有越来越多的证据表明TEs是调节真核基因表达的丰富物质来源(图2)。 实际上,TEs可以分散大量的启动子和增强子[161,162,163,164,165,166],转录因子结合位点[167,168,169,170,171,172],绝缘子序列[173,174,175]和抑制元件[176、177](在[178]中进行了综述)。

分析TE需要专用工具

TE在历史上一直被忽略,在基因组学研究中经常被忽略,部分原因是它们具有重复性,这带来了许多分析挑战,并且经常需要使用专门的工具[187]。 由于基因组可以包含成千上万个非常相似的TE序列拷贝,因此在实验设计和分析过程中都必须考虑这些区域内子串的唯一性或重复性。 同样,唯一性和重复性是比对下一代测序和分析TE的读段时要考虑的重要概念(图2)。存在多种策略来分配可能源自多个基因组位置的读段:1)将读段映射到TE亚家族的共有序列[172]; 2)定位到基因组并仅保留唯一映射的读数[163,168]; 3)在可能的候选对象之间随机分配多个映射读取[192];或4)根据各种算法,例如最大似然[193,194]重新分配它们。最终的选择取决于技术(例如ChIP-seq和RNA-seq)和分析的目的-是否需要有关单个TE实例的信息,还是每个亚科的高级结果汇总就足够了?

来自:Ten things you should know about transposable elements; Genome Biology volume 19, Article number: 199 (2018)
本文参考文献请看原文。

你可能感兴趣的:(转座子的十件你不得不知的事)