老师推荐了一篇文献给我,是关于TE的,写得相当不错,就逐字翻译了一下。
原文:Ten things you should know about transposable elements
图1:Classification of eukaryotic transposable elements. Schematic and examples showing the key features and relationships between TE classes, subclasses, superfamilies, and families. Blue circles represent TE-encoded enzymes. circDNA circular DNA intermediate, DIRS Dictyostelium repetitive sequence, dsDNA linear double-stranded DNA intermediate, EN endonuclease, IN integrase, PLEs Penelope-like elements, HUH, Rep/Helicase protein with HUH endonuclease activity, RT reverse transcriptase, TP transposase, TPRT target primed reverse transcription, YR tyrosine recombinase (for other abbreviations, see text)
图2:Ten things you should know about transposable elements (TEs). Examples of how TEs can impact genomes in direct and indirect ways. Blue boxes represent TEs, gray boxes represent canonical exons, and the black box represents a sequencing read. Right-angled arrows represent gene or TE promoters
摘要
转座元件是真核基因组中的重要组成部分。然而,它们在基因组演化,功能和病害免疫上的研究仍有大量研究空白。基因组学和大规模功能实验的展开为转座元件多方面的活动撒下了曙光且表明它们不应该一直被忽视。这里,我们介绍了转座元件的功能,以及它们与所处细胞环境的复杂关联,这对于理解它们的功能和对宿主生物学多方面的影响非常重要。虽然我们的例子主要来自于哺乳动物系统,但在这里讨论的核心概念可以适用于广泛的生物学范围。
转座元件具有多种“形状”和“组成”
转座元件是基因组上一类具有功能改变位置的DNA序列。由于它们深度的演化起源以及之后持续的分化,转座元件具有各式各样的形状和组成(图1)。根据其转座机制可以将其分成大致的两类,同时基于染色体整合机制,每一类又能分成不同的亚类。第一类也就是反转录转座子,通过“复制后粘贴”的体制,RNA反转录为cDNA拷贝之后整合到基因组中。对于长末端逆转录转座子( long terminal repeat (LTR) retrotransposons),整合是通过裂解和链转移反应进行的,催化这个反应的一种整合酶很像逆转录病毒。对于非长末端逆转录转座子而言,包含长和短插入元件,他们的染色体整合都是通过一种靶向逆转录的逆转录完成的。第二类即DNA转座子,是通过双链DNA介导或是直接“剪切后粘贴”模式形成,或者是一类Helitrons这种,是通过一种环状DNA介导的“剥离后粘贴”的模式模式形成。对于更详细的转座元件类型和专做机制探讨,我们建议读者查阅Craig 的文章Mobile DNA III. 3rd ed. Washington, DC: American Society for Microbiology (ASM); 2015. 每个转座元件亚类紧接着会分成不同的超级群或超家族,它们通常被发现是跨越广泛生命并共享一套一致的遗传组织和单系起源。例如LTR转座子中的两大超家族Ty3/gypsy and Ty1/copia几乎存在于所有真核生物的主要类群中。同样的,Tc1/mariner, hAT (hobo-Ac-Tam3), and MULEs (Mutator-like elements) 作为DNA类转座元件超家族,也广泛覆盖了真核物种生命树。在大多数的转座元件详细分类体系中,聚类到同一个家族或亚家族的元件被认为是来自同一祖先的子代所形成的近缘类群。这个祖先拷贝可以被推断为一致性序列以代表整个(亚)家族,超家族,亚类和类。然而,极像物种的分支系统,转座元件的分类也是不断变化的,随着新的元件类型的发现而被不断修订,新的分类尺度在被引入,同时识别和分类转座元件的方法和标准也在持续发展之中。
转座元件在基因组上并不是随机分布的
基因组或许可以被看做是不同转座元件单元占据的一种共生系统,它们倾向于通过与其它元件或者细胞内其它组成之间进行复杂精密反应以达到不停扩张或繁殖的目的。这种相互反应包含的过程近似于生态学关系,例如寄生,合作和竞争。所以,如果转座元件很少(或是没有)随机分布于基因组上的时候也就不足为奇了。转座元件表型出了很大程度插入基因组某些组成或特定区段的偏好性(图2)。它们往往被对立的选择之力所引导,同时也是一种平衡之道,维持了推动未来的扩张和减轻对宿主细胞功能有害影响之间的均衡。在位点选择范围的最尽头,很多元件已经形成了一种机制,使插入形成的特定位点对宿主的伤害很像且有利于自身元件的繁殖。例如,在分化的出芽黏菌和分裂的酵母中的许多逆转座子是独立但温和地演化,它们有种能力即插入到RNA聚合酶Ⅲ转录基因的上游位点,此时不影响宿主基因的表达还能维持自身反转录。自然选择和遗传漂变也是推动转座元件分布和积累的重要力量。插入如果是极具破坏性的,那将很快会从群体里很快被清除掉。插入如果对基因组功能或宿主适合度影响很小或没有时,会被选择的效力所固定,或是在从群体中清除的过程中漂变,这个过程在不同的物种中差别很大。选择压力可以解释为何有些元件相对于其它元件更容易在基因组的特定位置被保留下来。例如,人类LINE 1(L1)逆转座子很容易从头插入到外显子中并使其中断,但是在人类基因的编码区内,几乎不存在L1的固定。相似的是非LTR转座子被发现倾向于插入到DNA转录链的方向中,但是在人类内含子的有义方向上被强烈清除,这最大的可能是因为它们的插入有义方向的倾向性使其很容易干扰基因剪切和聚腺苷酸化。或许正是由于这些共同特性,哺乳动物转座元件积累的演化轨迹在不同物种间使保守的,尽管转座元件的含量在不同类群间是存在差异的。因此,转座元件在基因组中的成功保留和多样化,是由其元件本身固有特性和宿主物种层面的演化学力量所决定的。深入探讨这些力量使如果共同作用的,对于理解转座元件对生物的影响至关重要。
转座元件是创造变异和遗传多态性的重要来源
转座元件占据了物种基因组包括物种特有DNA序列的很大一部分。Barbara McClintoc 的研究发现,玉米基因组中高达60-70%的部分是LTR逆转座子,其中又有很多是玉米或其野生近缘种所特有的,然而极少比例的DNA转座子在现在反而是最活跃和诱变的。同样的,绝大部分的转座元件存在于两个果蝇的同源区域内,而且大部分在群体中并不是固定的。一些转座元件家族仍然是活跃转座且这个过程是易诱变的;实验室中已知的D. melanogaster 果蝇表型突变超过一半都是由于广泛的转座元件的自然插入造成的。转座事件在实验室小鼠中也是这样普遍且易诱变。转座元件对于遗传多样性的这种贡献或许被低估了,因为当生物体处于压力之下例如自然环境下,转座元件会更为活跃。
因为转座子的插入很少是立刻为它们的宿主带来适应度的优势,所以它们更多的是在遗传漂变之下被固定,但是又接着被中性选择支配的点突变所侵蚀。慢慢地,这些点突变就会让转座子不再能够编码转座酶以形成新的转座整合行为。例如,我们人类的(单倍体)基因组包含约50万个L1拷贝,但这些L1拷贝中有99.9%以上是固定的,由于各种形式的突变和截断而不再移动。据估计,每个人携带一组约100个活性L1元素,其中大多数是新的插入并在人类群体中分离。因此,对于任何其他生物,“参考”人类基因组序列并不代表人类的TEs的全面清单。数以千计的“非参考”未固定的转座元件插入已被全基因组测序及其它策略编类。平均来看,任何两个人类单倍型基因组都有大概千个转座子插入的不同,主要是L1和Alu家族。在一个转座元件活跃的物种例如玉米种,转座元件插入多态性的数量远超人类中的数量。
如果转座元件没有立刻为它们的宿主带来好处且在一次插入以后经历大量的中性衰变,那么它们又是如何在演化中存在的呢?(其潜在的意思是问,为什么没啥大优势还存在,而且比例还很高)解决这个问题的关键在于转座元件不仅在个体和物种间垂直传递而且还水平传递。现在有大量的证据支持这一观点,即水平的转座子转移是一种普遍现象,几乎影响到每一种主要类型的转座元件和生命树的所有分支。虽然探究转座子水平转移的分子机制仍不够,但是越来越明显显示出的是:转座元件自身的流动性及它们和宿主之间的生态互相作用,包括病原体和寄生虫之间,推动了转座元件在这些不同类群间的传播。
转座元件与染色体的重排及特有染色体区段有关
转座是一种非常有效的基因组扩张机制,相对应的是随着时间通过deletion删除DNA来维持基因组收缩。这两个过程之间的平衡是真核生物基因组大小演化的主要推动力。众多的研究以演示证明了植物动物基因组演化中,这种基因组成分洗牌与循环的影响与范围。由于转座子的插入移除通常是不确切的,所以这个过程可以间接地影响到其周围的宿主序列。有时这种事件发生得太高频了以至于产生了大量得宿主的序列重复和洗牌,包括基因和调控序列。例如,一类DNA转座子(MULEs)负责捕获和重排水稻基因组中的约1000个基因片段。这类研究给出了一个结论:受宿主部分控制的转座子转座速率,是基因组演化的重要驱动力。
转座除了形成重排一个副产物,转座还会在它们丧失移动能力以后很长时间内推动基因组结构的变异。尤其是,重组事件往往发生在由于基因组上分布较远的关联转座子所分拆开的高度同源区段之间,同时会引发大规模的删除,重复与倒位。转座元件还提供了微同源区域,在修复复制错误时容易发生模板切换,从而形成了结构变异的另一个来源。这些非转录诱导机制的TE诱导或主导形成的结构变异也在实质上推动了基因组的演化。在通过检测非参插入推动活跃转座元件存在的群体研究中,这些过程也让识别活跃转录元件变得更加困难。
转座元件还会有助于特化染色体特性。一个有趣的例子是果蝇中LINE-like retrotransposons构成和维持了端粒,以替代双翅目演化过程中丢失的端粒酶。这一驯化事件可以被看作是在真核生物进化的更早时期,为了解决由染色体线性化产生的“末端问题”而发生的事情的重演。确实,端粒酶的逆转录酶部分被认为起源于一个古老的逆转录因子世系。转录元件和驯化的转录基因也在着丝粒的结构中具有功能。
转座元件的表达和抑制之间具有内在平衡
为了在演化中存续,转座元件必须在自身表达和抑制之间达成微妙的平衡。表达应该能够充分地促进扩增,但是又不会太多以至于威胁到宿主的适合度从而抵消掉转座元件拷贝数扩增的好处。这种平衡作用或许解释了为什么转座编码酶对转座本身并不是最优的,以及为什么有些转座元件演化出了自我调控机制控制自己的拷贝数。宿主具有众多的方式来控制转座元件的表达,包括若干的小RNA,染色质,DNA修饰通路和序列特异性阻遏蛋白例如最近发现的KRAB锌指蛋白。然而,许多这些沉默机制必须或者部分释放制约,以允许宿主基因表达程序的发育调控,尤其是早期胚胎发育阶段。例如,DNA甲基化在全基因组水平的丢失对于重置原始生殖细胞中的印迹基因是必不可少的。这就给转座元件一个机会,因为减弱的DNA甲基化通常会促进转座元件的表达。转座元件在生殖系(不只是配子体本身)中的强烈表达往往自我毁灭。在宿主巧妙使用的一个例子中,转座元件抑制在一个来自开花植物精子的减数分裂产物的伴生细胞中得到缓解。然而,这个伴生细胞并不会为下一代提供遗传物质。因此,虽然转座元件转置在减数分裂产物中,但这些事件不是遗传的。相反,伴生细胞中的转座元件活动可能通过导入转座元件衍生的小rna进一步抑制精子中的转座元件活性。
另一个重要的内在的表达/抑制平衡的作用是转座元件对宿主的影响在组织类型和不同的机体生命阶段产生相当大的变化。从转座元件的角度来看,理想的场景是在生殖系中表达和活跃,而不是在体细胞中,在体细胞中表达只会给转座元件带来坏处而没有好处。这在若干物种中已经被切实发现,这种分割里比较极端的例子就是纤毛虫,转座元件被从大核中剔除,而在小核或生殖系中保留。另一个例子是果蝇的P元件,在生殖系和体细胞间区分明显。一些生物包括植物,在发育的早期都不会分化生殖细胞谱系,相反,会在减少分裂之前的短时间之内从体细胞中指定。所以,在体细胞中转座的转座元件在植物中具有遗传的潜力,这表明转座元件和宿主的兴趣在多细胞和组织上的冲突要多于具有分离生殖系的动物。
转座元件是生殖系统和体细胞系统的插入性诱变剂
看不太懂,没硬翻译
转座元件可以在不涉及转录的情况下有害
转座元件最被熟知的是其移动性,换句话说就是有能力转移到新的位置。虽然转座形成的DNA断裂和插入看似是细胞损伤明显的一个来源,但它并不是转座元件损害其宿主唯一甚至都不是最常见的机制。再活化的转座子伤害其宿主的方式多种多样。转座位点的去抑制,包括自身转录,可能通过多种机制干扰宿主mRNA的转录和加工。人类细胞系,小鼠多组织中的复制性衰老过程中已经观测到了全基因组范围的转座元件去抑制。LTR和L1启动子的去抑制可能造成致癌基因活化。第二,转座元件编码的蛋白质例如L1 ORF2p核酸内切酶活动能提高DNA的断裂和基因组不稳定。第三,转座元件引起的RNA转录本积累和染色体外DNA拷贝可能诱发先天免疫性疾病从而导致自身免疫性疾病或者无菌炎症。干扰素反应的激活现在已经是内源性逆转录病毒转录本的一个被充分证明的特性,这可能会使免疫疗法在识别和攻击癌细胞方面起到促进作用。上述所有机制在机体病理中的相对贡献仍有待确定。
在转录元件转录之后,下一步就是编码蛋白的转录,然后是逆转录因子,转座元件逆转录为Cdna保证后续的转座。一旦被转座元件编码的逆转录酶蛋白参与,产生的胞质DNA和RNA:DNA杂交可以引起炎症反应。一个例子是Aicardi Goutières综合征患者,TE来源的细胞质DNA的积累是由于正常阻断TE处理或降解TE来源的DNA的途径发生突变。虽然不是所有的TEs都能编码功能性蛋白质,但有些可以,包括一些内源性逆转录病毒能够产生Gag、Pol或包膜(Env)蛋白[126]。这些Env蛋白的过表达可能具有细胞毒性,并且至少与两种神经退行性疾病有关,即多发性硬化症和amytrophic lateral sclerosis[128]。由最年轻的人类内源性逆转录病毒(HERV)组HERV- k (HML-2)产生的小辅助蛋白可能在某些癌症中发挥作用,但证据尚不明确。
许多关键的编码和非编码RNA来源于转座元件
虽然通常是有害的,但越来越多的证据表明TE插入可以为蛋白质编码基因和非编码rna的出现提供原料,这些基因和非编码rna可以发挥重要的,在某些情况下是必要的细胞功能。转座元件跨越演化时间的驯化或者扩大适应性的过程有助于深度保守功能和更近一些的物种特异性性状的形成。大多数情况下,TE编码基因的祖先或某种修饰的角色被宿主利用并保守,而转座元件序列的其余部分,因其自主转座的能力已经丧失则被清除。在脊椎动物免疫系统中催化V(D)J体细胞重组的Rag1和Rag2是转座元件衍生基因中非常保守的例子。这两个基因,可能还有它们所识别的DNA信号,都来自于大约5亿年前的祖先DNA转座子。事实上,DNA转座子已经被多次吸收来形成新的细胞基因。
LTR逆转座子的gag和env基因或内源性逆转录病毒(ERVs)也被多次驯化,在胎盘发育中发挥功能,帮助宿主抵御外源性逆转录病毒,在大脑发育中发挥作用,并发挥其他多种作用。(后面给出例子)
转座元件也会贡献它们的基因给宿主,但也会添加外显子,重新排列和复制现有的宿主基因。(后面给出例子)。这一过程仍在积极塑造我们的基因组;据估计,每6000人中就有1人携带新型逆转录基因插入。
转座元件也为细胞中非蛋白编码功能提供了巨大贡献。在人类和小鼠基因组中,转座元件是数以千计长非编码蛋白RNA的主要组成部分,这主要由逆转录LTR反转录驱动。其中一些转座元件驱动的lncRNA似乎在维持干细胞多能性和其他发育过程中发挥重要作用。许多研究表明,嵌入lncRNAs和mrna中的转座子序列可以直接调节RNA的稳定性、加工或定位,并具有重要的调控作用。此外,转座子来源的microRNAs和转座元件加工的其他小rna也可以发挥调节宿主细胞功能的作用。转座元件促进编码和非编码rna的无数机制说明了这些元素与其宿主之间的多方面交互作用。
TEs提供顺式调节DNA元件并修改转录网络
顺式调控网络协调多个基因的转录,协调整个通路和复杂的生物过程。与Barbara McClintock的深刻预测一致,现在有越来越多的证据表明转座元件已经成为调节真核基因表达的丰富物质来源(图2)。事实上,转座元件可以扩散大量的启动子和增强子,165,166],转录因子结合位点,绝缘子序列,以及抑制因子。刺豚鼠不同的被毛颜色是宿主基因控制被毛颜色的一个显著例子,宿主基因的表达可以被其启动子上游转座元件的甲基化水平改变。在油棕榈中,位于一个对开花很重要的基因内的转座元件的甲基化水平最终控制着植物能否结出富含油的果实。
由于转座元件家族通常以大量相关联副本的形式存在于一个基因组中,长期以来人们一直认为,它们有可能捐献出相同的顺式调节模块,以连接分散在整个基因组中的基因电池。越来越多的研究支持这一模型,并表明TEs为进化过程中顺式调节网络的组装和重塑提供了构建模块,包括潜在过程的途径,如怀孕,干细胞多能性,新皮质发育,哺乳动物先天免疫,或玉米对非生物胁迫的反应。事实上,TE序列包含了“经典”基因调控网络的所有必要特征。它们被不同的转录因子组合整合多个输入(激活/抑制),对顺式和反式信号作出反应,并能够协调调节基因表达。在这种情况下,TEs是通过创建新的顺式调节电路和微调现有网络来修改生物过程的非常合适的制剂。
分析转座元件需要专门的工具
TEs在研究历史上一直被忽视,并且在基因组研究中仍然经常被弱化,部分原因是它们的高度重复性,这带来了许多分析挑战,通常需要使用专门的工具。由于基因组可能包含数千个非常相似的TE序列拷贝,因此在实验设计和分析过程中,这些区域内子串的唯一性或重复性都需要考虑。例如,为了PCR、短发夹RNA或CRISPR-Cas9,必须仔细设计和验证针对基因组中特定TE实例的短DNA寡核苷酸,以确保它们真正的特异性和针对基因组的独特区域。在某些情况下,同时针对多个元素或整个转座元件家族是可以接受的,甚至是可取的。
同样,在对来自下一代测序和分析转座元件的reads进行对齐时,唯一性和重复性也是需要考虑的重要概念. 目前存在多种分配来自多个基因组位置reads的策略:1)将reads定位到转座元件亚家族的一致序列;2)映射到基因组,只保留独特的映射reads;3)在可能的候选之间随机分配多个映射reads;或者4)根据各种算法重新分配它们,比如最大似然算法。选择最终是要依赖于技术(如ChIP-seq和RNA-seq)以及分析目的指引,例如分析是需要的单个转座元件实例的信息,还是对每个亚家族的结果进行高水平的统计就足够了?值得注意的是,这些特异的问题将根据所研究的物种以及最近或目前活跃转座元件科的存在或消失而有很大差异。例如,在小鼠基因组中有着更近且活跃的转座元件存在,所以将reads映射到人类基因组中转座元件上要比把reads定位到小鼠基因组中简单。最后,随着测序技术和生物信息学管道的改进,特别是随着测序reads长度的增加,早期研究面临的许多障碍将逐步消除。
展望
作为一种强大的插入诱变剂,转座元件对其宿主有着积极和消极的影响,但是很有可能的是,在任何特定的物种中,特别是那些有效种群规模较小的人类,大多数转座元件仅靠遗传漂变就实现了固定,现在则大部分对其宿主保持中性。何时我们能说转座元件已经与细胞功能所联合了呢?最初的ENCODE论文宣称“对80%的基因组起作用”,这引起了极大的争论与争议。技术上来说,ENCODE只是将“生化”活性赋予给了基因组的这一大部分。然而,批评人士反对流行媒体的宏大声明(《华盛顿邮报》的标题:“人类基因组新分析揭穿了垃圾DNA概念”),也反对ENCODE未能阻止这种误解(196,197,198)。对于这些批评者来说,忽视功能的进化定义是一个重大的错误。
这个争论很容易扩展到包含转座元件。转座元件构成了被断定为垃圾DNA大部分组成。现如今,这个词主要被媒体使用或者滥用,但实际上在演化生物学中,它具有很深的根源。不管语义定义如何,需要哪些证据去赋予转座元件功能呢?许多转座元件编码大范围的生化活动,那有利于它们自己的繁殖。例如,TEs通常含有启动子或增强子元件,这些元件可以绑架细胞RNA聚合酶进行转录,而自主元件编码具有各种生化和酶活性的蛋白质,所有这些都是转座子复制所必需的。这些活动能让它们发挥作用吗?
在不同物种之间多变的转座元件使利用标准的流程去识别它们的调控功能相当具有挑战性。例如一个关于HERVs,尤其是HERV-H效应对干细胞和多能性的影响的有趣研究,就必须使用新的范式来解释,而这些范式不能通过深度进化保守来暗示功能,因为这些特殊的ERV在大猿类之外是不存在的。
进化约束可以在更短的时间尺度上测量,包括种群水平,但这仍然是一个统计上具有挑战性的任务,特别是对非编码序列。自然功能缺失等位基因可能存在于人类群体中,如果它们的影响明显,就可以研究它们对健康的影响,但这些非常罕见,不允许进行系统的研究。可以对特定的人类转座元件位点进行基因敲除,以测试其调控作用,但这些敲除仅限于体外系统,特别是当模型物种中不存在同源转座元件时。在此背景下,利用强大的基因组工程工具和大量的突变体和其他遗传资源,如植物、真菌和昆虫,研究转座元件对模式物种的影响也将继续具有极其重要的价值。
最后,越来越多的共识要求在将细胞功能分配给转座元件时更加严格,特别是为了宿主的适应度效益。事实上,一个转座元件表现出生化活性(如那些被转录因子束缚或位于染色质开放区域内的活性),不能等同于一个转座元件在序列水平上表现出净化选择的证据,或者认为当基因改变时会导致有害或功能失调的表型。基因组和表观基因组的精确编辑和操作的最新进展,包括重复元素,为系统评估TEs的功能意义提供了希望。
Abbreviations
Env: Envelope protein
ERV: Endogenous retrovirus
HERV: Human endogenous retrovirus
L1: Long interspersed nuclear element 1
LINE: Long interspersed nuclear element
LTR: Long terminal repeat
SINE: Short interspersed nuclear element
TE: Transposable element