基因组中重复序列大体分为两类:
串联重复(Tandem repeats,Tandem Duplication) (TRF可预测)
散在重复(Dispersed repeats),也被称为转座子(TE,transposable element)
在植物中,着丝粒和端粒区域存在丰富的 逆转座子 (散在重复I型转座子) 和 串联重复序列(Satellite)。植物着丝粒是基因组中进化最剧烈、结构最复杂的区域,在物种形成和分化过程中发挥重要作用。大多数植物着丝粒结构复杂,主要是由高度重复的卫星DNA (satellite)以及中间穿插的逆转座子序列组成,其中着丝粒satellite序列单元长度主要集中在150 – 180 bp之间,例如水稻CentO和玉米CentC序列。
串联重复
TD: Tandem Duplication TR: Tandem Repeat 都叫串联重复。串联重复序列是指以相对恒定的短序列为重复单位,首尾相接, 串联连接形成的重复序列,又称卫星DNA (satellite DNA)。在人类基因组中,串联重复序列约占10%,主要分布在非编码区,少数位于编码区。编码区中的串联重复序列与功能有关,非编码区串联重复序列多分布在间隔DNA或内含子,重复单位短的仅2bp长的可达数十碱基对,重复次数少则数次,多则几百次。重复序列的重复次数不同,是形成DNA长度多态性的基础。按重复序列的长度和序列特征分成大卫星DNA、小卫星DNA和微卫星DNA等主要类型。
微卫星在动物里面一般称为短串联重复序列(short tandem repeats, STRs),一般在植物里面称为(Simple Sequence Repeats,SSRs)。SSR在植物中经常被用作遗传标记使用。
散在重复 TE 转座子
转座子 transposable elements (TEs) 是一类能够在基因组上移动其位置的DNA序列。
可细分为两类:I型转座子: retrotransposons(逆转座子);RNA transposons;RNA转座子 以DNA为模板,转录为mRNA,mRNA再反转录为cDNA,在整合酶的作用下插入基因组的新位置。 “复制-粘贴” (逆转录是指以RNA为模板合成与其互补的cDNA的过程)
II型转座子:DNA transposons;DNA转座子 由DNA介导 “剪切-粘贴”
转座子按照能否自主移动,都分为自主型和非自主型。自主型是,TEs只要自身就能在基因组上跳跃,非自主型TE需要另外一个TE带着它才能跳跃。非自主型不能独立跳跃,是因为缺少转座酶(对于II类)或逆转录酶(对于I类)。Ac/Ds系统中,Ac是自主型,Ds是非自主型。没有Ac,Ds自己不能发挥作用。
自主型元件通常含有 gag 和pol 两个基因,前者负责编码衣壳蛋白,后者负责编码多功能蛋白 ,其具有蛋白酶、反转录酶、RNase H以及整合酶的活性功能域;非自主型元件缺少完整或大部分转座所需蛋白的编码基因,其对应于自主元件的区域由不相关的序列或宿主序列组成。
TE具有扰乱被介入基因组成结构的潜在可能性,并被认为是导致生物基因发生渐变(有时候是突变),并最终促使生物进化的根本原因。如染色体的 插入insertion ,删除deletion,以及 易位transposition 是通过TEs 来改变的。
宿主尽可能降低转座发生对其基因组稳定性造成的威胁,转座元件也可以在转录水平 (transcriptional level) 或转录后水平上 (post-transcriptional level) 参与邻近基因的表达调控,并能以 “顺式” (in cis) 或 “反式” (in trans) 方式调控内源基因表达。
TE对基因组的影响(部分):
* 插入功能基因,使该基因失活,这便是假基因的来源
* 插入编码区时,它们通常会引起移码突变或改变剪切模式,从而改变(大多数情况下是破坏)蛋白质功能
* 插入或靠近调控区时,可以改变基因表达(如转录时序或转录量),或充当增强子或其它调控因子的角色。
* 许多TE含有启动子来驱动自己的转座酶转录。这些启动子可引起连锁基因的异常表达,从而导致疾病或突变表型。编码反转录酶的 TE 有时不仅能将它们自己 RNA 的 DNA 拷贝(cDNA)插入到宿主基因组内,还能将其它基因的 RNA 转录物也插入到宿主基因组内,这些 RNA 的 cDNA 拷贝(反转录序列,retrosequence,retrocopy)类似于基因组内其它位置的祖先基因的外显子,只是它们没有调控区和内含子。大部分反转录序列是已加工假基因,并不产生有功能的基因产物。
* 通过转录和不等交换,TE 数量可增加或减少,从而改变基因组大小。
* 会增加宿主基因的突变率。
转座元件对插入位点基因的影响主要表现为:基因自身功能突变以及新功能化、基因结构变异、核酸序列和表观遗传修饰的重新编排等,这些影响最终可能造成表型变异。
假基因(Pseudogene)
假基因是一类本来正常,但后来因为突变或转座,而可能失去了原来功能的基因,常用 ψ 表示。它在序列结构上与功能基因非常相似,但已丧失了正常的蛋白质编码功能。一般情况都不被转录。
在环境压力下,某些假基因可以重新被激活,而某些假基因则有着调控基因表达的作用。可总结为“假作真时真亦假”。它们与原来的基因可能很相似,但又可以有很大差异。
假基因主要分为(重复假基因)duplicated pseudogene 和 (转座假基因或加工假基因)processed pseudogene or retropseudogene。
重复假基因:DNA复制 或 染色体不均等交换 过程中基因编码区或调控区发生突变(如碱基替换、插入、缺失),导致复制后的基因丧失正常功能而成为假基因。
转座子假基因:mRNA反转录成cDNA插入整合到基因组上,由于插入位点不合适或序列发生突变而失去正常功能,这样形成的假基因称为加工假基因或转座假基因。
假基因的数量与选择压力和转座子的活性有关,选择压力越大,转座子活性高,反转录成的转座假基因越多。所以一般情况下,假基因的Ka/Ks比较高。假基因的功能主要是在RNA水平上,类似于ncRNA。
逆转座子
目前主要存在两种类型RNA转座子(逆转座子):
LTR (Long Terminal Repeat retrotransposons) 长末端重复反转录转座子 双末端都是长重复序列
non-LTR TEs 双末端缺乏重复序列 LINE和SINE
LINE 元件的编码区由 ORF1 和ORF2 共同构成,ORF1 与 gag基因编码的产物类似,ORF2 则含有内切酶(EN)和反转录酶(RT)的编码基因。LINE 和 SINE 均以简单的序列重复结尾,通常有poly(A)。对所有已知 SINE 分析发现,它们的近 5 ‘端都含有一个潜在的 RNA pol III 启动子,而除了 3' 端的序列与 LINE 同源外,其余部分的特征还不清楚,暗示SINE 在基因组中作为非自主元件,可能借助LINE 的自主转座机制进行自我复制。LINE 在植物中的比例较低,而 SINE 则以高拷贝形式存在。
以人类转座子为例:人体大约有40%的DNA和逆转录病毒有关。其中7.7%的DNA和逆转录病毒的DNA非常的相似,我们称之为内源逆转录病毒(endogenous retrovirus,ERV)。逆转录病毒的DNA结构可以用下面这张图表示:
病毒两端有两条相同的序列,称为LTR(long terminal repeat)。LTR没有编码任何蛋白,主要起到调控的作用。中间是三段基因:gag,pol和env。gag编码了衣壳蛋白等结构蛋白,pol编码了逆转录酶,整合酶,蛋白酶这些病毒复制需要的酶,env编码了病毒包膜的糖蛋白。所有的逆转录病毒都有这三个基因。人类的内源逆转录病毒(HERV)也有这三段基因和两个LTR,也可以像逆转录病毒那样,把自己逆转录再整合到别的地方,就像复制-粘贴一样。人们认为HERV是很久以前逆转录病毒偶然感染了人类的胚胎,结果永久性的成为人的基因组的一部分。经过这么多年的扩增达到了7.7%的规模。但人类的ERV不知道什么原因已经变异失去了制造新的病毒颗粒的能力。
还有0.6%的片段含有LTR和gag,pol,但不含有env。由于不含有env,无法获得包膜,也就无法形成病毒颗粒。这些片段被称为逆转录转座子(retrotransposon)。人们猜测这类转座子是逆转录病毒的来源,逆转录转座子通过偶然的机会获得了env的基因,从而产生了最早的逆转录病毒。
剩下的是不含LTR的和逆转录有关的DNA片段。其中16.9%的被称为LINE的DNA也有编码和逆转录酶,整合酶相似活性的酶。人们认为LINE也可以像ERV,逆转录转座子那样逆转录,整合到别的地方,它们也占据了最大的比例。还有10.6%的没有编码逆转录酶,称为SINE。人们猜测SINE是在LINE的辅助下进行逆转录和整合的。但不管怎么说,SINE也占据了相当大的一部分。这些不含有LTR的片段总共占据了33.9%的人类基因组。
总之,人们猜测ERV是远古逆转录病毒感染人类胚胎留下来的,而逆转录转座子可能是逆转录病毒的起源。
LTR-RTs 的结构特征
典型的 LTR-RTs 的结构有 5 个特征,各特征意义如下:
(1) TSD:目标重复位点,是 4~6bp 的短的重复序列,在 5’LTR and 3’LTR 两侧,是LTR转座子插入的信号。
大多数TEs(全部LTR,TIR;某些LINE, SINE)的转座过程在整合位点的宿主DNA中产生目标位点复制(TSD),因此识别与TE相邻的TSD可以确定转座。
(2) 5’LTR and 3’LTR : LTR 两端序列完全一致的末端重复, TG..CA box,完整的 LTR 均含有此结构。LTR 长度一般在 85~5000bp。
(3) PBS(primer binding site) 引物结合位点: 在 5’LTR 的末端,可与一些 tRNA 3’ 末端互补结合的一段 18bp 左右的序列,是反转录的第一步。
(4) 蛋白区域: 长度通常在 1000~15000bp。 GAG:衣壳蛋白。 POL:包含 4 种酶,有AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆转录酶)、RH(核糖核酸酶),LTR 能否自主转座的关键原因。 ENV:包膜蛋白,后生动物中存在。
(5) PPT:3’LTR 的起始位置短的富含嘌呤的序列,11~15bp。
LTR 类反转录转座子通过一个复杂的过程在细胞内完成复制。 以 Ty1-Copia 为例, GAG 和 pol 所编码的蛋白作为一个多蛋白合成, 其中由 pol 编码的天冬氨酸蛋白酶(AP) 将这个多蛋白切割成单个的功能蛋白, 转座子 mRNA上的 PBS(引物结合位点) 与宿主细胞 RNA(通常为 tRNA 的 3’末端) 互补,mRNA 与合成的 tRNA 的体内杂交为转座提供一个短的双链 RNA 区域, 该区域tRNA 的 3’末端具有自由羟基, 反转录酶到达转座子 mRNA 的 5’末端, 利用 tRNA的 3’末端为引物, 合成 DNA 互补链, 完成 DNA 第 1 条链的合成, 然后通过 RNA酶 H 消化 RNA:DNA 杂交链中的 RNA 链, 释放单链 DNA, 再以 PPT(多嘌呤位点) 为引物合成 DNA 第 2 条链, 形成双链 DNA, 双链 DNA 一旦形成, 整合酶就将 DNA 整合到染色体的新位置上, 完成转座的过程。 这些蛋白通过协同合作共同完成将转座子的子拷贝插入到宿主基因组中的任务。
Kumar A, Bennetzen JL 1999. Plant Retrotransposons [J]. Annu Rev Genet, 33:479-532.
Analysis of the chromatin binding affinity of retrotransposases reveals novel roles in diploid and tetraploid cotton
在植物基因组中,I类转座因子,LTR-RT (LTR retrotransposons) 是基因组扩张的主要原因。LTR 在生物体内历经成千上万年的进化,发展出许多存在形式。通常将包含两个相对完整的 LTRs 和已识别的 PPT 和 PBS 位点的元素,且两侧有 TSD (target site duplications) 的 LTR 定义为 Intact LTR(A)。由于 LTR-RTs 两端序列非常相似,LTR-RTs 内可发生重组,导致内部元件消失,形成 solo LTR(C),而 solo LTR 的数量表明了一个基因组中 LTR 去除的速率。此外 LTR 发生 缺失、易位 可形成 truncated 截断 的 LTR(B)。LTR 也会经常插入到其他 LTR 内部区域,形成 嵌套 LTR(D)。
因存在这些突变机制,实际上完整的 LTR-RTs (A)只占基因组中所有 LTR-RT 相关序列的一小部分,完整的 LTR 长度在85~5000 bp之间。 Intact LTR 主要归为两大类: Gypsy和Copia。如果LTR中间的序列不包含开放阅读框(ORF), 那么所属的LTR-RT就无法独立的转座。
DNA转座子
DNA转座子可以分为4类:1)DDE转座酶介导的剪切粘贴转座:如Tc1/Mariner,P元件;2)酪氨酸转座酶转座子,即Cryptons;3)Helitron;4)Mavericks(也即,Polinton)
DNA转座子其序列两端是两段直接重复序列(direct repeat, dR),与它们接壤的是末端反向重复序列(terminal inverted repeat,TIR)和靶位点重复序列(target site duplication,TSD),其中非自主元件也被看作是自主型转座子发生内在编码序列缺失的形式。微型反向重复转座元件 (miniatureinverted-repeat transposable element,MITE)是非自主元件中拷贝数最多的转座子,尽管它们不能自主转座,但在动、植物物种均以高拷贝形式存在。非自主元件的另一个重要特征是它们能够携带宿主的基因片段发生转座。
前两类(DDE和Cryptons)的转座比较简单,结构构成只有一个开放阅读框,编码重组酶,两端含有短末端倒置重复序列(TIRs)。Cryptons在真核生物中分布较少;DDE类转座子是所有TE中分布最广,种类最多的一类转座元件,其至少包含了17个超家族。甚至可以说,DDE是地球上最古老、最丰富的的基因。
Helitrons 转座子是近年来发现的一种新型 DNA 转座子,在黑腹果蝇、线虫、拟南芥等物种中广泛存在。它的结构很简单,没有短末端倒置重复序列(TIRs)等经典DNA转座子结构,不能自主移动,没有“剪切粘贴”。
转座子在物种间分布的差异
TE在物种中的含量和物种基因组复杂程度无关,有些复杂的多细胞生物(如针叶树、蝾螈等)可以含有较多的TE,但是有些单细胞生物(比如阴道毛滴虫、Anncaliia algerae等)也会含有较多的TE。
有些研究认为,物种中TE的含量和其物种的有效群体数量(在一个理想群体中,在随机遗传漂变影响下,能够产生相同的等位基因分布或者等量的近亲交配的个体数量)相关。有效群体数量越大,自然选择效能越高,因而对TE的选择压力也越大。比如,在有效群体数量很大的果蝇中,TE含量较低,而在有效群体数量较小的脊椎动物中,TE插入受到选择压力较小,可以很快的在群体中固定下来。不过,有些有效群体数量相近的物种, 其TE含量有时也会有很大差异。所以有效群体数量的差异并不足解释TE的分布差异。
(小的群体中,由于不同基因型个体生育的子代个体数有所变动而导致基因频率的随机波动称为遗传漂变)
而且各类不同的TE分布差异也很大,比如LTR在开花植物中分布很多;non-LTR在哺乳动物中分布很多;DNA转座子在斑马鱼和线虫中分布很多。有效群体数量的差异也不足以解释这一现象。
虽然水稻、玉米和拟南芥中的DNA 甲基化整体变化趋势相似,但它们之间仍然存在差异,这种差异与转座元件的组成密切相关。转座元件的扩增可能是造成 DNA 甲基化修饰变化的潜在原因。在不同植物中,转座元件差异所带来的基因组结构变异,可能是塑造植物表观基因(epigenomics)的重要原因。
TE含量和基因组大小
除了极少数已知真核生物外(疟原虫、弓形虫、肠脑炎微孢子虫、泰勒原虫),所有的真核生物物种中都含有TE。巧合的是,上述几种例外都是单细胞生物,而且后两者是真核生物中基因组最小的。转座元件所占比例与基因组大小存在着一定的正相关性。
在一些较大的基因组中,比如蝾螈基因组,其大小有120Gb。这么大的基因组主要是LTR转座元件造成的。植物基因组通常也可以通过转座元件迅速增大。其中涉及的转座元件可能涵盖较多的TE家族,但是个别TE的作用可能会格外显著。比如棕水螅在3600万年前从绿水螅中分化出来,随后其基因组大小从300Mb迅速增大到了1Gb,造成这一现象的原因就是CR1 non-LTR转座子。
非必要DNA的删除是另一个决定基因组大小和TE含量的因素。除了转座元件外,蝾螈形成的大基因组和其较低的DNA删除率也有很直接的关系。在拟南芥和水稻中,异位重组造成的基因组高删除率抵消了转座造成的基因组扩大,维持了拟南芥和水稻的基因组大小稳定。在鸟类和哺乳动物中,也有同样的现象。
TE多样性
TE在物种之间的分布,除了丰度不同外,种类分布也存在很大差异。宿主和TE之间的竞争作用会导致TE家族结构的形成,扩大TE的亚家族种类(比如L1)。其他一些转座元件,比如Helitrons可以通过获取宿主DNA的片段形成新的亚家族。
不管在什么尺度来衡量,真核生物的TE分布都具有很高的多样性。比如在斑马鱼中,其TE丰度和多样性在脊椎模式生物中都是最高的,含有近2000个TE家族,涵盖了所有的亚纲和几乎所有的超家族。其中,DNA转座子特别丰富,含有1000个不同时期形成的DNA转座子家族,这在鱼类中很不寻常。
但是这并不是说基因组越大,其TE多样性越高。比如云杉是一类裸子植物,其基因组大小20Gb,其中的转座子主要集中在LTR超家族中,含有大量的拷贝数。而且其中的大多数转座子发生在500万-6000万年前。在水稻和玉米中,所有的转座子都晚于500万年。这说明尽管TE在云杉中的多样性很低,但是很多已经存在基因组中的TE会被缓慢的移除掉。与云杉相反,在很多开花植物中,尽管其基因组很小,但是其TE的多样性却很高。甚至在所有陆生植物中,基因组大小和TE多样性还表现出负相关关系。
TE家族的划分一般按照 80-80-80 方法,即如果两个TE插入的序列长度都超过80bp,有超过80%的序列的相似性超过80%,那么我们可以认为这两个TE是来自同一个家族。因为序列相似性比较高,该家族的TE可以用一个共同的序列来表示该家族共同祖先的序列。特别是当该家族的TE在较短时间内经历了爆发,并且这些TE只经历了中性选择的时候。但是,也有些时候根据 80-80-80 原则定义的家族和其共同序列并不能够反映各个TE间真实的进化关系。
转座元件的进化起源
TE的进化关系和物种进化关系并不一致,TE可以进行物种之间的水平转移,甚至是在脊椎动物和无脊椎动物之间长距离的转移。有些TE在进化的过程中可能丢失或灭绝了。所以,研究转座元件之间的进化关系非常困难。
在过去数十年的研究中,人们发现,所有主要转座元件的亚纲subclass在真核生物进化分支中均有分布。对TE核心蛋白的分析也显示这些亚纲在真核生物进化早期就已经存在。同时TE的进化是高度模块化的,可以反复获得或者丢失某些蛋白模块。
尽管各种不同元件的结构非常多样,但是在复制和转座过程中涉及的蛋白种类却很有限,大概可以分为5类:逆转录酶RT,整合酶IN,酪氨酸重组酶YR,HUH/Rep,DNA合成酶pPolB
转座子在基因组上的分布并不随机
对于不同类型的转座子,基因组可以看成是其生态系统,转座子通过与基因组环境以及和其他转座子之间复杂的相互作用,实现转座子自身的扩增。这种相互作用类似于生态学中的寄生、共生、竞争等关系。因而,转座子在基因组上的分布也并非完全随机分布。
自然选择和遗传漂变对转座子的分布有重要影响。一般情况下,插入事件对宿主多是有害的,自然选择会将其从群体中移除。某些对宿主适应性影响不大的转座子在遗传漂变的作用下,可能会在群体中固定下来。这也解释了为什么基因组中有些区域富集转座子,有些区域则很少含有转座子。
比如,在人类基因组中,逆转座子LINE1
(L1)是能够发生在人类基因的外显子中的,但是人类基因外显子中却很少发现L1。究其原因,还是外显子的转座插入给宿主带来了较大的危害,自然选择倾向于将其淘汰。研究还发现,转座子在不同哺乳动物进化分支上的分布是相对保守的,即不同物种的基因组中,转座子的分布比较相似。
很多TE插入表现出很强的位点偏倚,倾向于选择那些不会影响细胞功能的基因组位点进行插入。转座子的插入还会受到自然选择压力,如果插入对宿主细胞造成严重伤害,则这种转座插入不利于转座子本身。更有一些极端的转座子只能在特定的基因组序列中插入,以便在最大可能减少对宿主的伤害。
不同类型的转座子在基因组的位置具有一定的偏好,如Copia和Gypsy富集在基因组着丝粒区域,MITEs 偏爱插入到基因区间。一些转座子可以介导miRNA形成,例如一些MITEs转座子的回文结构,具有转录成miRNA的可能性
基因间的“垃圾”序列为TE的插入和长期存在提供了一个安全的场所。比如在酵母菌中,LTR转座子的插入会避开宿主基因组的基因序列。Copia和Gypsy通过趋同进化,能够选择在Pol-III转录基因序列的上游插入,避免干扰宿主基因表达。
很多TE的插入靶标位于基因5'端的上游,这种靶标选择倾向会给TE自身带来益处。首先在该区域的插入能够避免插入对编码蛋白的干扰,同时这些区域的染色体多以染色质形态存在,有利于TE自身的表达和转座。很多物种DNA转座子都采用了这种策略来实现自身利益最大化,比如果蝇中的P元件、玉米中的MuDR,大米中的mPing和拟南芥中的VANDAL21等。
在拟南芥和其他一些植物中,类Copia的逆转座子也进化出了一些机制,实现在宿主非必需基因中插入。这些机制主要是通过识别核小体组蛋白H2A.Z来实现的,该组蛋白不存在于必需基因组中,只存在于和适应环境压力相关的非必需基因中。这也提示,TE非随机插入带来的基因组突变可能也有利于宿主适应外界环境的变化。
还有一种TE的插入策略比较特殊,它们倾向于选择其他的TE序列作为自己的插入靶点。
这一系列的证据都在说明,转座子基因组上的分布受到转座子自身特性和宿主基因组选择压力的共同作用,从而使其在基因组上的分布并非随机。
影响TE长期存在的因素
所有的新TE插入都会受到来自宿主水平的自然选择。特别是当TE对宿主产生有害作用时,比如:干扰到宿主基因的表达;TE表达产物对宿主细胞有毒副作用;同家族TE导致的宿主染色体异位重组。
TE导致的异位重组是限制TE增殖的主要因素。减数分裂过程中未对齐的同源染色体之间发生的不平等交叉引起的复制称为异位重组。
序列较长的TE更容易造成异位重组,因而其受到的选择压力也应该更大。实验观测也确实如此,比如LTR和LINE等较长的转座子常常会聚集在低重组区(中心粒 周围的异染色质区,中心粒大部分植物没有),在这些区域内,TE受到的选择压力会相对较小。与之相反,一些较短的转座子,比如SINE和MITE,通常富集在基因较多的染色体区域,这些区域通常重组率也比较高。
第二个导致TE受到选择的因素是其对基因表达的影响。可自主移动的转座子其自身通常会含有启动子和调节序列,如果其插入到基因序列中,那么对宿主基因的表达会产生较大影响。比如,在人类基因组中,L1转座子很少出现在基因序列中,比较老的LTR插入也很少出现在基因序列两侧5kb的的范围内。这都证明了携带启动子的LTR在人类基因组中受到很强的自然选择压力。即便有些插入出现在基因中,也常常是内含子中,而且是内含子的中段部分,以尽量避免对外显子的影响。
当然,还要说明一点,TE并不一定只给宿主带来坏处,还有可能给宿主带来适应优势,比如果蝇中Doc(non-LTR)的插入导致了Cyp6g1基因表达增加,该基因提高了宿主对DDT等杀虫剂的抗药性。
转座子造成突变和基因多态
转座子在物种基因组中占有较大的比例。在人类基因组中,转座子占44%;在玉米中,其基因组有60%-70%是由LTR逆转座子组成的,有些还是物种独有的。
黑腹果蝇中的一些转座子在拟果蝇的同源位点却不存在,说明这些转座是新发的。可见很多转座子还很活跃,转座过程是导致基因组突变的一个重要原因。在实验室中,有超过一半的黑腹果蝇表型突变是由于各种不同的转座子转座插入导致的。同样的,在实验室小鼠群体中,也有10%-15%的表型突变是由于LTR转座子导致的。而且,这一估计可能还是比较保守的,研究显示,当物种在较大生存压力的条件下,转座的发生频率会更高。因而,对于野外自然种群,转座导致的突变可能比实验室种群更为普遍。
在群体中固定下来的转座子,随着时间的流逝,这些转座子会被各种点突变侵蚀,并且最终导致转座子失去转座能力。比如,在人类单倍体基因组中,有~500000个L1拷贝,但是其中的99.9%是在群体中固定下来的,并且由于各种突变的累积,这些L1转座子不再具有转座活性。犹如一座死火山存在于人类的基因组中。
研究估计,每个人还含有100个具有活性的L1拷贝,这些L1拷贝还很年轻,在人群中还没有进化固定下来。所以,人类的参考基因组并不能表示其含有人类所有的转座子。任何两个人类单倍体基因组大概都有1000个不同的转座插入,这些转座插入主要是L1转座子和Alu转座子。在其他物种,比如玉米,其各个基因组的转座差异可能更大。
另外,转座子的水平转移也是非常普遍的,几乎涉及到每一个物种。目前这种水平转移的机制还尚待进一步研究。
转座子影响基因重排
转座子会导致基因组的增大, 这在一定程度上抵消了基因组的删除变异导致的基因组变小。两个作用共同维持了真核生物基因组大小的相对稳定。但是转座子的插入并非精确,转座过程又是会影响到周边的宿主序列,从而导致宿主序列的重复和重排,而且可能会影响到功能基因或者其调控序列。比如,有研究发现在大米中,MULE的DNA转座子导致了1000个基因片段的重排。
除了上述转座直接带来的基因重排外,转座子还会给基因组带来很多散布的重复序列。即便是转座子本身失去转座能力,其带来的重复序列也是诱导基因组结构变异的因素之一。比如基因重组,重复序列使得非同一位置的交叉互换成为可能,因而导致较大规模的序列缺失、序列重复和序列倒位。
转座子可能形成特性的染色体结构。双翅目昆虫在进化过程中端粒酶丢失,但是在果蝇中,人们发现类似LINE的逆转座子起到了类似端粒酶的作用,形成并维持了果蝇染色体的端粒。事实上,很多人也认为端粒酶中的逆转录酶起源于逆转录元件的一个古老分支。
转座表达和转座抑制
为了在进化中得到持续,转座子必须在表达和抑制中寻找到平衡。转座子的过度表达可能会给宿主基因组带来过多的害处,从而也不利于转座子自身的维持。这也是为什么很多转座相关的酶并不处于其最活跃状态,也解释了为什么很多转座子含有自身调控机制。
此外,宿主本身也还有很多调控转座的机制,比如小RNA的形成,染色质的形成,DNA修饰,以及一些抑制转座的因子。但是宿主抑制转座的机制并不能长期存在,还要考虑到细胞本身基因表达的需要,比如在胚胎发育早期,宿主要避免过度的转座抑制,否则会影响到自身发育。再比如,在生殖系细胞形成过程中,基因组大量DNA去甲基化(去除“遗传印记”),这对转座子是一个千载难逢的好机会,去甲基化的DNA有利于转座的发生。
针对不同的组织和生命阶段,转座对宿主的影响也存在很大差异。在转座子看来,应该尽量避免在体细胞中表达,在体细胞中表达不能传递给下一代,对转座子自身的维持和进化无益。一些研究也确实如此,证明了转座更加倾向于在生殖系细胞中发生。
转座子在体细胞和生殖系细胞中导致的突变
和其他很多物种类似,在人类中,转座表达和转座抑制仍然是在一个动态竞争过程。比如L1逆转座子依赖于其编码的逆转座蛋白。这些逆转座在人类生殖系细胞中的插入是导致遗传病的原因之一。研究显示,有超过120个独立转座插入是和人类疾病相关的。对于L1转座子,其在人类生殖系新发生的概率是每95个新生儿中有1个,对于Alu转座子(Alu元件是人类基因组中丰度最高的转座元件,非LTR SINEs类),其发生概率是每21个新生儿中有1个。
既往对转座子的研究多集中于生殖系细胞中,因为体细胞转座对进化意义不大。但是实际上,转座子在体细胞中仍然是比较活跃的。在人类中,L1的表达和转座在不同的体细胞中都有发生,包括早期胚胎细胞和某些干细胞。在哺乳动物大脑中,一些转座子也有发生。但是研究体细胞转座最大的挑战来自如何进行单细胞插入位点的识别。
体细胞中的转座活动和人类的肿瘤有关,某些肿瘤细胞可能会形成数百个新的转座插入。新转座的插入导致了肿瘤抑制因子的失活,从而促进了肿瘤的发生。
转座带来的其他危害
转座子的直接危害是其导致的DNA断裂和插入。但是它并不是唯一(甚至不是最主要)危害宿主的方式。被激活的转座子可以通过多种方式危害宿主。比如,转座子的去抑制以及其发生的转录都可能会干扰到宿主自身mRNA的正常功能。再比如,转座子编码的蛋白(内切酶)会导致宿主DNA的断裂,影响基因组稳定。此外,RNA转录的累积和转座子带来的外源DNA序列可能激发机体固有免疫反应,从而导致自身免疫疾病和无菌性炎症。
转座子完成转录之后,要进行翻译,以及逆转录(对于逆转座子),该过程的发生会导致细胞质DNA的形成,以及DNA:RNA
杂合序列的存在,这可能会诱导细胞炎症反应。
虽然并不是所有的转座子都编码蛋白,但是很多转座子的转座过程会翻译出蛋白,比如Gag
蛋白,Pol
蛋白,Env
蛋白。其中Env
蛋白具有细胞毒性,和神经元退行性疾病、肌萎缩性侧索硬化症等有关。
转座导致的编码和非编码RNA
转座插入给宿主带来的并非只是坏处,转座插入可能会给一些编码基因和非编码RNA的出现提供原始材料,并且发挥重要的细胞功能。这一过程也称之为转座子的驯化domestication
。
转座子驯化对细胞保守功能的形成具有重要作用。某些转座子编码的基因可能会被宿主驯化,使转座子失去独立转座的能力,成为宿主基因组的一部分。比如在脊椎动物免疫系统中,Rag1
和Rag2
两个基因都是来源于5亿年前某个DNA转座子,其被宿主驯化之后,对宿主V(D)J体细胞重组有重要作用,从而促进了免疫系统的功能。
LTR逆转座子的gag
基因和env
基因以及内源性逆转录病毒(ERVs)也经历了宿主的驯化,对胎盘发育、外源逆转录病毒免疫、大脑发育等有重要作用。
多次独立对env
基因的驯化,形成了syncytins
基因,从而促进了胎盘中细胞的融合和合胞体兹养层的形成。syncytins
基因几乎在所有的哺乳动物分支中都有发现,可见转座子对生物进化也是有积极意义的。
在四足脊椎动物祖先中,通过对LTR转座子的gag
基因驯化,形成了Arc
基因, 该基因对记忆的形成和突触的可塑性有重要意义,它保留了gag
基因的大部分功能,比如对自身RNA的包装和胞间转运。同样,在果蝇中,也发现类似的基因,其起源是对不同支系LTR逆转座子类似gag
基因的驯化(类似于脊椎动物)。
上述例子都是转座子将自身基因贡献给了宿主基因组,有时,转座子可以作为外显子添加到宿主某些基因中。比如人类中,Alu常常容易被当做外显子而成为某个基因的一部分。
研究显示,L1转座子和人类基因组中成千上万的逆转录基因有关。其中很多逆转录基因仍然具有活性,并发挥着重要的细胞功能。有估计,每6000人中就有1人含有一个新的逆转录基因。
转座子还和很多非编码RNA有关。包含在IncRNA和mRNA中的转座子序列能直接调节其RNA的稳定性等功能。
转座子对顺式调控元件的作用
转座子能够通过影响顺式调控元件来影响基因的表达。比如,通过影响启动子上游的转座子的甲基化水平,能够改变小鼠皮毛的颜色。在油棕榈中,位于一个控制开花基因中的转座子的甲基化水平,最终决定了该株植物是否产含油量高的果实。转座序列含有一个基因调控网中所需的所有要件。
TE水平转移
https://mp.weixin.qq.com/s/XKpEWzT9fIzlx8vUvwgcCg#tocbar-1537coe
研究转座子需要特殊工具
长期以来人们忽略了对转座子的研究,即便现在人们对转座子研究也很具挑战。特别是转座子高度重复性的序列,在分析这些转座子时往往需要特有的一些实验和分析工具。很多序列靶向工具,比如PCR或者CRISPR-Cas9,需要避免转座子导致的重读序列,保证靶向序列的唯一性。
同样的,这种重复序列对基因组比对也颇具挑战。不同物种重读序列比对难度也有所差异。比如在小鼠中,很多转座子是最新发生的,对这些重复序列的比对要比对人的比对困难。 此外,测序读长的增长,特别是三代长读长测序,在一定程度上解决了转座子带来的重复序列的比对。
由于其可复制可移动的特点,TE在基因组中有时非常丰富,在有些物种中占到了80%以上(玉米基因组中有85%的TE)。这经常给编码基因的预测和注释带来困难,因此通常在进行编码基因预测和注释之前需要将TE进行屏蔽。
作为一种插入性致突变因素,转座子对宿主基因组既有积极的一面,也有有害的一面。在人类等大多数物种中(特别是有效群体数量较小的物种),转座子在遗传漂变的作用下,大都在群体中固定下来,其对宿主基因组的影响是近乎中性的。
转座子在基因组中的分布不是随机的。转座的发生是基因变异的重要诱因,同时也会有调控基因表达的作用。
转座子和很多病毒有相似的基因组组成,所以也有假说认为转座子和某些病毒是有共同祖先的,或者病毒起源于转座子。
声明:本篇多为资料整理总结,仅用于自学记录和交流,侵删,谢谢。参考:
wo_monic https://www.jianshu.com/p/9191633017a1
南之绿桑 https://www.jianshu.com/p/6273241b26bc
https://www.jianshu.com/p/8fa4ef437870
https://www.cnblogs.com/pxy7896/p/9882508.html
Bourque, G., Burns, K. H., Gehring, M., Gorbunova, V., Seluanov, A., Hammell, M., ... & Feschotte, C. (2018). Ten things you should know about transposable elements. Genome biology, 19(1), 1-12.
liuhui|刘辉 https://hui-liu.github.io/blog/TE%E5%AF%B9%E5%9F%BA%E5%9B%A0%E7%BB%84%E7%9A%84%E5%BD%B1%E5%93%8D/
AI写代码的DNA 义冠 https://mp.weixin.qq.com/s/0ka37OAHwvBqx1mWWosjVQ
AI写代码的DNA 义冠 https://mp.weixin.qq.com/s/XKpEWzT9fIzlx8vUvwgcCg#tocbar-1537coe
崔勰奎,曹晓风.高等植物转座元件功能研究进展[J].生物化学与生物物理进展,2015,42(11):1033-1046.
硕士论文:LTR类反转录转座子在棉花中的生物学功能研究_林静